データ難読化とは
データ難読化は、社外秘データや機密データを偽装して不正アクセスから保護するプロセスです。データ難読化戦術には、マスキング、暗号化、トークン化、データ削減などがあります。データ難読化は、支払い情報、顧客データ、健康記録などの機密データを保護するためによく使用されます。
データの難読化手法
データ難読化手法の中でもよく使用されるのがデータマスキング、暗号化、トークン化の3つです。各手法に、大きな被害をもたらすマルウェアから保護するうえでそれぞれの強みがあります。データ難読化手法の理解を深めると、機密データを保護できるようになるとともに、自分のデータが難読化されるケースについて理解しておくことができます。
データマスキング
データマスキング(データ匿名化)は、ログに記録されたメッセージから暗号化キー、個人情報、認証トークン、認証情報などの機密データを非表示にするデータ難読化手法です。データマスキングは、データの値を変更するとともに、マスキングしたデータに元のデータと同じ形式を使用します。
データマスキングが他のタイプのデータ難読化と大きく異なる点に、マスキングしたデータが難読化後の形式で引き続き使用できることと、いったんデータをマスキングしたら元の値を復元できないことの2つがあります。
データマスキングには、スクランブリング、置換、シャッフリング、日付エージング、分散、マスキングアウト、無価値化など数多くの形態があります。また、マスキング手法はデータ型と目的に応じて異なる方法で実行できます。静的データマスキングは一般に本番データベースのコピー上で機能するのに対して、動的データマスキングは同じデータベースに元のデータとマスキングされたコピーという2つのデータセットを維持します。
データの暗号化
データの暗号化は、プレーンテキストを暗号テキストと呼ばれるエンコード情報に変換することでデータを保護します。暗号テキストには適切な暗号化キーで復号化しないとアクセスできません。暗号化の長所はセキュリティとプライバシーが強化されることで、短所はこの手法を利用するには綿密なプランニングとメンテナンスが必要になることです。データ損失防止ソリューションの中には、暗号化を利用できるものもあります。次に、暗号化の主要な2つのタイプについて説明します。
対称暗号化:このタイプの暗号化では、暗号化キーと復号化キーは同じです。この方法は、データの一括暗号化に最も一般的に使用されます。一般的に、実装は非対称暗号化よりも単純で高速ですが、暗号化キーにアクセスできるすべてのユーザーがデータをデコードできるという点で、安全性はやや低くなります。
公開キー暗号化:この暗号化方式は、非対称暗号化とも呼ばれ、公開認証トークンと秘密認証トークンという2つのキーを利用して、データをエンコードまたはデコードします。キーはリンクされていますが、同じではありません。この方法では、共有可能な公開キーと個人用トークンの両方をユーザーが持っていなければデータにアクセスできないため、セキュリティが強化されます。
トークン化
データのトークン化は、機密データの一部を本質的な意味や値がないトークンと呼ばれる別の値に置換するプロセスです。承認されていないユーザーにとっては何の意味も持たないデータです。データのトークン化の長所には、コンプライアンスが容易であること、内部データを維持する責任が軽減されることなどがあります。主な短所はその複雑さです。データのトークン化を利用するには、複雑なITインフラストラクチャが必要になり、サードパーティベンダーのサポートに頼らなければなりません。
データ難読化の利点
- データセキュリティの向上:データを難読化すると、悪意のあるアクターによる機密情報へのアクセスおよび誤用が困難になります。データを不明瞭化することで、組織は侵害を受けた場合でも重要な情報を保護できます。
- 規制当局への罰金のリスクの軽減:データを難読化すると、組織はデータプライバシー規制を遵守して、重い罰金を回避できます。
- データ共有の向上:データを難読化すると、組織は顧客や従業員のプライバシーを損なうことなく第三者とデータを共有できます。
- データストレージコストの削減:データを難読化してデータセットのサイズを小さくすることで、組織はデータの保管と管理にかかるコストを削減できます。
- データ分析の向上:データを難読化すると、他の方法ではアクセスできないような大きなサイズのデータセットからインサイトを得ることができます。これにより、組織はお客様の振る舞いを深く理解し、大規模なデータセットに見られるパターンを検知できるようになります。
データ難読化の課題
データ難読化に課題がないわけではありません。時間とリソースが必要となるため、プランニングが最大の課題となることがよくあります。データマスキングの実装には、そのカスタマイズ性のため多大な労力が必要になることがあります。暗号化では構造化データと非構造化データを難読化できますが、暗号化されたデータをクエリして分析するのは困難です。データ量が増大するのに比例して、トークン化での保護は困難になっていきます。
また、脅威アクターが悪意をもってデータ難読化を利用することもあります。現在のほぼすべてのマルウェアが、難読化を使用して分析を妨害し、検知を逃れようとします。マルウェア分析で最も面倒な作業の1つに、難読化されたコードを取り除くことがあります。攻撃者がデータを暗号化してデータにアクセスできなくすることがあり、このところ見られる脅威の中には侵害したシステムをデータワイプで動作不能のままにするというものがあります。データ難読化の利点はデータプライバシーとデータセキュリティに関して組織に安心感と自信をもたらすことですが、その同じ難読化手法がサイバー攻撃で使用されたときには大きな妨げになります。
データ難読化のベストプラクティス
独自のデータ難読化戦略を実装する場合は通常、機密データを特定する、練習用データで難読化方法をテストする、難読化を構築する、展開する前に関連データで再度テストするという4つのステップからなるプロセスに従います。次に、従うべきベストプラクティスを示します。
- 組織をひとつにまとめる:データセキュリティへの取り組みにステークホルダーを関与させ、賛同を求めます。
- 機密データを特定する:保護する必要があるデータを特定し、その場所、承認されているユーザー、その使用状況をメモします。
- 状況に適したデータ難読化手法を絞り込む:使用可能なデータ難読化のタイプを把握します。難読化の方法に応じてデータの用途にどのような影響が及ぶのかテストします。
- 難読化ルールを定義する:難読化を構築し、テストデータで実際に試してみます。目的起点の方法を選択してください。不可逆的な方法と繰り返し可能な手法を使用します。
- データ難読化手法を確実なものにする:データプライバシー規制、ポリシー、規範など必要なガイドラインと規制要件を確立します。
- エンドツーエンドの難読化プロセスを定義する:データ難読化が間違いなく機能するように、システムと監査手法をモニタリングします。新しいオプションに留意してください。