年次イベント”CrowdTour”ご登録受付中!TOKYO(5/22開催)ご登録はこちら | OSAKA( 5/21開催)ご登録はこちら

データフローマッピングの概要 

どうすれば社内データが本当に安全だとわかるのでしょうか。

セキュリティチームはこれまで、この問いの答えを得るために保存データをスキャンしていました。限られた社内データストアを定期的にスキャンし、データが常にどこにあるのかを把握していました。

しかし、ほんの数年で状況は根本的に変化しました。アーキテクチャは非常に複雑になり、保存データのアプローチだけではデータを追跡できなくなりました。データの制御を維持するには、移動中のデータも追跡し、データフローマップを活用することが欠かせません。まずデータフローマップを使用し、次に保存データを使用するのが賢明な戦略です。つまり、移動中のデータに基づいて、どのデータストアを優先し、どのデータストアで保存データスキャンを行うかを判断する必要があります。    

データフローマッピングとは?

データフローマッピングとは、データの取得から廃棄までの流れを可視化し、追跡するプロセスを意味します。これは、高度に断片化された複雑かつ動的な環境の中を流れるデータの安全性を保つために効果的な、欠落したパズルのピースです。また、データフローマッピングは、何が起こっているかを俯瞰的に把握するだけでなく、データの脆弱性が潜む場所を明らかにするため、あるいはリスクを軽減して侵害を防ぐ明確な手順を示すためにも役立ちます。

クラウドストライク
2025年版
グローバル脅威
レポート

クラウドストライク
2025年版
グローバル脅威
レポート

必読の年次サイバーセキュリティレポートをご覧ください。

データフローマッピングを行う理由

最近まで、データは限られた数のデータベースに集中的に保存されていて、保存データが定期的にスキャンされていました。これにより、セキュリティチームはデータを追跡し、データが保護されていることを確認できました。

しかし、現代のアーキテクチャでは、データは数百、あるいは数千ものアプリケーションやサードパーティベンダーを通過し、複数のクラウドプロバイダーの間を移動して、シャドーデータベースに出入りします。この動的でペースの速いデータの流れを静的なスナップショットで捉えることは、事実上不可能です。 

すべてのデータソースをスキャンすることは非現実的であり、法外なコストがかかります。単一のデータ転送を追跡するだけでも、ペタバイト規模のデータをコピーして処理しなければならない場合があります。 

さらに重要なのは、保存データのみをスキャンすると、データの移動経路全体、つまりデータが元あった場所、データの移動先、所有者などを見失うことです。問題の根本原因を迅速に特定する必要がある場合、これらの情報はきわめて重要になります。

ここで、データフローマッピングの出番となります。

データフローマッピングの利点

データの流れを自動的にマッピングし、データレイヤーまでドリルダウンできれば、さまざまな点で役立ちます。

データフローマッピングを使用すると、以下のことが可能になります。

  • カバレッジの拡大:データフローマッピングを使用すると、生成AI などを含むすべての外部サービスを自動的に検出し、それらに流入するデータを分析および分類できます。
  • 規制の遵守:機密データが常にどこにあるのかを把握し、それらのデータを適切に保護することは、GDPRやCCPAなどのプライバシー規制やセキュリティ規制を遵守する上で重要です。例えば、PCI DSSでは、クレジットカードのデータを特定の環境に隔離することが義務付けられており、これは保存データだけでなく処理中のデータにも適用されます。保存データをスキャンするだけでは、処理中のデータについてこの規制を遵守することはできません。
  • データスキャンコストの削減:データフローマッピングがあれば、スキャン回数が最小限に抑えられるため、パブリッククラウドのコストを大幅に削減できます。その方法の1つは、セキュリティチームが機密データや高価値データを含むデータストアを特定し、スキャンや分析においてそれらのデータストアを優先できるようにすることです。これにより、価値の低いデータストアのスキャンや分析を回避できます。また、データフローマッピングは、プロセスのすべての段階ですべてのもののスナップショットをとるのではなく、変更が発生した時点で変更箇所をキャプチャすることから、これもコスト削減につながります。 
  • 修復の強化:組織内のデータの流れをリアルタイムで可視化および追跡するデータフローマッピングは、セキュリティポスチャの向上に重要な役割を果たします。これは、潜在的な脆弱性やリスクを発生時に特定し、不正なサービスを発見するのに役立ちます。また、データ漏洩をその場で阻止し、そのようなイベントの影響を軽減するためにも効果的です。 
  • 意思決定の向上:データフローマッピングを使用すると、ビジネスコンテキストを把握し、データが組織内でどのように使用および共有されているかを理解できるため、より多くの情報に基づいてデータ管理に関する意思決定を下すことができます。例えば、収集するデータの種類、データの保存方法と保護方法、データの保持期間を決定できます。

データフローマッピングに関する課題

データフローマッピングについてまず知っておくべきことは、特に手作業で行う場合、その実装は非常に難しいということです。以下のような注意すべき大きな課題がいくつかあります。 

  • アーキテクチャの複雑さ。データの流れをマッピングする際の最大の課題の1つは、現代のアーキテクチャはきわめて複雑で断片化していることです。毎日数百、あるいは数千ものアプリケーションを通過するデータを追跡することはほぼ不可能です。
  • 盲点の存在。管理されていないデータベース、シャドーデータストア、サードパーティのサービスにデータが予期せず流れ込むことはよくあります。まったく知らない場所へ流れるデータをマッピングして保護することは困難です。結果的に得られたフローマップは、一見完全なように見えても、実際は至るところに盲点があります。最悪なのは、そのような盲点こそが、おそらく機密データの保護を最も必要としている場所だということです。
  • 面倒で時間のかかる作業。データフローマップを継続的にモニタリングし、システムの変更や新しいデータ経路の形成に応じて更新する必要があります。

このような課題に独力で取り組むことは、困難で時間がかかるだけでなく、ミスが発生しやすく、過度なストレスもかかります。次のセクションでは、これらの問題の克服に役立つ2つの自動化された方法を紹介します。

2024年版脅威ハンティングレポート

クラウドストライク2024年版脅威ハンティングレポートでは、245を超える現代の攻撃者の最新の戦術を明らかにし、これらの攻撃者がどのように進化し続け、正当なユーザーの振る舞いを模倣しているかを示します。侵害を阻止するためのインサイトをこちらから入手してください。

今すぐダウンロード

自動化されたデータフローマッピング方法

データの流れを自動的にマッピングする方法はいくつかありますが、それぞれの違いを理解することが重要です。

ログ分析

一般的な方法の1つは、ログとメタデータに基づいてデータフローマップを作成することです。サーバー、アプリケーション、ネットワークデバイスなどのさまざまなソースからログデータを収集し、それらを使用して組織内のデータの流れを示すマップを作成します。 

このアプローチは有用な情報をもたらしますが、重大な欠点がいくつかあります。ログデータは通常、範囲が限定されており、データのすべての移動を捕捉できない可能性があります。また、ログからはデータは見えません。つまり、ログから2つのアセットが通信したことは特定できますが、そこで転送されたデータの性質については何もわかりません。そのため、セキュリティチームは知識や経験に基づいてデータの種類を推測するしかなく、さまざまなセキュリティギャップが生じる可能性があります。

例えば、個人を特定できる情報 (PII) のみを含むデータベースのログ分析を実行したときに、そのデータベースとのすべての通信に誤って「PIIデータ転送」のフラグが付けられる可能性があります。ログ分析は、アラート疲れを引き起こすだけでなく、レーダーで見えない、非構造化データや予期しないフィールドなどに隠れている脆弱なPIIを見逃してしまう可能性もあります。

次に、データ自体を直接調べることでこれらの問題を解決するアプローチに目を向けましょう。

ランタイム時のペイロード分析

より包括的な方法は、ランタイムモジュールに組み込まれたペイロード分析に基づいてデータフローマップを作成することです。これは、組織内を流れる実際のデータペイロードをリアルタイムで分析することを意味します。 

このアプローチをとると、すべてのデータフローを捕捉できます。そこにはデータのコンテンツとコンテキストに関する情報も含まれているため、データの動きをより完全かつ正確に把握することが可能です。これは、不完全または誤解を招く可能性のあるログデータに頼らずに、機密データがどこを流れているかを真に理解できる唯一の方法です。

データフローマッピングの利点を最大限に活用するには、パフォーマンスに影響を与えない方法でデータフローマッピングを実装することが重要となります。そのための最良の方法の1つは、eBPFを備えたランタイムモジュールを使用することです。これにより、リソースや障壁が最小限に抑えられます。 

ダナ・ラヴェ(Dana Raveh)は、クラウドストライクのデータおよびクラウドセキュリティを担当する、プロダクトマーケティング・ディレクターです。クラウドストライクに入社する前は、Seemplicity SecurityやFlow Security(クラウドストライクにより買収)などのサイバーセキュリティ新興企業でマーケティングチームを率い、マーケティング担当副社長を務めました。また、Checkmarx社など数多くのグローバル企業で製品管理および製品マーケティングを担当。ユニバーシティ・カレッジ・ロンドンで認知神経科学の博士号を取得しています。