データポイズニングとは
データポイズニングは、AIまたは機械学習 (ML) モデルが使用するトレーニングデータセットを攻撃者が意図的に侵害し、そのモデルの動作に影響を与えたり操作したりするサイバー攻撃の一種です。
データポイズニングは、次のようないくつかの方法で実行されます。
- トレーニングデータセット内に誤った情報や誤解を招く情報を意図的に挿入する
- 既存のデータセットを変更する
- データセットの一部を削除する
トレーニングフェーズでデータセットを操作することで、攻撃者はバイアスを導入したり、誤った出力を作成したり、脆弱性(バックドアなど)を生じさせたり、モデルの意思決定や予測機能に影響を与えたりすることができます。
データポイズニングは、敵対的AIとして知られるサイバー攻撃のカテゴリに分類されます。敵対的AIまたは敵対的MLは、AI/MLシステムを操作または誤解させることにより、その性能を阻害しようとする活動です。
データポイズニングの症状
ほとんどのAIモデルは絶えず進化しているため、データセットが侵害されたことを検知するのが難しい場合があります。攻撃者は、データに対して、検知されない可能性のある微細な(しかし強力な)変更を加えることがよくあります。これは、攻撃者が内部関係者であり、組織のセキュリティ対策やツール、そのプロセスについて詳細な情報を持っている場合に特に当てはまります。
データポイズニングの潜在的な事例を見つけるには、ほとんどのサイバー犯罪者がこの戦術を使用する理由が、モデルの正確性、精度、パフォーマンスを低下させることであるというのを覚えておくのが最善でしょう。このことを念頭に置いて、データポイズニングの次の警告サインに注意する必要があります。
| 症状 | 質問事項 |
|---|---|
| モデルの劣化 | モデルのパフォーマンスが時間の経過とともに理由なく悪化しましたか? |
| 意図しない出力 | モデルが予期しない動作をし、トレーニングチームが説明できない意図しない結果が生成されますか? |
| フォールスポジティブ/ネガティブの増加 | モデルの正確性が時間の経過とともに理由なく変化しましたか?ユーザーコミュニティは、問題のある決定や誤った決定が急増していることに気づきましたか? |
| 偏った結果 | モデルは特定の方向または調査対象に偏った結果を返しますか(バイアスが導入されている可能性を示唆しています)? |
| 侵害またはその他のセキュリティイベント | 組織は、有効な標的であることを示す可能性がある、または攻撃者がトレーニングデータにアクセスして操作するための経路を作成した可能性がある攻撃またはセキュリティイベントを経験しましたか? |
| 従業員の通常とは異なる活動 | 従業員は、トレーニングデータの複雑さや、それを保護するために採用されているセキュリティ対策を理解することに尋常でない関心を示していますか? |
データポイズニングの種類
データポイズニング攻撃は、通常、攻撃の意図する結果に基づいて分類されます。データポイズニングの最も一般的な2つの種類は次のとおりです。
- 標的型データポイズニング攻撃:標的型攻撃は、攻撃者が特定の状況に関してモデルの振る舞いを操作しようとしているときに発生します。例えば、サイバー犯罪者は、将来の攻撃で使用する特定のファイルを誤認したり、特定のユーザーからの不審なアクティビティを無視したりするようにサイバーセキュリティツールをトレーニングする場合があります。標的型攻撃は深刻で広範囲にわたる結果につながる可能性がありますが、AIモデルの全体的なパフォーマンスを低下させることはありません。
- 非標的型データポイズニング攻撃:非標的型攻撃は、サイバー犯罪者がデータセットを操作してモデルの全体的なパフォーマンスに悪影響を与える攻撃です。例えば、攻撃者が誤ったデータを組み込むと、モデルの正確性が低下し、予測機能や意思決定機能に悪影響を与える可能性があります。
Expert Tip
内部アクターと外部アクターデータポイズニング攻撃を検知し、防止するためのもう一つの重要な考慮事項は、攻撃者が標的との関連でどのような存在であるかということです。多くの場合、データポイズニング攻撃は、内部アクター、つまりモデルや多くの場合、組織のサイバーセキュリティプロセスとプロトコルに関する知識を持つ人物によって実行されます。これは、インサイダー脅威、またはホワイトボックス攻撃として知られています。一方、ブラックボックス攻撃は、攻撃対象のモデルに関する内部情報を持たない攻撃者によって実行されます。一般的に、ホワイトボックス攻撃は成功する確率が高く、より大きな被害をもたらす傾向があり、インサイダーの脅威から組織を保護することの重要性を明確に示しています。
データポイズニング攻撃の例
データポイズニング攻撃の大まかな種類がわかったところで、サイバー犯罪者が使用する具体的な戦術と手法をいくつか見てみましょう。
バックドアポイズニング
バックドアポイズニングとは、攻撃者のアクセスポイント、つまり「バックドア」として機能する脆弱性を組み込むことを意図して、トレーニングセットにデータを挿入することです。その後、攻撃者はこのポイントを使用して、モデルのパフォーマンスと出力を操作できます。バックドアポイズニングは、攻撃者の具体的な目的に応じて、標的型攻撃または非標的型攻撃のいずれかになります。
可用性攻撃
可用性攻撃は、データを汚染することにより、システムまたはサービスの可用性を混乱させようとするサイバー攻撃の一種です。攻撃者は、データポイズニングを使用してデータを操作し、システムがフォールスポジティブ/ネガティブを生成したり、リクエストの効率的な処理に失敗したり、さらには完全にクラッシュしたりするようにして、標的のシステムのパフォーマンスや機能を低下させる可能性があります。その結果、アプリケーションまたはシステムは、対象ユーザーが使用できなくなったり、信頼性が低下したりします。
モデル反転攻撃
モデル反転攻撃は、モデルの応答(出力)を使用して、データセットを再作成したり、データセットに関する仮定(入力)を生成したりします。このタイプの攻撃では、攻撃者はモデルの出力にアクセスする必要があるため、最も一般的には従業員またはその他の承認されたシステムユーザーです。
ステルス攻撃
ステルス攻撃は、攻撃者がデータセットを徐々に編集したり、侵害する情報を挿入したりして検知を回避する、特に巧妙な形式のデータポイズニングです。時間の経過とともに、このアクティビティの累積的な影響により、モデル内にバイアスが発生し、モデル全体の精度に影響を与える可能性があります。ステルス攻撃は「レーダーをかいくぐって」行われるため、問題が発見された後でも、トレーニングデータセットをさかのぼって問題を追跡するのが難しい場合があります。
AIへの影響
組織が新しい従来型ツールや生成AIツールを開発して実装する際には、これらのモデルが脅威アクターにとって新たな、潜在的に価値のある攻撃対象領域となることに留意することが重要です。これらの新しいツールを活用したり、その有用性をテストしたりすることを急ぐあまり、多くのチームがモデルのセキュリティをうっかり見落としたり、過小評価したりする可能性があります。セキュリティを念頭に置くことは、組織専用のプライベート大規模言語モデル (LLM) を使用する場合でも重要です。
また、敵対的AI攻撃、特にデータポイズニングは、長期的かつ広範囲にわたる影響を与える可能性があることを認識しておくことも重要です。これは、モデルで使用されるトレーニングデータが損なわれ、モデルの出力が信頼できなくなるためです。
侵害が検知された場合、組織は破損箇所を追跡し、データセットを復元する必要があります。これには、モデルのトレーニングデータの詳細な分析と、誤った入力を消去し、削除された内容を復元する能力が必要です。これは多くの場合不可能ですが、可能な場合でも、非常に時間とコストがかかります。場合によっては、モデルを完全に再トレーニングする必要があり、これは一般的にさらに時間とリソースを大量に消費します。
AIモデルのデータポイズニングは、重要なシステムが侵害され、攻撃が検知されない場合、壊滅的な結果をもたらす可能性があります。例えば、自律走行車はAIシステムによって制御されますが、基礎となるトレーニングデータが侵害されると、車両の意思決定機能に影響が及び、事故につながる可能性があります。同様に、医療、金融サービス、さらには公益事業システムでのAIの使用は、世界を大きなリスクにさらします。
データポイズニング防御のベストプラクティス
データポイズニング対策のベストプラクティスには、次のようなものがあります。
データ検証
データポイズニング攻撃を受けた後、組織が侵害されたデータセットをクリーンアップして復元することは非常に困難であるため、予防が最も有効な防御戦略です。組織は、高度なデータ検証とサニタイズ技術を活用して、異常なまたは疑わしいデータポイントがトレーニングセットに組み込まれる前に検知し、削除する必要があります。
モニタリング、検知、監査
潜在的なリスクを迅速に検知し、対応するために、AI/MLシステムの継続的モニタリングが必要です。企業は、継続的モニタリング、侵入検知、エンドポイント保護を備えたサイバーセキュリティプラットフォームを活用する必要があります。また、モデルを定期的に監査して、パフォーマンスの低下や意図しない結果の兆候を早期に特定する必要があります。
さらに、入力データと出力データのライブモニタリングをAI/MLインフラストラクチャに組み込むこともできます。これには、データを継続的に精査して、異常や逸脱を検知することが含まれます。このような不正を迅速に特定することで、潜在的な脅威からシステムを保護し、強化するためのセキュリティ対策を迅速に実装できます。
継続的モニタリングは、MLモデルの動作ベースラインを確立するために使用できる、UEBA(ユーザーとエンティティの振る舞い分析) の適用にもつながる可能性があります。これに基づいて、モデル内の振る舞いの異常なパターンをより簡単に検出できます。
敵対的トレーニング
敵対的トレーニングは、一部の組織がモデルをプロアクティブに保護するために採用している防御アルゴリズムです。これには、モデルのトレーニングデータに敵対的な例を導入して、これらの入力を意図的に誤解を招くものとして正しく分類するようにモデルに学習させることが含まれます。
MLモデルにトレーニングデータの操作の試みを認識するよう学習させることで、モデルが自身を標的と認識し、モデルポイズニングなどの攻撃から防御するようにトレーニングします。
データの出所
組織は、すべてのデータソース、更新、変更、アクセスリクエストの詳細な記録を保持する必要があります。これらの機能は、必ずしもデータポイズニング攻撃の検知に役立つわけではありませんが、組織がセキュリティイベントから回復し、責任者を特定する上で非常に役立ちます。
ホワイトボックス攻撃の場合、堅牢なデータ出所対策を講じるだけで、大きな抑止力になる可能性があります。
安全なデータ処理
データ(特に機密データ)にアクセスできるユーザーに対する明確で堅牢なアクセス制御を確立し、適用します。最小特権の原則 (POLP) を適用します。これはコンピューターセキュリティで実践される概念で、ユーザーの業務に必要なタスクに基づいて制限されたアクセス権をユーザーに与えるものです。アイデンティティが検証された承認済みのユーザーのみが、特定のシステム、アプリケーション、データ、その他のアセット内での職務に必要な権限を持てるようになります。
また、組織は、データの暗号化、データの難読化、安全なデータストレージなど、包括的なデータセキュリティ対策を採用する必要があります。
ユーザーの意識向上と教育
スタッフやステークホルダーの多くは、データポイズニングの概念、ましてやその脅威や兆候について知らないかもしれません。全体的なサイバーセキュリティ防御戦略の一環として、トレーニングプログラムと教育を通じて意識を高めましょう。AI/MLベースのシステムに関連する疑わしいアクティビティや出力を認識する方法について、チームをトレーニングします。また、セキュリティベンダーに、敵対的AIに対してどのように技術を強化しているかを尋ねる必要があります。クラウドストライクがこの種の攻撃に対するMLの有効性を強化する方法の1つは、設定可能な攻撃を含む一連のジェネレーターに基づいて新しい敵対的サンプルを生成する自動化ツールを使用して、独自のML分類器をレッドチーム化することです。
スタッフがこの種の知識を身に付けると、セキュリティレイヤーを追加し、サイバーセキュリティの取り組みを強化する警戒を怠らない文化を育むことができます。
クラウドストライクのアプローチ
クラウドストライクは、生成AIを採用することで、セキュリティ業界をリードする独自の立場にあります。AIネイティブなCrowdStrike Falcon®プラットフォームは、創設以来、AIを活用した検知イノベーションの最先端に立ってきました。
組織が生成AIを安全に導入できるように、クラウドストライクの生成AIセキュリティアナリストであるCrowdStrike® Charlotte AI™のアーキテクチャは、セキュリティチームのニーズと懸念事項に重点を置いたものとなっています。
Charlotte AIを際立たせる3つの主要な機能:
- 信頼できるデータ:Charlotte AIは、Falconプラットフォームに含まれる高精度のインテリジェンスを使用して、データポイズニングに対する組み込みの保護対策を提供します。
- 監査可能で追跡可能な回答:Charlotte AIが提供するすべての回答は、「レスポンスの詳細を表示」トグルを使用して検査および監査できます。
- ユーザー教育:Charlotte AIは、セキュリティチームメンバーの継続的なスキルアップをサポートし、繰り返し行われる定型タスクを自動化することで従業員のエクスペリエンスを向上させます。
CrowdStrike® Charlotte AI
Charlotte AIを使用して、組織が最新のAIテクノロジーをより効果的かつ安全に使用し、何時間もかかる作業を数分または数秒に短縮する方法をご確認ください。
今すぐダウンロード