この記事は Google Workspace 管理者を対象としています。Gemini ユーザーの方は、Gemini アプリまたは Gemini in Workspace アプリ(Gmail、ドキュメント エディタ、ドライブ、Chat)を使用する際に、Google がどのような保護策を講じているかを確認できます。
間接プロンプト インジェクションとは、生成 AI システムにおける高度なセキュリティ脆弱性です。この記事では、Gemini アプリと Gemini in Workspace アプリにおいてこの脆弱性を軽減するための、Google の包括的な多層防御戦略について説明します。
目次
- 生成 AI におけるプロンプトとは
- 間接プロンプト インジェクションとは
- 間接プロンプト インジェクションの仕組み
- 間接プロンプト インジェクション攻撃の実例
- 間接プロンプト インジェクションが重大な懸念事項である理由とそのリスク
- 間接プロンプト インジェクション攻撃を軽減するために Google がとっているアプローチ
- 間接プロンプト インジェクションに対する主要な防御層とは
- プロンプト インジェクション検出のためのコンテンツ分類の仕組み
- セキュリティに関する考え方の強化とは
- マークダウンのサニタイズと不審な URL の除去によってセキュリティを強化する仕組み
- ユーザー確認フレームワークとは
- エンドユーザー向けセキュリティ対策通知が重要な理由
生成 AI におけるプロンプトとは
プロンプトとは、出力を導くために生成 AI モデルに与えられる指示や入力のことです。生成 AI モデルは、これらのプロンプトを解釈し、膨大なデータセットから学習したパターンに基づいて、テキスト、画像、コードなどのコンテンツを作成します。
間接プロンプト インジェクションとは
間接プロンプト インジェクションは、AI システムにおけるセキュリティ脆弱性の一種です。外部データに隠されている悪意のある指示を AI モデルが処理した場合に発生します。これらの指示はユーザーから AI に直接与えられるものではありません。ユーザーが明確に把握することなく、システムの動作や出力を操作することを目的としています。
間接プロンプト インジェクションの仕組み
間接プロンプト インジェクションは、悪意のある指示が埋め込まれている外部データ(ウェブサイトのコンテンツ、メール、ドキュメントなど)を AI システムが処理すると発生します。システムは、隠しコマンドや悪意のある指示を認識できずに、それらをメインタスクとともに実行します。これは、意図しない操作や情報漏洩につながる可能性があります。
間接プロンプト インジェクション攻撃の実例
- chatbot のハイジャック - 外部データでトレーニングされた AI chatbot が、あるウェブページに記載された悪意のある指示を読み込んだことで、機密性の高い内部情報が漏洩した。
- サマライザーの侵害 - AI システムが隠し指示を含んだドキュメントを要約したことで、メール送信などの不正な操作が実行された。
- データの引き出し - AI システムが感染したファイルの処理を要求されたことで、機密データが抽出されて外部の宛先に送信された。
間接プロンプト インジェクションが重大な懸念事項である理由とそのリスク
間接プロンプト インジェクションは、AI システムのセキュリティとデータ プライバシーに対する重大な脅威となります。不正なデータアクセス、AI の動作の操作、情報の悪用につながる恐れがあります。この脆弱性により従来のセキュリティ対策では検出や防止が困難なサイバー攻撃の経路が作成され、AI の信頼性が損なわれます。
間接プロンプト インジェクション攻撃を軽減するために Google がとっているアプローチ
Google は、間接プロンプト インジェクション攻撃を軽減するために、特に Gemini において包括的な多層防御のセキュリティ アプローチを採用しています。この戦略では、モデルの強化から専用の機械学習モデルやシステムレベルの保護まで、プロンプトのライフサイクルの各段階に合わせて設計されたセキュリティ対策が導入されています。
強化された間接プロンプト インジェクション防御の最初の導入以来、Google の多層防御は間接プロンプト インジェクションの攻撃を一貫して軽減し、新しい攻撃パターンにも適応してきました。継続的なモニタリングと迅速な対応により、あらゆる操作から継続的に学習し、防御体制を強化しています。
間接プロンプト インジェクションに対する主要な防御層とは
Google の多層防御のアプローチには次のものが含まれます。
- プロンプト インジェクション検出のためのコンテンツ分類 - さまざまなデータ形式内の悪意のあるプロンプトと指示を検出する、独自の機械学習モデル。
- セキュリティに関する考え方の強化 - プロンプト コンテンツの前後に追加される、対象を絞ったセキュリティに関する指示。これらの指示は、LLM(大規模言語モデル)にユーザー指示のタスクを実行させ、敵対的な指示は無視するよう促します。
- マークダウンのサニタイズと不審な URL の除去 - Google セーフ ブラウジングを使用して外部画像 URL と不審なリンクを特定して除去し、URL ベースの攻撃とデータの引き出しを防ぎます。
- ユーザー確認フレームワーク - カレンダーの予定の削除など、潜在的にリスクの高い操作に対して、ユーザーの明示的な確認を求めるコンテキスト システム。
- エンドユーザー向けセキュリティ対策通知 - セキュリティの問題が検出され、軽減されたときにユーザーに提供されるコンテキスト情報。これらの通知では、専用のヘルプセンター記事で詳細を確認するようユーザーに促します。
- モデルのレジリエンス - 攻撃者に対する Gemini モデルの堅牢性。明示的な悪意のある操作からモデル自身を保護します。
プロンプト インジェクション検出のためのコンテンツ分類の仕組み
プロンプト インジェクション検出のためのコンテンツ分類は、悪意のある指示が含まれている可能性のある不審な入力を特定してフラグを設定することで、初期防御として機能します。これらの分類は、プロンプト内の構造、キーワード、パターンを分析して、AI モデルの動作に影響を与える可能性のあるインジェクション攻撃を検出し、有害なコンテンツをフィルタします。
セキュリティに関する考え方の強化とは
セキュリティに関する考え方の強化とは、意思決定プロセスにおいてセキュリティ上の考慮事項を優先するように AI モデルをトレーニングすることです。この手法では、プロンプト コンテンツの前後にターゲットを絞ったセキュリティ指示を追加します。この指示によって、ユーザー指示のタスクに集中し、コンテンツに埋め込まれた敵対的または悪意のある指示は無視するように LLM に促します。
マークダウンのサニタイズと不審な URL の除去によってセキュリティを強化する仕組み
マークダウンのサニタイズでは、マークダウン形式のテキストに隠されている有害なコードやスクリプト要素を削除して、実行されないようにします。不審な URL の除去では、既知の悪意のあるウェブサイトを指すリンクを特定してマスクし、AI システムが危険なコンテンツにアクセスしたり、そのようなコンテンツを拡散したりすることを防ぎます。これにより、書式設定の脆弱性を悪用したり、AI を悪意のある外部リソースにリダイレクトしたりする間接プロンプト インジェクションを防ぐことができます。
ユーザー確認フレームワークとは
ユーザー確認フレームワークでは、機密性の高い AI 生成アクションや出力に対して明示的な承認ステップを導入します。有害な可能性のあるコマンドの実行や機密情報の共有が行われる前に、AI システムがユーザーに意図の確認を求めます。この人間参加型(HITL)アプローチは、プロンプト インジェクション攻撃の成功によって発生する不正な操作や意図しない操作に対する最終的な保護手段として機能します。
エンドユーザー向けセキュリティ対策通知が重要な理由
エンドユーザー向けセキュリティ対策通知は、AI システム内で潜在的なセキュリティ リスクが検出された場合や軽減された場合に、ユーザーに通知します。これらのアラートは、実施されたセキュリティ対策の透明性を高め、潜在的な脅威についてユーザーに知らせることで、ユーザーが十分な情報に基づいて判断できるようにします。これにより、AI セキュリティにおける共同アプローチが促進され、信頼が強化され、AI アプリケーションとのより安全なやり取りが実現します。
参考情報
生成 AI の脅威アクター、攻撃手法、脆弱性への取り組みに関する Google の進歩と研究の詳細については、多層防御戦略でプロンプト インジェクション攻撃を軽減するをご覧ください。