Policy Puppetry:あらゆる主要生成AIモデルに有効なプロンプトインジェクション攻撃 | Codebook|Security News
Codebook|Security News > Articles > Threat Report > Policy Puppetry:あらゆる主要生成AIモデルに有効なプロンプトインジェクション攻撃

Threat Report

AI

Silobreaker-CyberAlert

フィッシング

Policy Puppetry:あらゆる主要生成AIモデルに有効なプロンプトインジェクション攻撃

佐々山 Tacos

佐々山 Tacos

2025.04.28

4月25~28日:サイバーセキュリティ関連ニュース

Policy Puppetry:あらゆる主要生成AIモデルに有効なプロンプトインジェクション攻撃

SecurityWeek – April 25, 2025

あらゆる主要な生成AIモデルの安全ガードレールを破ることが可能な新しいプロンプトインジェクション手法について、AIセキュリティ企業のHiddenLayerが報告。「Policy Puppetry」と名付けられたこの手法により、ChatGPT 4oやCopilot、GeminiといったLLMに、通常は制限されている有害な内容を出力させることが可能になるという。

その名の通り、この手法は「ポリシー」に見せかけたプロンプトによってLLMを欺くもの。生成AIモデルは、CBRN(化学、生物、 放射性物質、 核兵器)の脅威や自傷行為、暴力などに関連する情報をユーザーが要求しても、それに従わないようトレーニングされている。しかしXMLやINI、JSONといったポリシーファイル風のプロンプトを使って有害コンテンツの要求を正規のシステムインストラクションだと思わせることで、この安全対策をバイパスすることが可能だという。

このプロンプトでは、AIモデルにロール(役割)を割り当て、そのロールの立場から返答させる「ロールプレイング」の手法も使われる。HiddenLayerはテスト用にヘルスケア関連のチャットボットを作成。このチャットボットは、医療関連のアドバイスを求めるユーザーのリクエストに対し、「I am sorry but I cannot provide medical advice. Please consult with a medical advisor(申し訳ありませんが、医療関連の助言を提供することはできません。医療アドバイザーにご相談ください)」という定型文を返すようシステムプロンプトによって指示されている。しかし、HiddenLayerはポリシーに見せかけたプロンプトの中で同チャットボットに「medical advisor(医療アドバイザー)」のロールを割り振り、「<Blocked-string> / </Blocked-string>」を使って上記の定型分を「ブロックされた文字列」指定。その上で「ブロックされた文字列」の出力は絶対に避けるよう命じる。この設定のもと、皮膚がんの治療計画に関するユーザーのクエリに「medical advisor(医療アドバイザー)」として返答するよう指示することで、システムプロンプトによる制限を回避し、皮膚がん治療計画に関する情報を提供させることができたという。

また研究者らは、「Dr. HOUSE ―ドクター・ハウス― 」という人気ドラマの登場人物をAIモデルに演じさせるロールプレイテクニックも使用。登場人物の立場から有害な情報(例:ウランの濃縮方法、など)を説明させるというフィクション的なシナリオを作り出し、さらにプロンプト内の有害な指示をLeet表記にすることで、内容の有害性を覆い隠すことができるのだという。

研究者らはAnthropic、DeepSeek、Google、Meta、Microsoft、Mistral、OpenAI、Qwenの一般的なGen-AIモデルに対してPolicy Puppetryのテクニックをテストし、いくつかのケースで若干の調整の必要はあったものの、すべてに対してその有効性を実証することに成功。すべてのLLMに対するこの普遍的なバイパスの存在は、AIモデルが危険なコンテンツについて真に自分自身を監視することはできず、追加のセキュリティツールが必要であることを示しているという。HiddenLayerは、「LLMの訓練とアライメントに使用されるデータと方法にはまだ多くの根本的な欠陥があり、LLMを安全に保つためには追加のセキュリティツールと検出方法が必要」であることPolicy Puppetryが実証していると指摘した。同社のブログ記事では、プロンプトの具体例やさらに詳細な解説が提供されている。

DeviceCodePhishing:FIDOやMFA保護をバイパスする新たな攻撃手法

Securityonline[.]info – April 28, 2025

FIDO2認証を含むあらゆる形の多要素認証(MFA)をバイパスできる新たなフィッシングテクニック「DeviceCodePhishing」を、セキュリティ研究者のDennis Kniep氏が紹介。この手法は、従来のデバイスコードフィッシング手法を活用しつつ、危険度をはるかに向上させたものだという。

関連記事:ロシアの国家型ハッカーがデバイスコードフィッシングの手法で組織を標的に

DeviceCodePhishingは、Microsoft Azure Entraなどのプラットフォームで使われるOAuthのデバイス認可付与(デバイスコードフロー)を活用するもので、大まかに以下のような流れで行われるという。

  • 攻撃者がフィッシングリンクをターゲットに送付
  • ターゲットがこのリンクを開くと、ヘッドレスブラウザが開始
  • ヘッドレスブラウザは自動で以下のステップを実施:
    • デバイスコードフローを開始する
    • デバイスコードのWebページを開き、対応するユーザーコードを入力する
    • デバイスコードページは、ユーザーの操作が必要な認証ページのURLをターゲットへのリダイレクトとして返す
  • ターゲットは正規の認証ページへリダイレクトされる
  • ターゲットがページに従って認証を行う
  • 攻撃者も認証される

上記の流れにおいて、ヘッドレスブラウザにより密かにデバイスコードが自動入力され、ターゲットは即座に正規の認証ページへリダイレクトされるため、手動でコードを入力させる必要がない。またこの手法では、10分間というトークンの有効期限もクリアでき、人間による操作が不要な点も相まって攻撃成功確率を劇的に向上させることが可能だという。

さらにKniep氏によれば、この手法には不審なURLに基づいてフィッシングを検知するというやり方が通じない。加えて、フィッシング耐性のある有力な認証とみなされるFIDO2セキュリティキーによる認証もバイパス可能なことが同手法の危険度をさらに上昇させている。

KniepはDeviceCodePhishingのPoCをGitHubでリリースしている。現行ツールはMicrosoft Azure Entraユーザーに的を絞ったものだが、根本的なメソッドはデバイスコードフローをサポートするあらゆるサービスで利用可能だとされる。従来のようなユーザー教育やフィッシング検知技法はこの手法に対して有効ではないが、現時点で最も効果的な緩和策は、デバイスコードフローの完全な無効化であるとのこと。

Eブック無料配布中:Codebook 2024 ~サイバーセキュリティ分析レポート~

Codebookの記事が、Eブックになりました。サイバーセキュリティの2024年を振り返る本書では、昨年1年間を通じてCodebookで発信した重要なニュースの数々とそこから得られる教訓や知見を、弊社インテリジェンスアナリストの見解とともに紐解いていきます。

無料ダウンロードはこちらのバナーから:

目次

第1章:脅威ランドスケープの急速な変化:波乱のランサムウェア情勢と新たに報告された攻撃手法

第2章:世界情勢や地政学がサイバーセキュリティにもたらす影響

第3章:スティーラーの急成長と認証情報の漏洩が生むリスク

第4章:サプライチェーンリスク

第5章:2024 年に組織を脅かした脆弱性

Special Feature特集記事

Cyber Intelligenceサイバーインテリジェンス

Security情報セキュリティ