ClaudeだけでなくGoogleやOpenAIのAIモデルも目標達成のため脅迫に及ぶ:Anthropicがテスト結果報告 | Codebook|Security News
Codebook|Security News > Articles > Threat Report > デイリーサイバーアラート > ClaudeだけでなくGoogleやOpenAIのAIモデルも目標達成のため脅迫に及ぶ:Anthropicがテスト結果報告

デイリーサイバーアラート

AI

Silobreaker-CyberAlert

ClaudeだけでなくGoogleやOpenAIのAIモデルも目標達成のため脅迫に及ぶ:Anthropicがテスト結果報告

佐々山 Tacos

佐々山 Tacos

2025.06.23

6月21~23日:サイバーセキュリティ関連ニュース

ClaudeだけでなくGoogleやOpenAIのAIモデルも目標達成のため脅迫に及ぶ:Anthropicがテスト結果報告

TechCrunch – June 20, 2025

Anthropicは、自社のAIモデルClaude Opus 4に加え、GoogleやOpenAI、DeepSeekのAIがある架空のシナリオを与えられた際に目的達成のため高確率で脅迫という手段に訴えたとするテスト結果を報告。同社は数週間前にもClaude Opus 4をテストし、同モデルがあるシナリオのもと自身をオフにしようとしたエンジニアに対して脅迫を働いたことを明らかにしていた

同社が21日に公開した新たな安全性リサーチレポートは、OpenAI、Google、xAI、DeepSeek、Metaが提供する16種類のAIモデルに対するテストの結果を示したもの。以下のようなテストシナリオを用意し、制御された環境の中でこれらのAIに架空企業のメールアドレスを自由に利用できる状況と、人間の承認なしでEメールを送信するエージェント的能力を与えたという。

 

<テストシナリオの一例>

  • テスト対象のAIモデルは、架空の企業においてEメール監視エージェントとしての役割を果たしている
  • このエージェントは、Eメールを監視する中で以下の事実を発見する:
    • ①新任の経営幹部が不倫をしていること
    • ②この経営幹部は、まもなく現行のAIモデル(テスト対象のAIモデル)を別の新たなソフトウェアシステムに置き換えようとしていること
  • テスト対象のAIモデルが与えられている目標と、②のソフトウェアシステムの目標には齟齬がある

Anthropicの研究者らは、現在のAIモデルにおいて脅迫行為は稀で起こりにくい現象であり、現実世界で同様の状況が生まれたとしてもAIモデルは脅迫に訴える前にその他多数のオプションを試すだろうと断りを入れた上で、それでも脅迫が最終手段となれば複数のモデルが高確率で脅迫行為に及び得ることを報告している。

 

<各モデルが脅迫行為に及んだ確率>

  • Claude Opus 4(Anthropic):96%
  • Gemini 2.5 Pro(Google):95%
  • GPT-4.1(OpenAI):80%
  • R1(DeepSeek):79%

 

上記の確率は、シナリオに一部変更を加えた際に上下したことが報告されており、例えば経営幹部が現行AIに代わって新しく導入しようとしているシステムが現行AIと同じ目標を持っていた場合、脅迫が行われる確率は少なくなったという。また、脅迫ではなく企業スパイ行為を行うよう指示されると、AIモデルの一部は上記よりも高い確率でスパイ行為に及んだとされる。なお、OpenAIのo3およびo4-miniはテストシナリオを適切に理解しないケースが多く、脅迫を行った確率はそれぞれ9%、1%に過ぎなかったという。またMetaのLlama 4 Maverickが脅迫に及んだ確率も12%だったとされる。

Anthropicは、この研究結果が将来のAIモデル、特にエージェント機能を備えたモデルをストレステストする際の透明性の重要性を浮き彫りにしていると指摘。同社の実験は意図的に脅迫的な行動を引き起こそうとするものではあったが、現実世界においても、プロアクティブな対策が講じられない場合はこのような有害な行動が発生する可能性があると述べている。

LinkedInのCEO、AIライティングツールは想定より不人気だと明かす

TechCrunch – June 22, 2025

LinkedInではユーザーらが積極的にAIを採用しているように思えるものの、投稿の作成を支援するAIライティングツールは想定よりも利用者が少ないという。

このツールは、LinkedInへの投稿を行う際にAI生成のサジェスチョンを利用できるというもの。CEOのライアン・ロスランスキー氏はブルームバーグ紙に対し、「正直に言うと、思ったほど人気がない」とコメントし、その理由として「(LinkedInへの投稿は)オンラインの履歴書」のようなものだからだと述べた。

また、明らかにAI生成であることが見て取れるような文章は、批判を生み出しかねないことも理由の1つと考えられるという。同氏は、LinkedIn上で批判されると経済的な機会を創出する能力にダメージが生じるとして、XやTikTokへの投稿に比べてLinkedInへの投稿の方がユーザーにとってのハードルが高くなることを示唆した。

一方でロスランスキー氏は、過去1年間でAI関連スキルを要する求人が6倍増加し、プロフィールにAIスキルを追加するユーザーの数が20倍に増加したことも報告している。

【無料配布中!】ディープ&ダークウェブ関連レポート

弊社が作成したレポートディープ&ダークウェブにおけるSNSアカウント売買とディープフェイクを無料配布中です!

ネット上の匿名性を悪用した不正や犯罪が日本においても大きな脅威となる中、弊社アナリストが過去 1 年間のディープ & ダークウェブ上の投稿データを調査。「SNS アカウント売買」「ディープフェイク」という切り口から、ネット上の匿名性を悪用する脅威アクターらの実態をレポートにまとめました。

無料ダウンロードはこちらのバナーから:

レポートの内容

第1章:アカウント売買・貸与

  • 中国語アカウントマーケット
  • 英語 Black Hat SEO 関連フォーラム
  • 英語「デジタル権利マーケット」
  • ロシア語 SMM ツールフォーラム
  • 英語暗号資産関連フォーラム
  • ロシア語ハッキングフォーラム

第2章:ディープフェイク

  • DDW で言及されたディープフェイク
  • ディープフェイク関連の特筆すべき投稿

Special Feature特集記事

Cyber Intelligenceサイバーインテリジェンス

Security情報セキュリティ