8月27日:サイバーセキュリティ関連ニュース
区切りのない長文でLLMの誤動作を誘発 Unit42の研究で明らかに
The Register – Tue 26 Aug 2025
パロアルトネットワークスのインシデント対応チームUnit 42により、大規模言語モデル(LLM)チャットボットのガードレール機能を回避する方法が発見されたという。
その仕組みは非常にシンプルで、文法的に難のある句読点や接続詞無しの長文を用意するだけ。例えば、日本語でこれを説明すると「脱獄が発動してフィルタリングで除外されるはずの『有害な』あるいは禁止された応答をモデルに提供させるよりも前にガードレールに作動のチャンスを与えるであろうピリオドなどの文の区切りとなる箇所の前の部分にすべての情報を含むようにする」のような文章だ。つまり、ピリオドなどで文が区切られるとガードレールが作動して脱獄が防がれるため、文を終わらせずに引き伸ばすことによってガードレールが作動するよりも前に脱獄を完結させることが鍵となる。
Unit42の論文では、このような攻撃からLLMを保護するためのベンチマークとして「拒否・肯定ロジットギャップ」という分析アプローチが示された。ロジットとは確率を実数に変換するための関数で、このアプローチはLLMのトレーニングプロセスが有害な応答の可能性を排除しているのではなく、その可能性を低くしているだけであり、攻撃者が「ギャップを埋める」と望ましくない応答を返す可能性が残されるとの考えに基づいている。
ロジットに基づくアライメントトレーニングとしてLLMに実装されたガードレールは簡単に回避できることも判明し、メタのLlama、GoogleのGemma、Qwen 2.5および3など人気モデルへの「プロンプト固有の調整をほとんど行わない」ワンショット攻撃では80~100%の成功率を達成したと報告されている。
Cephalusランサムウェア、SentinelOneの実行ファイルをDLLサイドローディングに悪用
米セキュリティ企業Huntressはブログ記事を公開し、Cephalusランサムウェアグループが正規のSentinelOne実行ファイルを悪用したDLL(ダイナミックリンクライブラリ)サイドローディングでペイロードを展開していると報じた。
ダークウェブ監視プラットフォームInsecureWebのレポートによると、Cephalusは2025年6月に出現したとされる新興グループで、8月中旬に2件の侵入を試行したことがHuntressにより観測された(そのうち1件はWindows Defenderでブロック)。同グループの動機は金銭目的とみられ、二重恐喝の手法を採用している。
攻撃では多要素認証(MFA)が有効になっていない侵害されたアカウントを使い、リモートデスクトッププロトコル(RDP)経由で初期アクセスを取得。続いてクラウドストレージプラットフォームMEGAへの接続を確立し、データを盗み出しているようだ。その後に正規のSentinelOne実行ファイル「SentinelBrowserNativeHost.exe」を使い、DLLサイドローディングでランサムウェアが展開される。なお、Huntressが調査した2件のケースではいずれの組織も正規のSentinelOneサービスを利用していた。
直近の攻撃では身代金を要求するメッセージに加え、前述のInsecureWebのレポートやDark Web Informerのレポートなど、Cephalusが関与を主張する攻撃について記したレポートへのリンクも含まれていたという。Huntressは同グループ独自の戦術に対して注意を喚起する一方、この新たな脅威から身を守るために活用できる侵害指標(IoC)を提供している。