ディープフェイク検出の目を免れる「リプレイ攻撃」を研究者らが実証
生成されたディープフェイク音声をそのまま流すのではなく、一度再生してそれを背後のノイズや自然音とともに再び録音した後の音声を使うことで、ディープフェイク検出モデルの目を免れることができる可能性が高まるという。複数の大学の研究者らが、AI生成ツールやディープフェイク検出ツールのベンダーであるResemble AIとともに調査結果を論文にまとめた。
音声クローン作成の技術は現在、ビッシング(ボイスフィッシング)攻撃の文脈で非常に大きな問題となっている。これは、脅威アクターがこの技術を使い、企業の役員やIT担当者などになりすまし、企業システムへ侵入しようとするケースが想定され得るため。また近年北朝鮮の「偽IT技術者」が求職者を装ってさまざまな企業に潜り込もうとしていることが問題になっているが、その過程で行われる採用面接ではすでにディープフェイク技術(主に映像)が使われていることが明らかになっている。このためこうした偽労働者スキームへの対策においても、音声ディープフェイクは無視することのできない重要事項となっている。
そんな中、合成音声の技術が進化するにつれて偽装防止モデルによる正確な検出は困難さを増していることを象徴するような論文が、ドイツ、ポーランド、ルーマニアの大学の研究者とResemle AI社によって6月1日に公開された。これは、「リプレイ攻撃」を仕掛けることにより音声ディープフェイクが検出されるのを回避できるようになることを示したもの。研究者らは、「(既存の)ディープフェイク音声をさまざまなスピーカーとマイクを使って再生・再録音することにより、なりすまし音声サンプルを検出モデルにとっては本物のように聞こえる音声へと変える」ことに成功したという。
検証において具体的に使われた音声素材は、音声合成モデルをトレーニングするために使われるデータセット「M-AILABS」と、ディープフェイク検出モデルをトレーニングするために使われるデータセット「MLAAD」から取り出したもの。研究チームはこれを再生・録音して、132.5時間分の音声から成る新たなトレーニング用データセット「ReplayDF」を作成した。109通りの異なるスピーカー・マイクの組み合わせが使われたことで、これらの音声には現実の世界の音響環境やハードウェア特性によって生じる再生時の歪みが捕捉されているという。
その後ReplayDFの音声データでW2V2-AASIST、Whisper、Raw PC Darts、RawNet2、TCM ADD、RawGAT-STという6種類のオープンソースの検出モデルをテストしたところ、いずれのモデルでも検出精度は大きく低下。特に、通常は等価エラー率(EER)が4.7%のW2V2-AASISTではこれが18.2%へと大幅にアップしたという。なお研究チームは、ReplayDFに室内インパルス応答の要素を加えてトレーニング性能を強化したものを、研究目的での利用に限定してリリースしている(商用利用不可)。
今回のようなリプレイ攻撃はディープフェイク音声を用いる脅威アクターにとって有利なものになり得るとはいえ、ビッシング攻撃はソーシャルエンジニアリング攻撃の一種でもあることから、標準的なベストプラクティスに従うことだけでも被害を予防する効果が期待できる。これには、機微性の高い情報を要求する内容の音声メッセージが届いたら、その相手とのリアルタイムの会話の中で再確認する、メールアドレスや電話番号をダブルチェックする、といった手順が含まれる。
【無料配布中!】ディープ&ダークウェブ関連レポート
弊社が作成したレポート『ディープ&ダークウェブにおけるSNSアカウント売買とディープフェイク』を無料配布中です!
ネット上の匿名性を悪用した不正や犯罪が日本においても大きな脅威となる中、弊社アナリストが過去 1 年間のディープ & ダークウェブ上の投稿データを調査。「SNS アカウント売買」「ディープフェイク」という切り口から、ネット上の匿名性を悪用する脅威アクターらの実態をレポートにまとめました。
無料ダウンロードはこちらのバナーから:
レポートの内容
第1章:アカウント売買・貸与
- 中国語アカウントマーケット
- 英語 Black Hat SEO 関連フォーラム
- 英語「デジタル権利マーケット」
- ロシア語 SMM ツールフォーラム
- 英語暗号資産関連フォーラム
- ロシア語ハッキングフォーラム
第2章:ディープフェイク
- DDW で言及されたディープフェイク
- ディープフェイク関連の特筆すべき投稿