Column

ツール実行型AIエージェントの攻撃面 — MCP時代に広がるリスクの基礎

AIエージェントとセキュリティ #AIエージェント#MCP#攻撃面#多層防御

「チャットAIなら使ってきたが、ツールを実行するエージェントとなると話が違う気がする」——その直感は正しいです。ツール実行型のAIエージェントは、従来のチャットボットとは攻撃面(アタックサーフェス)の質が違います。この記事では、何がどう広がるのかを基礎から整理します。

チャットボットとの違い — エージェントは「行動する」

チャットボットの出力は、画面に表示される文章です。おかしな回答をしても、被害は「読んだ人が誤解する」範囲にとどまります。

ツール実行型のAIエージェントは違います。目的を与えると、自分で計画を立て、ツールを呼び出して実際に行動します。ファイルを読み書きし、コマンドを実行し、Webにアクセスし、外部サービスのAPIを叩く。便利さの源泉はここですが、乗っ取られたときの被害が「言葉の外」に出るのも同じ理由です。

近年は MCP(Model Context Protocol)のような共通規格の普及で、エージェントに社内システムや外部サービスをツールとして接続することが格段に容易になりました。接続できるツールが増えるほど「できること」が増え、それはそのまま攻撃面の拡大でもあります。

新しい入力経路 — 「ツールの出力」は信頼できるか

従来のシステム設計では、「ユーザーの入力は信頼しない、システム内部のデータは信頼する」という線引きがある程度成り立っていました。エージェントではこの前提が崩れます。

エージェントが受け取る入力は、ユーザーの指示だけではありません。

  • 調査のために開いたWebページの本文
  • 検索ツールやAPIが返したツールの実行結果
  • 読み込んだドキュメント・メール・チケットの中身

これらはすべて、エージェントにとって同じ「読み込んだテキスト」です。そして外部由来のテキストには、第三者が細工を仕込めます。読み込んだ内容に攻撃指示が紛れ込み、エージェントの振る舞いを乗っ取るのが間接プロンプトインジェクションです(仕組みの詳細はプロンプトインジェクションの記事で解説しています)。

注意したいのは、ツールの出力が「常に危険」なわけではないことです。問題は危険かどうかを事前に確実に見分ける方法がないことにあります。だから「信頼できる前提」を置けない、というのが正確な理解です。

攻撃面を3つに整理する — 読む・実行する・通信する

エージェントの攻撃面は、能力の3区分で整理すると見通しがよくなります。

能力攻撃面になる理由悪用されたときの例
読む読んだ内容が攻撃指示の侵入経路になる。読める範囲の秘密が持ち出し候補になる認証情報ファイル・社内文書の読み取り
実行するコマンド・ツール実行が、攻撃者の意図の実行手段になる設定変更、不正なスクリプトの実行
通信する外向き通信が、情報の持ち出しや外部からの追加指示の経路になる読み取った秘密の外部送信

ポイントは、被害が成立するには多くの場合この3つが連鎖することです。細工された入力を「読み」、秘密を「読み」、外部へ「通信する」——どこか一段を絞れば、連鎖は完成しにくくなります。

多層防御の置き場所

3つの能力それぞれに、防御層を置く場所があります。

  1. 読む を絞る — エージェントがアクセスできるファイル・データの範囲を業務に必要な最小限にする
  2. 実行する を絞る — 実行できるツール・コマンドを制限し、サンドボックスで隔離し、重要操作には人間の確認を挟む
  3. 通信する を絞る — 外向き通信(egress)の宛先を許可リストで制限する

1と2はエージェントの実行環境(ホスト側)の対策で、必須の土台です。ただしエージェント本体と同じ場所にあるため、設定不備や未知の手法で突破される可能性は残ります。3のネットワーク層はエージェントのプロセスから手が届かない外側にあり、ホスト側が破られても独立して機能します。考え方の詳細は AIエージェントの egress 制御入門をご覧ください。

正直な注意点

  • 攻撃面の整理は「ゼロにする」ためではなく、どこに防御層を置くかを決めるためのものです。ツールを使う以上、攻撃面はゼロになりません
  • どの層も単独では破られる可能性があります。前提は常に多層です
  • ネットワーク層の制御は宛先単位であり、許可済みの正規宛先が悪用されるケースまでは捕捉できません

まとめ

  • ツール実行型エージェントは行動する——被害が文章の外に出る点がチャットボットとの本質的な違い
  • ツール出力や外部データという新しい入力経路により、「内部データは信頼できる」前提が崩れる
  • 攻撃面は読む・実行する・通信するの3つで整理でき、被害は多くの場合この連鎖で成立する
  • 各能力に防御層を置く多層防御が基本。ネットワーク層はホスト側から独立した最後の層になる

体系的に学びたい方は技術ガイド: AIエージェントのセキュリティ入門へ。「通信する」を外側から絞る仕組みは AIガードレールで紹介しています。

AIエージェントの外向き通信、見えていますか。

Tate(盾)は、回線に挟むだけで導入できる L2透過型ファイアウォール・アプライアンスです。現在、先行案内・お問い合わせを受け付けています。