AI Egress Guardrail

AIが乗っ取られても、
許可していない通信は通さない。

プロンプトインジェクションでエージェントの意図が乗っ取られても、Tate はネットワーク層から外向き通信の到達性を制限します。lockdown 構成では、公認 LLM・ツール以外への egress を遮断する独立した防御層です。

insideエージェント / 社内ホスト
outsideインターネット
webhook.site blocked
定義

Tate は、回線の途中に挿入する L2透過型ファイアウォール・アプライアンスです。

AI SaaS でも、エージェント管理ツールでもありません。
02 新しい攻撃面

AIにツールを実行させる。
その外向き通信は、誰が見ていますか。

エージェントのサンドボックスや権限といったホスト側の対策が突破されたとき、外向き通信を止める独立した防御層がない — それが、AIエージェント導入で生まれる新しい不安です。

プロンプトインジェクション

悪意あるWebページやツール出力が、エージェントの「意図」を乗っ取る。

暴走・逸脱

自律エージェントが想定外の宛先へ接続し、スキャンや横展開を試みる。

情報持ち出し

秘密や資格情報が、許可していない外部の宛先へ送り出される。

03 主役機能 · AI Guardrail

外側から、到達性を制限する。

インジェクションはエージェントの意図を乗っ取れても、Tate はエージェントの外側から到達性を強制します。「秘密を evil.com に送れ」と指示されても、許可リストに無ければネットワークが到達させません。

健全なエージェントの egress は小さく安定しているため、逸脱そのものが侵害シグナルになります。ネットワーク強制はエージェントプロセスの制御外にあり、独立した防御層として働きます。

agent-guardrail — 設定イメージ deny-base
posture: lockdown # deny-base — 明示許可以外は全遮断sanctioned-llm: - api.anthropic.com # 公認LLMのみ許可sanctioned-tools: - github.com # 公認ツールのみ許可 - pypi.orgblock-evasion: quic: true # SNI 可視性を維持 doh: true # DNS 可視性を維持unknown-domains: deny # 未知ドメインは遮断
pin

① pin — LLMプロバイダ固定

同居
○ 人間と同居するホストでも使える(default-allow のまま)
守る
公認以外の既知LLMプロバイダへの逸脱・rogueモデルへのリダイレクトを遮断
lockdown

② lockdown — 全体ロックダウン

同居
✕ エージェント専有ホスト / セグメント前提(deny-base)
守る
公認 LLM・ツール以外への外向き通信を全遮断。情報持ち出し・C2 到達を封じる
04 挟むだけ · bump in the wire

IP設計を変えずに、今日から見える・止められる。

01

結線する

inside と outside の間に挟むだけ。IP設計もネットワーク構成も変えません(データポートはIPを持ちません)。

02

observe で見る

いま何が流れているか — プロトコル・トップtalker・観測ドメインをGUIで可視化します。

03

monitor → enforce

would-block をレビューして許可リストを詰め、実遮断へ。段階的に移行できます。

option 可用性優先の構成には、障害時に物理直結する HWバイパスNIC(fail-open)を選べます。

05 observe · local-LLM analysis

AIが解析する。
データは構内から出ない。

観測した集約スナップショットを、構内で完結するローカルLLMが解析。標準構成ではクラウドAPIを使わず、通信ペイロードは送りません(そもそも収集しません)。

/observe 観測ドメイン (SNI/Host)
api.anthropic.com 86
github.com 47
pypi.org 38
webhook.site🆕 31
a7f3c1b9.ngrok.io🆕 26
dns.google🆕 18
analyze ローカルLLM による agent-guardrail 解析
local-llm · agent-guardrail self-hosted · no external API
Verdict
LIKELY-COMPROMISED

新規観測されたトンネリング / exfil / DoH ドメインが多数。プロンプトインジェクションか資格情報窃取を強く示唆。

Egress allow-list view
sanctioned
api.anthropic.com
unexpected / new
a7f3c1b9.ngrok.io
webhook.site
dns.google
pastebin.com
api.telegram.org
Agent-compromise indicators
exfil / tunnel: ngrok.io · webhook.site · pastebin.com · api.telegram.org
DoH: dns.google で DNS 可視性を回避
fan-out: 単一ホストから 443/53/80/22/3306/6379/9200 → 資格情報ダンプ / 横展開の疑い
Recommended containment
当該 5 ドメインを deny
エージェントセグメントを deny-base egress へ(api.anthropic.com / github.com / pypi.org のみ allow)

初見ドメイン検出: egress が安定したホストでの「初めて見るドメイン」を、高シグナルの要調査イベントとして提示します。

06 secure by default

止まるときは、閉じて止まる。

fail-closed

標準構成では、箱の障害=通信停止。「無検査で素通しになる窓」を開けません。

遮断は劣化しない

管理機能が停止しても、適用済みポリシーによる遮断はそのまま継続します。

自己完結

GUI・CLI・mTLS API をアプライアンスに同梱。追加サーバーも外部サービスも必要としません。

SBOM 同梱

サプライチェーン管理として SBOM を同梱。信頼の根拠を、添付して届けます。

正直に明示します — 標準構成では、Tate が可用性の単一障害点になります。可用性を優先する場合は HWバイパスNIC(fail-open)をご検討ください。

07 v1 spec summary

仕様サマリ (設計ドキュメント由来の事実のみ)

想定構成 v1想定 Entry 1GbE
ブリッジ L2透過ブリッジ(データポートはIPを持たない)
運用段階 observe / monitor / enforce の3段階
enforce 既定 allow-base(ブラックリスト型)
AIガードレール lockdown は deny-base(ホワイトリスト型)プロファイル
ドメイン制御 TLS SNI / HTTP Host(TLS復号はしない)
管理 内蔵Web GUI ・ CLI ・ mTLS API(アプライアンスに同梱)
可用性オプション HWバイパスNIC(障害時に物理直結 / fail-open)
08 正直な限界

できること、できないこと。

いいえ。Tate は TLS を復号しません(MITM をしません)。検査するのはヘッダメタデータ(L3/L4)と接続先ドメイン(TLS SNI / HTTP Host)です。「どこへ繋ぐか」は見えますが、「何を送るか」の中身は見ません。

できません。ドメイン(ホスト名)単位の制御です。同一ホスト上のパス別 webhook は区別できません。より細かい制御はアプリケーション層の領分です。

しません。「AIを検出する」機能ではありません。対象は設置場所と運用者の宣言(公認リスト)で定義します。lockdown はエージェント専有ホストを前提とします。

標準構成では fail-closed — 箱の障害は通信停止となり、Tate が可用性の単一障害点になります。可用性を優先する場合は、障害時に物理直結する HWバイパスNIC(fail-open)をオプションで選べます。

ネットワーク許可リストは被害範囲(blast radius)を限定するものであり、内容検査ではありません。公認LLMへ秘密を送る等、allow-list 内の正規宛先の悪用は、ネットワーク層だけでは捕捉できません。

FAQ をすべて見る