Agent Browserは、AIエージェント専用に設計されたヘッドレスブラウザ自動化CLIツールです。高速なRust CLIとNode.jsフォールバックで構築され、アクセシビリティツリースナップショット、決定論的要素参照、JSON出力モードなどの機能を備え、AI駆動のWeb自動化に最適なインターフェースを提供します。

コア機能

1. AI最適化ワークフロー

参照付きスナップショット：決定論的要素参照（@e1、@e2など）を持つアクセシビリティツリーを取得
参照ベースのアクション：スナップショットからの参照を使用して要素と対話し、信頼性の高い自動化を実現
JSON出力モード：AIエージェント統合に最適な機械可読出力

2. 高速Rust CLI

ネイティブRustバイナリによる超高速コマンド実行
永続的なブラウザセッションのためのクライアント-デーモンアーキテクチャ
ネイティブバイナリが利用できない場合のNode.jsへの自動フォールバック

3. 包括的なブラウザ制御

完全なナビゲーションとインタラクション機能
マウス、キーボード、タッチイベントのシミュレーション
ネットワークインターセプトとモック化
CookieとStorageの管理
マルチタブとiframeサポート

4. セッション管理

並列自動化のための分離されたブラウザセッション
永続的な認証状態
セッションスコープのCookieとStorage

5. ストリーミングとプレビュー

WebSocketベースのブラウザビューポートストリーミング
AIエージェントとの「ペアブラウジング」のためのライブプレビュー
リアルタイム入力イベント注入

6. 柔軟なデプロイ

カスタムブラウザ実行可能ファイルのサポート（サーバーレス用の@sparticuz/chromiumなど）
既存のブラウザに接続するCDPモード
デバッグ用のヘッド付きモード

主なコマンド

ナビゲーションとインタラクション

agent-browser open <url>              # URLに移動
agent-browser click <sel>             # 要素をクリック
agent-browser fill <sel> <text>       # 入力を埋める
agent-browser type <sel> <text>       # テキストを入力
agent-browser press <key>             # キーを押す
agent-browser hover <sel>             # 要素にホバー
agent-browser scroll <dir> [px]       # ページをスクロール

AI最適化ワークフロー

agent-browser snapshot                # 参照付きアクセシビリティツリーを取得
agent-browser snapshot -i             # インタラクティブ要素のみ
agent-browser snapshot -c             # コンパクトモード
agent-browser click @e2               # 参照でクリック
agent-browser fill @e3 "text"         # 参照で埋める
agent-browser get text @e1            # 参照でテキストを取得

情報取得

agent-browser get text <sel>          # テキストコンテンツを取得
agent-browser get html <sel>          # innerHTMLを取得
agent-browser get value <sel>         # 入力値を取得
agent-browser get title               # ページタイトルを取得
agent-browser get url                 # 現在のURLを取得

状態チェック

agent-browser is visible <sel>        # 可視性をチェック
agent-browser is enabled <sel>        # 有効かチェック
agent-browser is checked <sel>        # チェック済みかチェック

高度な機能

agent-browser screenshot [path]       # スクリーンショットを撮る
agent-browser pdf <path>              # PDFとして保存
agent-browser eval <js>               # JavaScriptを実行
agent-browser network route <url>     # リクエストをインターセプト
agent-browser cookies                 # Cookieを管理
agent-browser storage local           # localStorageを管理

最適なAIワークフロー

# 1. ナビゲートしてスナップショットを取得
agent-browser open example.com
agent-browser snapshot -i --json   # AIがツリーと参照を解析

# 2. AIがスナップショットからターゲット参照を識別
# 3. 参照を使用してアクションを実行
agent-browser click @e2
agent-browser fill @e3 "input text"

# 4. ページが変更された場合は新しいスナップショットを取得
agent-browser snapshot -i --json

主な機能

決定論的選択：参照はスナップショットから要素への正確なターゲティングを提供
高速実行：デーモンアーキテクチャを持つRust CLIによる高速化
AI対応出力：シームレスなAI統合のためのJSONモード
クロスプラットフォーム：macOS、Linux、Windowsサポート
サーバーレス対応：軽量デプロイ用のカスタム実行可能ファイルサポート
セッション分離：複数の並列ブラウザインスタンス
ライブストリーミング：WebSocketベースのビューポートストリーミング

ユースケース

AIエージェントのWeb自動化とテスト
自動UIテストと監視
AIガイド付きWebスクレイピング
ブラウザベースのタスク自動化
サーバーレスブラウザ自動化
AI支援デバッグと探索
人間の監視下でのペアブラウジング

技術詳細

アーキテクチャ：Rust CLI + Node.jsデーモン
ブラウザエンジン：Chromium（Playwright経由）
プラットフォーム：macOS ARM64/x64、Linux ARM64/x64、Windows x64
プロトコル：Chrome DevTools Protocol (CDP)
ストリーミング：WebSocketベースのビューポートストリーミング
出力：人間可読またはJSON形式

Agent Browser

コア機能

1. AI最適化ワークフロー

2. 高速Rust CLI

3. 包括的なブラウザ制御

4. セッション管理

5. ストリーミングとプレビュー

6. 柔軟なデプロイ

主なコマンド

ナビゲーションとインタラクション

AI最適化ワークフロー

情報取得

状態チェック

高度な機能

最適なAIワークフロー

主な機能

ユースケース

技術詳細

コメント

関連ツール

Playwright

Replit Agent

Claude Hooks

関連インサイト

ローコードプラットフォームの黄昏：なぜClaude Agent SDKがDifyを歴史にするのか

Skills + Hooks + Plugins：AnthropicによるAIコーディングツールの拡張性の再定義

Claude Skills 完全ガイド - 必須10大 Skills 徹底解説