Agent Browserは、AIエージェント専用に設計されたヘッドレスブラウザ自動化CLIツールです。高速なRust CLIとNode.jsフォールバックで構築され、アクセシビリティツリースナップショット、決定論的要素参照、JSON出力モードなどの機能を備え、AI駆動のWeb自動化に最適なインターフェースを提供します。
コア機能
1. AI最適化ワークフロー
- 参照付きスナップショット:決定論的要素参照(@e1、@e2など)を持つアクセシビリティツリーを取得
- 参照ベースのアクション:スナップショットからの参照を使用して要素と対話し、信頼性の高い自動化を実現
- JSON出力モード:AIエージェント統合に最適な機械可読出力
2. 高速Rust CLI
- ネイティブRustバイナリによる超高速コマンド実行
- 永続的なブラウザセッションのためのクライアント-デーモンアーキテクチャ
- ネイティブバイナリが利用できない場合のNode.jsへの自動フォールバック
3. 包括的なブラウザ制御
- 完全なナビゲーションとインタラクション機能
- マウス、キーボード、タッチイベントのシミュレーション
- ネットワークインターセプトとモック化
- CookieとStorageの管理
- マルチタブとiframeサポート
4. セッション管理
- 並列自動化のための分離されたブラウザセッション
- 永続的な認証状態
- セッションスコープのCookieとStorage
5. ストリーミングとプレビュー
- WebSocketベースのブラウザビューポートストリーミング
- AIエージェントとの「ペアブラウジング」のためのライブプレビュー
- リアルタイム入力イベント注入
6. 柔軟なデプロイ
- カスタムブラウザ実行可能ファイルのサポート(サーバーレス用の@sparticuz/chromiumなど)
- 既存のブラウザに接続するCDPモード
- デバッグ用のヘッド付きモード
主なコマンド
ナビゲーションとインタラクション
agent-browser open <url> # URLに移動
agent-browser click <sel> # 要素をクリック
agent-browser fill <sel> <text> # 入力を埋める
agent-browser type <sel> <text> # テキストを入力
agent-browser press <key> # キーを押す
agent-browser hover <sel> # 要素にホバー
agent-browser scroll <dir> [px] # ページをスクロール
AI最適化ワークフロー
agent-browser snapshot # 参照付きアクセシビリティツリーを取得
agent-browser snapshot -i # インタラクティブ要素のみ
agent-browser snapshot -c # コンパクトモード
agent-browser click @e2 # 参照でクリック
agent-browser fill @e3 "text" # 参照で埋める
agent-browser get text @e1 # 参照でテキストを取得
情報取得
agent-browser get text <sel> # テキストコンテンツを取得
agent-browser get html <sel> # innerHTMLを取得
agent-browser get value <sel> # 入力値を取得
agent-browser get title # ページタイトルを取得
agent-browser get url # 現在のURLを取得
状態チェック
agent-browser is visible <sel> # 可視性をチェック
agent-browser is enabled <sel> # 有効かチェック
agent-browser is checked <sel> # チェック済みかチェック
高度な機能
agent-browser screenshot [path] # スクリーンショットを撮る
agent-browser pdf <path> # PDFとして保存
agent-browser eval <js> # JavaScriptを実行
agent-browser network route <url> # リクエストをインターセプト
agent-browser cookies # Cookieを管理
agent-browser storage local # localStorageを管理
最適なAIワークフロー
# 1. ナビゲートしてスナップショットを取得
agent-browser open example.com
agent-browser snapshot -i --json # AIがツリーと参照を解析
# 2. AIがスナップショットからターゲット参照を識別
# 3. 参照を使用してアクションを実行
agent-browser click @e2
agent-browser fill @e3 "input text"
# 4. ページが変更された場合は新しいスナップショットを取得
agent-browser snapshot -i --json
主な機能
- 決定論的選択:参照はスナップショットから要素への正確なターゲティングを提供
- 高速実行:デーモンアーキテクチャを持つRust CLIによる高速化
- AI対応出力:シームレスなAI統合のためのJSONモード
- クロスプラットフォーム:macOS、Linux、Windowsサポート
- サーバーレス対応:軽量デプロイ用のカスタム実行可能ファイルサポート
- セッション分離:複数の並列ブラウザインスタンス
- ライブストリーミング:WebSocketベースのビューポートストリーミング
ユースケース
- AIエージェントのWeb自動化とテスト
- 自動UIテストと監視
- AIガイド付きWebスクレイピング
- ブラウザベースのタスク自動化
- サーバーレスブラウザ自動化
- AI支援デバッグと探索
- 人間の監視下でのペアブラウジング
技術詳細
- アーキテクチャ:Rust CLI + Node.jsデーモン
- ブラウザエンジン:Chromium(Playwright経由)
- プラットフォーム:macOS ARM64/x64、Linux ARM64/x64、Windows x64
- プロトコル:Chrome DevTools Protocol (CDP)
- ストリーミング:WebSocketベースのビューポートストリーミング
- 出力:人間可読またはJSON形式
コメント
まだコメントがありません。最初のコメントを投稿してください!
関連ツール
Playwright
playwright.dev
Playwrightは、Microsoftが開発したモダンなエンドツーエンドテストフレームワークで、単一のAPIでChromium、Firefox、WebKitでの信頼性の高いテストを可能にします。
Replit Agent
replit.com/agent
Replitが提供するAIエージェント、ゼロから完全なアプリを構築、環境設定、依存関係インストール、コード生成、デプロイを自動処理。
Claude Hooks
claude.ai/code
Claude Codeのイベント駆動スクリプト実行システムで、特定のイベントに応答してシェルコマンドを自動実行し、ワークフローの自動化、品質ゲート、カスタム統合を可能にします。
関連インサイト
ローコードプラットフォームの黄昏:なぜClaude Agent SDKがDifyを歴史にするのか
大規模言語モデルの第一原理から、なぜClaude Agent SDKがDifyを置き換えるのかを深く分析。自然言語でプロセスを記述することが人間の原始的な行動パターンにより合致している理由、そしてなぜこれがAI時代の必然的な選択なのかを探る。
Skills + Hooks + Plugins:AnthropicによるAIコーディングツールの拡張性の再定義
Claude CodeのSkills、Hooks、Pluginsという三位一体アーキテクチャを深く分析し、なぜこの設計がGitHub CopilotやCursorよりも先進的なのか、そしてオープンスタンダードを通じてAIコーディングツールの拡張性をどのように再定義しているかを探ります。
Claude Skills 完全ガイド - 必須10大 Skills 徹底解説
Claude Skills の拡張メカニズムを深掘りし、10の中核スキルと Obsidian 連携を詳しく解説。高効率な AI ワークフロー構築を支援します