Agent Browser logo

Agent Browser

開く

AIエージェント向けに設計されたヘッドレスブラウザ自動化CLI。高速なRust CLIとNode.jsフォールバックで、AIワークフローとのシームレスな統合を実現。

共有:

Agent Browserは、AIエージェント専用に設計されたヘッドレスブラウザ自動化CLIツールです。高速なRust CLIとNode.jsフォールバックで構築され、アクセシビリティツリースナップショット、決定論的要素参照、JSON出力モードなどの機能を備え、AI駆動のWeb自動化に最適なインターフェースを提供します。

コア機能

1. AI最適化ワークフロー

  • 参照付きスナップショット:決定論的要素参照(@e1、@e2など)を持つアクセシビリティツリーを取得
  • 参照ベースのアクション:スナップショットからの参照を使用して要素と対話し、信頼性の高い自動化を実現
  • JSON出力モード:AIエージェント統合に最適な機械可読出力

2. 高速Rust CLI

  • ネイティブRustバイナリによる超高速コマンド実行
  • 永続的なブラウザセッションのためのクライアント-デーモンアーキテクチャ
  • ネイティブバイナリが利用できない場合のNode.jsへの自動フォールバック

3. 包括的なブラウザ制御

  • 完全なナビゲーションとインタラクション機能
  • マウス、キーボード、タッチイベントのシミュレーション
  • ネットワークインターセプトとモック化
  • CookieとStorageの管理
  • マルチタブとiframeサポート

4. セッション管理

  • 並列自動化のための分離されたブラウザセッション
  • 永続的な認証状態
  • セッションスコープのCookieとStorage

5. ストリーミングとプレビュー

  • WebSocketベースのブラウザビューポートストリーミング
  • AIエージェントとの「ペアブラウジング」のためのライブプレビュー
  • リアルタイム入力イベント注入

6. 柔軟なデプロイ

  • カスタムブラウザ実行可能ファイルのサポート(サーバーレス用の@sparticuz/chromiumなど)
  • 既存のブラウザに接続するCDPモード
  • デバッグ用のヘッド付きモード

主なコマンド

ナビゲーションとインタラクション

agent-browser open <url>              # URLに移動
agent-browser click <sel>             # 要素をクリック
agent-browser fill <sel> <text>       # 入力を埋める
agent-browser type <sel> <text>       # テキストを入力
agent-browser press <key>             # キーを押す
agent-browser hover <sel>             # 要素にホバー
agent-browser scroll <dir> [px]       # ページをスクロール

AI最適化ワークフロー

agent-browser snapshot                # 参照付きアクセシビリティツリーを取得
agent-browser snapshot -i             # インタラクティブ要素のみ
agent-browser snapshot -c             # コンパクトモード
agent-browser click @e2               # 参照でクリック
agent-browser fill @e3 "text"         # 参照で埋める
agent-browser get text @e1            # 参照でテキストを取得

情報取得

agent-browser get text <sel>          # テキストコンテンツを取得
agent-browser get html <sel>          # innerHTMLを取得
agent-browser get value <sel>         # 入力値を取得
agent-browser get title               # ページタイトルを取得
agent-browser get url                 # 現在のURLを取得

状態チェック

agent-browser is visible <sel>        # 可視性をチェック
agent-browser is enabled <sel>        # 有効かチェック
agent-browser is checked <sel>        # チェック済みかチェック

高度な機能

agent-browser screenshot [path]       # スクリーンショットを撮る
agent-browser pdf <path>              # PDFとして保存
agent-browser eval <js>               # JavaScriptを実行
agent-browser network route <url>     # リクエストをインターセプト
agent-browser cookies                 # Cookieを管理
agent-browser storage local           # localStorageを管理

最適なAIワークフロー

# 1. ナビゲートしてスナップショットを取得
agent-browser open example.com
agent-browser snapshot -i --json   # AIがツリーと参照を解析

# 2. AIがスナップショットからターゲット参照を識別
# 3. 参照を使用してアクションを実行
agent-browser click @e2
agent-browser fill @e3 "input text"

# 4. ページが変更された場合は新しいスナップショットを取得
agent-browser snapshot -i --json

主な機能

  • 決定論的選択:参照はスナップショットから要素への正確なターゲティングを提供
  • 高速実行:デーモンアーキテクチャを持つRust CLIによる高速化
  • AI対応出力:シームレスなAI統合のためのJSONモード
  • クロスプラットフォーム:macOS、Linux、Windowsサポート
  • サーバーレス対応:軽量デプロイ用のカスタム実行可能ファイルサポート
  • セッション分離:複数の並列ブラウザインスタンス
  • ライブストリーミング:WebSocketベースのビューポートストリーミング

ユースケース

  • AIエージェントのWeb自動化とテスト
  • 自動UIテストと監視
  • AIガイド付きWebスクレイピング
  • ブラウザベースのタスク自動化
  • サーバーレスブラウザ自動化
  • AI支援デバッグと探索
  • 人間の監視下でのペアブラウジング

技術詳細

  • アーキテクチャ:Rust CLI + Node.jsデーモン
  • ブラウザエンジン:Chromium(Playwright経由)
  • プラットフォーム:macOS ARM64/x64、Linux ARM64/x64、Windows x64
  • プロトコル:Chrome DevTools Protocol (CDP)
  • ストリーミング:WebSocketベースのビューポートストリーミング
  • 出力:人間可読またはJSON形式

コメント

まだコメントがありません。最初のコメントを投稿してください!