Is Your LLM Secretly a World Model of the Internet?
Model-Based Planning for Web Agents
Abstract
言語エージェントはウェブベースのタスクの自動化において有望な能力を示してきたが、現在の反応的アプローチではまだ人間と比べて大きく劣っている。 高度な計画アルゴリズム、特にツリー探索手法を組み込むことでこれらのエージェントの性能を向上させる可能性があるが、実際のウェブサイト上で直接ツリー探索を実装することは、購入の確定など不可逆的な行動による重大な安全リスクと実用上の制約をもたらす。 本稿では、言語エージェントにモデルベースの計画を組み込む新しいパラダイムを導入し、複雑なウェブ環境において大規模言語モデル(LLM)をワールドモデルとして革新的に活用することを先駆的に提案する。 我々の手法であるWebDreamerは、LLMが本質的にウェブサイトの構造と機能に関する包括的な知識を符号化しているという重要な洞察に基づいている。 具体的には、WebDreamerはLLMを使用して、各候補行動(例:「このボタンをクリックしたら何が起こるか?」)の結果を自然言語の記述を用いてシミュレートし、これらの想像された結果を評価して各ステップで最適な行動を決定する。 オンラインでの相互作用を伴う2つの代表的なウェブエージェントベンチマーク(VisualWebArenaとMind2Web-live)での実証結果は、WebDreamerが反応的なベースラインと比較して大幅な改善を達成することを示している。 ウェブ環境においてLLMをワールドモデルとして活用する可能性を確立することで、本研究は自動化されたウェブ相互作用におけるパラダイムシフトの基礎を築いている。 より広い観点では、我々の発見は1)複雑で動的な環境におけるワールドモデリングに特化したLLMの最適化、2)言語エージェントのためのモデルベースの推測的計画、という2つの興味深い新しい研究の方向性を開拓している。 111Github: OSU-NLP-Group/WebDreamer
1 Introduction
プランニング (Mattar & Lengyel, 2022)—初期状態から目標を達成するための最適な行動順序を戦略的に探索すること—は、人工知能の創成期から基本的なものであり、囲碁のような競技でのスーパーヒューマンな性能 (Feng et al., 2023; Silver et al., 2016) を含む顕著な breakthrough を推進してきた。 最近の進歩により、大規模言語モデル(LLM)と高度なプランニングアルゴリズムを統合すること(例えば、Yao et al. (2023a); Hao et al. (2023); Gu et al. (2023); Wang et al. (2024); Feng et al. (2023); Brown et al. (2024))が、思考の連鎖(CoT)(Wei et al., 2022)アプローチを超えて、複雑な推論タスクにおけるそれらの性能を大幅に向上させることが実証されており、OpenAIのo1 (OpenAI, 2024b)はその顕著な例である。 これらの手法は、推論時の計算を効果的にスケールアップし、LLMが複数の潜在的な解決経路を探索することを可能にし、最終的により正確な結果につながる。
これらの発展と並行して、多様なウェブサイト上で複雑なタスクを完了するために一連の行動を計画し実行できる汎用ウェブエージェントの研究が大きな注目を集めている(Deng et al., 2023; Zhou et al., 2023; Zheng et al., 2024; Koh et al., 2024a)。 これは部分的に、ウェブがエージェント研究開発を推進するための複雑かつ現実的な環境としての可能性を持っているためである。 しかしながら、既存の計画アルゴリズムをオンラインウェブ環境に適用することは、極めて困難な課題を提示する。 これらの課題の中で最も重要なのは、ライブウェブサイトとの相互作用に伴う固有の安全性リスクである(Liao et al., 2024)。例えば、機密情報を含むフォームを誤って送信したり、意図しないトランザクションを引き起こしたりする可能性がある。 これらのリスクは、木探索アルゴリズム(Koh et al., 2024b; Putta et al., 2024)を使用する際にさらに顕著になる。なぜなら、その網羅的な探索によって、エージェントが隠れた脆弱性や予期せぬシナリオにさらされる可能性があるためである。 さらに、購入の確認やメールの送信など、多くのオンライン行動は不可逆であり、これにより計画アルゴリズムの重要な要素であるバックトラッキングが非常に困難になり、場合によっては不可能になる。
これらの課題に対処する有望な解決策の1つはモデルベース計画である(Pascanu et al., 2017; Moerland et al., 2023)。これは、エージェントに世界モデル—環境のダイナミクスを計算機上で表現したもの—を用いてインタラクションをシミュレートする能力を与える。 このバーチャル環境内で行動シーケンスをシミュレートすることで、エージェントは実際のウェブサイトと直接やり取りすることなく、安全に潜在的な結果を探索できる。 このアプローチは安全性リスクを軽減するだけでなく、エージェントの探索と計画の能力も維持する。 しかし、真の課題は、絶えず進化するインターネットの景観を忠実に捉えることができる汎用性のある世界モデルを作成することにある。 先行研究では、LLMがブロックスワールド(Hao et al., 2023)やグリッドワールド(Kim et al., 2024)のような単純な設定において効果的な世界モデルとして機能することが示されているが、 より大胆な疑問が浮かび上がる: LLMは広大で動的なインターネットをモデル化するという課題に立ち向かうことができるか? ウェブ構造、プロトコル、ユーザー行動に及ぶ広範な事前学習知識を持つLLMは、この任務に取り組むユニークな立場にある。 これらの洞察に基づき、我々はWebDreamerを提案する。これは、LLMを世界モデルとして活用してウェブを操作する先駆的なフレームワークである(図1)。 WebDreamerの核心にあるのは「夢見る」という概念である:エージェントは行動を実行する前に、LLMを使用して各可能なステップの結果を想像し、状態がどのように変化するかを自然言語の記述として表現する。 これらのシミュレートされた結果は、タスク目標の達成に向けた進捗に基づいて評価される。 最も有望な行動が実行され、LLMが目標が達成されたと判断するまで、このプロセスが繰り返し行われる(セクション4)。
WebDreamerの有効性を検証するため、我々はオンラインでのインタラクションをサポートする2つの代表的なベンチマークである VisualWebArena (Koh et al., 2024a) と Mind2Web-live (Pan et al., 2024b) で評価を行った。 WebDreamerは両ベンチマークにおいて、反応型エージェントに対して大幅な性能向上を達成し、その概念的な単純さにもかかわらず実用的価値を示している。 VisualWebArenaでは、実際のインタラクションを伴うツリー探索がわずかに優れた性能を示しているが、これは3つのローカルにホストされたウェブサイトからなる制御された環境を特徴としている。しかし、この手法は安全性リスクや実世界のウェブサイトにおける不可逆的な行動の可能性といった本質的な制限があるため、実用的なアプリケーションではほとんど実現不可能である。 対照的に、我々のシミュレーションベースのアプローチは、実世界のウェブナビゲーションタスクにおいて、性能向上と実用的な適用可能性のバランスを取るより柔軟なソリューションを提供している。
要約すると、本稿はLLMによってシミュレートされた世界モデルを使用して、ウェブのような複雑な実世界環境におけるAI計画の新しい方向性を導入している。 WebDreamerにより、我々はウェブナビゲーションにおける安全性と複雑性という二重の課題に取り組んでいる。 我々の結果は、複雑なウェブ環境における計画のためのLLMベースの世界モデルの可能性を検証し、世界モデルとしてのLLMの最適化と言語エージェントのためのモデルベース計画アルゴリズムの改善に向けた新たな機会を浮き彫りにしている。
2 Related Work
2.1 Web Agents
面倒で反復的なWeb上のタスクを自動化するという目標に駆動され、(マルチモーダル)言語モデルを活用したWebエージェントは様々な側面で大きな進歩を遂げている。ベンチマークはMiniWoB++ (Shi et al., 2017; Liu et al., 2018) からWebShop (Yao et al., 2022) やWebArena (Zhou et al., 2023) へと進化し、より現実的なウェブサイトのシミュレーションを提供するようになった。VisualWebArena (Koh et al., 2024a) とMind2Web (Deng et al., 2023) は、視覚情報を扱う能力と、多様なタスク、ウェブサイト、ドメインにわたる汎化能力をモデルに要求している。
-
リアクティブエージェント。
リアクティブエージェントは、将来の行動の探索やシミュレーションを行わず、環境からの即時の観察に基づいて決定を下す。これは通常、ReActフレームワーク (Yao et al., 2023b) を用いて実装される。 リアクティブWebエージェントの基本的な能力を向上させるため、クローズドソースモデルのプロンプティング (Zheng et al., 2024; He et al., 2024; Deng et al., 2023) やHTMLとWebページのスクリーンショットを使用したモデルのトレーニング (Lee et al., 2023; Gur et al., 2023; Furuta et al., 2023; Hong et al., 2024; Baechler et al., 2024) を通じて大きな進展が見られた。 さらに、アクション-座標ペアデータでのトレーニングを通じて、Webエージェントのアクションを要素に紐付ける能力が向上した (You et al., 2024; Cheng et al., 2024)。 Webエージェントの軌跡に基づくトレーニングにより、さらなる進歩が達成された。これには人間がアノテーションを付けた軌跡 (Shaw et al., 2023; Hong et al., 2024; Deng et al., 2023; Lai et al., 2024) と合成された探索軌跡 (Furuta et al., 2023; Song et al., 2024; Patel et al., 2024) の両方が活用された。 しかし、リアクティブエージェントは本質的に近視眼的であり、多段階の意思決定において最適とは言えないパフォーマンスにつながることが多い。
-
ツリー探索を用いるエージェント。
Pan et al. (2024a) は、GPT-4Vに基づく報酬モデルを導入し、推論時の探索を導くためのステップごとおよび軌跡レベルの報酬を提供するよう設計されている。Search Agent (Koh et al., 2024b) は、インタラクティブなWeb環境における推論時の探索アルゴリズムを調査し、明示的な探索と多段階の計画を可能にしている。Search Agentが最良優先ツリー探索の変種を採用しているのに対し、AgentQ (Putta et al., 2024) とWebPilot (Zhang et al., 2024) は主要な探索戦略としてモンテカルロ木探索(MCTS)を利用している。
ウェブサイト上でのツリー探索は大きな改善を示しているが、依然としていくつかの制限がある。第一に、探索プロセスは広範な探索を必要とするため、推論時間を大幅に増加させる。これは本質的に逐次的な性質のため、並列化が困難である。 以前の状態への巻き戻しは探索ベースの手法には不可欠だが、実世界のウェブサイトでは実用的ではない。Koh et al. (2024b) はサンドボックス環境でこの問題に対処するため、環境をリセットした後に状態を再開するためのアクションシーケンスを保存した。しかし、環境のリセットやアクションシーケンスの取り消しは、実際のウェブサイトでは実現不可能である。 最後に、探索アルゴリズムによって導入される追加の探索は、ウェブサイトの状態を不可逆的に変更する可能性のある破壊的なアクションのリスクを大幅に増大させ、潜在的に有害な副作用を引き起こす可能性がある。
2.2 World Models
ワールドモデルは、Sutton (1991)によるDynaの導入以来、モデルベース強化学習の基礎となっている(Moerland et al., 2023)。これらは通常、観測された状態遷移に基づいて訓練され、将来の状態と報酬を予測する。 これらのワールドモデルは、シミュレーションされた経験を通じて効率的な訓練を可能にし、環境との相互作用を減らし、サンプル効率を向上させる(Ha & Schmidhuber, 2018)。 訓練における役割を超えて、研究者たちはワールドモデルを計画立案に活用することを探求してきた(Pascanu et al., 2017; Schrittwieser et al., 2020)。 根本的に、強化学習におけるワールドモデルは、しばしばタスク特有の訓練を伴い、主にエージェントの学習プロセスにおけるデータ効率の向上に焦点を当てている。
強化学習における従来のワールドモデルとは対照的に、ワールドモデルとして使用されるLLMは、主に訓練ではなく計画立案における意思決定の促進に焦点を当てている。 この違いにより、LLMベースのモデルは、強化学習で通常必要とされる高忠実度のシミュレーションよりも、重要なタスクの抽象化を優先する。 最近の研究では、LLMがエンコードした広範な世界知識を活用して、単純な環境におけるワールドモデルとしてのLLMの可能性が示されている(Hao et al., 2023; Kim et al., 2024)。 本稿は、より複雑な現実世界の環境、特に多様なウェブサイトにおいて、LLMベースのワールドモデルの能力を調査することで、この分野を前進させることを目指している。 並行して行われた研究(Chae et al., 2024)もLLMシミュレーションによるアクション結果を用いてウェブエージェントを強化することを探求しているが、彼らの焦点はオープンウェイトLLMを訓練するためのデータ収集にあるのに対し、我々の焦点はGPT-4o(OpenAI, 2024a)のような高度なLLMを使用してこの新しいパラダイムの可能性を理解することにある。
3 Preliminary
Action Type | Description |
---|---|
click [] | Click on . |
hover [] | Hover over . |
type [] [] | Type into . |
press [] | Press a key combo. |
goto [] | Go to . |
go_back | Click back. |
go_forward | Click forward. |
new_tab | Open a new tab. |
tab_focus [] | Focus on the i-th tab. |
tab_close | Close current tab. |
scroll [] | Scroll up or down. |
stop [] | End with an output. |
3.1 Task Formulation
実際のウェブサイトでの活動を自動化するタスクを担うウェブエージェントは、広大で複雑な探索空間に直面する。 形式的には、タスク指示 を持つ各タスクは、部分観測可能マルコフ決定過程(POMDP)として定式化できる:。 ここで、 は環境の可能なすべての状態の集合を、 はエージェントが取り得るすべての可能な行動を、 は環境からの可能な観測の集合を、 は状態遷移関数を、 は で指定されたタスクが完了したかどうかを示す二値報酬を、そして は状態を観測に射影する決定論的関数を表す。 タスクの目標は、報酬1を達成する一連の行動を実行することである。
実際のシナリオでは、ウェブ環境の複雑さにより、環境は部分的にのみ観測可能である。 真の状態には、サーバーサイドの変数、動的にロードされるコンテンツ、隠れたUI要素が含まれ、ネットワーク状況やブラウザの制限の影響を受ける。 したがって、エージェントは限られたビューポート(すなわち、観測 )を通じてのみ環境を認識でき、これは真のシステム状態の不完全な射影を表す。 観測空間は通常、スクリーンショットやテキストベースのアクセシビリティツリーとして現れ、一般的な実装慣行を反映している。 この制限された観測可能性は、自然にアクション空間 を形成し、これは 内の操作可能な要素に対して実行可能な操作、例えば要素のクリック、テキスト入力、URLナビゲーション(表1)から構成される。
3.2 Planning through Simulation
に支配される実際の相互作用を用いてツリー探索により最適な行動順序を計画することは、コストがかかり、不可逆的な行動のリスクがある。 モデルベースの計画は、環境の計算表現を使用して相互作用の結果をシミュレートすることで、これらの課題に対処する。 エージェントは実際の環境で行動を実行する代わりに、近似モデルを活用して状態遷移を予測し、実世界での相互作用なしに行動順序の効率的な探索と評価を可能にする。 BlocksWorldのような決定論的環境ではオフライン計画が実行前に完全な行動順序を計算できるが(Hao et al., 2023)、ウェブ環境はそのような長期予測には複雑すぎる。これにより、計画と実行を交互に行い、一度に1つの行動を計算するオンライン計画アプローチが必要となる。
顕著なアプローチの1つはモデル予測制御(MPC; Garcia et al. (1989))であり、これは将来の軌道を繰り返しシミュレートして行動を選択する。 各状態において、MPCは各可能な行動に対して、シミュレータ関数を使用して有限の地平線にわたる軌道をシミュレートし、スコアリング関数を用いてそれらを評価する。 最も有望な軌道につながる行動が実行される:。 このプロセスは新しい状態を観察した後に繰り返され、エージェントが実際の結果に基づいて計画を適応させながら、コストのかかる実世界での探索を回避することを可能にする。 実際には、部分観測性のため真の状態にアクセスすることはできないため、代わりに観測を用いてを行う。
4 WebDreamer: Model-Based Planning for Web Agents
本稿では、複雑なデジタル環境における効率的な計画を可能にするために、世界モデルとしてLLMを活用する先駆的なアプローチであるWebDreamerを提案する。 我々のアプローチは、Webインターフェースが複雑であるにもかかわらず、人間のユーザーにとって予測可能になるように設計されているという観察に動機づけられている。 ウェブサイトを閲覧する際、人間は視覚的な手がかりや一般的なデザインパターンに基づいて、行動の結果を効果的に予測することができる—「送信」ボタンをクリックするとフォームが送信され、商品画像を選択するとその詳細ページに移動する。 LLMが膨大な量のWeb関連データで訓練されていることを考えると、我々は、LLMがユーザーの行動の結果をシミュレートするのに十分な知識を獲得しており、計画のための効果的な世界モデルとして機能する可能性があると仮定している。
4.1 Core Design
WebDreamerは、セクション3.2で紹介されたシミュレーションを通じた計画のパラダイムに従う。 図2は、3つの候補アクションを用いてこのプロセスを示している。WebDreamerは各アクションに対して2ステップの軌跡をシミュレートし、最高スコアの軌跡を選択し、それに対応する初期アクションを実行する。 その核心において、WebDreamerはシミュレーション関数simとスコアリング関数scoreの両方を実装するためにLLMを活用している。
実装: sim 我々のsimの実装は2つのモジュールで構成されている:1つはアクション実行後の状態変化を予測し、を近似し、もう1つは予測された状態に基づいて可能なアクションを想像する。 これら2つのモジュールが合わさって、長さの軌跡を生成する。ここでは設定可能な水平線パラメータ(すなわち、シミュレーションの深さ)である。 具体的に、状態変化を表現するために、我々はLLMにアクションの効果のみに焦点を当てた簡潔な自然言語の説明を生成するようプロンプトを与える。 例えば、図2において、LLMは「Electronics」をクリックというアクションを実行した効果を予測するよう促された場合、以下のような短い説明を出力するだろう:
この予測された状態に基づいて、LLMは次のアクション(すなわち、「Computers & Accessories」をクリック)を想像し、これがさらに別の状態変化予測につながる。 このプロセスにより、水平線の軌跡が生成される。
実装: score simを使用して各候補アクションからシミュレートされた軌跡を収集した後、我々はさらにLLMを各シミュレーションのスコアリング関数として使用する。 Koh et al. (2024b)に従い、我々はLLMに各シミュレートされた軌跡を3段階の応答—完了(1.0)、進行中(0.5)、不正確(0)—でタスク完了に向けての進捗を示すよう評価させる。 最終スコアはこれらの評価の複数のサンプルの平均を計算することで得られる。
simとscoreに加えて、計画の前提条件は候補アクションの生成である。 我々は2段階のアプローチを採用している:まずKoh et al. (2024b)に従ってトップkアクションをサンプリングし、次にLLMを使用してシミュレーションに不要なアクションを自己改善する。 この自己改善ステップは、異なるステップで同じkが様々な程度の無関係なアクションをもたらすという我々の観察に動機づけられている—一部のステップは自然に他のステップよりも妥当なアクションが少ない。 我々はWebDreamerの全体的な設計の疑似コードをアルゴリズム1に示す。 termination_checkは、モデルがstopアクションを出力したか、最大ステップ数に達したか、またはアクションを3回以上繰り返したかを確認する。これもKoh et al. (2024b)の実装に従っている。
WebDreamerで使用されるすべてのシステムプロンプトは付録Aに記載されている。
4.2 Discussion
我々の目標—ウェブ環境のための世界モデルとしてLLMを使用する先駆的研究—に照らして設計の選択を正当化するために、3つの重要な考慮事項について議論する:
-
HTML/アクセシビリティツリーの代わりに状態変化の記述。
我々は状態変化を捉えるために自然言語による記述を使用しているが、代替案としてLLMに結果ページのHTMLやアクセシビリティツリーを予測させることも考えられる。 しかし、アクション後もほとんどのウェブページ要素は変更されないため、ページ構造全体を予測することは不必要に無駄である。 さらに、そのような具体的な予測はより幻覚を引き起こしやすい—HTMLはウェブサイトに関する正確な詳細を必要とするが、状態の記述は本質的な変化のみを捉える必要がある。 この先駆的研究において、我々はこのより単純で直感的な表現を採用するが、HTMLやアクセシビリティツリーに対する厳密な優位性を主張するものではない(詳細な分析については第6.1節を参照)。
-
ファインチューニングではなくプロンプティング。
本稿では、WebDreamerを最先端のLLM(すなわち、GPT-4o (OpenAI, 2024a))の直接的なプロンプティングを通じて実装し、ファインチューニングは行わない。 我々の理由は単純である:まず、ウェブ環境の世界モデルとして高度なLLMを使用することの実現可能性と、計画におけるその有効性を確立することを目指している。 このアプローチで有望な結果を示すことで、ターゲットとするデータセットでOSSモデルをファインチューニングすることによってこの方向性を最適化する将来の研究の基礎を築くことができる。
-
MCTSではなく単純なMPCベースの計画。
我々は、最近のLLM計画研究で注目されているMCTSのようなより洗練されたアプローチ(Hao et al., 2023; Feng et al., 2023)ではなく、比較的単純なMPCベースの計画アルゴリズムを採用している。 この選択は我々の経験的知見に基づいている:WebDreamerの計画地平線を増やしても収穫逓減が見られ、これはLLMが多段階の軌跡を正確にモデル化することの現在の限界を示唆している(第6.1節参照)。 ウェブ環境の世界モデルとしてLLMを探索するという我々の目標を考えると、このより単純なアプローチで主要な洞察を示すには十分であり、同時にLLMの現在の能力を認識している。
5 Experiments
5.1 Setup
我々の計画フレームワークの実世界での性能を適切にテストするため、ウェブインタラクションの動的な性質を捉えるオンライン評価を用いたベンチマークを使用する。 我々は、2つの代表的なベンチマークに焦点を当てる:マルチモーダル設定を重視するVisualWebArena(VWA; Koh et al. (2024a))と、デフォルトでHTMLを使用するMind2Web-live (Pan et al., 2024b)である。 VWAは、ショッピング、クラシファイド、Redditの3つのローカルにホストされたウェブサイトにわたる910のタスクで構成されている。一方、Mind2Web-liveは69の実世界のウェブサイトにわたる104のタスクを含んでいる。 我々は両ベンチマークのデフォルト設定に従う:VWAでは、観察空間としてSet-of-Marksプロンプトを用いたスクリーンショットを使用し、Mind2Web-liveではHTMLを使用する。 我々のLLMとして、最も高度なマルチモーダルLLMであるGPT-4oを選択する。これは、LLMを用いたモデルベースの計画を先駆的に行い、この構想されたパラダイムの可能性を最大限に探求するという我々の目的に最も適しているためである。 実験では、計画の地平線を経験的に1に設定する。 このパラメータの包括的な分析は、6.1節で提示される。
本稿の提案の有効性を示すため、我々は主に2つの主要なベースラインと比較する:リアクティブエージェントと実際のインタラクションを伴うツリー探索エージェントである。222簡潔さのため、我々の実験では実際のインタラクションを伴うツリー探索を単にツリー探索と呼ぶ。 我々は両方のベンチマークで独自の手法を容易に実装できるが、 ツリー探索ベースライン (Koh et al., 2024b) については、Mind2Web-liveの実世界のウェブサイトでツリー探索を行うことが不可能であるため、VWAでのみ比較できる。 具体的には、VWAにおいて、Koh et al. (2024b) は以前の軌跡で状態に到達するための行動の順序を追跡している。バックトラッキング中、彼らはサンドボックスをリセットし、状態を復元するために行動の順序を再実行する。 しかし、Mind2Web-liveで取り上げられる実世界のウェブサイトでは、効果を元に戻すために環境をリセットすることは常に可能とは限らない。
5.2 Main Results
Benchmark | Observation | Method | Completion Rate | Success Rate |
---|---|---|---|---|
VisualWebArena | Screenshot+SoM | Gemini-1.5-Pro + Reactive (Koh et al., 2024a) | - | 12.0% |
GPT-4 + Reactive (Koh et al., 2024a) | - | 16.4% | ||
GPT-4o + Reactive (Koh et al., 2024a) | - | 17.7%† | ||
GPT-4o + Tree Search (Koh et al., 2024b) | - | 26.4% | ||
GPT-4o + WebDreamer | - | 23.6% (\faArrowUp33.3%) | ||
Mind2Web-live | HTML | GPT-4 + Reactive (Pan et al., 2024b) | 48.8% | 23.1% |
Claude-3-Sonnet + Reactive (Pan et al., 2024b) | 47.9% | 22.1% | ||
Gemini-1.5-Pro + Reactive (Pan et al., 2024b) | 44.6% | 22.3% | ||
GPT-4-turbo + Reactive (Pan et al., 2024b) | 44.3% | 21.1% | ||
GPT-3.5-turbo + Reactive (Pan et al., 2024b) | 40.2% | 16.5% | ||
GPT-4o + Reactive (Pan et al., 2024b) | 47.6% | 22.1% | ||
GPT-4o + WebDreamer | 49.9% | 25.0% (\faArrowUp13.1%) |
-
有効性。
表2に全体的なパフォーマンス結果を示す。 WebDreamerはVWAとMind2Web-liveの両データセットにおいて、反応型エージェントに対して大幅な改善を示している。 特筆すべきは、VWAデータセットにおいて、我々の提案手法が33.3%の相対的なパフォーマンス向上を達成したことである。 一方で、我々の提案は全体的な成功率においては依然として木探索ベースラインに及ばない。 しかし、木探索は実世界のウェブサイトには実用的な選択肢ではないのに対し、WebDreamerはより柔軟で適応性のある代替手段を提供していることを強調することが重要である。 Mind2Web-liveにおいて、WebDreamerは反応型ベースラインを2.9%(相対的に13.1%の向上)上回っているが、これはVWAほど顕著な改善ではない。しかし、表2に示されているように、Mind2Web-liveデータセットは複数のベースLLM間でパフォーマンスの差がほとんどないことから、識別力が高くないことに注意すべきである。 VWAとMind2Web-liveの両方で強力な結果が得られたことは、異なる観察設定にわたる我々の手法の有効性を示している。
我々はさらに、VWAデータセットにおいて、我々の提案手法と反応型ベースラインを複数の次元にわたってより詳細に分析を行った。 表3は、我々のモデルベース計画アプローチが全てのウェブサイトとタスク難易度レベルにわたって一貫して反応型ベースラインを上回っていることを示している。 VWAの公式アノテーションによる中程度の難易度のタスクにおいては、モデルベース計画は木探索のパフォーマンスさえも上回っている(すなわち、22.2% 対 24.1%)。 その有望性にもかかわらず、モデルベース計画は依然として多段階のシミュレーションを必要とするVWAの難しいタスクに苦戦している。 ステップ数が増えるにつれてシミュレーションの精度が低下し、難しいタスクの処理に大きな課題を提示している。
Websites | Reactive | Tree Search | WebDreamer | |
---|---|---|---|---|
Classifieds | 16.8% | 26.5% | 22.6% | 59.8% |
15.3% | 20.5% | 18.6% | 63.5% | |
Shopping | 19.4% | 29.0% | 26.5% | 74.0% |
Difficulty | Reactive | Tree Search | WebDreamer | |
---|---|---|---|---|
Easy | 28.8% | 42.3% | 37.4% | 63.7% |
Medium | 16.4% | 22.2% | 24.1% | 132.8% |
Hard | 10.7% | 14.9% | 12.7% | 47.6% |
-
効率性。
モデルベース計画のもう一つの重要な利点は、実際の探索を用いる木探索と比較した効率性である。表4に示すように、木探索はすべての環境においてベースラインの約3倍のステップを必要とするのに対し、我々の手法は同等のアクションステップを維持している。特筆すべきは、木探索が追加のアクションとバックトラッキングにより約10倍の実時間遅延を引き起こすのに対し、我々のアプローチにおけるシミュレーションのオーバーヘッドは最小限であり、並列化の増加によりさらに削減できる点である。
Steps | Reactive | Tree Search | WebDreamer |
---|---|---|---|
Classifieds | 3.4 | 9.9 | 4.1 |
5.1 | 13.6 | 5.2 | |
Shopping | 4.5 | 11.4 | 4.5 |
Seconds | Reactive | Tree Search | WebDreamer |
---|---|---|---|
Classifieds | 68.3 | 749.2 | 183.6 |
83.5 | 972.1 | 233.7 | |
Shopping | 87.7 | 785.7 | 179.4 |
6 Analyses
6.1 State Representation And Planning Horizon
我々のモデルベースの計画アプローチは、シミュレーションにおいて2つの重要な次元に依存している:状態表現と計画地平線(すなわち、シミュレーションの深さ)である。 その有効性と限界についてより深い洞察を得るために、我々は様々な構成が最終的なパフォーマンスにどのように影響するかを調査する。 これらの実験の計算コストが高いことを考慮し、我々はVWAデータセットのサブセットを使用してこの分析を行う。このサブセットは、公式に注釈付けされた人間の軌跡を含む100のショッピングタスクで構成されている。
我々の主要な実験で使用した状態変化の記述に加えて、GPT-4oがシミュレーション内で結果のウェブページのHTMLコードまたはアクセシビリティツリーを予測する代替アプローチを探索する。 これらの各状態表現について、1、2、3ステップの計画地平線を評価する。 図4に示されているように、3つの状態表現はすべて反応型ベースラインを大幅に上回るパフォーマンスを示している。 しかし、計画地平線が3ステップまで延長されると、その有効性は低下し、これらのアプローチ全体で長期的な地平線のシミュレーションに共通の限界を示している。 具体的には、シミュレーション内での行動提案は、LLMによって予測された現在の状態にそのような行動が存在しない場合でも、タスク完了に関連する行動を幻覚する傾向がある。 特筆すべきは、状態変化表現が計画地平線の延長に伴い最も顕著なパフォーマンス低下を示すことである。 この低下は、計画地平線が3の場合に特に深刻であり、パフォーマンスが反応型ベースラインを下回る。 この脆弱性は、現在のウェブページ上で利用可能な対話要素を暗黙的に指定していることに起因し、モデルが初期状態に変更を適用することでこれらの要素を推論する必要がある。 対照的に、HTMLとアクセシビリティツリーの表現は明示的に要素情報を提供する。
結果として、状態変化アプローチは長期的なシミュレーションにおいて幻覚に対してより脆弱である。 この限界にもかかわらず、状態変化アプローチは現在のLLMの能力を考慮すると依然として実行可能な選択肢である。計画地平線が3未満の場合、HTMLおよびアクセシビリティツリー表現と同等のパフォーマンスを示しつつ、より少ない出力トークンを消費する。
6.2 Ablation Study
我々のモデルベース計画アプローチの特定の部分から観察された改善が得られているかを判断するため、第6.1節と同じサブセットを用いて、シミュレーションと自己改善段階についてアブレーション実験を行った。 我々は特に、モデルベース計画の核心であるシミュレーション段階に注目した。 主な改善は、このランキングがシミュレーションに依存しているかどうかに関わらず、候補行動の再ランク付けから生じているという議論もあり得る。 この考えを検証するため、シミュレーション段階を完全に取り除き、代わりに報酬モデルに各候補行動を直接評価させる実験を行った。 図3に示すように、この修正された再ランク付けアプローチは反応型ベースラインに比べていくらかの改善をもたらすが、その改善は小さく、依然としてWebDreamerに大きく及ばない。 これらの結果は、LLMベースの世界モデルシミュレーションが計画プロセスにおいて重要な役割を果たしていることを確認している。 さらに、自己改善段階を取り除くと性能が低下することも観察された。 詳細な検討により、この低下は主に、次の最適な行動が明確な場合に、自己改善モジュールが関連性の低い候補行動を効果的にフィルタリングする能力によるものであることがわかった。 対照的に、すべての行動を直接シミュレーションすることは、性能に悪影響を与える可能性のある追加のノイズを導入する可能性がある。
6.3 Case Study
計画におけるシミュレーションの役割を明確にするため、我々は肯定的および否定的な例を含む事例研究を提示する。 これは、シミュレーションがエージェントの環境探索をどのように支援するか、また、シミュレーションの不正確さがどのように誤った予測につながる可能性があるかを示している。 詳細な例は付録Bに記載されている。
7 Conclusion
本稿では、複雑な環境における計画立案を支援するための世界モデルとして大規模言語モデル(LLM)を使用する強力な可能性を実証した。 具体的に、我々のモデルベースの計画立案アプローチであるWebDreamerは、反応型ベースラインと比較して大幅な改善を示し、実世界のウェブサイトでは多くの場合不可能である木探索よりも大きな柔軟性を提供する。 この分野における先駆的な取り組みとして、我々の研究はLLMによってシミュレートされた世界モデルを用いたモデルベースの計画立案に新たな道を開いている。 今後の研究では、複雑な環境のためのLLMを世界モデルとしてさらに最適化し、長期的な計画立案のためのより堅牢なモデルベースの計画立案アルゴリズムを開発することに焦点を当てることができる。
Limitations
本稿は、WebナビゲーションのためのLLMを用いたMPCベースの計画立案の先駆的な探索として、自然ないくつかの制限があり、これらは同時に興味深い将来の研究方向でもある:
-
計画立案アルゴリズムの単純さ。
この予備的研究において、我々は意図的に単純な計画立案アルゴリズムを採用し、我々のアプローチの核心的な可能性を実証した。効果的ではあるが、この単純さは将来の改善のための十分な余地を残している。モンテカルロ木探索(MCTS)のようなより洗練された計画立案技術を統合することで、さらなる性能向上が可能である。基礎的な研究として、我々の焦点はシステムのあらゆる側面を最適化するのではなく、概念の実現可能性を確立することにあった。この戦略的選択により、将来の研究が我々の発見に基づいて構築し、我々が確立した枠組みの中でより高度な計画立案戦略を探求することが可能となる。
-
計算コスト。
GPT-4oのような最先端のモデルを利用する我々の現在の実装は、無視できないAPIコスト(VWAでタスクあたり約1ドル)を伴う。このコストは、即時の制約なしにLLMベースの計画立案の可能性を十分に探求することを優先した結果である。実用的なアプリケーションのために、将来の研究ではシミュレーションタスクに特化したモデルの微調整など、コスト効率の高い代替案を調査することができる。これにより、性能と効率のバランスを取る将来の最適化のためのベンチマークが設定される。
これらの制限は、我々の研究が概念実証の性質を持つことを強調し、将来の研究と最適化のための多くの道を開いている。LLMを用いたMPCベースの計画立案の基本的な可能性を確立することで、我々はLLMベースの言語エージェントのための新しい計画立案パラダイムの基礎を築き、モデルベースの計画立案を洗練し拡張できるさらなる革新を促している。
Acknowledgments
我々は、OSU NLPグループおよびOrby AIの同僚からの洞察に富んだコメントに感謝の意を表したい。 本研究は、Orby AIおよびARL W911NF2220144の一部支援を受けている。 本稿に含まれる見解および結論は著者らのものであり、米国政府の公式の方針を表すものとして解釈されるべきではない。米国政府は、本稿に含まれる著作権表示にかかわらず、政府目的のために本稿を複製および配布する権限を有している。
References
- Baechler et al. (2024) Gilles Baechler, Srinivas Sunkara, Maria Wang, Fedir Zubach, Hassan Mansoor, Vincent Etter, Victor Cărbune, Jason Lin, Jindong Chen, and Abhanshu Sharma. Screenai: A vision-language model for ui and infographics understanding. ArXiv preprint, abs/2402.04615, 2024. URL https://arxiv.org/abs/2402.04615.
- Brown et al. (2024) Bradley Brown, Jordan Juravsky, Ryan Ehrlich, Ronald Clark, Quoc V Le, Christopher Ré, and Azalia Mirhoseini. Large language monkeys: Scaling inference compute with repeated sampling. ArXiv preprint, abs/2407.21787, 2024. URL https://arxiv.org/abs/2407.21787.
- Chae et al. (2024) Hyungjoo Chae, Namyoung Kim, Kai Tzu-iunn Ong, Minju Gwak, Gwanwoo Song, Jihoon Kim, Sunghwan Kim, Dongha Lee, and Jinyoung Yeo. Web agents with world models: Learning and leveraging environment dynamics in web navigation. arXiv preprint arXiv:2410.13232, 2024.
- Cheng et al. (2024) Kanzhi Cheng, Qiushi Sun, Yougang Chu, Fangzhi Xu, Li YanTao, Jianbing Zhang, and Zhiyong Wu. SeeClick: Harnessing GUI grounding for advanced visual GUI agents. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 9313–9332, Bangkok, Thailand, 2024. Association for Computational Linguistics. URL https://aclanthology.org/2024.acl-long.505.
- Deng et al. (2023) Xiang Deng, Yu Gu, Boyuan Zheng, Shijie Chen, Samual Stevens, Boshi Wang, Huan Sun, and Yu Su. Mind2web: Towards a generalist agent for the web. In Alice Oh, Tristan Naumann, Amir Globerson, Kate Saenko, Moritz Hardt, and Sergey Levine (eds.), Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10 - 16, 2023, 2023. URL http://papers.nips.cc/paper_files/paper/2023/hash/5950bf290a1570ea401bf98882128160-Abstract-Datasets_and_Benchmarks.html.
- Feng et al. (2023) Xidong Feng, Ziyu Wan, Muning Wen, Stephen Marcus McAleer, Ying Wen, Weinan Zhang, and Jun Wang. Alphazero-like tree-search can guide large language model decoding and training. ArXiv preprint, abs/2309.17179, 2023. URL https://arxiv.org/abs/2309.17179.
- Furuta et al. (2023) Hiroki Furuta, Kuang-Huei Lee, Ofir Nachum, Yutaka Matsuo, Aleksandra Faust, Shixiang Shane Gu, and Izzeddin Gur. Multimodal web navigation with instruction-finetuned foundation models. ArXiv preprint, abs/2305.11854, 2023. URL https://arxiv.org/abs/2305.11854.
- Garcia et al. (1989) Carlos E Garcia, David M Prett, and Manfred Morari. Model predictive control: Theory and practice—a survey. Automatica, 25(3):335–348, 1989.
- Gu et al. (2023) Yu Gu, Xiang Deng, and Yu Su. Don’t generate, discriminate: A proposal for grounding language models to real-world environments. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 4928–4949, Toronto, Canada, July 2023. Association for Computational Linguistics. doi: 10.18653/v1/2023.acl-long.270. URL https://aclanthology.org/2023.acl-long.270.
- Gur et al. (2023) Izzeddin Gur, Hiroki Furuta, Austin Huang, Mustafa Safdari, Yutaka Matsuo, Douglas Eck, and Aleksandra Faust. A real-world webagent with planning, long context understanding, and program synthesis. ArXiv preprint, abs/2307.12856, 2023. URL https://arxiv.org/abs/2307.12856.
- Ha & Schmidhuber (2018) David Ha and Jürgen Schmidhuber. World models. ArXiv preprint, abs/1803.10122, 2018. URL https://arxiv.org/abs/1803.10122.
- Hao et al. (2023) Shibo Hao, Yi Gu, Haodi Ma, Joshua Hong, Zhen Wang, Daisy Wang, and Zhiting Hu. Reasoning with language model is planning with world model. In Houda Bouamor, Juan Pino, and Kalika Bali (eds.), Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pp. 8154–8173, Singapore, 2023. Association for Computational Linguistics. doi: 10.18653/v1/2023.emnlp-main.507. URL https://aclanthology.org/2023.emnlp-main.507.
- He et al. (2024) Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Yong Dai, Hongming Zhang, Zhenzhong Lan, and Dong Yu. Webvoyager: Building an end-to-end web agent with large multimodal models. ArXiv preprint, abs/2401.13919, 2024. URL https://arxiv.org/abs/2401.13919.
- Hong et al. (2024) Wenyi Hong, Weihan Wang, Qingsong Lv, Jiazheng Xu, Wenmeng Yu, Junhui Ji, Yan Wang, Zihan Wang, Yuxiao Dong, Ming Ding, and Jie Tang. Cogagent: A visual language model for gui agents. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 14281–14290, 2024.
- Kim et al. (2024) Doyoung Kim, Jongwon Lee, Jinho Park, and Minjoon Seo. Cognitive map for language models: Optimal planning via verbally representing the world model. ArXiv preprint, abs/2406.15275, 2024. URL https://arxiv.org/abs/2406.15275.
- Koh et al. (2024a) Jing Yu Koh, Robert Lo, Lawrence Jang, Vikram Duvvur, Ming Chong Lim, Po-Yu Huang, Graham Neubig, Shuyan Zhou, Ruslan Salakhutdinov, and Daniel Fried. Visualwebarena: Evaluating multimodal agents on realistic visual web tasks. ArXiv preprint, abs/2401.13649, 2024a. URL https://arxiv.org/abs/2401.13649.
- Koh et al. (2024b) Jing Yu Koh, Stephen McAleer, Daniel Fried, and Ruslan Salakhutdinov. Tree search for language model agents. ArXiv preprint, abs/2407.01476, 2024b. URL https://arxiv.org/abs/2407.01476.
- Lai et al. (2024) Hanyu Lai, Xiao Liu, Iat Long Iong, Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, and Jie Tang. Autowebglm: A large language model-based web navigating agent. In Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, pp. 5295–5306, 2024.
- Lee et al. (2023) Kenton Lee, Mandar Joshi, Iulia Raluca Turc, Hexiang Hu, Fangyu Liu, Julian Martin Eisenschlos, Urvashi Khandelwal, Peter Shaw, Ming-Wei Chang, and Kristina Toutanova. Pix2struct: Screenshot parsing as pretraining for visual language understanding. In Andreas Krause, Emma Brunskill, Kyunghyun Cho, Barbara Engelhardt, Sivan Sabato, and Jonathan Scarlett (eds.), International Conference on Machine Learning, ICML 2023, 23-29 July 2023, Honolulu, Hawaii, USA, volume 202 of Proceedings of Machine Learning Research, pp. 18893–18912. PMLR, 2023. URL https://proceedings.mlr.press/v202/lee23g.html.
- Liao et al. (2024) Zeyi Liao, Lingbo Mo, Chejian Xu, Mintong Kang, Jiawei Zhang, Chaowei Xiao, Yuan Tian, Bo Li, and Huan Sun. EIA: environmental injection attack on generalist web agents for privacy leakage. CoRR, abs/2409.11295, 2024. doi: 10.48550/ARXIV.2409.11295. URL https://doi.org/10.48550/arXiv.2409.11295.
- Liu et al. (2018) Evan Zheran Liu, Kelvin Guu, Panupong Pasupat, Tianlin Shi, and Percy Liang. Reinforcement learning on web interfaces using workflow-guided exploration. In 6th International Conference on Learning Representations, ICLR 2018, Vancouver, BC, Canada, April 30 - May 3, 2018, Conference Track Proceedings. OpenReview.net, 2018. URL https://openreview.net/forum?id=ryTp3f-0-.
- Mattar & Lengyel (2022) Marcelo G Mattar and Máté Lengyel. Planning in the brain. Neuron, 110(6):914–934, 2022.
- Moerland et al. (2023) Thomas M Moerland, Joost Broekens, Aske Plaat, Catholijn M Jonker, et al. Model-based reinforcement learning: A survey. Foundations and Trends® in Machine Learning, 16(1):1–118, 2023.
- OpenAI (2024a) OpenAI. Hello GPT-4o. https://openai.com/index/hello-gpt-4o/, 2024a. Accessed: 2024-09-28.
- OpenAI (2024b) OpenAI. Introducing OpenAI o1. https://openai.com/o1/, 2024b. Accessed: 2024-09-29.
- Pan et al. (2024a) Jiayi Pan, Yichi Zhang, Nicholas Tomlin, Yifei Zhou, Sergey Levine, and Alane Suhr. Autonomous evaluation and refinement of digital agents. ArXiv preprint, abs/2404.06474, 2024a. URL https://arxiv.org/abs/2404.06474.
- Pan et al. (2024b) Yichen Pan, Dehan Kong, Sida Zhou, Cheng Cui, Yifei Leng, Bing Jiang, Hangyu Liu, Yanyi Shang, Shuyan Zhou, Tongshuang Wu, and Zhengyang Wu. Webcanvas: Benchmarking web agents in online environments. ArXiv preprint, abs/2406.12373, 2024b. URL https://arxiv.org/abs/2406.12373.
- Pascanu et al. (2017) Razvan Pascanu, Yujia Li, Oriol Vinyals, Nicolas Heess, Lars Buesing, Sebastien Racanière, David Reichert, Théophane Weber, Daan Wierstra, and Peter Battaglia. Learning model-based planning from scratch. ArXiv preprint, abs/1707.06170, 2017. URL https://arxiv.org/abs/1707.06170.
- Patel et al. (2024) Ajay Patel, Markus Hofmarcher, Claudiu Leoveanu-Condrei, Marius-Constantin Dinu, Chris Callison-Burch, and Sepp Hochreiter. Large language models can self-improve at web agent tasks. ArXiv preprint, abs/2405.20309, 2024. URL https://arxiv.org/abs/2405.20309.
- Putta et al. (2024) Pranav Putta, Edmund Mills, Naman Garg, Sumeet Motwani, Chelsea Finn, Divyansh Garg, and Rafael Rafailov. Agent q: Advanced reasoning and learning for autonomous ai agents. ArXiv preprint, abs/2408.07199, 2024. URL https://arxiv.org/abs/2408.07199.
- Schrittwieser et al. (2020) Julian Schrittwieser, Ioannis Antonoglou, Thomas Hubert, Karen Simonyan, Laurent Sifre, Simon Schmitt, Arthur Guez, Edward Lockhart, Demis Hassabis, Thore Graepel, et al. Mastering atari, go, chess and shogi by planning with a learned model. Nature, 588(7839):604–609, 2020.
- Shaw et al. (2023) Peter Shaw, Mandar Joshi, James Cohan, Jonathan Berant, Panupong Pasupat, Hexiang Hu, Urvashi Khandelwal, Kenton Lee, and Kristina Toutanova. From pixels to UI actions: Learning to follow instructions via graphical user interfaces. In Alice Oh, Tristan Naumann, Amir Globerson, Kate Saenko, Moritz Hardt, and Sergey Levine (eds.), Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10 - 16, 2023, 2023. URL http://papers.nips.cc/paper_files/paper/2023/hash/6c52a8a4fadc9129c6e1d1745f2dfd0f-Abstract-Conference.html.
- Shi et al. (2017) Tianlin Shi, Andrej Karpathy, Linxi Fan, Jonathan Hernandez, and Percy Liang. World of bits: An open-domain platform for web-based agents. In Doina Precup and Yee Whye Teh (eds.), Proceedings of the 34th International Conference on Machine Learning, ICML 2017, Sydney, NSW, Australia, 6-11 August 2017, volume 70 of Proceedings of Machine Learning Research, pp. 3135–3144. PMLR, 2017. URL http://proceedings.mlr.press/v70/shi17a.html.
- Silver et al. (2016) David Silver, Aja Huang, Chris J Maddison, Arthur Guez, Laurent Sifre, George Van Den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc Lanctot, et al. Mastering the game of go with deep neural networks and tree search. nature, 529(7587):484–489, 2016.
- Song et al. (2024) Yifan Song, Da Yin, Xiang Yue, Jie Huang, Sujian Li, and Bill Yuchen Lin. Trial and error: Exploration-based trajectory optimization for llm agents. ArXiv preprint, abs/2403.02502, 2024. URL https://arxiv.org/abs/2403.02502.
- Sutton (1991) Richard S Sutton. Dyna, an integrated architecture for learning, planning, and reacting. ACM Sigart Bulletin, 2(4):160–163, 1991.
- Wang et al. (2024) Evan Wang, Federico Cassano, Catherine Wu, Yunfeng Bai, Will Song, Vaskar Nath, Ziwen Han, Sean Hendryx, Summer Yue, and Hugh Zhang. Planning in natural language improves llm search for code generation. ArXiv preprint, abs/2409.03733, 2024. URL https://arxiv.org/abs/2409.03733.
- Wei et al. (2022) Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, and Denny Zhou. Chain-of-thought prompting elicits reasoning in large language models. In Sanmi Koyejo, S. Mohamed, A. Agarwal, Danielle Belgrave, K. Cho, and A. Oh (eds.), Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, NeurIPS 2022, New Orleans, LA, USA, November 28 - December 9, 2022, 2022. URL http://papers.nips.cc/paper_files/paper/2022/hash/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html.
- Yao et al. (2022) Shunyu Yao, Howard Chen, John Yang, and Karthik Narasimhan. Webshop: Towards scalable real-world web interaction with grounded language agents. In Sanmi Koyejo, S. Mohamed, A. Agarwal, Danielle Belgrave, K. Cho, and A. Oh (eds.), Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, NeurIPS 2022, New Orleans, LA, USA, November 28 - December 9, 2022, 2022. URL http://papers.nips.cc/paper_files/paper/2022/hash/82ad13ec01f9fe44c01cb91814fd7b8c-Abstract-Conference.html.
- Yao et al. (2023a) Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Tom Griffiths, Yuan Cao, and Karthik Narasimhan. Tree of thoughts: Deliberate problem solving with large language models. In Alice Oh, Tristan Naumann, Amir Globerson, Kate Saenko, Moritz Hardt, and Sergey Levine (eds.), Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10 - 16, 2023, 2023a. URL http://papers.nips.cc/paper_files/paper/2023/hash/271db9922b8d1f4dd7aaef84ed5ac703-Abstract-Conference.html.
- Yao et al. (2023b) Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik R. Narasimhan, and Yuan Cao. React: Synergizing reasoning and acting in language models. In The Eleventh International Conference on Learning Representations, ICLR 2023, Kigali, Rwanda, May 1-5, 2023. OpenReview.net, 2023b. URL https://openreview.net/forum?id=WE_vluYUL-X.
- You et al. (2024) Keen You, Haotian Zhang, Eldon Schoop, Floris Weers, Amanda Swearngin, Jeffrey Nichols, Yinfei Yang, and Zhe Gan. Ferret-ui: Grounded mobile ui understanding with multimodal llms. ArXiv preprint, abs/2404.05719, 2024. URL https://arxiv.org/abs/2404.05719.
- Zhang et al. (2024) Yao Zhang, Zijian Ma, Yunpu Ma, Zhen Han, Yu Wu, and Volker Tresp. Webpilot: A versatile and autonomous multi-agent system for web task execution with strategic exploration. ArXiv preprint, abs/2408.15978, 2024. URL https://arxiv.org/abs/2408.15978.
- Zheng et al. (2024) Boyuan Zheng, Boyu Gou, Jihyung Kil, Huan Sun, and Yu Su. Gpt-4v(ision) is a generalist web agent, if grounded. In Forty-first International Conference on Machine Learning, 2024. URL https://openreview.net/forum?id=piecKJ2DlB.
- Zhou et al. (2023) Shuyan Zhou, Frank F Xu, Hao Zhu, Xuhui Zhou, Robert Lo, Abishek Sridhar, Xianyi Cheng, Yonatan Bisk, Daniel Fried, Uri Alon, et al. Webarena: A realistic web environment for building autonomous agents. ArXiv preprint, abs/2307.13854, 2023. URL https://arxiv.org/abs/2307.13854.