arXiv	https://arxiv.org/abs/2411.14199
論文のライセンス	http://creativecommons.org/licenses/by/4.0/

OpenScholar: Synthesizing Scientific
Literature with Retrieval-augmented LMs

Akari Asai^1,5   Jacqueline He¹   Rulin Shao^1,5∗ Weijia Shi^1,2
Amanpreet Singh²   Joseph Chee Chang²   Kyle Lo²   Luca Soldaini²
Sergey Feldman²   Mike D’arcy²   David Wadden²   Matt Latzke²
Minyang Tian³   Pan Ji⁶   Shengyan Liu³   Hao Tong³   Bohao Wu³   Yanyu Xiong⁷
Luke Zettlemoyer^1,5   Graham Neubig⁴   Dan Weld^1,2   Doug Downey²
Wen-tau Yih⁵   Pang Wei Koh^1,2   Hannaneh Hajishirzi^1,2
¹University of Washington ²Allen Institute for AI ³University of Illinois, Urbana-Champaign
⁴Carnegie Mellon University ⁵Meta ⁶University of North Carolina, Chapel Hill ⁷Stanford University
{akari, pangwei, hannaneh}@cs.washington.edu
Contributed equally (alphabetical order). All authors’ contributions are detailed in the Contribution section.

Abstract

科学の進歩は、研究者が増大する文献を統合する能力に依存している。大規模言語モデル（LM）はこのタスクにおいて科学者を支援できるだろうか。我々はOpenScholarを紹介する。これは、4500万件のオープンアクセス論文から関連する段落を特定し、引用に裏付けられた回答を合成することで、科学的クエリに答える特殊な検索拡張LMである。 OpenScholarを評価するために、我々はScholarQABenchを開発した。これは文献検索のための最初の大規模マルチドメインベンチマークであり、コンピュータサイエンス、物理学、神経科学、生物医学にわたる2,967の専門家が作成したクエリと208の長文回答で構成されている。 ScholarQABenchにおいて、OpenScholar-8Bは、より小規模なオープンモデルであるにもかかわらず、正確性においてGPT-4oを5%、PaperQA2を7%上回る性能を示した。GPT4oが78〜90%の確率で引用を捏造するのに対し、OpenScholarは人間の専門家と同等の引用精度を達成している。 OpenScholarのデータストア、検索機、および自己フィードバック推論ループは、既存のLMも改善する。例えば、OpenScholar-GPT4oはGPT-4oの正確性を12%向上させる。人間による評価では、専門家は専門家が作成した回答と比較して、OpenScholar-8Bの回答を51%、OpenScholar-GPT4oの回答を70%の割合で好んだ。これに対し、GPT4oは32%であった。我々は、すべてのコード、モデル、データストア、データ、および公開デモをオープンソース化している。

Demo		openscholar.allen.ai/
Blog		allenai.org/blog/openscholar
OpenScholar code		github.com/AkariAsai/OpenScholar
ScholarBench code		github.com/AkariAsai/ScholarBench
Checkpoints, Data, Index		OpenScholar/openscholar-v1
Expert Evaluation		AkariAsai/OpenScholar_ExpertEval

1 Introduction

科学文献から知識を統合することは、新たな研究方向の発見、方法論の改善、そしてエビデンスに基づく意思決定の支援に不可欠である。しかし、毎年発表される膨大な量の論文により、研究者が最新情報を把握することがますます困難になっている。効果的な統合には、正確な検索、適切な出典の明示、そして最新の文献へのリアルタイムアクセスが必要である。大規模言語モデル（LLM）は研究者の支援に有望であるが、幻覚(Mallen et al., 2023; Mishra et al., 2024)、古い事前学習データへの依存(Kasai et al., 2023)、透明性のある出典の欠如など、重大な課題に直面している。例えば、我々の実験では、GPT-4に最新の文献を引用するよう指示した場合、コンピュータサイエンスや生物医学などの分野で78-90%のケースで引用を捏造した。

一方、検索拡張型LM(Lewis et al., 2020; Guu et al., 2020)は、推論時に検索された外部知識源を統合することで、これらの問題の多くを軽減でき、文献検索と統合のためのシステム開発を促進している(Agarwal et al., 2024; Zheng et al., 2024; Skarlinski et al., 2024)。しかし、このようなシステムの多くは、文献統合に最適化されていないブラックボックスAPIや汎用LLMに依存しており、科学分野に特化したオープンで領域特有の検索データストア（すなわち、処理されたコーパスと対応する検索インデックス）と組み合わされていない。さらに、科学文献統合の評価は限定的であり、単一分野での小規模な人間による評価(Agarwal et al., 2024; Zheng et al., 2024)や、多肢選択式質問応答などの簡略化されたタスク(Skarlinski et al., 2024)を用いている。

これらの課題に対処するため、我々はOpenScholar（図1上部）を提示する。これは最先端の検索拡張言語モデルであり、専門的な論文データストアと科学文献に対して訓練された検索器を備えている。推論時には、OpenScholarは関連する段落を検索し、反復的な自己フィードバック生成を用いて自身の出力を洗練する。さらに、我々は新たな効率的な8Bの言語モデルを訓練する。 OpenScholarの有効性を評価するため、我々はScholarQABench（図1中央）を導入する。これは、オープンエンドな科学的質問応答の現実的かつ再現可能な評価を可能にするために特別に設計されたベンチマークである。

OpenScholar（セクション2）は、我々の新しいOpenScholar-DataStore（OSDS）を使用する。これにはSemantic Scholarからの4500万件のオープンアクセス論文と、それに対応する2億3700万件の段落埋め込みが含まれている。我々の知る限り、これは科学分野において最大のオープンソース化されたデータストアである。 OpenScholarはまず、検索器とリランカーを使用してOSDSから段落を検索する。その後、言語モデルが検索された段落を統合して、引用付きの応答を生成する。 OpenScholarは自然言語フィードバックを通じて反復的に出力を洗練し、これにより品質が向上し、補足情報を適応的に取り込む。このパイプラインは、より小規模で効率的なモデルのための大規模かつ高品質な訓練データを作成するためにも使用される。我々はデータストアの段落からサンプリングした合成クエリと指示を生成し、それらをOpenScholarに入力し、中間および最終出力を使用してオープンな8Bモデル、OpenScholar-8Bおよび検索モデルを訓練する。

ScholarQABench（第3節）は、モデルの既存研究を理解し統合する能力を評価するために設計されたベンチマークである。回答が単一の論文で見つかると仮定する以前のベンチマーク（例えば、科学的事実確認; Wadden et al., 2020; Skarlinski et al., 2024）とは異なり、多くの現実世界のシナリオでは、複数の関連論文を特定し、正確な引用を含む長文の出力を生成する必要がある。これらの課題に対処するため、我々は2,967の文献統合質問のデータセットを作成し、208の長文回答を専門家が作成した。これらの回答は、コンピューターサイエンス、物理学、生物医学、神経科学の4つの科学分野にわたっている。これらの回答は、3年以上の経験と関連分野での出版実績を持つ博士課程の学生とポスドク研究者によって作成された。平均して、各回答の作成には約1時間を要した。我々はまた、自動評価指標と人間による評価を組み合わせた多面的な評価プロトコルを導入し、引用の正確性、事実の正確性、内容の網羅性、一貫性、全体的な品質を測定する。この多面的なアプローチにより、自動評価と人間による評価の両方において、堅牢で再現可能な評価が確保される。

我々は、ScholarQABench（第4節）において、検索機能の有無にかかわらず、独自モデルとオープンモデル（例：GPT4o、Llama 3.1 8B、70B）、およびPaperQA2 (Skarlinski et al., 2024)のような特殊システムを評価した。GPT4oは全般的に強力な性能を示したが、引用の正確性と網羅性に苦戦し、しばしば不正確または存在しない引用を生成した。 OpenScholarは、言語モデルのみのパイプラインと検索拡張パイプラインの両方を上回り、独自システムとオープンソースシステムを凌駕した。特筆すべきは、完全にオープンソースのチェックポイントを使用したOpenScholarが、独自の言語モデルを基盤とするPaperQA2 (Skarlinski et al., 2024)や、Perplexity Proのような実用システムを上回り、それぞれ6%と10%の改善を達成したことである。さらに、OpenScholarがより小規模で効率的な検索システムを使用することで、コストを大幅に削減した。 GPT4oとOpenScholarを組み合わせることで、GPT4o単独と比較して正確性が12%向上した。 OpenScholarパイプラインは、既製の言語モデルも強化できる。例えば、GPT-4oを基礎モデルとして使用する場合、OpenScholar-GPT4oはGPT-4o単独と比較して正確性が12%向上する。

ScholarQABenchにおける自動評価に加えて、我々はコンピュータサイエンス、物理学、生物医学などの分野から16名の科学者による詳細な専門家評価を実施した（第5節）。これらの専門家は、ScholarQABenchの文献統合クエリに対する108の専門家が作成した回答とOpenScholarの出力を対比して詳細な評価を行った。 OpenScholarは、GPT-4oおよび我々が訓練した8Bモデルと組み合わせた場合、一貫して専門家が作成した回答を上回り、それぞれ70%と51%の勝率を達成した。対照的に、検索機能を持たないGPT-4oは情報の網羅性に苦戦し、人間の専門家よりも有用性が低いと評価され、人間の回答に対して31%の勝率しか達成できなかった。これは、OpenScholarが生成する出力がより包括的で、よく整理されており、文献を統合するのに有用であることを示している。これらの結果は、OpenScholarが専門家が作成した回答と競合するだけでなく、特に網羅性と構成の面で、場合によってはそれらを上回る高品質な出力を生成することを実証している。

OpenScholar-8Bは、独自の検索拡張言語モデルであり、専有の言語モデルや検索システムに依存せず、科学文献領域において最大級のデータストアの1つを活用している。我々は、コード、訓練済み検索モデル、言語モデルのチェックポイント、データストア、ScholarQABenchベンチマーク、専門家評価ツール、および公開デモを含むOpenScholarエコシステム全体を公開する。

2 OpenScholar: Open Retrieval-augmented LM to Synthesizing Scientific Literature

OpenScholar（図2に詳述）は、科学文献に関する幅広い情報探索クエリに対して信頼性の高い質の高い回答を確保するために設計された新しい検索拡張型言語モデルである。

Task formulation.

科学的クエリ $x$ が与えられた場合、タスクは関連する論文を特定し、その知見を統合し、クエリに効果的に対応する回答 $y$ を生成することである。この回答には、一連の引用 $\mathbf{C}={c_{1},c_{2},\ldots,c_{K}}$ が付随し、各引用 $c_{i}$ は既存の科学論文に対応する。 $\mathbf{C}$ 内の各 $c_{i}$ は科学文献の特定の段落に対応し、科学的著作の標準的な慣行に従って、 $y$ の関連するテキスト範囲にリンクされたインライン引用として提供されるべきである。これらの引用により、研究者は出力を元の文献まで遡ることができ、透明性と検証可能性が確保される。

Overview of OpenScholar.

関連論文の検索と高品質な出力の生成を確実にするため、ScholarQABenchは3つの主要コンポーネントで構成されている：データストア $\mathbf{D}$ 、検索器 $\mathcal{R}$ 、および生成LM $\mathcal{G}$ である。標準的な検索拡張推論パイプラインでは、プロセスは $\mathcal{R}$ から始まり、これは入力クエリ $x$ に対する意味的関連性に基づいて、 $\mathbf{D}$ （過去に公開された科学論文の大規模コーパス）から一連の文章 $\mathbf{P}=\{p_{1},p_{2},\ldots,p_{N}\}$ を検索する。これらの文章は次のステップのコンテキストとして機能する。生成LM $\mathcal{G}$ は、検索された文章 $\mathbf{P}$ と入力クエリ $x$ の両方を受け取り、出力 $y$ と対応する引用 $\mathbf{C}$ を生成する。形式的には、このプロセスは以下のように表現できる：

y,\mathbf{C}=\mathcal{G}(x,\mathcal{R}(x,\mathbf{D})),

ここで、 $\mathbf{C}$ の各 $c_{i}$ は $\mathbf{P}$ からの特定の文章に対応する。 OpenScholar（図1）では、我々は科学分野向けに設計された特殊コンポーネントのスイートを活用している：OpenScholar-DataStore $\mathbf{D}$ 、OpenScholar-Retriever/-Reranker、そしてLMであり、これにより既製のLM（例えばGPT4o）または我々が新たに訓練したOpenScholar-LMを柔軟に使用することが可能となる。我々は信頼性と引用の正確性を向上させるために、自己フィードバック検索拡張推論を開発した。

OpenScholar-DataStore（OSDS）は4500万の科学論文のデータベースであり、我々はこれらの埋め込みを構築する。我々は科学データに基づいてOpenScholar-RetrieverとOpenScholar-Rerankerを訓練し、これらは上位 $N$ の文章を生成器 $\mathcal{G}$ に渡す（セクション2.1）。その後、我々は検索を伴う反復的な自己フィードバック推論を使用する：LMはまず初期ドラフト $y_{0}$ を $\mathcal{G}$ で生成し、その後検索拡張自己フィードバックを通じて反復的に出力を改善する（セクション2.2）。我々はこのパイプラインを使用して高品質の訓練データを生成し（セクション2.3）、より高品質な出力とより正確な引用を生成する特殊化されたLMの訓練を可能にする。

Refer to caption — 図2：OpenScholarの推論（上）と訓練（下）の詳細概要。推論時には、入力 $x$ が与えられると、OpenScholarはまず検索器を使用して特殊化されたデータストア（OpenScholar-Datastore）から関連論文を特定し、次に再ランク付け器を使用して上位 $N$ の検索文書を絞り込み、特定する。検索された出力はその後LMに渡され、LMは（1）初期応答 $y_{0}$ と（2）自己フィードバック $f_{1}$ の両方を生成する。自身のフィードバックを取り入れることで、LMは事前に定義された回数だけ反復的に出力を改善する。その後、LMは（1）初期応答 $y_{0}$ を生成し、（2）初期出力に対する自己フィードバックを生成し、（3）フィードバック（ $f_{i}$ ）を取り入れて更新された応答 $y_{1}$ を生成する。 LMはすべてのフィードバックが取り入れられるまでこのプロセスを繰り返す。より小規模ながら競争力のある8B LMを訓練するために、我々はこの推論時パイプラインを使用して高品質の訓練データを生成し、その後データのフィルタリングと混合を行う。

2.1 OpenScholar Retrieval Pipeline

図 2 (左上) は我々の検索パイプラインを示しており、データストア $\mathbf{D}$ 、バイエンコーダ検索器 $\theta_{\text{bi}}$ 、およびクロスエンコーダ再ランク付け器 $\theta_{\text{cross}}$ で構成されている。我々はまず $\mathbf{D}$ と $\theta_{\text{bi}}$ 、および外部APIを使用して初期候補段落を選択し、その後 $\theta_{\text{cross}}$ を用いて上位 $N$ 個の関連段落を絞り込み、特定する。

Collect scientific papers to construct datastore.

先行研究では、2023-2024年のarXiv論文など、小規模な論文サブセットを使用することが多い (Zheng et al., 2024)が、モデル生成の品質と網羅性を向上させるためには、多様な論文セットを持つことが重要である (Shao et al., 2024)。この目的のため、我々は検索ソースとしてpeS2o (Soldaini et al., 2024) を使用する。これはS2ORC (Lo et al., 2020) からのオープンアクセス学術論文で構成されている。我々はpeS2o v3を使用してデータストアを構築した。¹¹1https://huggingface.co/datasets/allenai/peS2o/tree/main/data/v3。これには2024年10月までの4500万件の論文が含まれている。²²2 評価のために、我々は主要なベンチマークとモデルがv3のキュレーション以前に構築されたため、2023年1月までの論文で構成されるpeS2o v2を評価に使用する。先行研究 (Shao et al., 2024) に従い、我々は各論文の本文を250語の離散的なテキストブロック（空白で区切られる）に分割し、論文タイトルを各ブロックに連結して $\mathbf{D}$ の段落を形成する。我々のデータストアは2億3400万の段落で構成されている。我々の知る限り、これは科学文献のためのオープンソース化された最大のデータストアである。

Retrieve initial paragraphs.

我々は3つのソースから段落を検索する：(1) 訓練された検索器を使用したpeS2oデータストア、(2) 検索キーワードに基づいてSemantic Scholar API (Kinney et al., 2023) を介して返される論文の公開抄録、(3) 元のクエリ $x$ を使用してウェブ検索エンジンを通じて検索された論文の公開テキスト。 (1)については、まず段落バイエンコーダ $\theta_{\text{bi}}$ を使用して $\mathbf{D}$ の各段落の埋め込みを生成する。これはテキストチャンク（クエリや段落など）を密ベクトルに処理する (Karpukhin et al., 2020)。既製の検索モデルは、ドメイン外のシナリオでしばしば苦戦する (Thakur et al., 2021)。この限界を克服するため、我々はContriever (Izacard et al., 2022) をpeS2oデータストア上で教師なしで継続的に事前訓練することで $\theta_{\text{bi}}$ を開発し、ドメイン固有の検索性能を向上させる（詳細は付録 C.1 を参照）。推論時には、 $\theta_{\text{bi}}$ を使用してクエリをエンコードし、最近傍探索を通じて上位100の段落を検索する (Karpukhin et al., 2020)。 (2)については、まず生成器LMを使用してクエリ $x$ からキーワードを生成する。これらのキーワードは、Semantic Scholar検索APIを介して引用数でランク付けされた上位10件の論文を検索するために使用される。このアプローチは、長い質問のような検索クエリを効果的に処理できないSemantic Scholar APIの限界に対処する。 (3)については、You.com検索API³³3https://api.you.com/を使用して上位10件の検索結果を取得し、ArXivやPubMedなどの学術プラットフォームに検索を制限する。論文がオープンアクセスの場合、その全文を抽出して候補プールに追加し、そうでない場合は抄録のみを含める。

Rerank and finalize top $N$ paragraphs.

初期段階の後、我々はクエリごとに100以上、時には1000以上の関連段落を収集している。しかし、バイエンコーダによって検索された段落は、クエリと段落が別々にエンコードされるため、クエリと段落の間の深い相互作用により、役に立たない文脈を含む可能性がある (Asai et al., 2023)。関連性のない内容を含む可能性のある多数の文書をLLMに供給することは、最先端のモデルであっても効率性とパフォーマンスの問題を引き起こす可能性がある (Liu et al., 2024; Xu et al., 2023a)。これらの課題を克服するため、我々はクロスエンコーダ再ランク付け器 (Nogueira & Cho, 2019; Xiao et al., 2023) を使用し、これを $\theta_{\text{cross}}$ と表記する。各候補段落について、クロスエンコーダ再ランク付け器は入力クエリと各段落の間の関連性スコアを共同でエンコードし計算する。その後、我々は関連性スコアを使用して段落をランク付けする。 $\theta_{\text{cross}}$ を科学ドメイン用に訓練するため、我々はLlama 3 70B Instructによって生成された合成データを使用してBGE-reranker (Xiao et al., 2023) を微調整する。具体的には、peS2oの抄録に基づいてランダムにクエリを生成し、上位10件の段落を検索する。その後、Llama 3 70B Instructがこれらの段落に1から5の関連性スコアを割り当て、スコア4または5を正、スコア1または2を負と見なす。スコア3の段落は破棄される。 $\theta_{\text{cross}}$ の訓練の詳細は付録 C.2 に記載されている。上位 $N$ 段落の再ランク付けと最終化の際、我々は追加のメタフィルタリングも実装する。これには以下が含まれる：(1) 1論文あたりの段落数を3段落に制限する、(2) クロスエンコーダによって予測された関連性スコアに正規化された引用数を組み込む。

2.2 Inference: Iterative Generation with Retrieval-augmented Self-Feedback

標準的な検索拡張生成（RAG; Lewis et al. 2020; Ram et al. 2023）では、生成器LMが元の入力 $x$ と上位 $N$ 個の検索された文章 $\mathbf{P}$ を受け取り、出力 $y_{0}$ を生成する。質問応答などのタスクには効果的であるが(Mallen et al., 2023)、この一段階の生成は裏付けのない主張(Liu et al., 2023)や情報不足による不完全な出力(Asai et al., 2024; Jiang et al., 2023)につながる可能性がある。これらの課題に対処するため、OpenScholarでは、我々は自己フィードバックを用いた反復生成アプローチを導入する。これは3つのステップからなる：(1) 初期応答とフィードバック生成で初期草稿 $y_{0}$ と $y_{0}$ に対するフィードバックのセットを出力する；(2) 追加検索を伴う反復的改善でフィードバックを用いて $y_{0}$ を改善する；(3) 引用検証。詳細は付録に記載している。

Initial response and feedback generation.

入力 $x$ と検索された文章 $\mathbf{P}$ が与えられると、生成器LMはまず初期応答 $y_{0}$ を生成し、 $\mathbf{P}$ 内の対応する文章に紐づいた引用マーカーを付ける。 $y_{0}$ の生成後、LMは $y_{0}$ に対するフィードバックのセット $\mathbf{F}={f_{1},f_{2},\ldots,f_{T}}$ を生成する。これは初期応答を改善することを目的としており、各フィードバック $f_{t}$ は潜在的な改善点を記述する自然言語の文である。モデルは任意の数のフィードバック（ $T$ ）を生成できるが、効率的な推論のために最大3つのフィードバック文に制限している。事前に定義されたフィードバック信号のセットに依存する先行研究(Asai et al., 2024)とは異なり、我々のアプローチではLMが応答の構成、完全性、または追加で必要な情報など、様々な側面に関する柔軟な自然言語フィードバックを生成することを可能にしている。フィードバック文が不足している内容を特定した場合（例：「回答にはQAタスクの実証結果のみが含まれています。他のタスクタイプの結果を追加してください。」）、LMは2.1節のパイプラインを使用して追加検索のための検索クエリも生成する。

Iterative refinement.

次に、我々はフィードバック $\mathbf{F}$ を反復して出力を段階的に改善する。 $f_{k}$ がさらなる検索が必要であることを示している場合、クエリ $q_{k}$ を使用して追加の文章を検索し、 $\mathbf{P}$ に追加してから $y_{k}$ を生成する。⁴⁴フィードバックが提供されるたびに出力を再生成することも可能だが、そうすると追加の遅延が発生する。経験的に、フィードバックは多様であり、生成の異なる側面に対応していることがわかった。結果として、初期出力からのフィードバックを順次組み込むことは依然として効果的である。 LMは前の出力 $y_{k-1}$ 、検索された文章 $\mathbf{P}$ 、および新たに検索された文章（ある場合）を使用して、更新された出力 $y_{k}$ を生成する。このプロセスはすべてのフィードバックが対処されるまで繰り返され、タイムステップ $T$ で最終出力 $y_{T}$ が得られる。

Citation verification.

最後に、我々は生成器LMに $y_{t}$ 内の引用を検証するよう指示する。具体的には、生成器は引用に値するすべての記述—正当化が必要な科学的主張—が検索された文章からの参照によって適切に裏付けられていることを確認する。適切な引用がない主張がある場合、LMは事後的な挿入を行い、引用に値する記述が文章によって裏付けられていることを確認する。我々のパイプラインでは、引用に値する記述がない文を削除することはしない。

2.3 Training: High-quality Synthetic Data Generation with Inference Pipeline

科学文献を効果的に合成できる強力な言語モデル（LM）の構築は、この問題に対する訓練データの不足により困難である。科学的LMを訓練するためのリソースは一部存在するものの(Wadden et al., 2024)、ほとんどのタスクはオープンな検索設定を必要とせず、単一論文のタスクである。その結果、この分野の先行研究の大部分(Skarlinski et al., 2024)は独自のLMに依存しており、これは再現性と推論コストに課題をもたらす。

我々は、推論時のパイプラインを活用して、自己フィードバックを通じて高品質な訓練データを合成的に生成する。これにより、結果として得られるモデルは、自己フィードバックプロセスを経ることなく、より高品質な出力を生成することができるようになる（図2下部）。

Question and response generations.

我々のデータ生成プロセスは3つのステップから成る：まず、 $\mathbf{D}$ から最も引用数の多い論文を選択し、次に、それらの要約に基づいて情報探索クエリを生成し、最後に、OpenScholarの推論時パイプラインを使用して高品質な回答を生成する。我々はLLama 3.1 70B (Dubey et al., 2024)を使用してデータを生成する。具体的には、まずpeS2oデータセットから100万件の論文要約をサンプリングし、論文のメタ情報（出版年や引用数など）を取得する。次に、2017年以降に出版された10,000件の論文をランダムに選択し、各要約に基づいて文献レビューの質問や、複数の論文を必要とする可能性のある情報探索クエリを生成するようLMにプロンプトを与える。その後、OpenScholarパイプラインを使用して、最終出力 $y_{T}$ を生成し、フィードバック $\mathbf{F}$ や初期出力などの中間生成物も併せて生成する。

Data filtering.

効果的でスケーラブルではあるものの、合成データには幻覚、反復的な文章、指示への限定的な従順さなどの問題が含まれる可能性がある(Li et al., 2024c)。これに対処するため、我々はデータ生成に使用したのと同じLMを活用して、ペアワイズフィルタリングとルーブリックフィルタリングという2段階のデータフィルタリングプロセスを導入する。ペアワイズフィルタリングでは、モデル出力 $y_{T}$ （最終ステップでの出力）と $y_{0}$ （初期出力）の品質を比較し、より高品質と判断された出力を保持する。我々は、過剰な編集や複数の反復ステップ後の冗長性の増加により、 $y_{0}$ が $y_{T}$ よりも約20%の場合に好まれることを発見した。次に、選択された回答の品質を構成と事実の正確性と引用の適切さの2つの側面について5段階で評価する。有効なモデル出力は、両カテゴリーで4.5以上のスコアを獲得する必要があり、この要件を満たさない出力のインスタンスは破棄する。詳細は付録に記載されている。

Data mixing and training.

この合成パイプラインから、我々は3種類の訓練データを生成する：回答生成 $(x\rightarrow y)$ 、フィードバック生成 $(y_{0}\rightarrow\mathbf{F})$ 、フィードバック組み込み $(y_{t-1},f_{t}\rightarrow y_{t})$ である。訓練中に最終出力と中間出力の両方を組み込むことで、より小規模なLMがより効果的なフィードバックを生成することを学習するのに役立つことが分かった。さらに、この合成訓練データを既存の一般領域の指示調整データ(Ivison et al., 2023)および科学的指示調整データ(Wadden et al., 2024)と混合し、訓練データの50%が科学領域から、残りの50%が一般領域のデータから得られるようにする。また、peS2oからサンプリングした要約データに基づいて、合成的な事実検証とブール型QAデータを生成する。このために、論文を引用数に基づいてソートし、上位100,000件の論文を選択する。データ混合と訓練の詳細は付録C.3に記載されている。データ混合後、我々は大規模な合成訓練データで生成器LMを訓練する。生成された訓練データでLlama 3.1 8B Instructを訓練する。

3 ScholarQABench: Realistic Literature Review Evaluation Benchmark annotated by Ph.D. Experts

Challenges and overview.

科学文献を合成するLLMの構築に関する先行研究では、小規模な単一ドメインの人間による評価(Agarwal et al., 2024; Zheng et al., 2024)か、過度に単純化された多肢選択式QAセットアップ(Skarlinski et al., 2024)のいずれかを採用している。文献レビューのための高品質なベンチマークの構築には、2つの主要な課題がある。第一に、そのようなデータセットの作成には多くのリソースを要する。特に、現実的な質問と高品質な回答に注釈を付ける際には、博士レベルのドメイン専門知識と研究経験が必要となる。第二に、高品質なデータが利用可能であっても、長文の自然言語による回答を信頼性高く評価することは、特に専門家のドメインにおいては大きな課題となる(Xu et al., 2023b; 2024)。これは、自動実験コード生成のような他の科学的プロセスのベンチマークとは対照的である。後者の場合、Pass@1のようなより明確な評価基準が容易に利用可能である(Si et al., 2024)。

これらのギャップに対処するため、我々はScholarQABenchを導入する。これは、表1に示すように、閉形式の分類、多肢選択、長文生成を含む多様な形式の科学文献合成タスクをサポートするベンチマークである。我々は、3つの既存の単一論文データセットを採用し、さらにコンピュータサイエンス、生物医学、物理学、神経科学のための高品質な専門家注釈付きデータセットのスイートを構築した（セクション3.1）。また、信頼性の高い自動評価パイプラインも構築した（セクション3.2）。表1はScholarQABenchのタスクリストを提供し、図3は例と評価パイプラインの概要を示している。

Dataset	Task Format	Discipline	Size	Evaluation	Multi-paper
SciFact	Claim $\rightarrow$ Label	Biomedicine	208	,
(Wadden et al. 2020)	(True or False)
PubMed QA	Question $\rightarrow$ Answer	Biomedicine	843	,
(Jin et al. 2019)	(Yes, No)
QASA	Question $\rightarrow$ Answer	Computer Science	1,375	,
(Lee et al. 2023)	(Long-form)
ScholarQA-CS	Question $\rightarrow$ Answer^†	Computer Science	100	,	✓
	(Long-form)				✓
ScholarQA-Bio	Question $\rightarrow$ Answer^∗	Biomedicine	1,451		✓
	(Long-form)				✓
ScholarQA-Neuro	Question $\rightarrow$ Answer^∗	Neuroscience	1,308		✓
	(Long-form)				✓
ScholarQA-Multi	Question $\rightarrow$ Answer	Computer Science, Physics,	108	,	✓
	(Long-form)	Biomedicine		,	✓

表1: ScholarQABenchの概要。上位3行は先行データセットから採用した単一論文データセットを示している。下位4行は新しいデータセットであり、我々が博士レベルの専門家を募集して構築したものである。回答^∗はデータセットが質問のみを含むことを示し、回答^†は人間が注釈付けしたルーブリックに基づいて回答が評価されることを示す。評価列はセクション3.2の多面的評価に対応している。「複数論文」列はタスクが回答に複数の論文を必要とするかどうかを示している。とは、それぞれ評価者LLM（すなわちPrometheus; Kim et al. 2024a）と専門家による詳細な評価を示している。

3.1 Data Curation

ScholarQABenchは、科学文献レビューの自動化におけるモデル能力を評価するために設計されている。キュレーションプロセスは3つの主要な要因によって導かれる：タスクの多様性：ScholarQABenchは、様々な入出力形式を持つタスクを含む；分野の多様性：コンピュータサイエンスなど単一の分野に焦点を当てることが多い従来の分析とは異なり、 ScholarQABenchは4つの科学分野にまたがる；複数論文タスクの包含：単一の事前選択された論文の理解に焦点を当てた先行研究とは異なり、すべてのタスクは論文全文のオープンアクセスコレクション全体からの検索を必要とし（セクション3.1.1）、 4つのデータセットは特に複数の検索された論文にわたる推論を必要とする（セクション3.1.2）。

3.1.1 Single-Paper Tasks

単一論文タスクについては、既存の広く使用されている単一論文データセットをキュレーションし、適応させる。図15は単一論文タスクの例を示している；詳細は付録B.2に記載されている。

SciFact.

SciFact (Wadden et al., 2020)は、生物医学分野の1.4Kの専門家が作成した科学的主張のデータセットであり、既存のPubMed論文要約からのゴールドエビデンスとペアになっており、ラベルと根拠が注釈付けされている。我々は、supports（真）またはcontradicts（偽）とラベル付けされた検証セットのクエリを含め、元のゴールドエビデンスを破棄し、システムが大規模な論文コレクションから関連論文を特定する必要がある二値オープン検索としてタスクを再構成する。

PubMedQA.

PubMedQA (Jin et al., 2019)は、PubMed論文要約に関する専門家が注釈付けした（はい/いいえ/おそらく）QAデータを持つ。 SciFactと同様に、我々ははいまたはいいえのラベルを持つインスタンスのみを保持し、元の要約文を破棄してオープン検索設定としてタスクを構成する。

QASA.

QASA (Lee et al., 2023)は、AIとMLの科学論文に関する推論を必要とする質問回答ペアで構成される単一論文QAデータセットである。我々は、対象論文に関する詳細な質問に十分に答える能力をモデルで評価する。元のデータセットは3つのサブタスク（回答選択、根拠生成、回答構成）とエンドツーエンドQAを提供しているが、我々はエンドツーエンドQA設定に基づいてモデルのパフォーマンスを評価する。

3.1.2 Multi-paper Tasks

単一論文のクローズドセットタスクは信頼性の高い評価を提供する可能性がある。しかし、複雑でオープンエンドな質問が既存の論文とは独立して問われ、複数の論文の検索と推論を必要とする現実的なシナリオを反映していない可能性がある。現実的なクエリを用いた複数論文の設定を探求しているデータセットはわずかであり(Xu et al., 2024; Malaviya et al., 2023)、ほとんどが信頼性の高い評価パイプラインや人間が作成した参照を欠いている。我々は、この課題に対処するために、専門家が注釈付けした3つの新しい長文形式QAデータセットをキュレーションすることでこのギャップに対処する（詳細は付録B.2を参照）。さらに、我々の複数論文タスクには4つの科学分野が含まれる。

ScholarQA-CS.

我々は、コンピュータサイエンスの分野でPh.D.を持つ専門家（教授、ポスドク研究者、研究科学者）を募集し、様々なコンピュータサイエンスの分野にわたる100の質問と各質問に対する詳細な回答採点基準を収集した。注釈者は、複数の研究論文を必要とすると予想される文献レビューの質問を作成するよう求められた。質問のトピックは、ネットワーク、アルゴリズム、モノのインターネット、人工知能、ヒューマンコンピュータインタラクションなどの分野にまたがっている。次に、各質問について、他の2人の注釈者がウェブを検索し、正しい回答に必要な重要な要素を重要度（「必須」と「あれば望ましい」）によって分類したルーブリックを作成し、各要素に対する出典からの裏付けとなる引用を付けた。注釈者には、このタスクの初期段階でLLMサービスを使用しないよう指示された。初期のウェブ検索の後、注釈者には4つのLLMサービス（Claude 3.5 Sonnet、GPT-4o、Perplexity Pro、Claude 3.5に基づく未公開のRAGプロトタイプ）からの対応する回答がランダムな順序で表示され、ルーブリックを修正したい場合に備えた。平均して、各質問には4.4の重要な要素が注釈付けされ、各要素は4.4の引用によって裏付けられている。

一致度を測定するために、両方の注釈者にランダムにサンプリングされた10の質問のサブセットに対してルーブリックを作成させた。次に、我々の自動化されたアプローチを使用して、注釈者が公開された4つのLLMサービスからの回答のスコアを計算し、各注釈者のルーブリックセットに対して1回ずつ行った。最後に、各質問のスコア間のピアソン相関係数を計算し、平均を取る。ルーブリック注釈タスクは主観的であるため、一般的な基準をスコアの一部として含める場合と含めない場合の両方で一致度を計算し、それぞれ79.3と59.5となった。図3は1つの例を示しており、より多くの例と詳細は付録E.2で利用可能である。

ScholarQA-Bio, ScholarQA-Neuro.

我々はさらに、生物医学と神経科学の分野で2,759の専門家が作成した文献レビューの質問を収集した。関連分野でPh.D.を持ち、現在研究科学者およびエンジニアである6人の専門家を募集した。注釈者は、自身の専門分野から論文を選択し、それらの論文の解析に基づいて、生物医学の科学者が科学文献について合理的に尋ねる可能性のある複雑な科学的質問を生成するよう求められた。我々は、バイオイメージング、遺伝学、微生物学、神経調節などの異なる分野から質問を収集した。注釈のコストのため、質問のキュレーションのみに焦点を当てた。完全な指示と例は付録6とE.3で利用可能である。

ScholarQA-Multi.

最後に、我々は4つの分野（コンピュータサイエンス（AI/ML、HCI）、生物医学（バイオイメージング、遺伝学）、物理学（天体物理学、フォトニクス、生物物理学））において108の文献レビューの質問と専門家が作成した引用付きの回答を収集した。すべての注釈は、対応する分野で3年以上の研究経験を持ち、複数の筆頭著者論文を持つPh.D.学生または博士号取得後の科学者によって行われた。我々は彼らに、最新の文献に関連する質問を考え出し、検索を通じて見つけた関連論文を使用して質問に対する回答を作成するよう求めた。我々の注釈者には、ChatGPTなどのLLMベースのシステムを使用せず、一般的な検索（例：Google検索）や論文検索システム（例：Semantic Scholar）のみを使用するよう指示した。表14は収集された質問と回答の統計を示し、図6(a)は主題の分布と主題ごとの平均注釈時間を示している。我々は付録E.4でいくつかの例を示す。平均して、各注釈者はインスタンスごとに56分を費やした。

3.2 Metrics and Evaluation Protocols

我々は、専門家による評価を補完する、再現可能で効率的な評価を促進するために、多面的な自動評価パイプラインを開発した。我々の評価の概要は図3に示されている。

Correctness ( ).

正確性は、モデルが生成した回答と人間が注釈付けした参照回答との重複または一致の度合いを評価する。この指標は、人間が注釈付けした参照回答がある課題にのみ適用される。 SciFact と PubMedQA のような、固定された回答クラスセットが与えられる短文生成タスクについては、正確性の指標として精度を使用する。 QASA については、Lee et al. (2023)に従い、評価指標として ROUGE-L を使用する。 ScholarQA-CSについては、専門家が注釈付けしたルーブリックを採用する新しい長文評価パイプラインを開発した。各ルーブリックには、一般的基準（スコアの40%を占める）と注釈駆動型基準（60%）の2つの基準がある。一般的基準は、長さ、専門性、引用、抜粋の評価をカバーし、一方で注釈駆動型基準は、注釈者が特定した特定の重要な要素の存在を評価することを含む。GPT4o-turboが各基準にスコアを割り当て、重み付け合計を計算して最終スコアを得る。詳細は付録B.3.1に記載されている。

Citation accuracy ( ).

文献レビューの質問に対する長文回答を評価するには、引用の正確性が必要である：言語モデルは、引用に値するすべての記述に対して、関連する証拠を正確に帰属させるべきである。ScholarQABenchでは、すべてのシステムが推論時に提供されたパッセージにリンクされた参照番号（例：[1], [2]）を含む出力を生成する。先行研究(Gao et al., 2023; Liu et al., 2023)に従い、我々は引用の精度と再現率を測定する。具体的には、各引用に値する記述に適切な引用があるか、そしてその引用が記述を裏付けているかを確認する（引用再現率、 -r）。次に、各引用について、その関連性と必要性を検証する—具体的には、引用が記述を裏付けているか、そしてその削除が残りの引用の完全性に影響を与えるかどうかを確認する（引用精度、 -p）。最後に、引用F1スコア（ -F1）も計算し、これを引用正確性の主要な指標として使用する。引用正確性は金の参照回答やルーブリックを必要としないため、この評価をすべてのタスクに適用する。

Content quality and organization ( , ).

我々は、やだけでなく、生成された回答を評価するための重要な側面をさらに定義する。具体的には、質問に対する関連性（）、トピックの網羅性（）（例：議論された論文の多様性）と深さ（例：詳細の十分さ）、そして構成と文章の流れ（）を評価する。これらの側面は標準的な指標では捉えるのが難しい。言語モデルが詳細な評価ルーブリックを効果的に遵守できることから(Zheng et al., 2023a; Kim et al., 2024a)、我々はPrometheus v2 (Kim et al., 2024a)を使用して、定義されたルーブリックに基づいて5段階のスコアを割り当て、人間による評価にも同じスキーマを使用する。人間による評価では、さらに全体的な有用性（）を評価する。この評価の完全な指示は付録B.3に記載されている。先行研究では、金の参照回答が利用できない場合、の信頼性が低下することが示されているため(Kim et al., 2024b)、この評価は人間が注釈付けした参照回答がある課題、すなわちScholarQA-Multiにのみ適用される。我々は、細かい側面に関する人間とモデルの評価の一致度を分析し（付録D.2）、モデルの評価が人間のランキングと一致することが多く、特に構成と網羅性においてより高い相関を示すことを発見した。

4 Experiments and Results

4.1 Experimental Details

Models.

まず、我々はオープンウェイトと独自の言語モデル（LM）の両方を評価する。これにはLlama 3.1（8B、70B）とGPT-4o（gpt-4o-2024-05-13）が含まれる。この設定では、各LMが外部検索なしで独立して回答を生成し、参照した論文タイトルのリストを提供する。評価のために、生成された論文タイトルが実在するかを確認する。存在する場合、対応する要約を取得して引用として使用する。複数論文タスクについては、さらに他の独自システムを評価する：Perplexity Pro、⁵⁵5https://www.perplexity.ai/。実験には有料サブスクリプション版を使用した。Perplexity SearchにはAPIがないため、seleniumツールキットを使用し、インターフェースから最終予測結果を保存した。このため、引用情報を取得することはできなかった。およびPaperQA2 (Skarlinski et al., 2024)。これは、再ランク付け、要約、回答生成にGPT4oを使用する並行的な文献レビューエージェントシステムである。⁶⁶6我々は彼らの公式コードベースを使用する。PaperQA2は検索コーパスを公開しておらず、PDFファイルをオフラインでダウンロードする必要があるため、我々の検索パイプラインとSemantic Scholar APIによって提案された論文のPDFファイルをダウンロードした。PaperQA2とは異なり、我々は非公開またはライセンスで保護された論文にアクセスできないため、我々の複製の効果が一部制限される可能性がある。次に、我々のOpenScholar-DataStore（+OSDS）を使用してモデルを評価する。ここでは上位 $N$ 個の段落を取得し、連結して元の入力と共に供給する。最後に、我々の提案するOpenScholarを評価する。これは、訓練された8Bモデルモデル（OS-8B）、およびLlama 3.1 70BとGPT4o（OS-70B、OS-GPT4o）を使用するカスタム推論時パイプラインを活用している。

Details of OpenScholar.

我々はデフォルトのデータストアとしてpeS2o v2を使用する $\mathbf{D}$ 。異なるデータストアの効果は付録D.1で分析する。 OpenScholarの $\theta_{\text{bi}}$ と $\theta_{\text{cross}}$ については、我々の訓練済みbi-encoderとcross-encoderモデルを使用する。これらはそれぞれ1億1000万パラメータと3億4000万パラメータで構成されている。ウェブ検索とSemantic Scholarからの論文の最大数を10に設定する。生成器LMについては、温度を0.7に設定し、応答生成の最大トークン数を3,000に、フィードバック生成の最大トークン数を1,000に制限し、より高速な推論のためにvllmパッケージを使用する。Llama 3.1 8Bを13万の訓練インスタンスで2エポック訓練し、torchtuneを使用する。さらなる詳細は付録Cに記載されている。すべてのモデルについて、生成器LMに入力する段落数を単一論文タスクでは5、複数論文タスクでは10に設定する。SciFact とPubMedを除き、few-shotデモンストレーションは提供しない。これらのタスクでは1ショットデモンストレーションを含める。

4.2 Results

表2は、主要なベースラインの複数の側面におけるスコアを示している。要約すると、OpenScholarは最先端の性能を達成し、GPT4oおよびその標準的なRAGバージョンを大きく上回り、さらにPaperQA2 (Skarlinski et al., 2024)のような専門的な文献レビューシステムも大幅に上回っている。

Single-paper tasks.

単一論文タスクにおいて、OpenScholarは一貫して他のモデルを上回る性能を示している。OS-8BとOS-70Bは、表2に示されるように、最終的なとの両方において、検索拡張の有無に関わらずLlama 3.1 8Bおよび70Bを上回っている。 OS-70BはPubMedQAとQASAにおいてGPT4oと同等かそれ以上の性能を示している。

	Single-paper performance						Multi-paper performance						Cost
	Pub		Sci		QASA		CS		Multi		Bio	Neu	CS
Model													USD / q
Llama3-8B	61.5	0.0	66.8	0.0	14.3	0.0	41.9	0.0	3.79	0.0	0.0	0.0	0.0001
+OSDS	75.2	63.9	75.5	36.2	18.6	47.2	46.7	26.1	4.22	25.3	38.0	36.8	0.0001
OS-8B	76.4	68.9	76.0	43.6	23.0	56.3	51.1	47.9	4.12	42.8	50.8	56.8	0.003
Llama3-70B	69.5	0.0	76.9	0.0	13.7	0.0	44.9	0.0	3.82	0.0	0.0	0.0	0.0004
+OSDS	77.4	71.1	78.2	42.5	22.7	63.6	48.5	24.5	4.24	41.4	53.8	58.1	0.0004
OS-70B	79.6	74.0	82.1	47.5	23.4	64.2	52.5	45.9	4.03	54.7	55.9	63.1	0.01
GPT4o	65.8	0.0	77.8	0.0	21.2	0.0	45.0	0.1	4.01	0.7	0.2	0.1	0.006
+OSDS	75.1	73.7	79.3	47.9	18.3	53.6	52.4	31.1	4.03	31.5	36.3	21.9	0.01
OS-GPT4o	74.8	77.1	81.3	56.5	18.7	60.4	57.7	39.5	4.51	37.5	51.5	43.5	0.05
PaperQA2	–	–	–	–	–	–	45.6	48.0	3.82	47.2	56.7	56.0	0.3 $\sim$ 2.3
Perplexity	–	–	–	–	–	–	40.0	–	4.15	–	–	–	0.002^∗∗

表2: ScholarQABenchの結果。CS、Multi、Bio、NeuはそれぞれScholar-CS、ScholarQA-Multi、ScholarQA-Bio、ScholarQA-Neuroを示す。は正確性指標（PubMedQAとSciFactは精度、QASAはROUGE-L、ScholarQA-CSは総合スコア）を示し、は引用のF1スコアを示す。は（構成）、（関連性）、（網羅性）のPrometheus (Kim et al., 2024a)による予測の平均スコアを示す。^∗PaperQA2はGPT4oに基づいており、その価格は推論時に使用されるPDFファイルの数に依存する。 8Bおよび70Bモデルのコストについては、評価は我々のローカルマシンで行われたが、Together.aiの価格設定に基づいてコストを見積もった。 ^∗∗我々はPerplexity Pro（月額20 USDの定期購読が必要）を使用し、このコストをProサブスクリプションで許可される最大クエリ数である9,000で割った。 Perplexity UIは各引用のスニペットを提供しないため、その引用精度を評価することができなかった。

	Computer Science			Biomedicine
Model	Total #	# of Hallucinated ( $\downarrow)$	Ratio ( $\downarrow)$	Total #	# of Hallucinated ( $\downarrow)$	Ratio ( $\downarrow)$
OS-8B	9.65	0.0	0.0	6.25	0.0	0.0
\hdashlineLlama 3.1 8B	5.20	4.79	92.1%	5.58	5.46	97.6%
Llama 3.1 70B	6.14	4.78	78.1%	6.98	6.74	96.6%
GPT4o	5.74	4.52	78.7%	5.24	4.97	94.8%

表3: コンピュータサイエンスおよび生物医学分野における幻の論文の統計。我々の分析により、検索を行わないLLMの予測において、存在しない引用論文が多数あることが明らかになった。これはOpenScholarでは観察されない問題である。

Multi-paper tasks.

OpenScholar-8B、70B、およびGPT4o（OS-8B、OS-70B、OS-GPT4o）は複数論文タスクにおいて強力な性能を示している。具体的には、OS-GPT4oはScholar-CSのにおいてGPT4o単独と比較して12.7ポイントの改善を、標準的なRAGと比較して5.3ポイントの改善を示している。訓練されたOS-8Bと組み合わせた場合、OpenScholarは既製のLlama 3.1 8Bを使用したパイプラインを大きく上回り、ドメイン特化型訓練の利点を示している。さらに、このOpenScholar-8Bは、GPT4o、Perplexity Pro、あるいはパッセージの再ランク付け、要約、回答生成にGPT4oモデルを使用するPaperQA2のような独自システムを大幅に上回る性能を示している。特筆すべきは、効率的な検索パイプラインと軽量なbi-encoder、cross-encoder、および自社モデルを活用することで、OpenScholar-8BとOpenScholar-GPT4oは高性能を維持しつつ、PaperQA2よりも桁違いに低いコストを達成している点である。

Limitations of parametric LMs.

単一論文タスクと複数論文タスクの両方において、検索拡張を行わないベースラインは苦戦しており、検索はほぼ常により良い性能を達成するのに有効であることが観察される。また、検索を全く行わないモデルは正確な引用の生成に苦労し、複数論文タスクにおいて限定的な網羅性を示すことが多い。表3に示されるように、実際に存在する引用論文の割合は驚くほど低い。特に、GPT4oやLlamaのようなモデルは尤もらしい参考文献リストを生成できるものの、我々は引用された論文の78-98%が捏造されており、この問題は生物医学分野でより顕著であることを発見した。引用が実在する論文を指している場合でも、その大半は対応する要約によって裏付けられておらず、結果としてほぼゼロの引用精度となっている。

我々はまた、そのようなモデルが限定的な網羅性を持つ応答を生成することも観察した。 Scholar-Multiにおいて、検索を行わないモデル（Llama 3.1 8B、70B、およびGPT4o）は、検索拡張モデルと比較して一貫して大幅に低い平均スコアを示している。この差は主にスコアの低さに起因している。例えば、Llama 3.1 8Bはスコアで3.45を達成しているのに対し、Llama 3.1 8B + OSDS（標準的なRAGベースライン）はそれを4.01に改善している。これらの結果は、特に小規模なLMにおいて、科学分野ではモデルのパラメトリックな知識のみに頼ることが特に困難であることを示唆している。

4.3 Analysis

	Scholar-CS
OS-8B	51.3	47.9
\hdashline- training	49.4	42.3
- reranking	49.6	28.2
- feedback	51.1	50.2
- attribution	49.3	44.0
OS-GPT4o	57.7	39.5
\hdashline- reranking	52.4	22.9
- feedback	55.1	31.0
- attribution	55.6	30.6

Ablation studies.

我々は、OpenScholarの個々のコンポーネント（推論と訓練）の有効性を評価するためにアブレーションを実施する。具体的には、推論時の手順である再ランク付け、フィードバック、および帰属を除去し、OS-8Bについては、さらなる訓練を行わずにLlama3-8Bを使用する訓練のアブレーションを行う。

図4(a)に示すように、これらのコンポーネントを除去することは、モデル出力の全体的な正確性と引用の正確性の両方に大きな影響を与える。特に、再ランク付けを除去すると、両モデルで大幅なパフォーマンスの低下が見られた。 GPT4oでフィードバックループを除去した後のパフォーマンスの顕著な低下は、より強力なモデルが自己フィードバックサイクルから大きな恩恵を受けることを示しており、これはMadaan et al. (2023)と一致している。一方、我々の訓練された8Bモデルでは限定的なパフォーマンスの低下が見られた。さらに、事後の帰属評価の除去は、引用の正確性と最終出力の正確性の両方に悪影響を与え、モデルが出力を検証することの重要性を強調している。訓練済みと未訓練のOS-8Bの間の大きなパフォーマンスの差は、高品質で領域特化したデータでのさらなる訓練が、効率的でタスク特化型のLMを構築する上で重要であることを示唆している。次の分析では、訓練がLMのより多くのコンテキストを効果的に利用する能力に大きな影響を与える一方で、引用の正確性を維持することを示す。

Number of context passages.

我々は、コンテキスト段落の数（上位 $N$ ）を変化させることがモデルのパフォーマンスにどのように影響するかを分析した。具体的には、標準的なRAGとOpenScholarを使用して、我々の訓練された8Bモデルとllama 3.1 8Bで実験を行い、Scholar-CSにおける生成の正確性と引用の正確性の両方を評価した。図4(b)(c)に結果を示す。 Llama 3.1は最大128Kトークンのコンテキスト長を処理し受け入れるように訓練されているが、一定のコンテキストサイズを超えるとパフォーマンスが低下することが分かった。上位 $N$ のコンテキストウィンドウを5から10に増やすと、モデルの正確性スコアは向上するが、さらに拡大すると正確性と引用の正確性の両方が悪化する。これは、LMが多数の段落を処理できるとしても、特に小規模なモデルでは、特殊な訓練なしでは効果的に利用することが困難である可能性を示唆している。

対照的に、我々の訓練された8Bモデルは、最大 $N=20$ の段落まで強力なパフォーマンスを維持する。また、Llama 3.1 70Bのようなより大規模なモデルは、コンテキスト長の増加に対してより堅牢であることも分かった。引用の正確性に関しては、図4(c)に示すように、Llama 3.1 8Bは急速に低下し、引用F1は10まで低下するが、我々の8B LMとLlama 70Bは両方とも約40の引用F1を維持している。ただし、これらのモデルもパフォーマンスの低下が見られる。

5 Expert Evaluation

我々の自動評価を補完し、OpenScholarの有効性と限界をより深く理解するために、人間による評価を実施した。この研究では、100以上の文献レビューに関する質問と、関連分野の専門知識を持つ15名以上の参加者（博士課程の学生、研究者、大学教授を含む）が関与した。合計で、人間と模型の回答に対する400以上の詳細な専門家評価を収集した。

5.1 Human Evaluation Design

Evaluations against human experts.

人間による評価のために、我々は専門家によって作成されたScholarQA-Multiから108の質問回答ペアを使用する。これらの質問に対して、引用付きの回答を生成するために3つのモデルを実行する：GPT4o（外部検索なし）、生成器としてGPT4oを使用したOpenScholar（OS-GPT4o）、そして我々が訓練した8Bモデルを使用したOpenScholar（OS-8B）である。その後、専門家の評価者にモデルが生成した回答を人間が作成した回答と比較評価するよう依頼する。

各評価では、質問、モデルが生成した回答、そして人間が作成した回答を提示する。専門家の評価者は、各回答の詳細な評価を行い、2つの回答間で対比的な選好判断を提供する。詳細評価には、第3節で説明した5段階の評価基準（、、）を使用し、評価者は同じ基準を用いてモデルと人間の回答の両方を採点する。有用性（）については、評価者は1-5の尺度で得点を付け、我々はこれを3つのクラスに変換する：有用でない（1-2）、中立（3）、有用（4-5）。その後、有用カテゴリーに分類される回答の割合を計算する。対比的選好については、評価者は回答の一方を選択するか、両方の回答が同等の品質であると判断した場合は「同点」とする。任意で、専門家はなぜ一方の回答がもう一方より優れているかについて説明を提供する。

Expert annotators for answer writing.

質問と回答の作成のための我々の専門家評価者は、米国全土の研究機関から12名の博士課程学生およびポスドク研究者であり、全員が少なくとも3年間の研究経験を持ち、自分の分野のジャーナルや学会で複数の論文を発表している。我々の評価者の専門分野は、コンピュータサイエンス（自然言語処理、コンピュータビジョン、ヒューマンコンピュータインタラクション）、物理学（天体物理学およびフォトニクス/光学）、生物医学（神経科学、バイオイメージング）の領域にわたっており、我々は専門家評価者を彼らの専門分野の質問に割り当てる。平均して、1人当たり35-40 USDを支払った。

Expert annotators for evaluations.

3つの分野から合計16名の専門家評価者が我々の評価に貢献し、そのうち12名が回答生成にも参加した。全ての専門家評価者は、回答を作成した者と同じ資格を満たしている。潜在的なバイアスを最小限に抑えるため、評価者が自分自身の質問に対する回答を評価しないよう、評価タスクを異なるグループの専門家に割り当てた。各インスタンスは、利用可能性に応じて1〜3名の専門家評価者によってレビューされた。評価者間の一致度は、同点を含む対比較で0.68、同点をマージした緩和アプローチで0.70であった。平均して、各専門家はインスタンスごとに5分を費やし、25〜35 USDの報酬を受け取った。

	Fine-grained (1-5, Avg.)			Overall Usefulness	Relative to Human (%)
				(%)	Win	Tie	Lose
GPT4o	4.63 (+0.4)	4.06 (-0.2)	4.50 (-0.1)	69.7 (-13.9)	31.9	13.8	54.2
OS-8B	3.82 (-0.3)	4.30 (+0.7)	4.00 (-0.4)	72.1 (+8.7)	50.8	12.3	36.9
OS-GPT4o	4.47 (+0.8)	4.38 (+0.9)	4.30 (0.0)	80.0 (+22.5)	70.0	6.8	23.2

表4: 人間による評価結果。詳細な側面評価は、我々の詳細な指示とルーブリックを用いて、4つの側面にわたって5段階で実施される。括弧内の値は相対的な性能差を表す；(+)はモデルがより高い性能を示すことを、(-)は人間がより高い性能を示すことを示す。

5.2 Human Evaluation Results

Results of human evaluations.

表4は、各評価側面の平均スコアと人間の回答に対する相対的な勝率を示している。図5は、人間、GPT4o、そしてLlama 3 8BとGPT4oを用いたOpenScholarのスコア分布を示している。注目すべきは、OS-GPT4oと我々のOS-8Bバージョンの両方が50%以上のケースで人間の回答を上回っており、その優位性は主に情報の幅広さと深さ（カバレッジ；）を提供する能力に起因している点である。対照的に、検索機能を持たないGPT4oは、カバレッジが著しく限定的で、35%未満のケースでしか勝利せず、全体的な有用性は人間や他の2つのモデルの回答よりもはるかに低く評価されている。これらの結果は、最先端のモデルであっても、科学文献レビューの質問に対する回答の合成と生成が依然として困難なタスクであることを示しており、ScholarQABenchでの我々の発見と一致している。全体として、OpenScholar-GPT4oとOpenScholar-8Bは、それぞれクエリの80%と72%で有用と評価されている。

より小規模なオープンな8B LMを用いたOpenScholarでさえ人間の専門家を上回っているが、8Bモデルの出力は、現在の最先端の非公開LMベースのOpenScholarと比較して、構成や流暢さの面で劣ると判断されている。我々は、GPT4oがフィードバックをより効果的に取り入れ、一般的により長く流暢な出力を生成することを発見した。これにより、8BベースのOpenScholarや人間と比較して、構成のスコアが大幅に高くなっている。

Effects of length control on model responses.

モデルの出力が人間の出力よりも好まれることが多いことが分かったが、潜在的な交絡因子の1つは出力の長さの大きな差異である。OpenScholar-GPToとOpenScholar-8Bは、人間が書いた回答よりもそれぞれ2.4倍と2.0倍長く、これが人間の判断に影響を与える可能性があるDubois et al. (2024)。出力の長さの影響を理解するために、我々は制御実験を行った：ランダムに抽出した50の質問に対して、GPT4oに300語以内の要約を作成するよう指示することで、OpenScholar-GPT4oの回答の短縮版を生成した。結果として、平均約333語のOpenScholarの回答を収集し、これは人間の回答の平均長に近い。その後、同じ人間による評価を行い、詳細および全体的な回答を評価した。平均して、短縮されたGPT4oは構成で4.5、カバレッジで4.6、関連性で4.6のスコアを獲得した。短縮されたOpenScholar-GPT4oの回答は、クエリの75%で専門家の回答と同等かそれ以上に好まれた。この実験結果は、モデルの優れたパフォーマンスが単にOpenScholarの回答の長さの増加によるものではないことを示している。さらに、人間の注釈者の説明では、短縮されたOpenScholarと人間の回答の両方がより多くの詳細を含めることで改善できると言及されることが多く、300語の制限が回答の有用性を制限している可能性があることを示唆している。

Analyses on human explanations for pair-wise explanations.

我々は、ペアワイズ選好に関する自由形式の説明を含む59のインスタンスをランダムにサンプリングし、全体的な選好に影響を与える要因を特定するための手動分析を行った。具体的には、説明が以下の4つのカテゴリーのうち1つ以上に言及しているかどうかを調査した：構成、関連性、カバレッジ、引用。最初の3つのカテゴリーは詳細な人間評価基準と一致しているが、引用カテゴリーは引用された論文の質（例えば、システムがその分野の主要な代表的論文を含んでいるかどうか）も考慮している。我々の分析により、ペアワイズ決定の主要な要因として、説明の12%が構成、23%が関連性、29%がカバレッジ、9%が引用に言及していることが明らかになった。これは、人間が回答の質を評価する際にカバレッジが重要な役割を果たしていることを示唆しており、注釈者は主にモデル生成の回答をその情報のより広範なカバレッジと深さのために好んでいる。しかし、注釈者はまた、モデルが提供する引用が改善の余地があると指摘し、提案された論文が時折古かったり、より代表的な研究と比較して関連性が低かったりすることを指摘した。付録15に説明の例を示す。

6 Related Work

Scientific LMs.

科学分野の言語モデルは、生物医学(Phan et al., 2021; Yuan et al., 2022; Luo et al., 2022)、医療(Singhal et al., 2023a; Gu et al., 2024; Tan et al., 2023; Singhal et al., 2023b)、生物医学(Zhang et al., 2024b; Fang et al., 2024; Li et al., 2024a)、地球科学(Feng et al., 2023)、天文学(Nguyen et al., 2023)、そして学際的科学(Shaikh et al., 2023)など、様々な領域に及んでいる。SciGLM(Zhang et al., 2024a)やUniSmart(Chi et al., 2024)のように、単一のモデルで多様な科学分野をカバーすることを目指すモデルもある。最近では、強力な汎用大規模言語モデルが科学的タスクにおいても高い能力を示すことが複数の研究で明らかになっている。例えば、医療質問応答(AI4Science & Quantum, 2023; Singhal et al., 2023a)、化学実験(Zheng et al., 2023b)、応用力学(Brodnik et al., 2023)などの分野である。しかしながら、言語モデルがそのパラメータ内に記憶された情報に依存することで、出力に頻繁な幻覚が生じることがある(Li et al., 2024b)。

LMs to assist scientists.

近年の研究では、新しい研究アイデアの生成(Baek et al., 2024; Yang et al., 2023)や実験コード生成の自動化(Huang et al., 2023; Tian et al., 2024)を含む、様々な科学的手順の実行を支援するLLMの能力も検討されている。しかし、我々の研究は特に、文献レビューの自動化と最新の研究に関する質問への対応のためのベンチマーキングと手法開発に焦点を当てている。これらのタスクは科学的探究にとって極めて重要であり、特に困難なものである。いくつかの並行研究では、科学文献レビューエージェントのために、独自のLLMと外部API（例：Semantic Scholar API）を使用した検索拡張パイプラインの構築を試みている(Agarwal et al., 2024; Skarlinski et al., 2024; Wang et al., 2024)。これらの研究と我々の研究はいずれも、文献統合の自動化における検索拡張LMの可能性を探求しているが、先行研究は多くの場合、独自のブラックボックスシステムと限定的な評価に依存しており、一般的に小規模な人間による評価や多肢選択式QAなどの簡略化されたセットアップを含んでいる。対照的に、本稿は自動化された指標を持つ包括的なベンチマークを導入し、3つの科学分野にわたる専門家によるユーザー研究を含み、特化したオープンモデルを訓練するための新しい方法論を開発している。OpenScholarは、以前に導入されたシステムを大幅に上回る性能を示し、5つの領域で人間の専門家を凌駕する優位性を示している。

Benchmarks for scientific literature understanding.

科学文献を理解するモデルの能力を評価するためのベンチマークを開発した研究がいくつか存在する。SciFact (Wadden et al., 2020)、QASPER (Dasigi et al., 2021)、QASA (Lee et al., 2023)などの先行データセットは、主に単一論文の設定に焦点を当てており、クエリに答えるために必要な情報が予め選択された1つの論文内に含まれている。しかし、現実世界のシナリオでは、専門家は質問に答えるために複数の論文から情報を統合する必要がある場合が多い。この隔たりに対処するため、ScholarQABenchは複数の論文にわたる推論を必要とする新たに注釈付けされたタスクを導入している。また、Multi-XScience (Lu et al., 2020)のような科学的要約タスクも存在し、これらではモデルに複数の論文が提供され、通常それらの論文の関連研究セクションに基づいて要約を生成することが求められる。しかし、本稿では関連論文が事前に指定されていないシナリオに焦点を当てており、これによりタスクはより困難なものとなっている。最近、Xu et al. (2024)はKIWIを導入した。これは200の質問と、最先端のLLMによって生成され人間が検証または編集した回答を含むデータセットであり、NLP分野に焦点を当てている。KIWIはまた、モデルが考慮しなければならない関連論文のセットも提供している。KIWIとScholarQABenchはどちらも複数論文を扱う情報探索タスクを特徴としているが、ScholarQABenchは人間が書いた回答と自動評価パイプラインの両方を含んでいる。対照的に、KIWIはより人間による評価に重点を置いており、その参照回答は主にモデルによって生成されたものである。

7 Conclusion

LMベースのシステムが科学の進歩を支援できるという研究をさらに進めるため、我々はOpenScholarとScholarQABenchを導入した。これらは、複雑で絶えず拡大する科学文献レビューの課題に対処するのに役立つ。 OpenScholarは検索拡張システムであり、オープンチェックポイントLLMと訓練された検索モデルを活用して科学的成果を反復的に洗練し、幻覚や引用の正確性などの課題に対処する。 ScholarQABenchは新しい大規模ベンチマークであり、複数の科学分野にわたる文献レビューの自動化を評価するための標準化された方法を提供する。 ScholarQABenchを用いた評価では、OpenScholarが大幅な改善を示し、GPT-4oや同時期の独自システムであるPaperQA2を含む既存のシステムを凌駕している。3つの科学分野にわたる専門家による評価では、ScholarQABenchが完全にオープンチェックポイントのモデルとオープンアクセスのデータストアと組み合わされた場合、注釈付けに1時間を要する専門家の注釈者が生成した回答よりも有用な回答を生成することが明らかになった。このアプローチはまた、カバレッジを大幅に向上させる。我々が訓練した8BモデルとGPT4oを使用したOpenScholarは、人間が生成した回答に対して51%および70%の勝率を達成している。我々はOpenScholarのコード、データ、モデルチェックポイント、データストア、およびScholarQABenchをオープンソース化し、公開デモとともに提供することで、将来の研究努力を支援し加速させる。

Limitations

本節では、我々の研究の複数の限界について強調する。言語モデルベースのシステムが科学文献の統合を完全に自動化できると主張しているわけではないことに留意することが重要である。この分野の研究をさらに進めるため、我々はScholarQABenchとOpenScholarの両方をコミュニティに公開している。

Limitations of ScholarQABench.

ScholarQABenchにはいくつかの限界がある。第一に、関連分野で博士号を持つ、または現在博士課程に在籍している専門家アノテーターを雇用するためのコストと時間の制約により、人間が作成した回答を含む評価データセットは比較的小規模である（例えば、CS-LFQAで110、専門家が作成した回答で108）。このデータセットの規模の制限により、統計的な変動や、アノテーターの特定の専門知識に起因する潜在的なバイアスが生じる可能性がある。ScholarQABenchの規模と範囲を拡大する将来の研究を支援するため、我々はデータとアノテーションパイプラインをオープンソース化している。

第二に、我々の自動評価パイプラインが生成されたコンテンツの品質を常に完璧に捉えられるわけではない。例えば、Scholar-CSでは、様々な要素（長さ、抜粋、ルーブリック項目など）を経験的に決定された重み付け項を用いて組み合わせている。さらに、アノテーターがしばしばルーブリックで特定の種類の補足情報（背景、詳細説明、課題など）を求めていることが判明したが、これらの側面は質問に答えるために厳密に必要とされるわけではない。我々の実験では、LLMが背景的側面の生成に長けていることが分かり、これにより質問に直接答えるがルーブリックのすべての制約を満たさないシステムよりも優位に立つ可能性がある。さらに、将来のシステムはルーブリックのスタイル的バイアスを利用し、回答の質を向上させることなくより多くのルーブリック要素に対応するようプロンプトされる可能性がある。最終スコアと人間の専門家による評価との相関を慎重に分析したが、どの側面を強調すべきか、またこれらのスコアをどのように集計すべきかを改善する余地はまだある。加えて、引用の精度と再現率の評価は文レベルで行われているが、直接の引用がない文でも、隣接する文で引用によってサポートされていることがしばしばあることが分かった。その結果、我々の精度と再現率の指標は過度に厳格である可能性があり、真の引用精度を過小評価している可能性がある。また、我々のアノテーションは特定の時点（Scholar-CSは2024年7月、Scholar-Multiは2024年9月）で取得されたものであり、その後の科学的発展を反映していない可能性があることにも注意が必要である。本評価ベンチマークを使用する研究者は、公平な比較のためにこれらの日付以降に公開された論文を無視すべきである。

最後に、ScholarQABenchは主にコンピューターサイエンス、生物医学、物理学に焦点を当てており、社会科学やその他の工学・科学分野からのインスタンスは含まれていない。我々の発見が他の領域、特に論文データへのアクセスがより制限されている分野に完全に一般化できない可能性があることを認識している。

Limitations of OpenScholar.

OpenScholarはScholarQABenchおよび人間による評価において強力な性能を示しているが、関連セクションで議論されているように、我々の専門家アノテーターはいくつかの限界を特定した。これらの問題にもかかわらず、我々はOpenScholarが人間の専門家を支援する上で価値ある道具であり続けると考えている。

第一に、我々の専門家アノテーターが指摘したように、OpenScholarは特定のクエリに対して最も代表的または関連性の高い論文を一貫して検索することができない。引用ネットワークや出版の新しさなどのメタデータといった追加情報を組み込むことで検索方法を強化することで、その性能を大幅に向上させる可能性がある。 OpenScholarの出力には、特に指示に従う能力と科学的知識が限られている8Bモデルに基づくバージョンにおいて、事実の不正確さや裏付けのない情報が含まれる可能性がある。今後の研究では、OpenScholar-8Bをさらに改善する訓練を探求することができる。並行して、競争力があるとはいえ、OpenScholar-GPT4oは独自のGPT4o APIに依存しており、これは時間とともに進化する可能性があるため、結果の正確な再現が困難になる可能性がある。 OpenScholarは推論時にライセンスで保護された論文を使用しない。検索拡張型LMにおける公正なデータ使用を確保する方法について継続的な議論があり、著作権で保護されたコンテンツを適切に組み込む探求は今後の研究に委ねる。

我々は、これらの限界に対処し、科学文献レビューのためのLMベースのシステムを継続的に改善する今後の研究を奨励する。

Limitations of our human evaluation process.

我々の人間による評価において、評価者は網羅性、関連性、構成、有用性などの側面について詳細な評価を行った一方で、引用の精度や再現率などの他の要因は別途評価された。その結果、有用性や対比較の選好を評価する際に、評価者は事実の正確性や引用の精度を慎重に評価するのではなく、文章の全体的な質により注目した可能性がある。引用の正確性、妥当性、事実性に関するより詳細な人間による分析は今後の課題として残されている。

我々の評価は16名の博士課程の学生および博士研究員によって実施され、評価対象のトピックと彼らの専門性を一致させるよう努めた。しかしながら、研究は多くの場合深い専門知識を必要とするため、評価者は自身の直接の専門分野外の質問についてはより微妙な差異を捉えきれていない可能性がある。さらに、これらの評価は3つの科学分野にわたる108の質問に基づいて行われたため、得られた知見が他の分野やドメインに完全に一般化できるとは限らない。

Author Contribution

著者の貢献は以下のように要約される：

•

プロジェクトリード：浅井明理
•

プロジェクト構想：浅井明理、Wen-tau Yih、Pang Wei Koh、Hannaneh Hajishirzi
•

OpenScholarの開発：浅井明理、Weijia Shi、Rulin Shao、Jacqueline He
•

OpenScholar公開デモの開発：Amanpreet Singh、Joseph Chee Cheng、浅井明理、Rulin Shao、Doug Downey、Matt Latzke
•

peS2oの構築：Luca Soldaini、Kyle Lo
•

データストア（peS2oインデックス）の構築：Rulin Shao、Jacqueline He、浅井明理
•

論文ライセンスに関する法的議論：Kyle Lo、Luca Soldaini、Doug Downey、Pang Wei Koh、Amanpreet Singh、浅井明理
•

OpenScholar-LMの訓練：浅井明理、Weijia Shi
•

OpenScholar-Retrieversの訓練と評価：浅井明理、Jacqueline He、Rulin Shao
•

ScholarQABenchの設計と構想：浅井明理、Pang Wei Koh、David Wadden、Doug Downey、Kyle Lo、Weijia Shi、Amanpreet Singh、Sergey Feldman、Dan Weld
•

ScholarQABenchのコレクション（単一論文タスク）：浅井明理
•

ScholarQABench評価パイプラインの設計と開発：浅井明理
•

ScholarQA-CSのコレクションと評価：Doug Downey、Amanpreet Singh、Sergey Feldman、Dan Weld、Mike D'arcy
•

ScholarQA-Multiのコレクション：浅井明理、Minyang Tian、Rulin Shao、Jacqueline He、Weijia Shi、Pan Ji、Shengyan Liu、Hao Tong、Bohao Wu、Yanyu Xiong
•

ScholarQA-Neuro、Bioのコレクション：Doug Downey
•

結果とコードベース：浅井明理、Jacqueline He、Rulin Shao、Weijia Shi、Amanpreet Singh
•

人間による評価の設計：浅井明理、Pang Wei Koh、Graham Neubig
•

人間による評価インターフェースの開発と監督：浅井明理、Minyang Tian
•

原稿執筆：浅井明理、Jacqueline He、Doug Downey、Amanpreet Singh、Kyle Lo、Pang Wei Koh
•

OpenScholar公開デモのテスト：全員
•

原稿編集：全員
•

助言：Pang Wei Koh、Hannaneh Hajishirzi、Doug Downey、Wen-tau Yih、Graham Neubig、Dan Weld、Luke Zettlemoyer

Acknowledgments

我々は、高品質なデータのキュレーションを支援してくださった専門家アノテーターの方々、そしてAi2アノテーションチームのJenna Sparks氏にデータ収集プロセスの管理と監督をしていただいたことに感謝する。人間による評価インターフェースの開発を支援してくれたYizhong Wang氏、OpenScholar 8Bの訓練に使用したTulu v3指示調整データの初期バージョンを提供してくれたHamish Ivison氏、そしてPrometheusの評価に協力してくれたSeungone Kim氏に感謝する。我々の評価データの限界を分析してくれたJena Hwang氏に感謝する。公開デモの支援をしてくれたChloe Anastasiades氏、Crystal Nam氏、Sophie Lebrecht氏、Taira Anderson氏、Will Smith氏に感謝する。本プロジェクトに関する有益な議論と人間による評価実験へのフィードバックをしてくれたFangyuan Xu氏、Eunsol Choi氏、Aran Komatsuzaki氏、Sean Welleck氏、Xiang Yue氏、Tong Chen氏、Vijay Viswanathan氏、Shannon Shen氏、そしてH2labとNeulabの学生たちに感謝する。 PWKはシンガポール国立研究財団およびシンガポールデジタル開発情報省の国家AI部門によるAI客員教授プログラム（授与番号AIVP-2024-001）の支援を受けている。本研究の一部は、AAがUW-Meta AIメンターシッププログラムの一環として行ったものである。

References

Agarwal et al. (2024) Shubham Agarwal, Issam H Laradji, Laurent Charlin, and Christopher Pal. Litllm: A toolkit for scientific literature review. arXiv preprint arXiv:2402.01788, 2024. URL https://arxiv.org/abs/2402.01788.
AI4Science & Quantum (2023) Microsoft Research AI4Science and Microsoft Azure Quantum. The impact of large language models on scientific discovery: a preliminary study using gpt-4. arXiv preprint arXiv:2311.07361, 2023. URL https://arxiv.org/abs/2311.07361.
Asai & Choi (2021) Akari Asai and Eunsol Choi. Challenges in information-seeking QA: Unanswerable questions and paragraph retrieval. In ACL, 2021. URL https://aclanthology.org/2021.acl-long.118.
Asai et al. (2023) Akari Asai, Timo Schick, Patrick Lewis, Xilun Chen, Gautier Izacard, Sebastian Riedel, Hannaneh Hajishirzi, and Wen-tau Yih. Task-aware retrieval with instructions. In Findings of the Association for Computational Linguistics, 2023. URL https://aclanthology.org/2023.findings-acl.225.
Asai et al. (2024) Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil, and Hannaneh Hajishirzi. Self-RAG: Learning to retrieve, generate, and critique through self-reflection. In ICLR, 2024. URL https://openreview.net/forum?id=hSyW5go0v8.
Azerbayev et al. (2024) Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen Marcus McAleer, Albert Q. Jiang, Jia Deng, Stella Biderman, and Sean Welleck. Llemma: An open language model for mathematics. In ICLR, 2024. URL https://openreview.net/forum?id=4WnqRR915j.
Baek et al. (2024) Jinheon Baek, Sujay Kumar Jauhar, Silviu Cucerzan, and Sung Ju Hwang. Researchagent: Iterative research idea generation over scientific literature with large language models. arXiv preprint arXiv:2404.07738, 2024. URL https://arxiv.org/abs/2404.07738.
Brodnik et al. (2023) Neal R. Brodnik, Samuel Carton, Caelin Muir, Satanu Ghosh, Doug Downey, McLean P. Echlin, Tresa M. Pollock, and Samantha Daly. Perspective: Large Language Models in Applied Mechanics. Journal of Applied Mechanics, 2023. URL https://doi.org/10.1115/1.4062773.
Chi et al. (2024) Chenglei Chi, Qiaozi Cheng, Zheng Wen, Rongzhe Lin, Chunyang Wen, Zhaowei Wang, Cuiling Gao, Jian Zhang, Xu Jiang, Jian Yin, et al. Uni-SMART: Universal science multimodal analysis and research transformer. arXiv preprint arXiv:2403.10301, 2024. URL https://arxiv.org/abs/2403.10301.
Choi et al. (2018) Eunsol Choi, He He, Mohit Iyyer, Mark Yatskar, Wen-tau Yih, Yejin Choi, Percy Liang, and Luke Zettlemoyer. QuAC: Question answering in context. In EMNLP, Brussels, Belgium, 2018. Association for Computational Linguistics. URL https://aclanthology.org/D18-1241.
Dasigi et al. (2021) Pradeep Dasigi, Kyle Lo, Iz Beltagy, Arman Cohan, Noah A. Smith, and Matt Gardner. A dataset of information-seeking questions and answers anchored in research papers. In NAACL, 2021. URL https://aclanthology.org/2021.naacl-main.365.
Dubey et al. (2024) Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, et al. The llama 3 herd of models. arXiv preprint arXiv:2407.21783, 2024. URL https://arxiv.org/abs/2407.21783.
Dubois et al. (2024) Yann Dubois, Balázs Galambosi, Percy Liang, and Tatsunori B Hashimoto. Length-controlled alpacaeval: A simple way to debias automatic evaluators. In COLM, 2024. URL https://openreview.net/forum?id=CybBmzWBX0.
Fang et al. (2024) Ziheng Fang, Guangxu Wang, Jinsung Xu, Yifeng Cai, Jingya Wang, Qicheng Qiu, Ruixuan Zhang, Xiaofeng Chen, Jinna Wang, Jiayi Dong, et al. Biomedgpt: A unified and generalist biomedical generative pre-trained transformer for vision, language, and knowledge reasoning tasks. arXiv preprint arXiv:2403.18421, 2024. URL https://arxiv.org/abs/2305.17100.
Feng et al. (2023) Qiang Feng, Yuxi Li, Jintao Zou, Zhiwei Li, Zhiqiang Ding, Chao Zhang, Qinyan Zhang, Xueqi Hu, Weihao Peng, Xiangyu Meng, et al. K2: A foundation language model for geoscience knowledge understanding and generation. arXiv preprint arXiv:2306.05064, 2023.
Gao et al. (2023) Tianyu Gao, Howard Yen, Jiatong Yu, and Danqi Chen. Enabling large language models to generate text with citations. arXiv preprint arXiv:2305.14627, 2023. URL https://arxiv.org/abs/2305.14627.
Gu et al. (2024) Xiaodan Gu, Zhen Wang, Zhengliang Shi, Hongyan Li, Xiaoye Chen, and Dehong Cheng. Me-llama: Foundation model for medical language understanding and generation. arXiv preprint arXiv:2402.12749, 2024. URL https://arxiv.org/abs/2402.12749.
Guu et al. (2020) Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, and Mingwei Chang. Retrieval augmented language model pre-training. In International Conference on Machine Learning, 2020. URL https://dl.acm.org/doi/pdf/10.5555/3524938.3525306.
Huang et al. (2023) Qian Huang, Jian Vora, Percy Liang, and Jure Leskovec. Mlagentbench: Evaluating language agents on machine learning experimentation. In International Conference on Machine Learning, 2023. URL https://api.semanticscholar.org/CorpusID:263671541.
Ivison et al. (2023) Hamish Ivison, Yizhong Wang, Valentina Pyatkin, Nathan Lambert, Matthew Peters, Pradeep Dasigi, Joel Jang, David Wadden, Noah A Smith, Iz Beltagy, et al. Camels in a changing climate: Enhancing lm adaptation with tulu 2. arXiv preprint arXiv:2311.10702, 2023. URL https://arxiv.org/abs/2311.10702.
Izacard et al. (2022) Gautier Izacard, Mathilde Caron, Lucas Hosseini, Sebastian Riedel, Piotr Bojanowski, Armand Joulin, and Edouard Grave. Unsupervised dense information retrieval with contrastive learning. TMLR, 2022. URL https://openreview.net/forum?id=jKN1pXi7b0.
Jiang et al. (2023) Zhengbao Jiang, Frank F Xu, Luyu Gao, Zhiqing Sun, Qian Liu, Jane Dwivedi-Yu, Yiming Yang, Jamie Callan, and Graham Neubig. Active retrieval augmented generation. In ACL, 2023. URL https://aclanthology.org/2023.emnlp-main.495/.
Jin et al. (2019) Qiao Jin, Bhuwan Dhingra, Zhengping Liu, William Cohen, and Xinghua Lu. PubMedQA: A dataset for biomedical research question answering. In EMNLP-IJCNLP, 2019. URL https://aclanthology.org/D19-1259.
Karpukhin et al. (2020) Vladimir Karpukhin, Barlas Oğuz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, and Wen-tau Yih. Dense passage retrieval for open-domain question answering. In EMNLP, 2020. URL https://aclanthology.org/2020.emnlp-main.550/.
Kasai et al. (2023) Jungo Kasai, Keisuke Sakaguchi, Yoichi Takahashi, Ronan Le Bras, Akari Asai, Xinyan Yu, Dragomir Radev, Noah A Smith, Yejin Choi, and Kentaro Inui. RealTime QA: What’s the answer right now? In NeurIPS (Datasets and Benchmarks), 2023. URL https://openreview.net/forum?id=HfKOIPCvsv&noteId=YNFU7iQmxA.
Kim et al. (2024a) Seungone Kim, Jamin Shin, Yejin Cho, Joel Jang, Shayne Longpre, Hwaran Lee, Sangdoo Yun, Seongjin Shin, Sungdong Kim, James Thorne, and Minjoon Seo. Prometheus: Inducing fine-grained evaluation capability in language models. In ICLR, 2024a. URL https://openreview.net/forum?id=8euJaTveKw.
Kim et al. (2024b) Seungone Kim, Juyoung Suk, Ji Yong Cho, Shayne Longpre, Chaeeun Kim, Dongkeun Yoon, Guijin Son, Yejin Cho, Sheikh Shafayat, Jinheon Baek, et al. The biggen bench: A principled benchmark for fine-grained evaluation of language models with language models. arXiv preprint arXiv:2406.05761, 2024b. URL https://arxiv.org/abs/2406.05761.
Kinney et al. (2023) Rodney Michael Kinney, Chloe Anastasiades, Russell Authur, Iz Beltagy, Jonathan Bragg, Alexandra Buraczynski, Isabel Cachola, Stefan Candra, Yoganand Chandrasekhar, Arman Cohan, Miles Crawford, Doug Downey, Jason Dunkelberger, Oren Etzioni, Rob Evans, Sergey Feldman, Joseph Gorney, David W. Graham, F.Q. Hu, Regan Huff, Daniel King, Sebastian Kohlmeier, Bailey Kuehl, Michael Langan, Daniel Lin, Haokun Liu, Kyle Lo, Jaron Lochner, Kelsey MacMillan, Tyler Murray, Christopher Newell, Smita Rao, Shaurya Rohatgi, Paul L Sayre, Zejiang Shen, Amanpreet Singh, Luca Soldaini, Shivashankar Subramanian, A. Tanaka, Alex D Wade, Linda M. Wagner, Lucy Lu Wang, Christopher Wilhelm, Caroline Wu, Jiangjiang Yang, Angele Zamarron, Madeleine van Zuylen, and Daniel S. Weld. The semantic scholar open data platform. ArXiv, abs/2301.10140, 2023. URL https://arxiv.org/abs/2301.10140.
Lee et al. (2023) Yoonjoo Lee, Kyungjae Lee, Sunghyun Park, Dasol Hwang, Jaehyeon Kim, Hong-in Lee, and Moontae Lee. QASA: advanced question answering on scientific articles. In ICML, 2023. URL https://proceedings.mlr.press/v202/lee23n.html.
Lewis et al. (2020) Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, and Douwe Kiela. Retrieval-augmented generation for knowledge-intensive nlp tasks. In NeurIPS, 2020. URL https://proceedings.neurips.cc/paper/2020/file/6b493230205f780e1bc26945df7481e5-Paper.pdf.
Li et al. (2024a) Junfeng Li, Junjie Gao, Siru Zhang, Yiwen Wang, Xinhang Yan, Hongyan Liu, Shiping Yang, Jie Qiao, and Qian Zhan. BioMistral: A collection of open-source pretrained large language models for biomedicine. In Findings of ACL, 2024a. URL https://aclanthology.org/2024.findings-acl.348/.
Li et al. (2024b) Junyi Li, Jie Chen, Ruiyang Ren, Xiaoxue Cheng, Xin Zhao, Jian-Yun Nie, and Ji-Rong Wen. The dawn after the dark: An empirical study on factuality hallucination in large language models. In Lun-Wei Ku, Andre Martins, and Vivek Srikumar (eds.), Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 10879–10899, Bangkok, Thailand, August 2024b. Association for Computational Linguistics. URL https://aclanthology.org/2024.acl-long.586.
Li et al. (2024c) Ming Li, Yong Zhang, Shwai He, Zhitao Li, Hongyu Zhao, Jianzong Wang, Ning Cheng, and Tianyi Zhou. Superfiltering: Weak-to-strong data filtering for fast instruction-tuning. In ACL, 2024c. URL https://aclanthology.org/2024.acl-long.769.
Liu et al. (2023) Nelson F Liu, Tianyi Zhang, and Percy Liang. Evaluating verifiability in generative search engines. In Findings of EMNLP, 2023. URL https://aclanthology.org/2023.findings-emnlp.467/.
Liu et al. (2024) Nelson F Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, and Percy Liang. Lost in the middle: How language models use long contexts. TACL, 2024. URL https://aclanthology.org/2024.tacl-1.9/.
Lo et al. (2020) Kyle Lo, Lucy Lu Wang, Mark Neumann, Rodney Kinney, and Daniel Weld. S2ORC: The semantic scholar open research corpus. In ACL, 2020. URL https://aclanthology.org/2020.acl-main.447.
Loshchilov & Hutter (2019) Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. In ICLR, 2019. URL https://openreview.net/forum?id=Bkg6RiCqY7.
Lu et al. (2020) Yao Lu, Yue Dong, and Laurent Charlin. Multi-xscience: A large-scale dataset for extreme multi-document summarization of scientific articles. In EMNLP, 2020. URL https://aclanthology.org/2020.emnlp-main.648/.
Luo et al. (2022) Renqian Luo, Liai Sun, Yingce Xie, Zhiting Jiang, Yangbin Gu, Kun Shi, Dejia Xiong, Sheng He, Zhen Xu, and Tao Qin. Biogpt: Generative pre-trained transformer for biomedical text generation and mining. Briefings in Bioinformatics, 2022. URL https://academic.oup.com/bib/article/23/6/bbac409/6713511.
Madaan et al. (2023) Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah Wiegreffe, Uri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang, et al. Self-refine: Iterative refinement with self. Feedback, 2023. URL https://arxiv.org/abs/2303.17651.
Malaviya et al. (2023) Chaitanya Malaviya, Subin Lee, Sihao Chen, Elizabeth Sieber, Mark Yatskar, and Dan Roth. Expertqa: Expert-curated questions and attributed answers. arXiv preprint arXiv:2309.07852, 2023. URL https://arxiv.org/abs/2309.07852.
Mallen et al. (2023) Alex Mallen, Akari Asai, Victor Zhong, Rajarshi Das, Daniel Khashabi, and Hannaneh Hajishirzi. When not to trust language models: Investigating effectiveness of parametric and non-parametric memories. In ACL, 2023. URL https://aclanthology.org/2023.acl-long.546.
Mishra et al. (2024) Abhika Mishra, Akari Asai, Vidhisha Balachandran, Yizhong Wang, Graham Neubig, Yulia Tsvetkov, and Hannaneh Hajishirzi. Fine-grained hallucination detection and editing for language models. In COLM, 2024. URL https://openreview.net/forum?id=dJMTn3QOWO.
Nguyen et al. (2023) Tuan Dung Nguyen, Yuan-Sen Ting, Ioana Ciuca, Charles O’Neill, Ze-Chang Sun, Maja Jabłońska, Sandor Kruk, Ernest Perkowski, Jack Miller, Jason Jason Jingsh Li, Josh Peek, Kartheik Iyer, Tomasz Rozanski, Pranav Khetarpal, Sharaf Zaman, David Brodrick, Sergio J. Rodriguez Mendez, Thang Bui, Alyssa Goodman, Alberto Accomazzi, Jill Naiman, Jesse Cranney, Kevin Schawinski, and Roberta Raileanu. AstroLLaMA: Towards specialized foundation models in astronomy. In Proceedings of the Second Workshop on Information Extraction from Scientific Publications, 2023. URL https://aclanthology.org/2023.wiesp-1.7.
Nogueira & Cho (2019) Rodrigo Nogueira and Kyunghyun Cho. Passage re-ranking with bert. arXiv preprint arXiv:1901.04085, 2019. URL https://arxiv.org/abs/1901.04085.
Panickssery et al. (2024) Arjun Panickssery, Samuel R. Bowman, and Shi Feng. LLM evaluators recognize and favor their own generations. In NeurIPS, 2024. URL https://openreview.net/forum?id=4NJBV6Wp0h.
Phan et al. (2021) Long N Phan, James T Anibal, Hieu Tran, Shaurya Chanana, Erol Bahadroglu, Alec Peltekian, and Grégoire Altan-Bonnet. Scifive: a text-to-text model for biomedical literature. arXiv preprint arXiv:2106.03598, 2021. URL https://arxiv.org/abs/2106.03598.
Ram et al. (2023) Ori Ram, Yoav Levine, Itay Dalmedigos, Dor Muhlgay, Amnon Shashua, Kevin Leyton-Brown, and Yoav Shoham. In-context retrieval-augmented language models. TACL, 2023. URL https://aclanthology.org/2023.tacl-1.75/.
Shaikh et al. (2023) Shishir G Shaikh, Jaideep Ramachandran, Varnith Nanda, Benjamin Lunt, Miltiadis Allamanis, Daman Sharma, Sebastien Bubeck, and Prateek Jain. Darwin: Data analytics and reasoning with large language models for science. arXiv preprint arXiv:2308.13565, 2023. URL https://arxiv.org/abs/2308.13565.
Shao et al. (2024) Rulin Shao, Jacqueline He, Akari Asai, Weijia Shi, Tim Dettmers, Sewon Min, Luke Zettlemoyer, and Pang Wei Koh. Scaling retrieval-based language models with a trillion-token datastore. In The Thirty-eighth Annual Conference on Neural Information Processing Systems, 2024. URL https://openreview.net/forum?id=iAkhPz7Qt3.
Si et al. (2024) Chenglei Si, Diyi Yang, and Tatsunori Hashimoto. Can llms generate novel research ideas? a large-scale human study with 100+ nlp researchers. arXiv preprint arXiv:2409.04109, 2024. URL https://arxiv.org/abs/2409.04109.
Singhal et al. (2023a) Karan Singhal, Shekoofeh Azizi, Tao Tu, S Sara Mahdavi, Jason Wei, Hyung Won Chung, Nathan Scales, Ajay Tanwani, Heather Cole-Lewis, Stephen Pfohl, et al. Large language models encode clinical knowledge. Nature, 2023a. URL https://www.nature.com/articles/s41586-023-06291-2.
Singhal et al. (2023b) Zeming Singhal, Charles Sutton, Adam Mottram, Owain Lavelle, Iz Beltagy, Leonardo Neves, Kyle Lo, Stephanie Hyland, Michael Wainwright, Alexander Wettig, et al. MEDITRON-70B: Scaling medical pretraining for large language models. arXiv preprint arXiv:2311.16079, 2023b. URL https://arxiv.org/abs/2311.16079.
Skarlinski et al. (2024) Michael D. Skarlinski, Sam Cox, Jon M. Laurent, James D. Braza, Michaela Hinks, Michael J. Hammerling, Manvitha Ponnapati, Samuel G. Rodriques, and Andrew D. White. Language agents achieve superhuman synthesis of scientific knowledge. preprint, 2024. URL https://paper.wikicrow.ai.
Soldaini et al. (2024) Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, et al. Dolma: An open corpus of three trillion tokens for language model pretraining research. In ACL, 2024. URL https://aclanthology.org/2024.acl-long.840/.
Tan et al. (2023) Cheng Tan, Miao Huang, Xianxin Huang, Qian Fu, and Bo Wu. PMC-LLaMA: Further finetuning llama on medical papers. arXiv preprint arXiv:2304.14454, 2023. URL https://arxiv.org/abs/2304.14454.
Thakur et al. (2021) Nandan Thakur, Nils Reimers, Andreas Rücklé, Abhishek Srivastava, and Iryna Gurevych. BEIR: A heterogeneous benchmark for zero-shot evaluation of information retrieval models. In NeurIPS (Datasets and Benchmarks), 2021. URL https://openreview.net/forum?id=wCu6T5xFjeJ.
Tian et al. (2024) Minyang Tian, Luyu Gao, Shizhuo Dylan Zhang, Xinan Chen, Cunwei Fan, Xuefei Guo, Roland Haas, Pan Ji, Kittithat Krongchon, Yao Li, et al. Scicode: A research coding benchmark curated by scientists. arXiv preprint arXiv:2407.13168, 2024. URL https://arxiv.org/abs/2407.13168.
Wadden et al. (2020) David Wadden, Shanchuan Lin, Kyle Lo, Lucy Lu Wang, Madeleine van Zuylen, Arman Cohan, and Hannaneh Hajishirzi. Fact or fiction: Verifying scientific claims. In EMNLP, 2020. URL https://aclanthology.org/2020.emnlp-main.609.
Wadden et al. (2024) David Wadden, Kejian Shi, Jacob Morrison, Aakanksha Naik, Shruti Singh, Nitzan Barzilay, Kyle Lo, Tom Hope, Luca Soldaini, Shannon Zejiang Shen, et al. Sciriff: A resource to enhance language model instruction-following over scientific literature. arXiv preprint arXiv:2406.07835, 2024. URL https://arxiv.org/abs/2406.07835.
Wang et al. (2024) Yidong Wang, Qi Guo, Wenjin Yao, Hongbo Zhang, Xin Zhang, Zhen Wu, Meishan Zhang, Xinyu Dai, Min zhang, Qingsong Wen, Wei Ye, Shikun Zhang, and Yue Zhang. AutoSurvey: Large language models can automatically write surveys. In NeurIPS, 2024. URL https://openreview.net/forum?id=FExX8pMrdT.
Xiao et al. (2023) Shitao Xiao, Zheng Liu, Peitian Zhang, Niklas Muennighoff, Defu Lian, and Jian-Yun Nie. C-pack: Packaged resources to advance general chinese embedding, 2023. URL https://arxiv.org/abs/2309.07597.
Xu et al. (2023a) Fangyuan Xu, Weijia Shi, and Eunsol Choi. RECOMP: Improving retrieval-augmented lms with compression and selective augmentation, 2023a. URL https://arxiv.org/abs/2310.04408.
Xu et al. (2023b) Fangyuan Xu, Yixiao Song, Mohit Iyyer, and Eunsol Choi. A critical evaluation of evaluations for long-form question answering. In ACL, 2023b. URL https://aclanthology.org/2023.acl-long.181.
Xu et al. (2024) Fangyuan Xu, Kyle Lo, Luca Soldaini, Bailey Kuehl, Eunsol Choi, and David Wadden. KIWI: A dataset of knowledge-intensive writing instructions for answering research questions. In Findings of ACL, 2024. URL https://aclanthology.org/2024.findings-acl.770.
Yang et al. (2023) Zonglin Yang, Xinya Du, Junxian Li, Jie Zheng, Soujanya Poria, and E. Cambria. Large language models for automated open-domain scientific hypotheses discovery. In ACL, 2023. URL https://api.semanticscholar.org/CorpusID:261557055.
Yuan et al. (2022) Hongyi Yuan, Zheng Yuan, Ruyi Gan, Jiaxing Zhang, Yutao Xie, and Sheng Yu. BioBART: Pretraining and evaluation of a biomedical generative language model. In The 21st Workshop on Biomedical Language Processing (BioNLP), May 2022. URL https://aclanthology.org/2022.bionlp-1.9.
Yue et al. (2023) Xiang Yue, Boshi Wang, Ziru Chen, Kai Zhang, Yu Su, and Huan Sun. Automatic evaluation of attribution by large language models. In Findings of EMNLP, 2023. URL https://aclanthology.org/2023.findings-emnlp.307.
Zhang et al. (2024a) Dan Zhang, Ziniu Hu, Sining Zhoubian, Zhengxiao Du, Kaiyu Yang, Zihan Wang, Yisong Yue, Yuxiao Dong, and Jie Tang. Sciinstruct: a self-reflective instruction annotated dataset for training scientific language models. In NeurIPS (Datasets and Benchmarks Track), 2024a. URL https://openreview.net/forum?id=LC1QAqhePv.
Zhang et al. (2024b) Yuqi Zhang, Zihao Zhao, Lanqing Hu, Shuai Wang, Penghui Jiao, Min Leng, Yuzhi Liu, Guotong Li, Chengming Xu, Chenhui Lin, et al. BioMedGPT: Open multimodal generative pre-trained transformer for biomedicine. Nature Medicine, 2024b. URL https://www.nature.com/articles/s41591-024-03185-2.
Zheng et al. (2023a) Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric Xing, Hao Zhang, Joseph E. Gonzalez, and Ion Stoica. Judging LLM-as-a-judge with MT-bench and chatbot arena. In NeurIPS (Datasets and Benchmarks Track), 2023a. URL https://openreview.net/forum?id=uccHPGDlao.
Zheng et al. (2024) Yuxiang Zheng, Shichao Sun, Lin Qiu, Dongyu Ru, Cheng Jiayang, Xuefeng Li, Jifan Lin, Binjie Wang, Yun Luo, Renjie Pan, et al. Openresearcher: Unleashing ai for accelerated scientific research. arXiv preprint arXiv:2408.06941, 2024. URL https://arxiv.org/abs/2408.06941.
Zheng et al. (2023b) Zhiling Zheng, Zichao Rong, Nakul Rampal, Christian Borgs, Jennifer T Chayes, and Omar M Yaghi. A gpt-4 reticular chemist for guiding mof discovery. Angewandte Chemie International Edition, 2023b. URL https://arxiv.org/abs/2306.14915.

Appendix

\startcontents

[sections] \printcontents[sections]l1

Appendix A Released Artifacts

我々は将来の研究を促進するために一連の成果物を公開する：

Demo		openscholar.allen.ai/
OpenScholar		github.com/AkariAsai/OpenScholar
ScholarBenchQA		github.com/AkariAsai/ScholarBench
OpenScholar-8B LM		OpenScholar/OpenScholar_Llama-3.1-8B
OpenScholar-Retriever		OpenScholar/OpenScholar_Retriever
OpenScholar-Reranker		OpenScholar/OpenScholar_Reranker
OpenScholar-DataStore-V2		OpenScholar/OpenScholar-DataStore-V2
OpenScholar-DataStore-V3		OpenScholar/OpenScholar-DataStore-V3
ScholarBench (Data)		OpenScholar/ScholarBench
OpenScholar (Training Data)		OpenScholar/OS_Train_Data
Expert Evaluation		AkariAsai/OpenScholar_ExpertEval

Appendix B More Details on ScholarQABench

B.1 Goal of ScholarQABench

ScholarQABenchには2つの重要な原則がある：文献レビューのための現実的なベンチマークとして機能すること、そして再現可能な多面的な評価パイプラインとして機能することである。

Realistic benchmark for literature review (Section 3.1).

ScholarQABenchは2つの主要な情報源からタスクを統合している：(i) 文献統合タスクに関連する既存のデータセットを厳選・適応し、科学者によって注釈付けされたもの、および (ii) 4つの科学分野のPh.D.専門家によって注釈付けされた4つの新しいデータセットで、複数の論文からの情報統合など、現実的な文献レビューのシナリオを反映したものである。 ScholarQABenchのタスクは、異なる出力形式と分野を必要とする。

複数論文タスクについて、我々は専門家の注釈者に情報探索型の質問を作成するよう指示した。これらは、彼らが本当に答えを見つけたいと思っている質問であり、すでに答えを知っている質問や、単一の論文の小さなテキスト断片を使用して答えられる質問ではない(Asai & Choi, 2021; Choi et al., 2018)。我々は、この方法が現実世界の科学者が尋ねるかもしれない現実的な質問を収集する上で極めて重要であることを発見した。これらの質問は通常、より詳細で文脈化されており（例：「GPT4oを使用して合成訓練データを生成し、ノイズの多いデータをGPT4oを使用してフィルタリングする計画ですが、この場合GPT4oが自身の生成を好む可能性があるため、モデルをフィルタリングしていないのではないかと懸念しています。」）、単純なはい/いいえや多肢選択の回答ではなく、ニュアンスのある長文の回答を必要とする。我々は、Xu et al. (2024); Malaviya et al. (2023)で行われたような最先端の独自言語モデルによって生成された回答に依存するのではなく、信頼性の高い評価を確保するために人間が書いた回答やルーブリックを収集した。これらの独自モデルは強力ではあるが、ドメイン知識の不足による幻覚、バイアス、急速な情報変化などの限界をまだ示しており、新しいモデルとの一貫した評価には適していない。さらに、モデル生成の回答を参照として使用すると、同じファミリーのモデルを不当に優遇する可能性があり、評価にバイアスが生じる可能性があるPanickssery et al. (2024)。これらの問題を避けるため、我々はScholarQA-CSとScholarQA-Multiのために専門家が書いた回答を収集した。

Reproducible multi-face evaluation pipelines (Section 3.2).

ROUGEなどの従来の類似性ベースの指標と人間の判断との間の相関が低いため(Xu et al., 2023b; Malaviya et al., 2023)、専門家ドメインにおける長文生成タスクの評価は、通常、小規模から中規模の専門家による注釈に依存してきた(Zheng et al., 2024; Singhal et al., 2023a; Si et al., 2024)。専門家による人間評価は価値があるが（5節で詳述する）、注釈者を雇うための多大なコストがかかり、再現が困難である。これらの制限に対処するため、本稿では、引用の正確さやカバレッジなどの重要な側面から長文生成出力の品質を包括的に評価する自動評価パイプラインを導入する。