JaLMS
最新の AI 研究を日本語で解読

OpenScholar: Synthesizing Scientific
Literature with Retrieval-augmented LMs

Akari Asai1,5   Jacqueline He1   Rulin Shao1,5∗ Weijia Shi1,2
Amanpreet Singh2   Joseph Chee Chang2   Kyle Lo2   Luca Soldaini2
Sergey Feldman2   Mike D’arcy2   David Wadden2   Matt Latzke2
Minyang Tian3   Pan Ji6   Shengyan Liu3   Hao Tong3   Bohao Wu3   Yanyu Xiong7

Luke Zettlemoyer1,5   Graham Neubig4   Dan Weld1,2   Doug Downey2
Wen-tau Yih5   Pang Wei Koh1,2   Hannaneh Hajishirzi1,2
1
University of Washington 2Allen Institute for AI 3University of Illinois, Urbana-Champaign
4Carnegie Mellon University 5Meta 6University of North Carolina, Chapel Hill 7Stanford University
{akari, pangwei, hannaneh}@cs.washington.edu
Contributed equally (alphabetical order). All authors’ contributions are detailed in the Contribution section.
Abstract

科学の進歩は、研究者が増大する文献を統合する能力に依存している。大規模言語モデル(LM)はこのタスクにおいて科学者を支援できるだろうか。 我々はOpenScholarを紹介する。これは、4500万件のオープンアクセス論文から関連する段落を特定し、引用に裏付けられた回答を合成することで、科学的クエリに答える特殊な検索拡張LMである。 OpenScholarを評価するために、我々はScholarQABenchを開発した。これは文献検索のための最初の大規模マルチドメインベンチマークであり、コンピュータサイエンス、物理学、神経科学、生物医学にわたる2,967の専門家が作成したクエリと208の長文回答で構成されている。 ScholarQABenchにおいて、OpenScholar-8Bは、より小規模なオープンモデルであるにもかかわらず、正確性においてGPT-4oを5%、PaperQA2を7%上回る性能を示した。GPT4oが78〜90%の確率で引用を捏造するのに対し、OpenScholarは人間の専門家と同等の引用精度を達成している。 OpenScholarのデータストア、検索機、および自己フィードバック推論ループは、既存のLMも改善する。例えば、OpenScholar-GPT4oはGPT-4oの正確性を12%向上させる。 人間による評価では、専門家は専門家が作成した回答と比較して、OpenScholar-8Bの回答を51%、OpenScholar-GPT4oの回答を70%の割合で好んだ。これに対し、GPT4oは32%であった。 我々は、すべてのコード、モデル、データストア、データ、および公開デモをオープンソース化している。

Demo [Uncaptioned image] openscholar.allen.ai/
Blog [Uncaptioned image] allenai.org/blog/openscholar
OpenScholar code [Uncaptioned image] github.com/AkariAsai/OpenScholar
ScholarBench code [Uncaptioned image] github.com/AkariAsai/ScholarBench
Checkpoints, Data, Index [Uncaptioned image] OpenScholar/openscholar-v1
Expert Evaluation [Uncaptioned image] AkariAsai/OpenScholar_ExpertEval

1 Introduction

科学文献から知識を統合することは、新たな研究方向の発見、方法論の改善、そしてエビデンスに基づく意思決定の支援に不可欠である。しかし、毎年発表される膨大な量の論文により、研究者が最新情報を把握することがますます困難になっている。効果的な統合には、正確な検索、適切な出典の明示、そして最新の文献へのリアルタイムアクセスが必要である。 大規模言語モデル(LLM)は研究者の支援に有望であるが、幻覚(Mallen et al., 2023; Mishra et al., 2024)、古い事前学習データへの依存(Kasai et al., 2023)、透明性のある出典の欠如など、重大な課題に直面している。例えば、我々の実験では、GPT-4に最新の文献を引用するよう指示した場合、コンピュータサイエンスや生物医学などの分野で78-90%のケースで引用を捏造した。

一方、検索拡張型LM(Lewis et al., 2020; Guu et al., 2020)は、推論時に検索された外部知識源を統合することで、これらの問題の多くを軽減でき、文献検索と統合のためのシステム開発を促進している(Agarwal et al., 2024; Zheng et al., 2024; Skarlinski et al., 2024)。 しかし、このようなシステムの多くは、文献統合に最適化されていないブラックボックスAPIや汎用LLMに依存しており、科学分野に特化したオープンで領域特有の検索データストア(すなわち、処理されたコーパスと対応する検索インデックス)と組み合わされていない。 さらに、科学文献統合の評価は限定的であり、単一分野での小規模な人間による評価(Agarwal et al., 2024; Zheng et al., 2024)や、多肢選択式質問応答などの簡略化されたタスク(Skarlinski et al., 2024)を用いている。

これらの課題に対処するため、我々はOpenScholar(図1上部)を提示する。これは最先端の検索拡張言語モデルであり、専門的な論文データストアと科学文献に対して訓練された検索器を備えている。推論時には、OpenScholarは関連する段落を検索し、反復的な自己フィードバック生成を用いて自身の出力を洗練する。 さらに、我々は新たな効率的な8Bの言語モデルを訓練する。 OpenScholarの有効性を評価するため、我々はScholarQABench(図1中央)を導入する。これは、オープンエンドな科学的質問応答の現実的かつ再現可能な評価を可能にするために特別に設計されたベンチマークである。

OpenScholar(セクション2)は、我々の新しいOpenScholar-DataStore(OSDS)を使用する。これにはSemantic Scholarからの4500万件のオープンアクセス論文と、それに対応する2億3700万件の段落埋め込みが含まれている。 我々の知る限り、これは科学分野において最大のオープンソース化されたデータストアである。 OpenScholarはまず、検索器とリランカーを使用してOSDSから段落を検索する。その後、言語モデルが検索された段落を統合して、引用付きの応答を生成する。 OpenScholarは自然言語フィードバックを通じて反復的に出力を洗練し、これにより品質が向上し、補足情報を適応的に取り込む。 このパイプラインは、より小規模で効率的なモデルのための大規模かつ高品質な訓練データを作成するためにも使用される。我々はデータストアの段落からサンプリングした合成クエリと指示を生成し、それらをOpenScholarに入力し、中間および最終出力を使用してオープンな8Bモデル、OpenScholar-8Bおよび検索モデルを訓練する。

ScholarQABench(第3節)は、モデルの既存研究を理解し統合する能力を評価するために設計されたベンチマークである。回答が単一の論文で見つかると仮定する以前のベンチマーク(例えば、科学的事実確認; Wadden et al., 2020; Skarlinski et al., 2024)とは異なり、多くの現実世界のシナリオでは、複数の関連論文を特定し、正確な引用を含む長文の出力を生成する必要がある。これらの課題に対処するため、我々は2,967の文献統合質問のデータセットを作成し、208の長文回答を専門家が作成した。これらの回答は、コンピューターサイエンス、物理学、生物医学、神経科学の4つの科学分野にわたっている。これらの回答は、3年以上の経験と関連分野での出版実績を持つ博士課程の学生とポスドク研究者によって作成された。平均して、各回答の作成には約1時間を要した。 我々はまた、自動評価指標と人間による評価を組み合わせた多面的な評価プロトコルを導入し、引用の正確性、事実の正確性、内容の網羅性、一貫性、全体的な品質を測定する。 この多面的なアプローチにより、自動評価と人間による評価の両方において、堅牢で再現可能な評価が確保される。

我々は、ScholarQABench(第4節)において、検索機能の有無にかかわらず、独自モデルとオープンモデル(例:GPT4o、Llama 3.1 8B、70B)、およびPaperQA2 (Skarlinski et al., 2024)のような特殊システムを評価した。GPT4oは全般的に強力な性能を示したが、引用の正確性と網羅性に苦戦し、しばしば不正確または存在しない引用を生成した。 OpenScholarは、言語モデルのみのパイプラインと検索拡張パイプラインの両方を上回り、独自システムとオープンソースシステムを凌駕した。特筆すべきは、完全にオープンソースのチェックポイントを使用したOpenScholarが、独自の言語モデルを基盤とするPaperQA2 (Skarlinski et al., 2024)や、Perplexity Proのような実用システムを上回り、それぞれ6%と10%の改善を達成したことである。さらに、OpenScholarがより小規模で効率的な検索システムを使用することで、コストを大幅に削減した。 GPT4oとOpenScholarを組み合わせることで、GPT4o単独と比較して正確性が12%向上した。 OpenScholarパイプラインは、既製の言語モデルも強化できる。例えば、GPT-4oを基礎モデルとして使用する場合、OpenScholar-GPT4oはGPT-4o単独と比較して正確性が12%向上する。

ScholarQABenchにおける自動評価に加えて、我々はコンピュータサイエンス、物理学、生物医学などの分野から16名の科学者による詳細な専門家評価を実施した(第5節)。これらの専門家は、ScholarQABenchの文献統合クエリに対する108の専門家が作成した回答とOpenScholarの出力を対比して詳細な評価を行った。 OpenScholarは、GPT-4oおよび我々が訓練した8Bモデルと組み合わせた場合、一貫して専門家が作成した回答を上回り、それぞれ70%と51%の勝率を達成した。 対照的に、検索機能を持たないGPT-4oは情報の網羅性に苦戦し、人間の専門家よりも有用性が低いと評価され、人間の回答に対して31%の勝率しか達成できなかった。 これは、OpenScholarが生成する出力がより包括的で、よく整理されており、文献を統合するのに有用であることを示している。 これらの結果は、OpenScholarが専門家が作成した回答と競合するだけでなく、特に網羅性と構成の面で、場合によってはそれらを上回る高品質な出力を生成することを実証している。

OpenScholar-8Bは、独自の検索拡張言語モデルであり、専有の言語モデルや検索システムに依存せず、科学文献領域において最大級のデータストアの1つを活用している。 我々は、コード、訓練済み検索モデル、言語モデルのチェックポイント、データストア、ScholarQABenchベンチマーク、専門家評価ツール、および公開デモを含むOpenScholarエコシステム全体を公開する。

2 OpenScholar: Open Retrieval-augmented LM to Synthesizing Scientific Literature

OpenScholar(図2に詳述)は、科学文献に関する幅広い情報探索クエリに対して信頼性の高い質の高い回答を確保するために設計された新しい検索拡張型言語モデルである。

Task formulation.

科学的クエリx𝑥xitalic_xが与えられた場合、タスクは関連する論文を特定し、その知見を統合し、クエリに効果的に対応する回答y𝑦yitalic_yを生成することである。この回答には、一連の引用𝐂=c1,c2,,cK𝐂subscript𝑐1subscript𝑐2subscript𝑐𝐾\mathbf{C}={c_{1},c_{2},\ldots,c_{K}}bold_C = italic_c start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_c start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , … , italic_c start_POSTSUBSCRIPT italic_K end_POSTSUBSCRIPTが付随し、各引用cisubscript𝑐𝑖c_{i}italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTは既存の科学論文に対応する。𝐂𝐂\mathbf{C}bold_C内の各cisubscript𝑐𝑖c_{i}italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTは科学文献の特定の段落に対応し、科学的著作の標準的な慣行に従って、y𝑦yitalic_yの関連するテキスト範囲にリンクされたインライン引用として提供されるべきである。 これらの引用により、研究者は出力を元の文献まで遡ることができ、透明性と検証可能性が確保される。

Overview of OpenScholar.

関連論文の検索と高品質な出力の生成を確実にするため、ScholarQABenchは3つの主要コンポーネントで構成されている:データストア𝐃𝐃\mathbf{D}bold_D、検索器\mathcal{R}caligraphic_R、および生成LM𝒢𝒢\mathcal{G}caligraphic_Gである。 標準的な検索拡張推論パイプラインでは、プロセスは\mathcal{R}caligraphic_Rから始まり、これは入力クエリx𝑥xitalic_xに対する意味的関連性に基づいて、𝐃𝐃\mathbf{D}bold_D(過去に公開された科学論文の大規模コーパス)から一連の文章𝐏={p1,p2,,pN}𝐏subscript𝑝1subscript𝑝2subscript𝑝𝑁\mathbf{P}=\{p_{1},p_{2},\ldots,p_{N}\}bold_P = { italic_p start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_p start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , … , italic_p start_POSTSUBSCRIPT italic_N end_POSTSUBSCRIPT }を検索する。これらの文章は次のステップのコンテキストとして機能する。 生成LM𝒢𝒢\mathcal{G}caligraphic_Gは、検索された文章𝐏𝐏\mathbf{P}bold_Pと入力クエリx𝑥xitalic_xの両方を受け取り、出力y𝑦yitalic_yと対応する引用𝐂𝐂\mathbf{C}bold_Cを生成する。形式的には、このプロセスは以下のように表現できる:

y,𝐂=𝒢(x,(x,𝐃)),𝑦𝐂𝒢𝑥𝑥𝐃y,\mathbf{C}=\mathcal{G}(x,\mathcal{R}(x,\mathbf{D})),italic_y , bold_C = caligraphic_G ( italic_x , caligraphic_R ( italic_x , bold_D ) ) ,

ここで、𝐂𝐂\mathbf{C}bold_Cの各cisubscript𝑐𝑖c_{i}italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT𝐏𝐏\mathbf{P}bold_Pからの特定の文章に対応する。 OpenScholar(図1)では、我々は科学分野向けに設計された特殊コンポーネントのスイートを活用している:OpenScholar-DataStore 𝐃𝐃\mathbf{D}bold_DOpenScholar-Retriever/-Reranker、そしてLMであり、これにより既製のLM(例えばGPT4o)または我々が新たに訓練したOpenScholar-LMを柔軟に使用することが可能となる。我々は信頼性と引用の正確性を向上させるために、自己フィードバック検索拡張推論を開発した。

OpenScholar-DataStore(OSDS)は4500万の科学論文のデータベースであり、我々はこれらの埋め込みを構築する。 我々は科学データに基づいてOpenScholar-RetrieverOpenScholar-Rerankerを訓練し、これらは上位N𝑁Nitalic_Nの文章を生成器𝒢𝒢\mathcal{G}caligraphic_Gに渡す(セクション2.1)。 その後、我々は検索を伴う反復的な自己フィードバック推論を使用する:LMはまず初期ドラフトy0subscript𝑦0y_{0}italic_y start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT𝒢𝒢\mathcal{G}caligraphic_Gで生成し、その後検索拡張自己フィードバックを通じて反復的に出力を改善する(セクション2.2)。 我々はこのパイプラインを使用して高品質の訓練データを生成し(セクション2.3)、より高品質な出力とより正確な引用を生成する特殊化されたLMの訓練を可能にする。

Refer to caption
図2:OpenScholarの推論(上)と訓練(下)の詳細概要。 推論時には、入力x𝑥xitalic_xが与えられると、OpenScholarはまず検索器を使用して特殊化されたデータストア(OpenScholar-Datastore)から関連論文を特定し、次に再ランク付け器を使用して上位N𝑁Nitalic_Nの検索文書を絞り込み、特定する。検索された出力はその後LMに渡され、LMは(1)初期応答y0subscript𝑦0y_{0}italic_y start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTと(2)自己フィードバックf1subscript𝑓1f_{1}italic_f start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPTの両方を生成する。自身のフィードバックを取り入れることで、LMは事前に定義された回数だけ反復的に出力を改善する。 その後、LMは(1)初期応答y0subscript𝑦0y_{0}italic_y start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTを生成し、(2)初期出力に対する自己フィードバックを生成し、(3)フィードバック(fisubscript𝑓𝑖f_{i}italic_f start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT)を取り入れて更新された応答y1subscript𝑦1y_{1}italic_y start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPTを生成する。 LMはすべてのフィードバックが取り入れられるまでこのプロセスを繰り返す。 より小規模ながら競争力のある8B LMを訓練するために、我々はこの推論時パイプラインを使用して高品質の訓練データを生成し、その後データのフィルタリングと混合を行う。

2.1 OpenScholar Retrieval Pipeline

2 (左上) は我々の検索パイプラインを示しており、データストア 𝐃𝐃\mathbf{D}bold_D、バイエンコーダ検索器 θbisubscript𝜃bi\theta_{\text{bi}}italic_θ start_POSTSUBSCRIPT bi end_POSTSUBSCRIPT、およびクロスエンコーダ再ランク付け器 θcrosssubscript𝜃cross\theta_{\text{cross}}italic_θ start_POSTSUBSCRIPT cross end_POSTSUBSCRIPT で構成されている。 我々はまず 𝐃𝐃\mathbf{D}bold_Dθbisubscript𝜃bi\theta_{\text{bi}}italic_θ start_POSTSUBSCRIPT bi end_POSTSUBSCRIPT、および外部APIを使用して初期候補段落を選択し、その後 θcrosssubscript𝜃cross\theta_{\text{cross}}italic_θ start_POSTSUBSCRIPT cross end_POSTSUBSCRIPT を用いて上位 N𝑁Nitalic_N 個の関連段落を絞り込み、特定する。

Collect scientific papers to construct datastore.

先行研究では、2023-2024年のarXiv論文など、小規模な論文サブセットを使用することが多い (Zheng et al., 2024)が、モデル生成の品質と網羅性を向上させるためには、多様な論文セットを持つことが重要である (Shao et al., 2024)。 この目的のため、我々は検索ソースとしてpeS2o (Soldaini et al., 2024) を使用する。これはS2ORC (Lo et al., 2020) からのオープンアクセス学術論文で構成されている。我々はpeS2o v3を使用してデータストアを構築した。111https://huggingface.co/datasets/allenai/peS2o/tree/main/data/v3これには2024年10月までの4500万件の論文が含まれている。222 評価のために、我々は主要なベンチマークとモデルがv3のキュレーション以前に構築されたため、2023年1月までの論文で構成されるpeS2o v2を評価に使用する。 先行研究 (Shao et al., 2024) に従い、我々は各論文の本文を250語の離散的なテキストブロック(空白で区切られる)に分割し、論文タイトルを各ブロックに連結して 𝐃𝐃\mathbf{D}bold_D の段落を形成する。 我々のデータストアは2億3400万の段落で構成されている。 我々の知る限り、これは科学文献のためのオープンソース化された最大のデータストアである。

Retrieve initial paragraphs.

我々は3つのソースから段落を検索する:(1) 訓練された検索器を使用したpeS2oデータストア、(2) 検索キーワードに基づいてSemantic Scholar API (Kinney et al., 2023) を介して返される論文の公開抄録、(3) 元のクエリ x𝑥xitalic_x を使用してウェブ検索エンジンを通じて検索された論文の公開テキスト。 (1)については、まず段落バイエンコーダ θbisubscript𝜃bi\theta_{\text{bi}}italic_θ start_POSTSUBSCRIPT bi end_POSTSUBSCRIPT を使用して 𝐃𝐃\mathbf{D}bold_D の各段落の埋め込みを生成する。これはテキストチャンク(クエリや段落など)を密ベクトルに処理する (Karpukhin et al., 2020)。 既製の検索モデルは、ドメイン外のシナリオでしばしば苦戦する (Thakur et al., 2021)。 この限界を克服するため、我々はContriever (Izacard et al., 2022) をpeS2oデータストア上で教師なしで継続的に事前訓練することで θbisubscript𝜃bi\theta_{\text{bi}}italic_θ start_POSTSUBSCRIPT bi end_POSTSUBSCRIPT を開発し、ドメイン固有の検索性能を向上させる(詳細は付録 C.1 を参照)。 推論時には、θbisubscript𝜃bi\theta_{\text{bi}}italic_θ start_POSTSUBSCRIPT bi end_POSTSUBSCRIPT を使用してクエリをエンコードし、最近傍探索を通じて上位100の段落を検索する (Karpukhin et al., 2020)。 (2)については、まず生成器LMを使用してクエリ x𝑥xitalic_x からキーワードを生成する。これらのキーワードは、Semantic Scholar検索APIを介して引用数でランク付けされた上位10件の論文を検索するために使用される。 このアプローチは、長い質問のような検索クエリを効果的に処理できないSemantic Scholar APIの限界に対処する。 (3)については、You.com検索API333https://api.you.com/を使用して上位10件の検索結果を取得し、ArXivやPubMedなどの学術プラットフォームに検索を制限する。論文がオープンアクセスの場合、その全文を抽出して候補プールに追加し、そうでない場合は抄録のみを含める。

Rerank and finalize top N𝑁Nitalic_N paragraphs.

初期段階の後、我々はクエリごとに100以上、時には1000以上の関連段落を収集している。しかし、バイエンコーダによって検索された段落は、クエリと段落が別々にエンコードされるため、クエリと段落の間の深い相互作用により、役に立たない文脈を含む可能性がある (Asai et al., 2023)。 関連性のない内容を含む可能性のある多数の文書をLLMに供給することは、最先端のモデルであっても効率性とパフォーマンスの問題を引き起こす可能性がある (Liu et al., 2024; Xu et al., 2023a)。 これらの課題を克服するため、我々はクロスエンコーダ再ランク付け器 (Nogueira & Cho, 2019; Xiao et al., 2023) を使用し、これを θcrosssubscript𝜃cross\theta_{\text{cross}}italic_θ start_POSTSUBSCRIPT cross end_POSTSUBSCRIPT と表記する。各候補段落について、クロスエンコーダ再ランク付け器は入力クエリと各段落の間の関連性スコアを共同でエンコードし計算する。その後、我々は関連性スコアを使用して段落をランク付けする。 θcrosssubscript𝜃cross\theta_{\text{cross}}italic_θ start_POSTSUBSCRIPT cross end_POSTSUBSCRIPT を科学ドメイン用に訓練するため、我々はLlama 3 70B Instructによって生成された合成データを使用してBGE-reranker (Xiao et al., 2023) を微調整する。具体的には、peS2oの抄録に基づいてランダムにクエリを生成し、上位10件の段落を検索する。その後、Llama 3 70B Instructがこれらの段落に1から5の関連性スコアを割り当て、スコア4または5を正、スコア1または2を負と見なす。スコア3の段落は破棄される。 θcrosssubscript𝜃cross\theta_{\text{cross}}italic_θ start_POSTSUBSCRIPT cross end_POSTSUBSCRIPT の訓練の詳細は付録 C.2 に記載されている。 上位 N𝑁Nitalic_N 段落の再ランク付けと最終化の際、我々は追加のメタフィルタリングも実装する。これには以下が含まれる:(1) 1論文あたりの段落数を3段落に制限する、(2) クロスエンコーダによって予測された関連性スコアに正規化された引用数を組み込む。

2.2 Inference: Iterative Generation with Retrieval-augmented Self-Feedback

標準的な検索拡張生成(RAG; Lewis et al. 2020; Ram et al. 2023)では、生成器LMが元の入力x𝑥xitalic_xと上位N𝑁Nitalic_N個の検索された文章𝐏𝐏\mathbf{P}bold_Pを受け取り、出力y0subscript𝑦0y_{0}italic_y start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTを生成する。質問応答などのタスクには効果的であるが(Mallen et al., 2023)、この一段階の生成は裏付けのない主張(Liu et al., 2023)や情報不足による不完全な出力(Asai et al., 2024; Jiang et al., 2023)につながる可能性がある。 これらの課題に対処するため、OpenScholarでは、我々は自己フィードバックを用いた反復生成アプローチを導入する。これは3つのステップからなる:(1) 初期応答とフィードバック生成で初期草稿y0subscript𝑦0y_{0}italic_y start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTy0subscript𝑦0y_{0}italic_y start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTに対するフィードバックのセットを出力する;(2) 追加検索を伴う反復的改善でフィードバックを用いてy0subscript𝑦0y_{0}italic_y start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTを改善する;(3) 引用検証。詳細は付録に記載している。

Initial response and feedback generation.

入力x𝑥xitalic_xと検索された文章𝐏𝐏\mathbf{P}bold_Pが与えられると、生成器LMはまず初期応答y0subscript𝑦0y_{0}italic_y start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTを生成し、𝐏𝐏\mathbf{P}bold_P内の対応する文章に紐づいた引用マーカーを付ける。 y0subscript𝑦0y_{0}italic_y start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTの生成後、LMはy0subscript𝑦0y_{0}italic_y start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTに対するフィードバックのセット𝐅=f1,f2,,fT𝐅subscript𝑓1subscript𝑓2subscript𝑓𝑇\mathbf{F}={f_{1},f_{2},\ldots,f_{T}}bold_F = italic_f start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_f start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , … , italic_f start_POSTSUBSCRIPT italic_T end_POSTSUBSCRIPTを生成する。これは初期応答を改善することを目的としており、各フィードバックftsubscript𝑓𝑡f_{t}italic_f start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTは潜在的な改善点を記述する自然言語の文である。 モデルは任意の数のフィードバック(T𝑇Titalic_T)を生成できるが、効率的な推論のために最大3つのフィードバック文に制限している。 事前に定義されたフィードバック信号のセットに依存する先行研究(Asai et al., 2024)とは異なり、我々のアプローチではLMが応答の構成、完全性、または追加で必要な情報など、様々な側面に関する柔軟な自然言語フィードバックを生成することを可能にしている。フィードバック文が不足している内容を特定した場合(例:「回答にはQAタスクの実証結果のみが含まれています。他のタスクタイプの結果を追加してください。」)、LMは2.1節のパイプラインを使用して追加検索のための検索クエリも生成する。

Iterative refinement.

次に、我々はフィードバック𝐅𝐅\mathbf{F}bold_Fを反復して出力を段階的に改善する。 fksubscript𝑓𝑘f_{k}italic_f start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPTがさらなる検索が必要であることを示している場合、クエリqksubscript𝑞𝑘q_{k}italic_q start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPTを使用して追加の文章を検索し、𝐏𝐏\mathbf{P}bold_Pに追加してからyksubscript𝑦𝑘y_{k}italic_y start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPTを生成する。44フィードバックが提供されるたびに出力を再生成することも可能だが、そうすると追加の遅延が発生する。経験的に、フィードバックは多様であり、生成の異なる側面に対応していることがわかった。結果として、初期出力からのフィードバックを順次組み込むことは依然として効果的である。 LMは前の出力yk1subscript𝑦𝑘1y_{k-1}italic_y start_POSTSUBSCRIPT italic_k - 1 end_POSTSUBSCRIPT、検索された文章𝐏𝐏\mathbf{P}bold_P、および新たに検索された文章(ある場合)を使用して、更新された出力yksubscript𝑦𝑘y_{k}italic_y start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPTを生成する。 このプロセスはすべてのフィードバックが対処されるまで繰り返され、タイムステップT𝑇Titalic_Tで最終出力yTsubscript𝑦𝑇y_{T}italic_y start_POSTSUBSCRIPT italic_T end_POSTSUBSCRIPTが得られる。

Citation verification.

最後に、我々は生成器LMにytsubscript𝑦𝑡y_{t}italic_y start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT内の引用を検証するよう指示する。 具体的には、生成器は引用に値するすべての記述—正当化が必要な科学的主張—が検索された文章からの参照によって適切に裏付けられていることを確認する。 適切な引用がない主張がある場合、LMは事後的な挿入を行い、引用に値する記述が文章によって裏付けられていることを確認する。我々のパイプラインでは、引用に値する記述がない文を削除することはしない。

2.3 Training: High-quality Synthetic Data Generation with Inference Pipeline

科学文献を効果的に合成できる強力な言語モデル(LM)の構築は、この問題に対する訓練データの不足により困難である。科学的LMを訓練するためのリソースは一部存在するものの(Wadden et al., 2024)、ほとんどのタスクはオープンな検索設定を必要とせず、単一論文のタスクである。その結果、この分野の先行研究の大部分(Skarlinski et al., 2024)は独自のLMに依存しており、これは再現性と推論コストに課題をもたらす。

我々は、推論時のパイプラインを活用して、自己フィードバックを通じて高品質な訓練データを合成的に生成する。これにより、結果として得られるモデルは、自己フィードバックプロセスを経ることなく、より高品質な出力を生成することができるようになる(図2下部)。

Question and response generations.

我々のデータ生成プロセスは3つのステップから成る:まず、𝐃𝐃\mathbf{D}bold_Dから最も引用数の多い論文を選択し、次に、それらの要約に基づいて情報探索クエリを生成し、最後に、OpenScholarの推論時パイプラインを使用して高品質な回答を生成する。 我々はLLama 3.1 70B (Dubey et al., 2024)を使用してデータを生成する。 具体的には、まずpeS2oデータセットから100万件の論文要約をサンプリングし、論文のメタ情報(出版年や引用数など)を取得する。 次に、2017年以降に出版された10,000件の論文をランダムに選択し、各要約に基づいて文献レビューの質問や、複数の論文を必要とする可能性のある情報探索クエリを生成するようLMにプロンプトを与える。 その後、OpenScholarパイプラインを使用して、最終出力yTsubscript𝑦𝑇y_{T}italic_y start_POSTSUBSCRIPT italic_T end_POSTSUBSCRIPTを生成し、フィードバック𝐅𝐅\mathbf{F}bold_Fや初期出力などの中間生成物も併せて生成する。

Data filtering.

効果的でスケーラブルではあるものの、合成データには幻覚、反復的な文章、指示への限定的な従順さなどの問題が含まれる可能性がある(Li et al., 2024c)。 これに対処するため、我々はデータ生成に使用したのと同じLMを活用して、ペアワイズフィルタリングとルーブリックフィルタリングという2段階のデータフィルタリングプロセスを導入する。 ペアワイズフィルタリングでは、モデル出力yTsubscript𝑦𝑇y_{T}italic_y start_POSTSUBSCRIPT italic_T end_POSTSUBSCRIPT(最終ステップでの出力)とy0subscript𝑦0y_{0}italic_y start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT(初期出力)の品質を比較し、より高品質と判断された出力を保持する。 我々は、過剰な編集や複数の反復ステップ後の冗長性の増加により、y0subscript𝑦0y_{0}italic_y start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTyTsubscript𝑦𝑇y_{T}italic_y start_POSTSUBSCRIPT italic_T end_POSTSUBSCRIPTよりも約20%の場合に好まれることを発見した。 次に、選択された回答の品質を構成事実の正確性と引用の適切さの2つの側面について5段階で評価する。有効なモデル出力は、両カテゴリーで4.5以上のスコアを獲得する必要があり、この要件を満たさない出力のインスタンスは破棄する。詳細は付録に記載されている。

Data mixing and training.

この合成パイプラインから、我々は3種類の訓練データを生成する:回答生成(xy)𝑥𝑦(x\rightarrow y)( italic_x → italic_y )、フィードバック生成(y0𝐅)subscript𝑦0𝐅(y_{0}\rightarrow\mathbf{F})( italic_y start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT → bold_F )、フィードバック組み込み(yt1,ftyt)subscript𝑦𝑡1subscript𝑓𝑡subscript𝑦𝑡(y_{t-1},f_{t}\rightarrow y_{t})( italic_y start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT , italic_f start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT → italic_y start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT )である。訓練中に最終出力と中間出力の両方を組み込むことで、より小規模なLMがより効果的なフィードバックを生成することを学習するのに役立つことが分かった。 さらに、この合成訓練データを既存の一般領域の指示調整データ(Ivison et al., 2023)および科学的指示調整データ(Wadden et al., 2024)と混合し、訓練データの50%が科学領域から、残りの50%が一般領域のデータから得られるようにする。 また、peS2oからサンプリングした要約データに基づいて、合成的な事実検証とブール型QAデータを生成する。このために、論文を引用数に基づいてソートし、上位100,000件の論文を選択する。 データ混合と訓練の詳細は付録C.3に記載されている。 データ混合後、我々は大規模な合成訓練データで生成器LMを訓練する。生成された訓練データでLlama 3.1 8B Instructを訓練する。

3 ScholarQABench: Realistic Literature Review Evaluation Benchmark annotated by Ph.D. Experts

Challenges and overview.

科学文献を合成するLLMの構築に関する先行研究では、小規模な単一ドメインの人間による評価(Agarwal et al., 2024; Zheng et al., 2024)か、過度に単純化された多肢選択式QAセットアップ(Skarlinski et al., 2024)のいずれかを採用している。 文献レビューのための高品質なベンチマークの構築には、2つの主要な課題がある。第一に、そのようなデータセットの作成には多くのリソースを要する。特に、現実的な質問と高品質な回答に注釈を付ける際には、博士レベルのドメイン専門知識と研究経験が必要となる。第二に、高品質なデータが利用可能であっても、長文の自然言語による回答を信頼性高く評価することは、特に専門家のドメインにおいては大きな課題となる(Xu et al., 2023b; 2024)。これは、自動実験コード生成のような他の科学的プロセスのベンチマークとは対照的である。後者の場合、Pass@1のようなより明確な評価基準が容易に利用可能である(Si et al., 2024)

これらのギャップに対処するため、我々はScholarQABenchを導入する。これは、表1に示すように、閉形式の分類、多肢選択、長文生成を含む多様な形式の科学文献合成タスクをサポートするベンチマークである。 我々は、3つの既存の単一論文データセットを採用し、さらにコンピュータサイエンス、生物医学、物理学、神経科学のための高品質な専門家注釈付きデータセットのスイートを構築した(セクション3.1)。また、信頼性の高い自動評価パイプラインも構築した(セクション3.2)。 表1ScholarQABenchのタスクリストを提供し、図3は例と評価パイプラインの概要を示している。

Dataset Task Format Discipline Size Evaluation Multi-paper
SciFact Claim \rightarrow Label Biomedicine 208 Corr, Cite
(Wadden et al. 2020) (True or False)
PubMed QA Question \rightarrow Answer Biomedicine 843 Corr, Cite
(Jin et al. 2019) (Yes, No)
QASA Question \rightarrow Answer Computer Science 1,375 Corr, Cite
(Lee et al. 2023) (Long-form)
ScholarQA-CS Question \rightarrow Answer Computer Science 100 Corr, Cite
(Long-form)
ScholarQA-Bio Question \rightarrow Answer Biomedicine 1,451 Cite
(Long-form)
ScholarQA-Neuro Question \rightarrow Answer Neuroscience 1,308 Cite
(Long-form)
ScholarQA-Multi Question \rightarrow Answer Computer Science, Physics, 108 Cite,
(Long-form) Biomedicine LLM, Expert
表1: ScholarQABenchの概要。上位3行は先行データセットから採用した単一論文データセットを示している。 下位4行は新しいデータセットであり、我々が博士レベルの専門家を募集して構築したものである。 回答はデータセットが質問のみを含むことを示し、回答は人間が注釈付けしたルーブリックに基づいて回答が評価されることを示す。 評価列はセクション3.2の多面的評価に対応している。「複数論文」列はタスクが回答に複数の論文を必要とするかどうかを示している。 LLMExpert は、それぞれ評価者LLM(すなわちPrometheus; Kim et al. 2024a)と専門家による詳細な評価を示している。

3.1 Data Curation

ScholarQABenchは、科学文献レビューの自動化におけるモデル能力を評価するために設計されている。キュレーションプロセスは3つの主要な要因によって導かれる: タスクの多様性ScholarQABenchは、様々な入出力形式を持つタスクを含む; 分野の多様性:コンピュータサイエンスなど単一の分野に焦点を当てることが多い従来の分析とは異なり、 ScholarQABenchは4つの科学分野にまたがる; 複数論文タスクの包含:単一の事前選択された論文の理解に焦点を当てた先行研究とは異なり、すべてのタスクは論文全文のオープンアクセスコレクション全体からの検索を必要とし(セクション3.1.1)、 4つのデータセットは特に複数の検索された論文にわたる推論を必要とする(セクション3.1.2)。

3.1.1 Single-Paper Tasks

単一論文タスクについては、既存の広く使用されている単一論文データセットをキュレーションし、適応させる。図15は単一論文タスクの例を示している;詳細は付録B.2に記載されている。

SciFact.

SciFact (Wadden et al., 2020)は、生物医学分野の1.4Kの専門家が作成した科学的主張のデータセットであり、既存のPubMed論文要約からのゴールドエビデンスとペアになっており、ラベルと根拠が注釈付けされている。 我々は、supports(真)またはcontradicts(偽)とラベル付けされた検証セットのクエリを含め、元のゴールドエビデンスを破棄し、システムが大規模な論文コレクションから関連論文を特定する必要がある二値オープン検索としてタスクを再構成する。

PubMedQA.

PubMedQA (Jin et al., 2019)は、PubMed論文要約に関する専門家が注釈付けした(はい/いいえ/おそらく)QAデータを持つ。 SciFactと同様に、我々ははいまたはいいえのラベルを持つインスタンスのみを保持し、元の要約文を破棄してオープン検索設定としてタスクを構成する。

QASA.

QASA (Lee et al., 2023)は、AIとMLの科学論文に関する推論を必要とする質問回答ペアで構成される単一論文QAデータセットである。 我々は、対象論文に関する詳細な質問に十分に答える能力をモデルで評価する。元のデータセットは3つのサブタスク(回答選択、根拠生成、回答構成)とエンドツーエンドQAを提供しているが、我々はエンドツーエンドQA設定に基づいてモデルのパフォーマンスを評価する。

Refer to caption
図3:ScholarQA-CSの例と評価の概要。 ScholarQA-CSは100の質問と、満たすべき平均4.4の専門家が作成した採点基準で構成されている。我々のScholarQABench評価パイプラインは、正確性や引用の精度などの側面を評価する。

3.1.2 Multi-paper Tasks

単一論文のクローズドセットタスクは信頼性の高い評価を提供する可能性がある。しかし、複雑でオープンエンドな質問が既存の論文とは独立して問われ、複数の論文の検索と推論を必要とする現実的なシナリオを反映していない可能性がある。 現実的なクエリを用いた複数論文の設定を探求しているデータセットはわずかであり(Xu et al., 2024; Malaviya et al., 2023)、ほとんどが信頼性の高い評価パイプラインや人間が作成した参照を欠いている。我々は、この課題に対処するために、専門家が注釈付けした3つの新しい長文形式QAデータセットをキュレーションすることでこのギャップに対処する(詳細は付録B.2を参照)。 さらに、我々の複数論文タスクには4つの科学分野が含まれる。

ScholarQA-CS.

我々は、コンピュータサイエンスの分野でPh.D.を持つ専門家(教授、ポスドク研究者、研究科学者)を募集し、様々なコンピュータサイエンスの分野にわたる100の質問と各質問に対する詳細な回答採点基準を収集した。 注釈者は、複数の研究論文を必要とすると予想される文献レビューの質問を作成するよう求められた。 質問のトピックは、ネットワーク、アルゴリズム、モノのインターネット、人工知能、ヒューマンコンピュータインタラクションなどの分野にまたがっている。 次に、各質問について、他の2人の注釈者がウェブを検索し、正しい回答に必要な重要な要素を重要度(「必須」と「あれば望ましい」)によって分類したルーブリックを作成し、各要素に対する出典からの裏付けとなる引用を付けた。注釈者には、このタスクの初期段階でLLMサービスを使用しないよう指示された。初期のウェブ検索の後、注釈者には4つのLLMサービス(Claude 3.5 Sonnet、GPT-4o、Perplexity Pro、Claude 3.5に基づく未公開のRAGプロトタイプ)からの対応する回答がランダムな順序で表示され、ルーブリックを修正したい場合に備えた。平均して、各質問には4.4の重要な要素が注釈付けされ、各要素は4.4の引用によって裏付けられている。

一致度を測定するために、両方の注釈者にランダムにサンプリングされた10の質問のサブセットに対してルーブリックを作成させた。次に、我々の自動化されたアプローチを使用して、注釈者が公開された4つのLLMサービスからの回答のスコアを計算し、各注釈者のルーブリックセットに対して1回ずつ行った。最後に、各質問のスコア間のピアソン相関係数を計算し、平均を取る。ルーブリック注釈タスクは主観的であるため、一般的な基準をスコアの一部として含める場合と含めない場合の両方で一致度を計算し、それぞれ79.3と59.5となった。 図3は1つの例を示しており、より多くの例と詳細は付録E.2で利用可能である。

ScholarQA-Bio, ScholarQA-Neuro.

我々はさらに、生物医学と神経科学の分野で2,759の専門家が作成した文献レビューの質問を収集した。関連分野でPh.D.を持ち、現在研究科学者およびエンジニアである6人の専門家を募集した。 注釈者は、自身の専門分野から論文を選択し、それらの論文の解析に基づいて、生物医学の科学者が科学文献について合理的に尋ねる可能性のある複雑な科学的質問を生成するよう求められた。我々は、バイオイメージング、遺伝学、微生物学、神経調節などの異なる分野から質問を収集した。 注釈のコストのため、質問のキュレーションのみに焦点を当てた。 完全な指示と例は付録6E.3で利用可能である。

ScholarQA-Multi.

最後に、我々は4つの分野(コンピュータサイエンス(AI/ML、HCI)、生物医学(バイオイメージング、遺伝学)、物理学(天体物理学、フォトニクス、生物物理学))において108の文献レビューの質問と専門家が作成した引用付きの回答を収集した。 すべての注釈は、対応する分野で3年以上の研究経験を持ち、複数の筆頭著者論文を持つPh.D.学生または博士号取得後の科学者によって行われた。 我々は彼らに、最新の文献に関連する質問を考え出し、検索を通じて見つけた関連論文を使用して質問に対する回答を作成するよう求めた。我々の注釈者には、ChatGPTなどのLLMベースのシステムを使用せず、一般的な検索(例:Google検索)や論文検索システム(例:Semantic Scholar)のみを使用するよう指示した。 表14は収集された質問と回答の統計を示し、図6(a)は主題の分布と主題ごとの平均注釈時間を示している。我々は付録E.4でいくつかの例を示す。 平均して、各注釈者はインスタンスごとに56分を費やした。

3.2 Metrics and Evaluation Protocols

我々は、専門家による評価を補完する、再現可能で効率的な評価を促進するために、多面的な自動評価パイプラインを開発した。我々の評価の概要は図3に示されている。

Correctness ( Corr).

正確性は、モデルが生成した回答と人間が注釈付けした参照回答との重複または一致の度合いを評価する。この指標は、人間が注釈付けした参照回答がある課題にのみ適用される。 SciFact と PubMedQA のような、固定された回答クラスセットが与えられる短文生成タスクについては、正確性の指標として精度を使用する。 QASA については、Lee et al. (2023)に従い、評価指標として ROUGE-L を使用する。 ScholarQA-CSについては、専門家が注釈付けしたルーブリックを採用する新しい長文評価パイプラインを開発した。各ルーブリックには、一般的基準(スコアの40%を占める)と注釈駆動型基準(60%)の2つの基準がある。 一般的基準は、長さ、専門性、引用、抜粋の評価をカバーし、一方で注釈駆動型基準は、注釈者が特定した特定の重要な要素の存在を評価することを含む。GPT4o-turboが各基準にスコアを割り当て、重み付け合計を計算して最終スコアを得る。 詳細は付録B.3.1に記載されている。

Citation accuracy ( Cite).

文献レビューの質問に対する長文回答を評価するには、引用の正確性が必要である:言語モデルは、引用に値するすべての記述に対して、関連する証拠を正確に帰属させるべきである。ScholarQABenchでは、すべてのシステムが推論時に提供されたパッセージにリンクされた参照番号(例:[1], [2])を含む出力を生成する。先行研究(Gao et al., 2023; Liu et al., 2023)に従い、我々は引用の精度と再現率を測定する。具体的には、各引用に値する記述に適切な引用があるか、そしてその引用が記述を裏付けているかを確認する(引用再現率Cite-r)。 次に、各引用について、その関連性と必要性を検証する—具体的には、引用が記述を裏付けているか、そしてその削除が残りの引用の完全性に影響を与えるかどうかを確認する(引用精度Cite-p)。 最後に、引用F1スコアCite-F1)も計算し、これを引用正確性の主要な指標として使用する。 引用正確性は金の参照回答やルーブリックを必要としないため、この評価をすべてのタスクに適用する。

Content quality and organization ( LLM, Expert).

我々は、 CorrCite だけでなく、生成された回答を評価するための重要な側面をさらに定義する。具体的には、質問に対する関連性Rel)、トピックの網羅性Cov)(例:議論された論文の多様性)と深さ(例:詳細の十分さ)、そして構成と文章の流れOrg)を評価する。これらの側面は標準的な指標では捉えるのが難しい。 言語モデルが詳細な評価ルーブリックを効果的に遵守できることから(Zheng et al., 2023a; Kim et al., 2024a)、我々はPrometheus v2 (Kim et al., 2024a)を使用して、定義されたルーブリックに基づいて5段階のスコアを割り当て、人間による評価にも同じスキーマを使用する。人間による評価では、さらに全体的な有用性Use)を評価する。 この評価の完全な指示は付録B.3に記載されている。 先行研究では、金の参照回答が利用できない場合、 LLMの信頼性が低下することが示されているため(Kim et al., 2024b)、この評価は人間が注釈付けした参照回答がある課題、すなわちScholarQA-Multiにのみ適用される。 我々は、細かい側面に関する人間とモデルの評価の一致度を分析し(付録D.2)、モデルの評価が人間のランキングと一致することが多く、特に構成と網羅性においてより高い相関を示すことを発見した。

4 Experiments and Results

4.1 Experimental Details

Models.

まず、我々はオープンウェイトと独自の言語モデル(LM)の両方を評価する。これにはLlama 3.1(8B、70B)とGPT-4o(gpt-4o-2024-05-13)が含まれる。この設定では、各LMが外部検索なしで独立して回答を生成し、参照した論文タイトルのリストを提供する。評価のために、生成された論文タイトルが実在するかを確認する。存在する場合、対応する要約を取得して引用として使用する。 複数論文タスクについては、さらに他の独自システムを評価する:Perplexity Pro、555https://www.perplexity.ai/。実験には有料サブスクリプション版を使用した。Perplexity SearchにはAPIがないため、seleniumツールキットを使用し、インターフェースから最終予測結果を保存した。このため、引用情報を取得することはできなかった。およびPaperQA2 (Skarlinski et al., 2024)。これは、再ランク付け、要約、回答生成にGPT4oを使用する並行的な文献レビューエージェントシステムである。666我々は彼らの公式コードベースを使用する。PaperQA2は検索コーパスを公開しておらず、PDFファイルをオフラインでダウンロードする必要があるため、我々の検索パイプラインとSemantic Scholar APIによって提案された論文のPDFファイルをダウンロードした。PaperQA2とは異なり、我々は非公開またはライセンスで保護された論文にアクセスできないため、我々の複製の効果が一部制限される可能性がある。 次に、我々のOpenScholar-DataStore(+OSDS)を使用してモデルを評価する。ここでは上位N𝑁Nitalic_N個の段落を取得し、連結して元の入力と共に供給する。 最後に、我々の提案するOpenScholarを評価する。これは、訓練された8Bモデルモデル(OS-8B)、およびLlama 3.1 70BとGPT4o(OS-70BOS-GPT4o)を使用するカスタム推論時パイプラインを活用している。

Details of OpenScholar.

我々はデフォルトのデータストアとしてpeS2o v2を使用する𝐃𝐃\mathbf{D}bold_D。異なるデータストアの効果は付録D.1で分析する。 OpenScholarθbisubscript𝜃bi\theta_{\text{bi}}italic_θ start_POSTSUBSCRIPT bi end_POSTSUBSCRIPTθcrosssubscript𝜃cross\theta_{\text{cross}}italic_θ start_POSTSUBSCRIPT cross end_POSTSUBSCRIPTについては、我々の訓練済みbi-encoderとcross-encoderモデルを使用する。これらはそれぞれ1億1000万パラメータと3億4000万パラメータで構成されている。ウェブ検索とSemantic Scholarからの論文の最大数を10に設定する。 生成器LMについては、温度を0.7に設定し、応答生成の最大トークン数を3,000に、フィードバック生成の最大トークン数を1,000に制限し、より高速な推論のためにvllmパッケージを使用する。Llama 3.1 8Bを13万の訓練インスタンスで2エポック訓練し、torchtuneを使用する。 さらなる詳細は付録Cに記載されている。 すべてのモデルについて、生成器LMに入力する段落数を単一論文タスクでは5、複数論文タスクでは10に設定する。SciFact とPubMedを除き、few-shotデモンストレーションは提供しない。これらのタスクでは1ショットデモンストレーションを含める。

4.2 Results

2は、主要なベースラインの複数の側面におけるスコアを示している。 要約すると、OpenScholarは最先端の性能を達成し、GPT4oおよびその標準的なRAGバージョンを大きく上回り、さらにPaperQA2 (Skarlinski et al., 2024)のような専門的な文献レビューシステムも大幅に上回っている。

Single-paper tasks.

単一論文タスクにおいて、OpenScholarは一貫して他のモデルを上回る性能を示している。OS-8BとOS-70Bは、表2に示されるように、最終的なCorrCiteの両方において、検索拡張の有無に関わらずLlama 3.1 8Bおよび70Bを上回っている。 OS-70BはPubMedQAとQASAにおいてGPT4oと同等かそれ以上の性能を示している。

Single-paper performance Multi-paper performance Cost
Pub Sci QASA CS Multi Bio Neu CS
Model Corr Cite Corr Cite Corr Cite Corr Cite LLM Cite Cite Cite USD / q
Llama3-8B 61.5 0.0 66.8 0.0 14.3 0.0 41.9 0.0 3.79 0.0 0.0 0.0 0.0001
+OSDS 75.2 63.9 75.5 36.2 18.6 47.2 46.7 26.1 4.22 25.3 38.0 36.8 0.0001
OS-8B 76.4 68.9 76.0 43.6 23.0 56.3 51.1 47.9 4.12 42.8 50.8 56.8 0.003
Llama3-70B 69.5 0.0 76.9 0.0 13.7 0.0 44.9 0.0 3.82 0.0 0.0 0.0 0.0004
+OSDS 77.4 71.1 78.2 42.5 22.7 63.6 48.5 24.5 4.24 41.4 53.8 58.1 0.0004
OS-70B 79.6 74.0 82.1 47.5 23.4 64.2 52.5 45.9 4.03 54.7 55.9 63.1 0.01
GPT4o 65.8 0.0 77.8 0.0 21.2 0.0 45.0 0.1 4.01 0.7 0.2 0.1 0.006
+OSDS 75.1 73.7 79.3 47.9 18.3 53.6 52.4 31.1 4.03 31.5 36.3 21.9 0.01
OS-GPT4o 74.8 77.1 81.3 56.5 18.7 60.4 57.7 39.5 4.51 37.5 51.5 43.5 0.05
PaperQA2 45.6 48.0 3.82 47.2 56.7 56.0 0.3similar-to\sim2.3
Perplexity 40.0 4.15 0.002∗∗
表2: ScholarQABenchの結果。CS、Multi、Bio、NeuはそれぞれScholar-CSScholarQA-MultiScholarQA-BioScholarQA-Neuroを示す。 Corrは正確性指標(PubMedQAとSciFactは精度、QASAはROUGE-L、ScholarQA-CSは総合スコア)を示し、Citeは引用のF1スコアを示す。LLMOrg(構成)、Rel(関連性)、Cov(網羅性)のPrometheus (Kim et al., 2024a)による予測の平均スコアを示す。PaperQA2はGPT4oに基づいており、その価格は推論時に使用されるPDFファイルの数に依存する。 8Bおよび70Bモデルのコストについては、評価は我々のローカルマシンで行われたが、Together.aiの価格設定に基づいてコストを見積もった。 ∗∗我々はPerplexity Pro(月額20 USDの定期購読が必要)を使用し、このコストをProサブスクリプションで許可される最大クエリ数である9,000で割った。 Perplexity UIは各引用のスニペットを提供しないため、その引用精度を評価することができなかった。
Computer Science Biomedicine
Model Total # # of Hallucinated ()\downarrow)↓ ) Ratio ()\downarrow)↓ ) Total # # of Hallucinated ()\downarrow)↓ ) Ratio ()\downarrow)↓ )
OS-8B 9.65 0.0 0.0 6.25 0.0 0.0
\hdashlineLlama 3.1 8B 5.20 4.79 92.1% 5.58 5.46 97.6%
Llama 3.1 70B 6.14 4.78 78.1% 6.98 6.74 96.6%
GPT4o 5.74 4.52 78.7% 5.24 4.97 94.8%
表3: コンピュータサイエンスおよび生物医学分野における幻の論文の統計。我々の分析により、検索を行わないLLMの予測において、存在しない引用論文が多数あることが明らかになった。これはOpenScholarでは観察されない問題である。
Multi-paper tasks.

OpenScholar-8B、70B、およびGPT4o(OS-8B、OS-70B、OS-GPT4o)は複数論文タスクにおいて強力な性能を示している。具体的には、OS-GPT4oはScholar-CSCorrにおいてGPT4o単独と比較して12.7ポイントの改善を、標準的なRAGと比較して5.3ポイントの改善を示している。 訓練されたOS-8Bと組み合わせた場合、OpenScholarは既製のLlama 3.1 8Bを使用したパイプラインを大きく上回り、ドメイン特化型訓練の利点を示している。 さらに、このOpenScholar-8Bは、GPT4o、Perplexity Pro、あるいはパッセージの再ランク付け、要約、回答生成にGPT4oモデルを使用するPaperQA2のような独自システムを大幅に上回る性能を示している。 特筆すべきは、効率的な検索パイプラインと軽量なbi-encoder、cross-encoder、および自社モデルを活用することで、OpenScholar-8BとOpenScholar-GPT4oは高性能を維持しつつ、PaperQA2よりも桁違いに低いコストを達成している点である。

Limitations of parametric LMs.

単一論文タスクと複数論文タスクの両方において、検索拡張を行わないベースラインは苦戦しており、検索はほぼ常により良い性能を達成するのに有効であることが観察される。また、検索を全く行わないモデルは正確な引用の生成に苦労し、複数論文タスクにおいて限定的な網羅性を示すことが多い。 表3に示されるように、実際に存在する引用論文の割合は驚くほど低い。特に、GPT4oやLlamaのようなモデルは尤もらしい参考文献リストを生成できるものの、我々は引用された論文の78-98%が捏造されており、この問題は生物医学分野でより顕著であることを発見した。引用が実在する論文を指している場合でも、その大半は対応する要約によって裏付けられておらず、結果としてほぼゼロの引用精度となっている。

我々はまた、そのようなモデルが限定的な網羅性を持つ応答を生成することも観察した。 Scholar-Multiにおいて、検索を行わないモデル(Llama 3.1 8B、70B、およびGPT4o)は、検索拡張モデルと比較して一貫して大幅に低い平均スコアを示している。この差は主にCovスコアの低さに起因している。例えば、Llama 3.1 8BはCovスコアで3.45を達成しているのに対し、Llama 3.1 8B + OSDS(標準的なRAGベースライン)はそれを4.01に改善している。 これらの結果は、特に小規模なLMにおいて、科学分野ではモデルのパラメトリックな知識のみに頼ることが特に困難であることを示唆している。

4.3 Analysis

Scholar-CS
Corr Cite
OS-8B 51.3 47.9
\hdashline- training 49.4 42.3
- reranking 49.6 28.2
- feedback 51.1 50.2
- attribution 49.3 44.0
OS-GPT4o 57.7 39.5
\hdashline- reranking 52.4 22.9
- feedback 55.1 31.0
- attribution 55.6 30.6
(a) OpenScholarの異なるコンポーネントのアブレーション。
Refer to caption
(b) 上位Nのアブレーション(Corr):Scholar-CSにおける結果。
Refer to caption
(c) 上位Nのアブレーション(Cite-F1):Scholar-CSにおける結果。
図4:OpenScholarの分析:(a) 異なる基盤となるLMに基づくOpenScholarの訓練と推論の主要コンポーネントに関するアブレーション研究。(b) 上位N文書:最終的なダウンストリームタスクのためのコンテキストチャンクの数を変化させる効果の分析。OpenScholar 8BとLlama 3.1 8Bを使用し、引用の正確性とマルチドキュメントQAタスクの正確性に基づいて最終的なモデルのパフォーマンスを評価する。
Ablation studies.

我々は、OpenScholarの個々のコンポーネント(推論と訓練)の有効性を評価するためにアブレーションを実施する。具体的には、推論時の手順である再ランク付け、フィードバック、および帰属を除去し、OS-8Bについては、さらなる訓練を行わずにLlama3-8Bを使用する訓練のアブレーションを行う。

4(a)に示すように、これらのコンポーネントを除去することは、モデル出力の全体的な正確性と引用の正確性の両方に大きな影響を与える。特に、再ランク付けを除去すると、両モデルで大幅なパフォーマンスの低下が見られた。 GPT4oでフィードバックループを除去した後のパフォーマンスの顕著な低下は、より強力なモデルが自己フィードバックサイクルから大きな恩恵を受けることを示しており、これはMadaan et al. (2023)と一致している。一方、我々の訓練された8Bモデルでは限定的なパフォーマンスの低下が見られた。さらに、事後の帰属評価の除去は、引用の正確性と最終出力の正確性の両方に悪影響を与え、モデルが出力を検証することの重要性を強調している。 訓練済みと未訓練のOS-8Bの間の大きなパフォーマンスの差は、高品質で領域特化したデータでのさらなる訓練が、効率的でタスク特化型のLMを構築する上で重要であることを示唆している。 次の分析では、訓練がLMのより多くのコンテキストを効果的に利用する能力に大きな影響を与える一方で、引用の正確性を維持することを示す。

Number of context passages.

我々は、コンテキスト段落の数(上位N𝑁Nitalic_N)を変化させることがモデルのパフォーマンスにどのように影響するかを分析した。 具体的には、標準的なRAGOpenScholarを使用して、我々の訓練された8Bモデルとllama 3.1 8Bで実験を行い、Scholar-CSにおける生成の正確性と引用の正確性の両方を評価した。 図4(b)(c)に結果を示す。 Llama 3.1は最大128Kトークンのコンテキスト長を処理し受け入れるように訓練されているが、一定のコンテキストサイズを超えるとパフォーマンスが低下することが分かった。上位N𝑁Nitalic_Nのコンテキストウィンドウを5から10に増やすと、モデルの正確性スコアは向上するが、さらに拡大すると正確性と引用の正確性の両方が悪化する。これは、LMが多数の段落を処理できるとしても、特に小規模なモデルでは、特殊な訓練なしでは効果的に利用することが困難である可能性を示唆している。

対照的に、我々の訓練された8Bモデルは、最大N=20𝑁20N=20italic_N = 20の段落まで強力なパフォーマンスを維持する。 また、Llama 3.1 70Bのようなより大規模なモデルは、コンテキスト長の増加に対してより堅牢であることも分かった。 引用の正確性に関しては、図4(c)に示すように、Llama 3.1 8Bは急速に低下し、引用F1は10まで低下するが、我々の8B LMとLlama 70Bは両方とも約40の引用F1を維持している。ただし、これらのモデルもパフォーマンスの低下が見られる。

5 Expert Evaluation

我々の自動評価を補完し、OpenScholarの有効性と限界をより深く理解するために、人間による評価を実施した。この研究では、100以上の文献レビューに関する質問と、関連分野の専門知識を持つ15名以上の参加者(博士課程の学生、研究者、大学教授を含む)が関与した。合計で、人間と模型の回答に対する400以上の詳細な専門家評価を収集した。

5.1 Human Evaluation Design

Evaluations against human experts.

人間による評価のために、我々は専門家によって作成されたScholarQA-Multiから108の質問回答ペアを使用する。 これらの質問に対して、引用付きの回答を生成するために3つのモデルを実行する:GPT4o(外部検索なし)、生成器としてGPT4oを使用したOpenScholar(OS-GPT4o)、そして我々が訓練した8Bモデルを使用したOpenScholar(OS-8B)である。その後、専門家の評価者にモデルが生成した回答を人間が作成した回答と比較評価するよう依頼する。

各評価では、質問、モデルが生成した回答、そして人間が作成した回答を提示する。専門家の評価者は、各回答の詳細な評価を行い、2つの回答間で対比的な選好判断を提供する。 詳細評価には、第3節で説明した5段階の評価基準(CovOrgRel)を使用し、評価者は同じ基準を用いてモデルと人間の回答の両方を採点する。 有用性(Use)については、評価者は1-5の尺度で得点を付け、我々はこれを3つのクラスに変換する:有用でない(1-2)、中立(3)、有用(4-5)。その後、有用カテゴリーに分類される回答の割合を計算する。対比的選好については、評価者は回答の一方を選択するか、両方の回答が同等の品質であると判断した場合は「同点」とする。任意で、専門家はなぜ一方の回答がもう一方より優れているかについて説明を提供する。

Expert annotators for answer writing.

質問と回答の作成のための我々の専門家評価者は、米国全土の研究機関から12名の博士課程学生およびポスドク研究者であり、全員が少なくとも3年間の研究経験を持ち、自分の分野のジャーナルや学会で複数の論文を発表している。 我々の評価者の専門分野は、コンピュータサイエンス(自然言語処理、コンピュータビジョン、ヒューマンコンピュータインタラクション)、物理学(天体物理学およびフォトニクス/光学)、生物医学(神経科学、バイオイメージング)の領域にわたっており、我々は専門家評価者を彼らの専門分野の質問に割り当てる。平均して、1人当たり35-40 USDを支払った。

Expert annotators for evaluations.

3つの分野から合計16名の専門家評価者が我々の評価に貢献し、そのうち12名が回答生成にも参加した。全ての専門家評価者は、回答を作成した者と同じ資格を満たしている。潜在的なバイアスを最小限に抑えるため、評価者が自分自身の質問に対する回答を評価しないよう、評価タスクを異なるグループの専門家に割り当てた。 各インスタンスは、利用可能性に応じて1〜3名の専門家評価者によってレビューされた。評価者間の一致度は、同点を含む対比較で0.68、同点をマージした緩和アプローチで0.70であった。平均して、各専門家はインスタンスごとに5分を費やし、25〜35 USDの報酬を受け取った。

Fine-grained (1-5, Avg.) Overall Usefulness Relative to Human (%)
Org Cov Rel Use (%) Win Tie Lose
GPT4o 4.63 (+0.4) 4.06 (-0.2) 4.50 (-0.1) 69.7 (-13.9) 31.9 13.8 54.2
OS-8B 3.82 (-0.3) 4.30 (+0.7) 4.00 (-0.4) 72.1 (+8.7) 50.8 12.3 36.9
OS-GPT4o 4.47 (+0.8) 4.38 (+0.9) 4.30 (0.0) 80.0 (+22.5) 70.0 6.8 23.2
表4: 人間による評価結果。詳細な側面評価は、我々の詳細な指示とルーブリックを用いて、4つの側面にわたって5段階で実施される。括弧内の値は相対的な性能差を表す;(+)はモデルがより高い性能を示すことを、(-)は人間がより高い性能を示すことを示す。

5.2 Human Evaluation Results

Refer to caption
図5: 詳細な評価結果。 1) GPT4o(上)、OpenScholar 8B(中)、OpenScholar GPT4o(下)と人間のスコア分布の比較。
Results of human evaluations.

4は、各評価側面の平均スコアと人間の回答に対する相対的な勝率を示している。 図5は、人間、GPT4o、そしてLlama 3 8BとGPT4oを用いたOpenScholarのスコア分布を示している。 注目すべきは、OS-GPT4oと我々のOS-8Bバージョンの両方が50%以上のケースで人間の回答を上回っており、その優位性は主に情報の幅広さと深さ(カバレッジ;Cov)を提供する能力に起因している点である。対照的に、検索機能を持たないGPT4oは、カバレッジが著しく限定的で、35%未満のケースでしか勝利せず、全体的な有用性は人間や他の2つのモデルの回答よりもはるかに低く評価されている。これらの結果は、最先端のモデルであっても、科学文献レビューの質問に対する回答の合成と生成が依然として困難なタスクであることを示しており、ScholarQABenchでの我々の発見と一致している。 全体として、OpenScholar-GPT4oとOpenScholar-8Bは、それぞれクエリの80%と72%で有用と評価されている。

より小規模なオープンな8B LMを用いたOpenScholarでさえ人間の専門家を上回っているが、8Bモデルの出力は、現在の最先端の非公開LMベースのOpenScholarと比較して、構成や流暢さの面で劣ると判断されている。我々は、GPT4oがフィードバックをより効果的に取り入れ、一般的により長く流暢な出力を生成することを発見した。これにより、8BベースのOpenScholarや人間と比較して、構成のスコアが大幅に高くなっている。

Effects of length control on model responses.

モデルの出力が人間の出力よりも好まれることが多いことが分かったが、潜在的な交絡因子の1つは出力の長さの大きな差異である。OpenScholar-GPToとOpenScholar-8Bは、人間が書いた回答よりもそれぞれ2.4倍と2.0倍長く、これが人間の判断に影響を与える可能性があるDubois et al. (2024)。 出力の長さの影響を理解するために、我々は制御実験を行った:ランダムに抽出した50の質問に対して、GPT4oに300語以内の要約を作成するよう指示することで、OpenScholar-GPT4oの回答の短縮版を生成した。結果として、平均約333語のOpenScholarの回答を収集し、これは人間の回答の平均長に近い。 その後、同じ人間による評価を行い、詳細および全体的な回答を評価した。 平均して、短縮されたGPT4oは構成で4.5、カバレッジで4.6、関連性で4.6のスコアを獲得した。 短縮されたOpenScholar-GPT4oの回答は、クエリの75%で専門家の回答と同等かそれ以上に好まれた。 この実験結果は、モデルの優れたパフォーマンスが単にOpenScholarの回答の長さの増加によるものではないことを示している。さらに、人間の注釈者の説明では、短縮されたOpenScholarと人間の回答の両方がより多くの詳細を含めることで改善できると言及されることが多く、300語の制限が回答の有用性を制限している可能性があることを示唆している。

Analyses on human explanations for pair-wise explanations.

我々は、ペアワイズ選好に関する自由形式の説明を含む59のインスタンスをランダムにサンプリングし、全体的な選好に影響を与える要因を特定するための手動分析を行った。具体的には、説明が以下の4つのカテゴリーのうち1つ以上に言及しているかどうかを調査した:構成、関連性、カバレッジ、引用。最初の3つのカテゴリーは詳細な人間評価基準と一致しているが、引用カテゴリーは引用された論文の質(例えば、システムがその分野の主要な代表的論文を含んでいるかどうか)も考慮している。 我々の分析により、ペアワイズ決定の主要な要因として、説明の12%が構成、23%が関連性、29%がカバレッジ、9%が引用に言及していることが明らかになった。これは、人間が回答の質を評価する際にカバレッジが重要な役割を果たしていることを示唆しており、注釈者は主にモデル生成の回答をその情報のより広範なカバレッジと深さのために好んでいる。しかし、注釈者はまた、モデルが提供する引用が改善の余地があると指摘し、提案された論文が時折古かったり、より代表的な研究と比較して関連性が低かったりすることを指摘した。付録15に説明の例を示す。

6 Related Work

Scientific LMs.

科学分野の言語モデルは、生物医学(Phan et al., 2021; Yuan et al., 2022; Luo et al., 2022)、医療(Singhal et al., 2023a; Gu et al., 2024; Tan et al., 2023; Singhal et al., 2023b)、生物医学(Zhang et al., 2024b; Fang et al., 2024; Li et al., 2024a)、地球科学(Feng et al., 2023)、天文学(Nguyen et al., 2023)、そして学際的科学(Shaikh et al., 2023)など、様々な領域に及んでいる。SciGLM(Zhang et al., 2024a)やUniSmart(Chi et al., 2024)のように、単一のモデルで多様な科学分野をカバーすることを目指すモデルもある。 最近では、強力な汎用大規模言語モデルが科学的タスクにおいても高い能力を示すことが複数の研究で明らかになっている。例えば、医療質問応答(AI4Science & Quantum, 2023; Singhal et al., 2023a)、化学実験(Zheng et al., 2023b)、応用力学(Brodnik et al., 2023)などの分野である。 しかしながら、言語モデルがそのパラメータ内に記憶された情報に依存することで、出力に頻繁な幻覚が生じることがある(Li et al., 2024b)

LMs to assist scientists.

近年の研究では、新しい研究アイデアの生成(Baek et al., 2024; Yang et al., 2023)や実験コード生成の自動化(Huang et al., 2023; Tian et al., 2024)を含む、様々な科学的手順の実行を支援するLLMの能力も検討されている。しかし、我々の研究は特に、文献レビューの自動化と最新の研究に関する質問への対応のためのベンチマーキングと手法開発に焦点を当てている。これらのタスクは科学的探究にとって極めて重要であり、特に困難なものである。 いくつかの並行研究では、科学文献レビューエージェントのために、独自のLLMと外部API(例:Semantic Scholar API)を使用した検索拡張パイプラインの構築を試みている(Agarwal et al., 2024; Skarlinski et al., 2024; Wang et al., 2024)。これらの研究と我々の研究はいずれも、文献統合の自動化における検索拡張LMの可能性を探求しているが、先行研究は多くの場合、独自のブラックボックスシステムと限定的な評価に依存しており、一般的に小規模な人間による評価や多肢選択式QAなどの簡略化されたセットアップを含んでいる。 対照的に、本稿は自動化された指標を持つ包括的なベンチマークを導入し、3つの科学分野にわたる専門家によるユーザー研究を含み、特化したオープンモデルを訓練するための新しい方法論を開発している。OpenScholarは、以前に導入されたシステムを大幅に上回る性能を示し、5つの領域で人間の専門家を凌駕する優位性を示している。

Benchmarks for scientific literature understanding.

科学文献を理解するモデルの能力を評価するためのベンチマークを開発した研究がいくつか存在する。SciFact (Wadden et al., 2020)、QASPER (Dasigi et al., 2021)、QASA (Lee et al., 2023)などの先行データセットは、主に単一論文の設定に焦点を当てており、クエリに答えるために必要な情報が予め選択された1つの論文内に含まれている。しかし、現実世界のシナリオでは、専門家は質問に答えるために複数の論文から情報を統合する必要がある場合が多い。この隔たりに対処するため、ScholarQABenchは複数の論文にわたる推論を必要とする新たに注釈付けされたタスクを導入している。 また、Multi-XScience (Lu et al., 2020)のような科学的要約タスクも存在し、これらではモデルに複数の論文が提供され、通常それらの論文の関連研究セクションに基づいて要約を生成することが求められる。しかし、本稿では関連論文が事前に指定されていないシナリオに焦点を当てており、これによりタスクはより困難なものとなっている。 最近、Xu et al. (2024)はKIWIを導入した。これは200の質問と、最先端のLLMによって生成され人間が検証または編集した回答を含むデータセットであり、NLP分野に焦点を当てている。KIWIはまた、モデルが考慮しなければならない関連論文のセットも提供している。KIWIとScholarQABenchはどちらも複数論文を扱う情報探索タスクを特徴としているが、ScholarQABenchは人間が書いた回答と自動評価パイプラインの両方を含んでいる。対照的に、KIWIはより人間による評価に重点を置いており、その参照回答は主にモデルによって生成されたものである。

7 Conclusion

LMベースのシステムが科学の進歩を支援できるという研究をさらに進めるため、我々はOpenScholarScholarQABenchを導入した。これらは、複雑で絶えず拡大する科学文献レビューの課題に対処するのに役立つ。 OpenScholarは検索拡張システムであり、オープンチェックポイントLLMと訓練された検索モデルを活用して科学的成果を反復的に洗練し、幻覚や引用の正確性などの課題に対処する。 ScholarQABenchは新しい大規模ベンチマークであり、複数の科学分野にわたる文献レビューの自動化を評価するための標準化された方法を提供する。 ScholarQABenchを用いた評価では、OpenScholarが大幅な改善を示し、GPT-4oや同時期の独自システムであるPaperQA2を含む既存のシステムを凌駕している。3つの科学分野にわたる専門家による評価では、ScholarQABenchが完全にオープンチェックポイントのモデルとオープンアクセスのデータストアと組み合わされた場合、注釈付けに1時間を要する専門家の注釈者が生成した回答よりも有用な回答を生成することが明らかになった。このアプローチはまた、カバレッジを大幅に向上させる。 我々が訓練した8BモデルとGPT4oを使用したOpenScholarは、人間が生成した回答に対して51%および70%の勝率を達成している。 我々はOpenScholarのコード、データ、モデルチェックポイント、データストア、およびScholarQABenchをオープンソース化し、公開デモとともに提供することで、将来の研究努力を支援し加速させる。

Limitations

本節では、我々の研究の複数の限界について強調する。言語モデルベースのシステムが科学文献の統合を完全に自動化できると主張しているわけではないことに留意することが重要である。 この分野の研究をさらに進めるため、我々はScholarQABenchOpenScholarの両方をコミュニティに公開している。

Limitations of ScholarQABench.

ScholarQABenchにはいくつかの限界がある。第一に、関連分野で博士号を持つ、または現在博士課程に在籍している専門家アノテーターを雇用するためのコストと時間の制約により、人間が作成した回答を含む評価データセットは比較的小規模である(例えば、CS-LFQAで110、専門家が作成した回答で108)。このデータセットの規模の制限により、統計的な変動や、アノテーターの特定の専門知識に起因する潜在的なバイアスが生じる可能性がある。ScholarQABenchの規模と範囲を拡大する将来の研究を支援するため、我々はデータとアノテーションパイプラインをオープンソース化している。

第二に、我々の自動評価パイプラインが生成されたコンテンツの品質を常に完璧に捉えられるわけではない。例えば、Scholar-CSでは、様々な要素(長さ、抜粋、ルーブリック項目など)を経験的に決定された重み付け項を用いて組み合わせている。さらに、アノテーターがしばしばルーブリックで特定の種類の補足情報(背景、詳細説明、課題など)を求めていることが判明したが、これらの側面は質問に答えるために厳密に必要とされるわけではない。我々の実験では、LLMが背景的側面の生成に長けていることが分かり、これにより質問に直接答えるがルーブリックのすべての制約を満たさないシステムよりも優位に立つ可能性がある。さらに、将来のシステムはルーブリックのスタイル的バイアスを利用し、回答の質を向上させることなくより多くのルーブリック要素に対応するようプロンプトされる可能性がある。最終スコアと人間の専門家による評価との相関を慎重に分析したが、どの側面を強調すべきか、またこれらのスコアをどのように集計すべきかを改善する余地はまだある。加えて、引用の精度と再現率の評価は文レベルで行われているが、直接の引用がない文でも、隣接する文で引用によってサポートされていることがしばしばあることが分かった。その結果、我々の精度と再現率の指標は過度に厳格である可能性があり、真の引用精度を過小評価している可能性がある。また、我々のアノテーションは特定の時点(Scholar-CSは2024年7月、Scholar-Multiは2024年9月)で取得されたものであり、その後の科学的発展を反映していない可能性があることにも注意が必要である。 本評価ベンチマークを使用する研究者は、公平な比較のためにこれらの日付以降に公開された論文を無視すべきである。

最後に、ScholarQABenchは主にコンピューターサイエンス、生物医学、物理学に焦点を当てており、社会科学やその他の工学・科学分野からのインスタンスは含まれていない。我々の発見が他の領域、特に論文データへのアクセスがより制限されている分野に完全に一般化できない可能性があることを認識している。

Limitations of OpenScholar.

OpenScholarScholarQABenchおよび人間による評価において強力な性能を示しているが、関連セクションで議論されているように、我々の専門家アノテーターはいくつかの限界を特定した。これらの問題にもかかわらず、我々はOpenScholarが人間の専門家を支援する上で価値ある道具であり続けると考えている。

第一に、我々の専門家アノテーターが指摘したように、OpenScholarは特定のクエリに対して最も代表的または関連性の高い論文を一貫して検索することができない。引用ネットワークや出版の新しさなどのメタデータといった追加情報を組み込むことで検索方法を強化することで、その性能を大幅に向上させる可能性がある。 OpenScholarの出力には、特に指示に従う能力と科学的知識が限られている8Bモデルに基づくバージョンにおいて、事実の不正確さや裏付けのない情報が含まれる可能性がある。 今後の研究では、OpenScholar-8Bをさらに改善する訓練を探求することができる。 並行して、競争力があるとはいえ、OpenScholar-GPT4oは独自のGPT4o APIに依存しており、これは時間とともに進化する可能性があるため、結果の正確な再現が困難になる可能性がある。 OpenScholarは推論時にライセンスで保護された論文を使用しない。 検索拡張型LMにおける公正なデータ使用を確保する方法について継続的な議論があり、著作権で保護されたコンテンツを適切に組み込む探求は今後の研究に委ねる。

我々は、これらの限界に対処し、科学文献レビューのためのLMベースのシステムを継続的に改善する今後の研究を奨励する。

Limitations of our human evaluation process.

我々の人間による評価において、評価者は網羅性、関連性、構成、有用性などの側面について詳細な評価を行った一方で、引用の精度や再現率などの他の要因は別途評価された。その結果、有用性や対比較の選好を評価する際に、評価者は事実の正確性や引用の精度を慎重に評価するのではなく、文章の全体的な質により注目した可能性がある。引用の正確性、妥当性、事実性に関するより詳細な人間による分析は今後の課題として残されている。

我々の評価は16名の博士課程の学生および博士研究員によって実施され、評価対象のトピックと彼らの専門性を一致させるよう努めた。しかしながら、研究は多くの場合深い専門知識を必要とするため、評価者は自身の直接の専門分野外の質問についてはより微妙な差異を捉えきれていない可能性がある。 さらに、これらの評価は3つの科学分野にわたる108の質問に基づいて行われたため、得られた知見が他の分野やドメインに完全に一般化できるとは限らない。

Author Contribution

著者の貢献は以下のように要約される:

  • プロジェクトリード:浅井明理

  • プロジェクト構想:浅井明理、Wen-tau Yih、Pang Wei Koh、Hannaneh Hajishirzi

  • OpenScholarの開発:浅井明理、Weijia Shi、Rulin Shao、Jacqueline He

  • OpenScholar公開デモの開発:Amanpreet Singh、Joseph Chee Cheng、浅井明理、Rulin Shao、Doug Downey、Matt Latzke

  • peS2oの構築:Luca Soldaini、Kyle Lo

  • データストア(peS2oインデックス)の構築:Rulin Shao、Jacqueline He、浅井明理

  • 論文ライセンスに関する法的議論:Kyle Lo、Luca Soldaini、Doug Downey、Pang Wei Koh、Amanpreet Singh、浅井明理

  • OpenScholar-LMの訓練:浅井明理、Weijia Shi

  • OpenScholar-Retrieversの訓練と評価:浅井明理、Jacqueline He、Rulin Shao

  • ScholarQABenchの設計と構想:浅井明理、Pang Wei Koh、David Wadden、Doug Downey、Kyle Lo、Weijia Shi、Amanpreet Singh、Sergey Feldman、Dan Weld

  • ScholarQABenchのコレクション(単一論文タスク):浅井明理

  • ScholarQABench評価パイプラインの設計と開発:浅井明理

  • ScholarQA-CSのコレクションと評価:Doug Downey、Amanpreet Singh、Sergey Feldman、Dan Weld、Mike D'arcy

  • ScholarQA-Multiのコレクション:浅井明理、Minyang Tian、Rulin Shao、Jacqueline He、Weijia Shi、Pan Ji、Shengyan Liu、Hao Tong、Bohao Wu、Yanyu Xiong

  • ScholarQA-Neuro、Bioのコレクション:Doug Downey

  • 結果とコードベース:浅井明理、Jacqueline He、Rulin Shao、Weijia Shi、Amanpreet Singh

  • 人間による評価の設計:浅井明理、Pang Wei Koh、Graham Neubig

  • 人間による評価インターフェースの開発と監督:浅井明理、Minyang Tian

  • 原稿執筆:浅井明理、Jacqueline He、Doug Downey、Amanpreet Singh、Kyle Lo、Pang Wei Koh

  • OpenScholar公開デモのテスト:全員

  • 原稿編集:全員

  • 助言:Pang Wei Koh、Hannaneh Hajishirzi、Doug Downey、Wen-tau Yih、Graham Neubig、Dan Weld、Luke Zettlemoyer

Acknowledgments

我々は、高品質なデータのキュレーションを支援してくださった専門家アノテーターの方々、そしてAi2アノテーションチームのJenna Sparks氏にデータ収集プロセスの管理と監督をしていただいたことに感謝する。 人間による評価インターフェースの開発を支援してくれたYizhong Wang氏、OpenScholar 8Bの訓練に使用したTulu v3指示調整データの初期バージョンを提供してくれたHamish Ivison氏、そしてPrometheusの評価に協力してくれたSeungone Kim氏に感謝する。我々の評価データの限界を分析してくれたJena Hwang氏に感謝する。 公開デモの支援をしてくれたChloe Anastasiades氏、Crystal Nam氏、Sophie Lebrecht氏、Taira Anderson氏、Will Smith氏に感謝する。 本プロジェクトに関する有益な議論と人間による評価実験へのフィードバックをしてくれたFangyuan Xu氏、Eunsol Choi氏、Aran Komatsuzaki氏、Sean Welleck氏、Xiang Yue氏、Tong Chen氏、Vijay Viswanathan氏、Shannon Shen氏、そしてH2labとNeulabの学生たちに感謝する。 PWKはシンガポール国立研究財団およびシンガポールデジタル開発情報省の国家AI部門によるAI客員教授プログラム(授与番号AIVP-2024-001)の支援を受けている。 本研究の一部は、AAがUW-Meta AIメンターシッププログラムの一環として行ったものである。

References

  • Agarwal et al. (2024) Shubham Agarwal, Issam H Laradji, Laurent Charlin, and Christopher Pal. Litllm: A toolkit for scientific literature review. arXiv preprint arXiv:2402.01788, 2024. URL https://arxiv.org/abs/2402.01788.
  • AI4Science & Quantum (2023) Microsoft Research AI4Science and Microsoft Azure Quantum. The impact of large language models on scientific discovery: a preliminary study using gpt-4. arXiv preprint arXiv:2311.07361, 2023. URL https://arxiv.org/abs/2311.07361.
  • Asai & Choi (2021) Akari Asai and Eunsol Choi. Challenges in information-seeking QA: Unanswerable questions and paragraph retrieval. In ACL, 2021. URL https://aclanthology.org/2021.acl-long.118.
  • Asai et al. (2023) Akari Asai, Timo Schick, Patrick Lewis, Xilun Chen, Gautier Izacard, Sebastian Riedel, Hannaneh Hajishirzi, and Wen-tau Yih. Task-aware retrieval with instructions. In Findings of the Association for Computational Linguistics, 2023. URL https://aclanthology.org/2023.findings-acl.225.
  • Asai et al. (2024) Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil, and Hannaneh Hajishirzi. Self-RAG: Learning to retrieve, generate, and critique through self-reflection. In ICLR, 2024. URL https://openreview.net/forum?id=hSyW5go0v8.
  • Azerbayev et al. (2024) Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen Marcus McAleer, Albert Q. Jiang, Jia Deng, Stella Biderman, and Sean Welleck. Llemma: An open language model for mathematics. In ICLR, 2024. URL https://openreview.net/forum?id=4WnqRR915j.
  • Baek et al. (2024) Jinheon Baek, Sujay Kumar Jauhar, Silviu Cucerzan, and Sung Ju Hwang. Researchagent: Iterative research idea generation over scientific literature with large language models. arXiv preprint arXiv:2404.07738, 2024. URL https://arxiv.org/abs/2404.07738.
  • Brodnik et al. (2023) Neal R. Brodnik, Samuel Carton, Caelin Muir, Satanu Ghosh, Doug Downey, McLean P. Echlin, Tresa M. Pollock, and Samantha Daly. Perspective: Large Language Models in Applied Mechanics. Journal of Applied Mechanics, 2023. URL https://doi.org/10.1115/1.4062773.
  • Chi et al. (2024) Chenglei Chi, Qiaozi Cheng, Zheng Wen, Rongzhe Lin, Chunyang Wen, Zhaowei Wang, Cuiling Gao, Jian Zhang, Xu Jiang, Jian Yin, et al. Uni-SMART: Universal science multimodal analysis and research transformer. arXiv preprint arXiv:2403.10301, 2024. URL https://arxiv.org/abs/2403.10301.
  • Choi et al. (2018) Eunsol Choi, He He, Mohit Iyyer, Mark Yatskar, Wen-tau Yih, Yejin Choi, Percy Liang, and Luke Zettlemoyer. QuAC: Question answering in context. In EMNLP, Brussels, Belgium, 2018. Association for Computational Linguistics. URL https://aclanthology.org/D18-1241.
  • Dasigi et al. (2021) Pradeep Dasigi, Kyle Lo, Iz Beltagy, Arman Cohan, Noah A. Smith, and Matt Gardner. A dataset of information-seeking questions and answers anchored in research papers. In NAACL, 2021. URL https://aclanthology.org/2021.naacl-main.365.
  • Dubey et al. (2024) Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, et al. The llama 3 herd of models. arXiv preprint arXiv:2407.21783, 2024. URL https://arxiv.org/abs/2407.21783.
  • Dubois et al. (2024) Yann Dubois, Balázs Galambosi, Percy Liang, and Tatsunori B Hashimoto. Length-controlled alpacaeval: A simple way to debias automatic evaluators. In COLM, 2024. URL https://openreview.net/forum?id=CybBmzWBX0.
  • Fang et al. (2024) Ziheng Fang, Guangxu Wang, Jinsung Xu, Yifeng Cai, Jingya Wang, Qicheng Qiu, Ruixuan Zhang, Xiaofeng Chen, Jinna Wang, Jiayi Dong, et al. Biomedgpt: A unified and generalist biomedical generative pre-trained transformer for vision, language, and knowledge reasoning tasks. arXiv preprint arXiv:2403.18421, 2024. URL https://arxiv.org/abs/2305.17100.
  • Feng et al. (2023) Qiang Feng, Yuxi Li, Jintao Zou, Zhiwei Li, Zhiqiang Ding, Chao Zhang, Qinyan Zhang, Xueqi Hu, Weihao Peng, Xiangyu Meng, et al. K2: A foundation language model for geoscience knowledge understanding and generation. arXiv preprint arXiv:2306.05064, 2023.
  • Gao et al. (2023) Tianyu Gao, Howard Yen, Jiatong Yu, and Danqi Chen. Enabling large language models to generate text with citations. arXiv preprint arXiv:2305.14627, 2023. URL https://arxiv.org/abs/2305.14627.
  • Gu et al. (2024) Xiaodan Gu, Zhen Wang, Zhengliang Shi, Hongyan Li, Xiaoye Chen, and Dehong Cheng. Me-llama: Foundation model for medical language understanding and generation. arXiv preprint arXiv:2402.12749, 2024. URL https://arxiv.org/abs/2402.12749.
  • Guu et al. (2020) Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, and Mingwei Chang. Retrieval augmented language model pre-training. In International Conference on Machine Learning, 2020. URL https://dl.acm.org/doi/pdf/10.5555/3524938.3525306.
  • Huang et al. (2023) Qian Huang, Jian Vora, Percy Liang, and Jure Leskovec. Mlagentbench: Evaluating language agents on machine learning experimentation. In International Conference on Machine Learning, 2023. URL https://api.semanticscholar.org/CorpusID:263671541.
  • Ivison et al. (2023) Hamish Ivison, Yizhong Wang, Valentina Pyatkin, Nathan Lambert, Matthew Peters, Pradeep Dasigi, Joel Jang, David Wadden, Noah A Smith, Iz Beltagy, et al. Camels in a changing climate: Enhancing lm adaptation with tulu 2. arXiv preprint arXiv:2311.10702, 2023. URL https://arxiv.org/abs/2311.10702.
  • Izacard et al. (2022) Gautier Izacard, Mathilde Caron, Lucas Hosseini, Sebastian Riedel, Piotr Bojanowski, Armand Joulin, and Edouard Grave. Unsupervised dense information retrieval with contrastive learning. TMLR, 2022. URL https://openreview.net/forum?id=jKN1pXi7b0.
  • Jiang et al. (2023) Zhengbao Jiang, Frank F Xu, Luyu Gao, Zhiqing Sun, Qian Liu, Jane Dwivedi-Yu, Yiming Yang, Jamie Callan, and Graham Neubig. Active retrieval augmented generation. In ACL, 2023. URL https://aclanthology.org/2023.emnlp-main.495/.
  • Jin et al. (2019) Qiao Jin, Bhuwan Dhingra, Zhengping Liu, William Cohen, and Xinghua Lu. PubMedQA: A dataset for biomedical research question answering. In EMNLP-IJCNLP, 2019. URL https://aclanthology.org/D19-1259.
  • Karpukhin et al. (2020) Vladimir Karpukhin, Barlas Oğuz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, and Wen-tau Yih. Dense passage retrieval for open-domain question answering. In EMNLP, 2020. URL https://aclanthology.org/2020.emnlp-main.550/.
  • Kasai et al. (2023) Jungo Kasai, Keisuke Sakaguchi, Yoichi Takahashi, Ronan Le Bras, Akari Asai, Xinyan Yu, Dragomir Radev, Noah A Smith, Yejin Choi, and Kentaro Inui. RealTime QA: What’s the answer right now? In NeurIPS (Datasets and Benchmarks), 2023. URL https://openreview.net/forum?id=HfKOIPCvsv&noteId=YNFU7iQmxA.
  • Kim et al. (2024a) Seungone Kim, Jamin Shin, Yejin Cho, Joel Jang, Shayne Longpre, Hwaran Lee, Sangdoo Yun, Seongjin Shin, Sungdong Kim, James Thorne, and Minjoon Seo. Prometheus: Inducing fine-grained evaluation capability in language models. In ICLR, 2024a. URL https://openreview.net/forum?id=8euJaTveKw.
  • Kim et al. (2024b) Seungone Kim, Juyoung Suk, Ji Yong Cho, Shayne Longpre, Chaeeun Kim, Dongkeun Yoon, Guijin Son, Yejin Cho, Sheikh Shafayat, Jinheon Baek, et al. The biggen bench: A principled benchmark for fine-grained evaluation of language models with language models. arXiv preprint arXiv:2406.05761, 2024b. URL https://arxiv.org/abs/2406.05761.
  • Kinney et al. (2023) Rodney Michael Kinney, Chloe Anastasiades, Russell Authur, Iz Beltagy, Jonathan Bragg, Alexandra Buraczynski, Isabel Cachola, Stefan Candra, Yoganand Chandrasekhar, Arman Cohan, Miles Crawford, Doug Downey, Jason Dunkelberger, Oren Etzioni, Rob Evans, Sergey Feldman, Joseph Gorney, David W. Graham, F.Q. Hu, Regan Huff, Daniel King, Sebastian Kohlmeier, Bailey Kuehl, Michael Langan, Daniel Lin, Haokun Liu, Kyle Lo, Jaron Lochner, Kelsey MacMillan, Tyler Murray, Christopher Newell, Smita Rao, Shaurya Rohatgi, Paul L Sayre, Zejiang Shen, Amanpreet Singh, Luca Soldaini, Shivashankar Subramanian, A. Tanaka, Alex D Wade, Linda M. Wagner, Lucy Lu Wang, Christopher Wilhelm, Caroline Wu, Jiangjiang Yang, Angele Zamarron, Madeleine van Zuylen, and Daniel S. Weld. The semantic scholar open data platform. ArXiv, abs/2301.10140, 2023. URL https://arxiv.org/abs/2301.10140.
  • Lee et al. (2023) Yoonjoo Lee, Kyungjae Lee, Sunghyun Park, Dasol Hwang, Jaehyeon Kim, Hong-in Lee, and Moontae Lee. QASA: advanced question answering on scientific articles. In ICML, 2023. URL https://proceedings.mlr.press/v202/lee23n.html.
  • Lewis et al. (2020) Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, and Douwe Kiela. Retrieval-augmented generation for knowledge-intensive nlp tasks. In NeurIPS, 2020. URL https://proceedings.neurips.cc/paper/2020/file/6b493230205f780e1bc26945df7481e5-Paper.pdf.
  • Li et al. (2024a) Junfeng Li, Junjie Gao, Siru Zhang, Yiwen Wang, Xinhang Yan, Hongyan Liu, Shiping Yang, Jie Qiao, and Qian Zhan. BioMistral: A collection of open-source pretrained large language models for biomedicine. In Findings of ACL, 2024a. URL https://aclanthology.org/2024.findings-acl.348/.
  • Li et al. (2024b) Junyi Li, Jie Chen, Ruiyang Ren, Xiaoxue Cheng, Xin Zhao, Jian-Yun Nie, and Ji-Rong Wen. The dawn after the dark: An empirical study on factuality hallucination in large language models. In Lun-Wei Ku, Andre Martins, and Vivek Srikumar (eds.), Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp.  10879–10899, Bangkok, Thailand, August 2024b. Association for Computational Linguistics. URL https://aclanthology.org/2024.acl-long.586.
  • Li et al. (2024c) Ming Li, Yong Zhang, Shwai He, Zhitao Li, Hongyu Zhao, Jianzong Wang, Ning Cheng, and Tianyi Zhou. Superfiltering: Weak-to-strong data filtering for fast instruction-tuning. In ACL, 2024c. URL https://aclanthology.org/2024.acl-long.769.
  • Liu et al. (2023) Nelson F Liu, Tianyi Zhang, and Percy Liang. Evaluating verifiability in generative search engines. In Findings of EMNLP, 2023. URL https://aclanthology.org/2023.findings-emnlp.467/.
  • Liu et al. (2024) Nelson F Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, and Percy Liang. Lost in the middle: How language models use long contexts. TACL, 2024. URL https://aclanthology.org/2024.tacl-1.9/.
  • Lo et al. (2020) Kyle Lo, Lucy Lu Wang, Mark Neumann, Rodney Kinney, and Daniel Weld. S2ORC: The semantic scholar open research corpus. In ACL, 2020. URL https://aclanthology.org/2020.acl-main.447.
  • Loshchilov & Hutter (2019) Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. In ICLR, 2019. URL https://openreview.net/forum?id=Bkg6RiCqY7.
  • Lu et al. (2020) Yao Lu, Yue Dong, and Laurent Charlin. Multi-xscience: A large-scale dataset for extreme multi-document summarization of scientific articles. In EMNLP, 2020. URL https://aclanthology.org/2020.emnlp-main.648/.
  • Luo et al. (2022) Renqian Luo, Liai Sun, Yingce Xie, Zhiting Jiang, Yangbin Gu, Kun Shi, Dejia Xiong, Sheng He, Zhen Xu, and Tao Qin. Biogpt: Generative pre-trained transformer for biomedical text generation and mining. Briefings in Bioinformatics, 2022. URL https://academic.oup.com/bib/article/23/6/bbac409/6713511.
  • Madaan et al. (2023) Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah Wiegreffe, Uri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang, et al. Self-refine: Iterative refinement with self. Feedback, 2023. URL https://arxiv.org/abs/2303.17651.
  • Malaviya et al. (2023) Chaitanya Malaviya, Subin Lee, Sihao Chen, Elizabeth Sieber, Mark Yatskar, and Dan Roth. Expertqa: Expert-curated questions and attributed answers. arXiv preprint arXiv:2309.07852, 2023. URL https://arxiv.org/abs/2309.07852.
  • Mallen et al. (2023) Alex Mallen, Akari Asai, Victor Zhong, Rajarshi Das, Daniel Khashabi, and Hannaneh Hajishirzi. When not to trust language models: Investigating effectiveness of parametric and non-parametric memories. In ACL, 2023. URL https://aclanthology.org/2023.acl-long.546.
  • Mishra et al. (2024) Abhika Mishra, Akari Asai, Vidhisha Balachandran, Yizhong Wang, Graham Neubig, Yulia Tsvetkov, and Hannaneh Hajishirzi. Fine-grained hallucination detection and editing for language models. In COLM, 2024. URL https://openreview.net/forum?id=dJMTn3QOWO.
  • Nguyen et al. (2023) Tuan Dung Nguyen, Yuan-Sen Ting, Ioana Ciuca, Charles O’Neill, Ze-Chang Sun, Maja Jabłońska, Sandor Kruk, Ernest Perkowski, Jack Miller, Jason Jason Jingsh Li, Josh Peek, Kartheik Iyer, Tomasz Rozanski, Pranav Khetarpal, Sharaf Zaman, David Brodrick, Sergio J. Rodriguez Mendez, Thang Bui, Alyssa Goodman, Alberto Accomazzi, Jill Naiman, Jesse Cranney, Kevin Schawinski, and Roberta Raileanu. AstroLLaMA: Towards specialized foundation models in astronomy. In Proceedings of the Second Workshop on Information Extraction from Scientific Publications, 2023. URL https://aclanthology.org/2023.wiesp-1.7.
  • Nogueira & Cho (2019) Rodrigo Nogueira and Kyunghyun Cho. Passage re-ranking with bert. arXiv preprint arXiv:1901.04085, 2019. URL https://arxiv.org/abs/1901.04085.
  • Panickssery et al. (2024) Arjun Panickssery, Samuel R. Bowman, and Shi Feng. LLM evaluators recognize and favor their own generations. In NeurIPS, 2024. URL https://openreview.net/forum?id=4NJBV6Wp0h.
  • Phan et al. (2021) Long N Phan, James T Anibal, Hieu Tran, Shaurya Chanana, Erol Bahadroglu, Alec Peltekian, and Grégoire Altan-Bonnet. Scifive: a text-to-text model for biomedical literature. arXiv preprint arXiv:2106.03598, 2021. URL https://arxiv.org/abs/2106.03598.
  • Ram et al. (2023) Ori Ram, Yoav Levine, Itay Dalmedigos, Dor Muhlgay, Amnon Shashua, Kevin Leyton-Brown, and Yoav Shoham. In-context retrieval-augmented language models. TACL, 2023. URL https://aclanthology.org/2023.tacl-1.75/.
  • Shaikh et al. (2023) Shishir G Shaikh, Jaideep Ramachandran, Varnith Nanda, Benjamin Lunt, Miltiadis Allamanis, Daman Sharma, Sebastien Bubeck, and Prateek Jain. Darwin: Data analytics and reasoning with large language models for science. arXiv preprint arXiv:2308.13565, 2023. URL https://arxiv.org/abs/2308.13565.
  • Shao et al. (2024) Rulin Shao, Jacqueline He, Akari Asai, Weijia Shi, Tim Dettmers, Sewon Min, Luke Zettlemoyer, and Pang Wei Koh. Scaling retrieval-based language models with a trillion-token datastore. In The Thirty-eighth Annual Conference on Neural Information Processing Systems, 2024. URL https://openreview.net/forum?id=iAkhPz7Qt3.
  • Si et al. (2024) Chenglei Si, Diyi Yang, and Tatsunori Hashimoto. Can llms generate novel research ideas? a large-scale human study with 100+ nlp researchers. arXiv preprint arXiv:2409.04109, 2024. URL https://arxiv.org/abs/2409.04109.
  • Singhal et al. (2023a) Karan Singhal, Shekoofeh Azizi, Tao Tu, S Sara Mahdavi, Jason Wei, Hyung Won Chung, Nathan Scales, Ajay Tanwani, Heather Cole-Lewis, Stephen Pfohl, et al. Large language models encode clinical knowledge. Nature, 2023a. URL https://www.nature.com/articles/s41586-023-06291-2.
  • Singhal et al. (2023b) Zeming Singhal, Charles Sutton, Adam Mottram, Owain Lavelle, Iz Beltagy, Leonardo Neves, Kyle Lo, Stephanie Hyland, Michael Wainwright, Alexander Wettig, et al. MEDITRON-70B: Scaling medical pretraining for large language models. arXiv preprint arXiv:2311.16079, 2023b. URL https://arxiv.org/abs/2311.16079.
  • Skarlinski et al. (2024) Michael D. Skarlinski, Sam Cox, Jon M. Laurent, James D. Braza, Michaela Hinks, Michael J. Hammerling, Manvitha Ponnapati, Samuel G. Rodriques, and Andrew D. White. Language agents achieve superhuman synthesis of scientific knowledge. preprint, 2024. URL https://paper.wikicrow.ai.
  • Soldaini et al. (2024) Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, et al. Dolma: An open corpus of three trillion tokens for language model pretraining research. In ACL, 2024. URL https://aclanthology.org/2024.acl-long.840/.
  • Tan et al. (2023) Cheng Tan, Miao Huang, Xianxin Huang, Qian Fu, and Bo Wu. PMC-LLaMA: Further finetuning llama on medical papers. arXiv preprint arXiv:2304.14454, 2023. URL https://arxiv.org/abs/2304.14454.
  • Thakur et al. (2021) Nandan Thakur, Nils Reimers, Andreas Rücklé, Abhishek Srivastava, and Iryna Gurevych. BEIR: A heterogeneous benchmark for zero-shot evaluation of information retrieval models. In NeurIPS (Datasets and Benchmarks), 2021. URL https://openreview.net/forum?id=wCu6T5xFjeJ.
  • Tian et al. (2024) Minyang Tian, Luyu Gao, Shizhuo Dylan Zhang, Xinan Chen, Cunwei Fan, Xuefei Guo, Roland Haas, Pan Ji, Kittithat Krongchon, Yao Li, et al. Scicode: A research coding benchmark curated by scientists. arXiv preprint arXiv:2407.13168, 2024. URL https://arxiv.org/abs/2407.13168.
  • Wadden et al. (2020) David Wadden, Shanchuan Lin, Kyle Lo, Lucy Lu Wang, Madeleine van Zuylen, Arman Cohan, and Hannaneh Hajishirzi. Fact or fiction: Verifying scientific claims. In EMNLP, 2020. URL https://aclanthology.org/2020.emnlp-main.609.
  • Wadden et al. (2024) David Wadden, Kejian Shi, Jacob Morrison, Aakanksha Naik, Shruti Singh, Nitzan Barzilay, Kyle Lo, Tom Hope, Luca Soldaini, Shannon Zejiang Shen, et al. Sciriff: A resource to enhance language model instruction-following over scientific literature. arXiv preprint arXiv:2406.07835, 2024. URL https://arxiv.org/abs/2406.07835.
  • Wang et al. (2024) Yidong Wang, Qi Guo, Wenjin Yao, Hongbo Zhang, Xin Zhang, Zhen Wu, Meishan Zhang, Xinyu Dai, Min zhang, Qingsong Wen, Wei Ye, Shikun Zhang, and Yue Zhang. AutoSurvey: Large language models can automatically write surveys. In NeurIPS, 2024. URL https://openreview.net/forum?id=FExX8pMrdT.
  • Xiao et al. (2023) Shitao Xiao, Zheng Liu, Peitian Zhang, Niklas Muennighoff, Defu Lian, and Jian-Yun Nie. C-pack: Packaged resources to advance general chinese embedding, 2023. URL https://arxiv.org/abs/2309.07597.
  • Xu et al. (2023a) Fangyuan Xu, Weijia Shi, and Eunsol Choi. RECOMP: Improving retrieval-augmented lms with compression and selective augmentation, 2023a. URL https://arxiv.org/abs/2310.04408.
  • Xu et al. (2023b) Fangyuan Xu, Yixiao Song, Mohit Iyyer, and Eunsol Choi. A critical evaluation of evaluations for long-form question answering. In ACL, 2023b. URL https://aclanthology.org/2023.acl-long.181.
  • Xu et al. (2024) Fangyuan Xu, Kyle Lo, Luca Soldaini, Bailey Kuehl, Eunsol Choi, and David Wadden. KIWI: A dataset of knowledge-intensive writing instructions for answering research questions. In Findings of ACL, 2024. URL https://aclanthology.org/2024.findings-acl.770.
  • Yang et al. (2023) Zonglin Yang, Xinya Du, Junxian Li, Jie Zheng, Soujanya Poria, and E. Cambria. Large language models for automated open-domain scientific hypotheses discovery. In ACL, 2023. URL https://api.semanticscholar.org/CorpusID:261557055.
  • Yuan et al. (2022) Hongyi Yuan, Zheng Yuan, Ruyi Gan, Jiaxing Zhang, Yutao Xie, and Sheng Yu. BioBART: Pretraining and evaluation of a biomedical generative language model. In The 21st Workshop on Biomedical Language Processing (BioNLP), May 2022. URL https://aclanthology.org/2022.bionlp-1.9.
  • Yue et al. (2023) Xiang Yue, Boshi Wang, Ziru Chen, Kai Zhang, Yu Su, and Huan Sun. Automatic evaluation of attribution by large language models. In Findings of EMNLP, 2023. URL https://aclanthology.org/2023.findings-emnlp.307.
  • Zhang et al. (2024a) Dan Zhang, Ziniu Hu, Sining Zhoubian, Zhengxiao Du, Kaiyu Yang, Zihan Wang, Yisong Yue, Yuxiao Dong, and Jie Tang. Sciinstruct: a self-reflective instruction annotated dataset for training scientific language models. In NeurIPS (Datasets and Benchmarks Track), 2024a. URL https://openreview.net/forum?id=LC1QAqhePv.
  • Zhang et al. (2024b) Yuqi Zhang, Zihao Zhao, Lanqing Hu, Shuai Wang, Penghui Jiao, Min Leng, Yuzhi Liu, Guotong Li, Chengming Xu, Chenhui Lin, et al. BioMedGPT: Open multimodal generative pre-trained transformer for biomedicine. Nature Medicine, 2024b. URL https://www.nature.com/articles/s41591-024-03185-2.
  • Zheng et al. (2023a) Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric Xing, Hao Zhang, Joseph E. Gonzalez, and Ion Stoica. Judging LLM-as-a-judge with MT-bench and chatbot arena. In NeurIPS (Datasets and Benchmarks Track), 2023a. URL https://openreview.net/forum?id=uccHPGDlao.
  • Zheng et al. (2024) Yuxiang Zheng, Shichao Sun, Lin Qiu, Dongyu Ru, Cheng Jiayang, Xuefeng Li, Jifan Lin, Binjie Wang, Yun Luo, Renjie Pan, et al. Openresearcher: Unleashing ai for accelerated scientific research. arXiv preprint arXiv:2408.06941, 2024. URL https://arxiv.org/abs/2408.06941.
  • Zheng et al. (2023b) Zhiling Zheng, Zichao Rong, Nakul Rampal, Christian Borgs, Jennifer T Chayes, and Omar M Yaghi. A gpt-4 reticular chemist for guiding mof discovery. Angewandte Chemie International Edition, 2023b. URL https://arxiv.org/abs/2306.14915.

Appendix

\startcontents

[sections] \printcontents[sections]l1

Appendix A Released Artifacts

我々は将来の研究を促進するために一連の成果物を公開する:

Demo [Uncaptioned image] openscholar.allen.ai/
OpenScholar [Uncaptioned image] github.com/AkariAsai/OpenScholar
ScholarBenchQA [Uncaptioned image] github.com/AkariAsai/ScholarBench
OpenScholar-8B LM [Uncaptioned image] OpenScholar/OpenScholar_Llama-3.1-8B
OpenScholar-Retriever [Uncaptioned image] OpenScholar/OpenScholar_Retriever
OpenScholar-Reranker [Uncaptioned image] OpenScholar/OpenScholar_Reranker
OpenScholar-DataStore-V2 [Uncaptioned image] OpenScholar/OpenScholar-DataStore-V2
OpenScholar-DataStore-V3 [Uncaptioned image] OpenScholar/OpenScholar-DataStore-V3
ScholarBench (Data) [Uncaptioned image] OpenScholar/ScholarBench
OpenScholar (Training Data) [Uncaptioned image] OpenScholar/OS_Train_Data
Expert Evaluation [Uncaptioned image] AkariAsai/OpenScholar_ExpertEval

Appendix B More Details on ScholarQABench

B.1 Goal of ScholarQABench

ScholarQABenchには2つの重要な原則がある:文献レビューのための現実的なベンチマークとして機能すること、そして再現可能な多面的な評価パイプラインとして機能することである。

Realistic benchmark for literature review (Section 3.1).

ScholarQABenchは2つの主要な情報源からタスクを統合している:(i) 文献統合タスクに関連する既存のデータセットを厳選・適応し、科学者によって注釈付けされたもの、および (ii) 4つの科学分野のPh.D.専門家によって注釈付けされた4つの新しいデータセットで、複数の論文からの情報統合など、現実的な文献レビューのシナリオを反映したものである。 ScholarQABenchのタスクは、異なる出力形式と分野を必要とする。

複数論文タスクについて、我々は専門家の注釈者に情報探索型の質問を作成するよう指示した。これらは、彼らが本当に答えを見つけたいと思っている質問であり、すでに答えを知っている質問や、単一の論文の小さなテキスト断片を使用して答えられる質問ではない(Asai & Choi, 2021; Choi et al., 2018)。 我々は、この方法が現実世界の科学者が尋ねるかもしれない現実的な質問を収集する上で極めて重要であることを発見した。これらの質問は通常、より詳細で文脈化されており(例:「GPT4oを使用して合成訓練データを生成し、ノイズの多いデータをGPT4oを使用してフィルタリングする計画ですが、この場合GPT4oが自身の生成を好む可能性があるため、モデルをフィルタリングしていないのではないかと懸念しています。」)、単純なはい/いいえや多肢選択の回答ではなく、ニュアンスのある長文の回答を必要とする。 我々は、Xu et al. (2024); Malaviya et al. (2023)で行われたような最先端の独自言語モデルによって生成された回答に依存するのではなく、信頼性の高い評価を確保するために人間が書いた回答やルーブリックを収集した。これらの独自モデルは強力ではあるが、ドメイン知識の不足による幻覚、バイアス、急速な情報変化などの限界をまだ示しており、新しいモデルとの一貫した評価には適していない。さらに、モデル生成の回答を参照として使用すると、同じファミリーのモデルを不当に優遇する可能性があり、評価にバイアスが生じる可能性があるPanickssery et al. (2024)。これらの問題を避けるため、我々はScholarQA-CSScholarQA-Multiのために専門家が書いた回答を収集した。

Reproducible multi-face evaluation pipelines (Section 3.2).

ROUGEなどの従来の類似性ベースの指標と人間の判断との間の相関が低いため(Xu et al., 2023b; Malaviya et al., 2023)、専門家ドメインにおける長文生成タスクの評価は、通常、小規模から中規模の専門家による注釈に依存してきた(Zheng et al., 2024; Singhal et al., 2023a; Si et al., 2024)。専門家による人間評価は価値があるが(5節で詳述する)、注釈者を雇うための多大なコストがかかり、再現が困難である。 これらの制限に対処するため、本稿では、引用の正確さやカバレッジなどの重要な側面から長文生成出力の品質を包括的に評価する自動評価パイプラインを導入する。

B.2 Data Curation Details

B.2.1 Details of Modification of Single-paper Tasks

SciFact.

SciFact (Wadden et al., 2020)は、生物医学分野の1.4Kの専門家が作成した科学的主張のデータセットであり、証拠に基づく要約にラベルと根拠が注釈付けされている。元のタスクは、5,000の要約のコレクションに基づいて、段落選択、文選択、ラベル予測の3つのサブタスクを含んでいる。しかし、我々はこれをオープンリトリーバルラベル予測タスクとして再構成し、モデルにはクエリのみが与えられ、4000万のパッセージのより大きなコーパスからラベルを予測しなければならない。 我々は情報不足とラベル付けされたクエリを除外し、支持(真)または矛盾(偽)とラベル付けされたインスタンスのみを保持する。

PubMedQA.

我々はPubMedQA (Jin et al., 2019)を活用する。これはPubMed論文の要約に関する1,000の専門家によって注釈付けされた(はい/いいえ/おそらく)QAデータである。 SciFactと同様に、我々ははいまたはいいえのラベルを持つインスタンスを保持し、元の要約パッセージを破棄してタスクをオープンセットアップとして定式化する。

QASA.

QASA (Lee et al., 2023)は、AIとMLの科学論文に関する推論を必要とする1,798の新規質問回答ペアで構成される単一論文QAデータセットである。我々は、対象論文に関する詳細な質問に十分に答える能力をモデルで評価する。彼らは3つのサブタスク(回答選択、合理的生成、回答構成)とエンドツーエンドのフルスタックQAを提供しているが、我々はフルスタックQAに基づいてモデルのパフォーマンスを評価する。

B.2.2 Details of Data Collections of Multi-paper Tasks

Recruiting annotators.

データキュレーションのために、我々はUpWorkと機関間チャネルを通じて専門家の注釈者を募集し、以下の基準を満たすことを確認した:(1) 関連分野の博士号を持っているか、博士課程に在籍している、(2) 当該分野で3年以上の研究経験がある、(3) 対象分野で論文を発表している。合計で、20人以上の注釈者を募集した。これには、博士課程の学生、ポスドク研究員、教授、研究者が含まれ、対象ドメインの様々な複数論文サブセットにわたっている。

Annotation instructions.

表5ScholarQA-CSのルーブリックを収集するための我々の注釈指示の概要を示している。 表6ScholarQA-BioScholarQA-Neuroの注釈者に与えられた注釈指示を示している。 表7ScholarQA-Multiの注釈者に与えられた指示を示している。

指示
このプロジェクトは、大規模言語モデルが科学的質問にどの程度うまく答えられるかを評価するために使用できるデータセットを構築することを目的としています。具体的には、複数の文書を必要とする複雑な科学的質問のセットに対して、回答に含めるべき重要なポイントを、科学文献やその他のソースからの裏付けとなるテキストとともに提供するよう求められています。我々は、AIシステムが複雑な科学的質問にどの程度うまく答えられるかを研究者が評価できるデータセットの形で、あなたの出力をコミュニティにリリースします。 各質問について、2つの文書が提供されます - キー要素文書:質問に対する正しい回答に含める必要があると感じるコンポーネントを記入します。 キー要素は、正しい回答に含めるべき重要な項目の短い(1〜4文)記述です。例えば、「回答の冒頭近くで、状態空間モデルとトランスフォーマーを簡潔に定義し、それらの技術的な違いを詳述すべきである」などです。 (すぐには読まないでください)参照用のソース文書で、異なるオンラインサービスからの質問に対する出力が記載されています。 以下の手順を実行してください: 1. まず、ソース文書の既存のテキストを読む前に、質問に関するあなたの知識と、Google ScholarやSemantic Scholar(ただし、ChatGPTや類似のオンライン大規模言語モデルサービスは除く)を使用した約40分間の文献レビューに基づいて、回答のキー要素と文書からの裏付けとなる引用のセットを作成します。質問に対応するキー要素ファイルから始めて、あなたのキー要素をリストに追加し、「裏付けとなる引用」の下に文書からのテキストスニペットを0個以上追加します。各スニペットは150語未満にしてください。各引用の後に、ソースからのリンクを貼り付けてください(1つの文書から複数回引用する場合は、各引用の後にリンクを貼り付けてください)。あなたのキー要素には通常、裏付けとなるスニペットがあるはずですが、重要な事実を含めたいが裏付けを見つけられない場合は、必ずしもそうでない場合もあります。 2. 次に、合計約20〜50分間で、質問のソース文書を読み通し(一部をスキミングする必要があるかもしれません。一部のソース文書は長いため)、ステップ1で列挙したものとソースから学んだことを組み合わせて、回答のキー要素のセットを完成させます。ステップ1の後に追加した要素は、適切であれば削除または変更してください。 注:ソース文書から直接テキストをコピーして裏付けとなる引用として貼り付けることができます。そのような引用については、リンクを含める必要はありません。関連部分を引用符で囲んで貼り付けるだけです。 キー要素では、一般的なスタイルに関するポイント(例:回答が整理されていて引用を含むべきであるなど)をカバーする必要はありません。それらの特性は既に我々が作成した一般的なルーブリックに含まれています。代わりに、回答に必要な具体的な内容に焦点を当て、箇条書きで整理してください。要素を捕捉する際は、文書のテンプレートに従って最も重要なものとあれば良いものに分けてください。「最も重要」な項目は、それらが欠けていると回答が誤解を招くか不完全になるようなものです。「あれば良い」には、他の有用な要素を含めますが、短い回答では省略される可能性のあるものです。 タスクの理解を助けるために、完成した要素ファイルの例と、対応するソースファイルが提供されています。
表5: ScholarQA-CSの注釈指示: ScholarQA-CSの質問に対するキー要素を作成するために我々の専門家の注釈者に与えられた指示。
指示
このタスクでは、生物医学の研究者が科学文献について合理的に尋ねる可能性のある複雑な科学的質問を生成することが求められます。これらは、回答するために複数の論文を必要とする広範な文献レビューの質問であるべきです。例えば:「慢性炎症が大腸がんの発症に寄与する様々な分子メカニズムは何か?」この質問は、そのような分子メカニズムに関する様々な研究があるため、回答するには複数の論文が必要です。対照的に、我々が求めていない質問の例としては、「S1801臨床試験に基づいて、進行性メラノーマ患者の腫瘍サイズ縮小におけるペムブロリズマブの有効性はどうだったか?」があります。これは単一の論文(臨床試験の結果)に回答が含まれているためです。 幅広い質問を確実に得るために、既存の論文を質問の着想源として使用していただきたいと思います。論文の著者が研究を行っている間に持っていたかもしれない文献レビューの質問の種類を推測しようとしているとお考えください。具体的には、以下の手順に従ってください: 1. あなたの分野で興味のある論文を選びます。これはどの論文でも構いませんが、レビューや調査論文は、多くの先行研究を網羅する広範なトピックをカバーしているため、特に有用な着想源となる可能性があります。また、論文の先行研究や今後の研究のセクションも良い情報源となります。 2. その論文に関連する5〜10の文献レビューの質問を作成します。これらは以下の条件を満たす必要があります: (a) 一般的に回答するために複数の文書を必要とする質問であること。 (b) 公開された文献に関する質問—科学者が論文を検索して読むことで回答しようとできるような種類の質問(つまり、必ずしも新しい実験を必要としない)であること。 我々は、「質問」、「着想を得た論文」、「回答に必要な推定論文数(1/10/100/1000+)」の3列を持つGoogle Sheetを提供しています。あなたの各質問と、それに正確に回答するために人が調べる必要があると思われる論文の概数をリ

B.3 Evaluation Metrics Details

B.3.1 ScholarQA-CS Corr Evaluation

ScholarQA-CSについては、我々は専門家が注釈付けしたルーブリックを用いて生成された回答を評価する。 各ルーブリックには、一般的基準(スコアの40%を占める)と注釈駆動型基準(60%)の2つの基準がある。 一般的基準は、長さ、専門性、引用、抜粋の評価を対象とし、一方、注釈基準は、注釈者によって特定された各具体的な重要要素(および関連する引用)が回答にどの程度存在するかを0から1のスケールで評価することを含む。 必須要素は、あると良い要素の2倍の重要性を持つとみなされる。ただし、同じタイプの個々の要素間に区別はない。 LLM-as-a-judge (Zheng et al., 2023a)を使用して、各基準にスコアが割り当てられ、基準全体で重み付けされた合計が計算され、最終スコアが得られる。このスコアは引用と抜粋の存在を強調しており、我々の実験で見られるように、いずれかが欠けているシステムは、他の基準で比較的高得点を獲得しても、低パフォーマンスになる傾向がある。

Aspect Definition Instructions
Organization Evaluate if the output is well-organized and logically structured. Table 10
Coverage Evaluate if the output provides sufficient coverage and amount of information. Table 11
Relevance Evaluate if the response stay on topic and maintain a clear focus to provide a useful response to the question Table 12
Overall Usefulness Evaluate if the output contains useful information to fulfill the information needs. Table 13
表8: 文章の質の評価プロトコル。我々は、人間の専門家とLLMの両方によって評価される3つの詳細な側面を定義する。これらに加えて、専門家は回答が有用であるかどうかも評価するよう求められる。

B.3.2 Content Quality and Organization

評価の側面の概要は表8に示されている。 我々は、自動評価に関連性、網羅性、構成を使用する。既存の評価者LMは全体的な有用性の評価に苦戦し、過度に楽観的になる傾向があることが分かった。

Evaluation instructions and rubrics.

構成、網羅性、関連性、全体的な有用性に関する注釈者のルーブリックを、それぞれ表10111213に示す。

Prometheus configuration.

評価には、Prometheus BGB (Kim et al., 2024b) (prometheus-eval/prometheus-bgb-8x7b-v2.0)とPrometheus v2 (Kim et al., 2024a) (https://huggingface.co/prometheus-eval/prometheus-8x7b-v2.0)を組み合わせて使用する。 Prometheus BGBは一般的に良好に機能するが、Relについては、特にGPT4oに対して、人間の評価よりもはるかに高いスコアを与えることがあることが分かった。そのため、我々はOrgCovにはPrometheus BGBを使用し、関連性にはPrometheus v2を使用する。 我々は、人間が作成した回答をゴールドリファレンスとして使用し、これによりPrometheusの人間による評価との相関が向上することが示されている。これらのモデルにはvllmを使用する。 デフォルトの設定に従い、新しいトークンの最大数を512、top-p𝑝pitalic_pを0.95、温度を0.01に設定する。

B.3.3 Citation Accuracy

引用の正確性を評価するために、我々はosunlp/attrscore-flan-t5-xl (Yue et al., 2023)を使用する。これは、帰属タスクの混合でトレーニングされたFLAN-T5-XLである。我々はGao et al. (2023)からの引用精度と再現率の定式化に従い、文レベルで引用精度と再現率を計算する。50文字未満の文は破棄する。これらの文は多くの場合、引用を必要としない段落や小節の見出しであるためである。 我々はYue et al. (2023)からの元の引用評価指示を使用し、表9に示す。

帰属検証者として、あなたの任務は、与えられた参照が与えられた主張を支持できるかどうかを検証することです。主張は単なる文章か、質問とその回答のいずれかです。具体的には、あなたの回答は関係を明確に示す必要があります:帰属可能、矛盾、または外挿。矛盾エラーは、回答が文脈で提示された事実と矛盾していると推論できる場合に発生し、外挿エラーは、文脈で提供された情報に基づいて回答の正確性を推論できない場合を意味します。 主張: 参照:
表9: 引用評価のための評価指示。 我々は、主張が提供された参照によって支持されているかどうかを帰属LMに問い合わせる。この指示はYue et al. (2023)から適応されている。

Appendix C More Details on OpenScholar

C.1 Training a scientific bi-encoder θbisubscript𝜃bi\theta_{\rm bi}italic_θ start_POSTSUBSCRIPT roman_bi end_POSTSUBSCRIPT

θbisubscript𝜃bi\theta_{\text{bi}}italic_θ start_POSTSUBSCRIPT bi end_POSTSUBSCRIPTについて、我々はIzacard et al. (2022)の教師なし訓練手法に従い、peS2o version 2、CCNews、および Proofpile2 (Azerbayev et al., 2024)データの混合を用いて、Contrieverバイエンコーダーを500,000ステップにわたって継続的に事前訓練する。バッチサイズは4,096、学習率は0.00005を使用する。モデルのチェックポイントはContrieverから初期化する。

C.2 Training a scientific cross-encoder θcrosssubscript𝜃cross\theta_{\rm cross}italic_θ start_POSTSUBSCRIPT roman_cross end_POSTSUBSCRIPT

スコアが3を超える段落は正例としてラベル付けし、3未満の段落は負例としてラベル付けする。最後に、このプロセスに基づいて上位 N𝑁Nitalic_N の段落を選択し、上位の段落 𝐏𝐏\mathbf{P}bold_P を生成器言語モデルに渡す。 θcrosssubscript𝜃cross\theta_{\text{cross}}italic_θ start_POSTSUBSCRIPT cross end_POSTSUBSCRIPT については、新たに作成した訓練データを用いてBGE-largeリランカーを5エポックにわたってファインチューニングする。学習率は6e-5を使用する。

C.3 Training Details of Generators 𝒢𝒢\mathcal{G}caligraphic_G

Training data statistics.

7は訓練データの分布を示している。「Tulu」はIvison et al. (2023)による一般領域の指示チューニングデータを示し、SciRIFF (Wadden et al., 2024)はSciRIFFからのタスク特化データを示している。両データセットについて、我々は評価に使用されるデータ、すなわちPubMedQA、SciFact、QASAを含めないようにしている。合計で、これは130,135の訓練インスタンスとなる。

Refer to caption
図7: 生成器訓練データの分布。 我々は8B言語モデルを訓練するために多様な訓練データを混合している。
Training hyperparameters.

OS-8Bについて、我々はLlama 3.1 8B Instruct (Dubey et al., 2024)からモデルチェックポイントを初期化している。我々は訓練にtorchtune777https://github.com/pytorch/torchtuneを使用している。

我々は両モデルを2エポックにわたって訓練し、学習率はそれぞれ5e-6と1e-4を使用し、最大コンテキスト長は10k、バッチサイズは1、勾配累積ステップは2でbf16を使用している。 最適化アルゴリズムとしてAdamW (Loshchilov & Hutter, 2019)を使用している。

指示
回答が適切に構成され、論理的に構造化されているかを評価せよ。許容可能な回答は以下の条件を満たすべきである:1. 明確に構造化され、関連する点をグループ化して論理的な流れを作ること。2. 矛盾や不必要な繰り返しがなく、一貫性があること。
スコア1: 構成が不十分
- 回答に明確な構造がなく、整理されていない。
- 論理的な順序なしに点が散在しており、理解が困難である。 - テキストに一貫性がなく、全体を通して矛盾や無関係な繰り返しがある。 スコア2: 基本的な構成
- 回答にある程度の構成はあるが、構造に一貫性がない。 - 一貫性に欠ける部分があり、軽微な矛盾や繰り返しの表現が全体の明確さを損なっている。
スコア3: 適度な構成
- 回答は概ね適切に構成されており、ほぼ維持された明確な構造がある。 - 点は論理的にグループ化されているが、流れや一貫性にわずかな乱れがある可能性がある。回答には複数の明確な段落があり、それぞれが核心的な点を明確に議論している。 - テキストはほぼ明確だが、時折繰り返しや軽微な矛盾がある。
スコア4: 強力な構成
- 回答は適切に構成されており、一貫して明確で論理的な構造が維持されている。 - 点は効果的にグループ化され、流れがスムーズである。 - 一貫性にわずかな乱れがある可能性があるが、全体として回答は明確で理解しやすく、繰り返しや矛盾は最小限である。
スコア5: 卓越した構成
- 回答は非常に適切に構成されており、完璧な論理的構造を持つ。 - 点は完璧にグループ化され、それらの間の流れはシームレスである。 - テキスト全体を通して一貫性があり、矛盾や不必要な繰り返しがなく、議論が明確で説得力がある。
表10: 構成の評価基準。 構成を評価するための評価指示と5段階の基準。
指示
出力が十分な網羅性と情報量を提供しているかを評価せよ。出力は以下の条件を満たすべきである:1. (網羅性) 関心領域の包括的なレビューを提供し、代表的な論文を幅広く引用し、少数(1-2本)の論文だけでなく多様な情報源を議論すること。2. (深さ) 各議論点を理解するのに十分な関連情報を提供すること。
スコア1:
- 網羅性が著しく不足: 出力には複数の主要な研究分野の網羅が欠けているか、単一の研究分野に偏重しており、領域の全体像を捉えていない。 - 情報の深さが大きく制限されている: 出力にはトピックを完全に理解するために必要な本質的な詳細(例:手法の定義、手法間の関係)が欠けている。
スコア2:
- 部分的な網羅: 出力は領域の主要な側面のいくつかをカバーしているが、重要な研究分野を見逃しているか、少数の情報源に狭く焦点を当てすぎている。バランスの取れた視点を欠き、分野の研究の多様性を適切に表現できていない。
- 限定的な情報量: 回答はいくつかの関連情報を提供しているが、トピックを完全に理解するのに役立つ重要な詳細が省略されている。 スコア3:
- 許容可能な網羅性/概要: 出力はいくつかの代表的な研究を議論し、領域の満足のいく概要を提供している。ただし、より多くの論文や議論点を含めることで回答を大幅に改善できる可能性がある。質問の核心的な側面には対応しているが、一部の詳細を見逃している可能性がある。
- 許容可能な関連情報量: 出力は妥当な量の関連情報を提供しているが、一部の有用な詳細が欠けている可能性がある。 スコア4:
- 良好な網羅性: 出力は領域の良好な網羅性を提供し、多様な代表的な論文と情報源を議論している。広範な概要を提供しているが、網羅性を高める可能性のあるいくつかのマイナーな領域や追加の論文を見逃している可能性がある。
- ほぼ十分な情報量: 回答にはトピックを理解するために必要かつ関連する情報のほとんどが含まれている。過度に無関係な詳細は避けているが、一部の点についてはより深い探求や具体的な例があれば有益かもしれない。 スコア5:
- 包括的な網羅性: 回答は多様な論文と視点をカバーし、領域の徹底的な概要を提供している。元の質問で明示的に言及されていない重要な追加の議論点も含まれている。
- 必要かつ十分な情報量: 回答はすべての必要かつ十分な情報を提供している。
表11: 網羅性の評価基準。 網羅性を評価するための評価指示と5段階の基準。
指示
回答が主題に沿っており、明確な焦点を維持して質問に対する有用な回答を提供しているかを評価せよ。具体的には、出力は以下の条件を満たすべきである:1. 元の質問の核心的な点に完全に対応し、事実に基づく情報ニーズを満たすこと。2. 元の質問に関連しない多くの些細な情報を含まないこと。
スコア1: 主題から外れている
- 内容が元の質問から大きく逸脱しており、その関連性を理解するのが困難であるか、ユーザーの注意を散漫にさせる。
スコア2: しばしば主題から外れ、焦点が限定的
- 回答はある程度質問に対応しているが、しばしば主題から逸脱している。 - 無関係な情報や主要な質問に貢献しない派生的な点を含む部分が複数ある。 - これらの注意散漫な要素により、明確な焦点を維持するのが困難になり、回答全体の有用性が低下する。
スコア3: ある程度主題に沿っているが、いくつかの脱線や無関係な情報がある
- 回答は依然として元の質問を中心としているが、主要な質問から注意をそらす頻繁な逸脱や冗長な情報がある。
スコア4: ほぼ主題に沿っているが、軽微な逸脱がある
- 回答は大部分が主題に沿っており、質問に対応する明確な焦点がある。ただし、主要な焦点から一時的に逸脱する軽微な脱線や若干無関係な詳

Appendix D More Analysis

D.1 Comparison of peS2o v2 and v3

Refer to caption
図10: ScholarQA-CSに対して上位20件の検索された論文の出版年の分布ScholarQA-CS この図は、データストアをpeS2o v2から2024年10月までの論文を含むより新しいpeS2o v3に更新することで、我々の密な検索モデルがより最近の論文を成功裏に検索できることを示している。

本節では、OpenScholarで使用されるデータストアについて簡単な分析を行う。 図10は、同じScholarQA-CSクエリに対する2つのデータストア、peS2o v2とv3からの上位20件の検索された論文の分布を示している。我々の検索モデルはpeS2o v2のデータで訓練されていることに注意されたい。我々のモデルは新しいバージョン3のデータストアで直接訓練されていないにもかかわらず、テスト時に新しいデータストアから関連する論文を一貫して検索できることが分かった。その結果、2023年から2024年の多くの論文が検索されている。

D.2 More analysis on Expert Evaluation

Automatic evaluations of human and model-generated answers.
Length Inf. time (min) # of Citations Prec. Rec. Org. Cov. Rel.
Human 289.5 56.8 6.0 44.4 41.5
\hdashlineOS-GPT4o 716.3 1.5 9.8 38.0 37.1 4.63 4.50 4.23
OS-8B 578.6 0.9 21.6 42.5 43.2 3.92 4.44 4.02
\hdashlineGPT4o 281.3 0.5 3.8 0.8 0.6 4.06 3.94 4.21
PaperQA2 166.9 0.7 3.14 53.1 42.2 3.67 3.46 4.20
表14: 人間が書いた回答の統計。モデルは人間よりも長い回答を生成し、より多くの論文を引用する傾向がある。参考として、人間による評価クエリに対して検索なしでGPT4oを実行した。

14は、人間とOpenScholarが生成した回答の基本的な統計を提供しており、平均の長さ、引用された記事の数、各評価指標のスコアを詳細に示している。我々は、人間の回答が一般的にモデルが生成した出力と比較して短く、引用する論文が少ないことを観察した。 並行研究では交絡因子を制御するために人間が書いた回答をLMを使って正規化しているが(Si et al., 2024)、本稿では人間評価のために人間とモデルの回答を元のまま保持し、これらの違いが人間の選好にどのように影響するかを理解するために広範な分析を行っている。

我々は、引用の精度、再現率、文章の質の評価を含む自動評価パイプラインを、人間とモデルが生成した回答の両方に対して実行した。我々の発見は、OS-8Bが専門家レベルの引用精度と再現率に頻繁に匹敵し、時にはそれを上回ることを示している一方で、OS-GPT4oは引用の正確さの点でやや劣っている。PaperQA2はOS-8Bや人間の専門家と比較して高い引用精度を示すが、その回答は多くの場合短く、引用する論文が少ないため、カバレッジが限られている。

Qualitative analyses on experts’ explanations of pair-wise preference.

15は、専門家による対比較選好の説明を示している。

Category % Examples
Organization 12% Lots of redundancy and repeat in B
Although B has lots of overlaps, but B covers more aspects in grating behavior
Relevance 23% Response spends half of the text talking about the performance comparison between fine-tuning and RAG, instead of the question “fine-tuning on RAG”.
A contains some unnecessary details that don’t help understand the topic.
Response A has a poor organization and a little deviation from the topic when it talks about privacy and safety of RLHF.
Although response A shows a smaller coverage, it is slightly better than B due to detailed description of the techniques in generating reasoning data.
B focuses on numerical methods and gives more approachable models.
Coverage 29% A is clearly more helpful as it provides a clean organization and cover more papers.
Although response A shows a smaller coverage, it is slightly better than B due to detailed description of the techniques in generating reasoning data.
both answers are really organized and provides a nice overview! I slightly prefer A as it’s more detailed.
B is too concise and the organization could be improved.
I prefer B, since A is a little scant in terms of information coverage. Furthermore, A uses some shorthand that was confusing to parse. Overall B gave a much more comprehensive and useful response.
While A has several issues e.g., initial part of the answer are heavily depending on single paper, compared to B, which is too short and concise, A is more detailed and at least provide nice overview of the area.
B contains more comprehensive results that addresses both phenomena and theories.
Citations 9% Some information provided by B is irrelevant to the quantum effect (like dark matter) and some citations are not representative (biological).
表15: 選好に関する説明
Refer to caption
(a) GPT4の回答
Refer to caption
(b) Llama 3 8B
図11: 流暢さに関するPrometheusと人間の 一致度。
Refer to caption
(a) GPT4の回答
Refer to caption
(b) Llama 3 8B
図12: 関連性に関するPrometheusと人間の 一致度。
Refer to caption
(a) GPT4の回答
Refer to caption
(b) Llama 3 8B
図13: カバレッジに関するPrometheusと人間の 一致度。
Refer to caption
(a) GPT4の回答
Refer to caption
(b) Llama 3 8B
図14: 全体的な有用性に関するPrometheusと人間の 一致度。
Agreements between humans and LLM-as-a-judge.
Accuracy (\uparrow) Pearsonr ΔΔ\Deltaroman_Δ (human - model)
Org Cov Rel Org Cov. Rel Org Cov. Rel
OS-GPT4 0.49 0.52 0.36 0.21 0.10 -0.01 -0.22 0.02 0.08
OS-8B 0.47 0.48 0.53 0.34 0.15 -0.20 0.18 0.22 -0.16
表16: 人間とPrometheusの評価の一致度(人間とOpenScholar(GPT4o)の回答について)。我々は、正解がある場合、Prometheousの評価が一部の側面で専門家の評価と一致することが多いことを発見した。

我々はまた、回答の詳細な品質を評価する際の人間の評価とLLMの評価の一致度を調査した。具体的には、評価者LLM(すなわち、prometheus-eval/prometheus-bgb-8x7b-v2.0)の正確性と平均絶対誤差を、人間のアノテーションをゴールドスタンダードとして評価した。表16に結果を示す。

121314は、人間とPrometheusの予測の間の混同行列を示している。混同は多くの場合、隣接するクラス(例えば、4対5)の間で発生し、評価者LMはめったに否定的なクラス(3未満)と肯定的なクラスを混同しない。 全体として、構成とカバレッジについては、Prometheusは弱い相関と約50%の正確性を示し、不一致は多くの場合隣接するクラス(例えば、4対5)の間で発生する。 人間と評価者LMが予測した各側面の平均スコアの差を比較すると、関連性、カバレッジ、全体的な有用性において、絶対差は-0.2未満であり、モデル間のランキングは同じままである。

Comparison of model and expert-written answers.

1718192021は、専門家が評価したスコアとともに、モデルと専門家が書いた回答を示している。

Question: What are ways to cool the center-of-mass (CoM) motion of levitated nanoparticles?
Human: For levitated nanoparticles, cooling their motional degrees of freedom—especially to the quantum ground state—is of great importance. Cooled nanoparticles can be employed to study quantum effects in macroscopic objects, prepare complex quantum states, and even explore the interplay between gravity and quantum mechanics through free-fall experiments.Currently, the most commonly used cooling method is feedback cooling [Tongcang Li et al. 2011 - 1]. By measuring the real-time position of the levitated nanoparticle, its instantaneous velocity can be determined, allowing for the application of a feedback cooling scattering force in the opposite direction of the velocity. Using this approach, the center-of-mass (CoM) motion of a levitated nanoparticle can be cooled from room temperature to 1.5 mK [Tongcang Li et al. 2011 - 2], or even to the ground state in cryogenic environments [L. Novotný et al. 2021].An alternative method involves levitating the nanosphere in an optical cavity and cooling via coherent scattering [Uroš Delić et al. 2018 - 1]. The trapping laser is red-detuned from the optical resonance at the CoM motional frequency. The anti-Stokes scattering process, which removes energy from the nanoparticle, becomes resonant with and enhanced by the optical cavity. This technique can cool the CoM motion to temperatures as low as 1 K [Uroš Delić et al. 2018 - 2] and also to the ground-state [Unknown et al. 2020]. A more recent proposal, known as cold damping, is similar to conventional feedback cooling. However, instead of applying a counteracting force by modulating the light’s intensity, this method adjusts the spatial position of the optical traps using an acousto-optic deflector (AOD) [Jayadev Vijayan et al. 2022 - 1]. When the position of the traps does not align with the center of the levitated nanoparticle, the particle experiences an optical gradient force, which serves as the feedback force. The main advantages of this method are its relative simplicity and its potential scalability for cooling multiple nanoparticles [Jayadev Vijayan et al. 2022 - 2].
\hdashlineFine-grained Assessments: Org 5.0 Rel 5.0 Cov 4.0
Model (OS-GPT4o): Cooling the center-of-mass (CoM) motion of levitated nanoparticles is crucial for advancing experiments in levitated optomechanics and achieving quantum control of macroscopic objects. Several techniques have been developed and refined to address this challenge, each with its unique advantages and limitations.One prominent approach is **cavity-assisted optomechanical cooling**, where the CoM motion is cooled via coherent scattering of light into an optical cavity. In this method, a nanoparticle is trapped using an optical tweezer, and light from the tweezer is coherently scattered into a blue-detuned cavity mode, reducing the mechanical energy of the particle [Dominik Windey et al. 2018][Dominik Windey et al. Cavity-Based 3D Cooling of a Levitated Nanoparticle via Coherent Scattering.]. This technique has been experimentally realized to achieve minimal temperatures in the millikelvin regime for pressures around (105superscript10510^{-5}10 start_POSTSUPERSCRIPT - 5 end_POSTSUPERSCRIPT) [Dominik Windey et al. Cavity-Based 3D Cooling of a Levitated Nanoparticle via Coherent Scattering.]. The major advantage of this method is the reduced technological complexity and the ability to cool along all three motional axes [C. Gonzalez-Ballestero et al. Theory for cavity cooling of levitated nanoparticles via coherent scattering: Master equation approach][Dominik Windey et al. Cavity-Based 3D Cooling of a Levitated Nanoparticle via Coherent Scattering.]. Additionally, this techniqueś ability to leverage the standing wave patterns in the cavity allows precise control over the cooling process. However, this method is limited by the precision with which the particle can be positioned within the intracavity standing wave and the alignment stability of the optical setup.Another effective method is **parametric feedback cooling**, which involves actively measuring the CoM position and applying a feedback force to counteract the motion [C. Gonzalez-Ballestero et al. Theory for cavity cooling of levitated nanoparticles via coherent scattering: Master equation approach][T. Penny et al. 2021]. This is typically achieved using an optical tweezer combined with electronic feedback to modulate the trapping potential. Parametric feedback cooling has been successful in reducing CoM temperatures from room temperature to below a hundred phonons [F. Tebbenjohanns et al. 2018]. This method is particularly beneficial for its simplicity and effectiveness in environments with significant experimental noise. Experimental results indicate that velocity damping, a specific form of feedback cooling, can achieve lower temperatures and is more resilient to experimental noise [T. Penny et al. 2021]. However, parametric feedback cooling generally requires sophisticated electronic control systems and precise calibration, which can be technically demanding.**Optimal feedback cooling** with adaptive control represents another innovative technique. Here, a Coulomb force is applied to a charged levitated nanoparticle using a pair of electrodes. A machine learning algorithm optimizes the control gains, enabling rapid cooling to temperatures as low as 5 mK at ( 3×107,mbar3superscript107mbar3\times 10^{-7},\text{mbar}3 × 10 start_POSTSUPERSCRIPT - 7 end_POSTSUPERSCRIPT , mbar) [Gerard P. Conangla et al. Optimal Feedback Cooling of a Charged Levitated Nanoparticle with Adaptive Control.][Gerard P. Conangla et al. 2018]. This method is noted for its robustness and the ability to extend easily to 3D cooling, making it particularly suitable for high repetition rate experiments and force sensing applications. The adaptive control strategy also ensures high precision and adaptability to varying experimental conditions. Despite its advantages, the implementation of this method can be complex due to the need for charging the nanoparticles and sophisticated control algorithms.**Cold damping**, which is a form of measurement-based feedback cooling, uses linear velocity feedback on charged particles. This technique employs external electrodes to apply electrostatic forces, achieving cooling down to microkelvin temperatures [F. Tebbenjohanns et al. 2018][Jayadev Vijayan et al. 2022]. (cont.)
\hdashlineFine-grained Assessments: Org 5.0 Rel 4.0 Cov 5.0
Preference: OS-GPT4o. Explanation: B has more details from various citations, though the citations are not well chosen. For example, B lists theoretical papers when introducing experimental techniques and some papers are not most representative in the field.
表17: 人間とモデルの回答の比較(フォトニクス)。
Question: Is it possible for microcapsules to cross the blood brain barrier?
Human: The blood-brain barrier (BBB) is an essential semi-permeable biological barrier that protects the brain by preventing foreign substances from entering [Di Wu et al. 2023]. This means that even therapeutics cannot properly access the brain as the BBB excludes them as well. The tight gap of the semi-permeable barrier only allows lipid-soluble drugs with an average molecular weight lower than 600 Da through passive diffusion. Nanoparticles are commonly used to deliver therapeutics to the brain by crossing the BBB thanks to their small size, low toxicity, biocompatibility, and controllable drug release kinetics [Andrew M Hersh et al. 2022]. For brain delivery applications, nanoparticles between 10-100 nm are the most effective, but the optimal size depends on the type of biomaterial that forms the nanoparticles. Interestingly, some studies reported that some 1-10 μ𝜇\muitalic_μm bacteria can pass through the BBB, which gave the researchers an idea to develop bacteria-mediated drug delivery systems [Di Wu et al. 2023]. Other studies also demonstrated the BBB crossing of micron-scale plastic particles using polystyrene (PS) microspheres of size 0.293, 1.14, and 9.55 μ𝜇\muitalic_μm, with the smallest particle reaching the brain within only 2 hours upon exposure [V. Kopatz et al. 2023]. Researchers have developed various methods for improved drug delivery to the brain, and one good example is the focused ultrasound technique with microbubbles [N. Lapin et al. 2020]. Here, the rapid oscillation of intravascular microbubbles stimulates the BBB to increase the uptake of nanoparticles and other forms of therapeutics. The average diameter of microbubbles is 1.1-3.3 μ𝜇\muitalic_μm, and they are typically administered via bolus intravenous injection.
\hdashlineFine-grained Assessments: Org 4.0 Rel 4.0 Cov 4.0
Model (OS-GPT4o): The blood-brain barrier (BBB) presents a significant challenge for delivering therapeutic agents directly to the central nervous system (CNS). However, various strategies have been developed to enable microcapsules to cross the BBB, making it possible to deliver drugs or therapeutic agents effectively to the brain. Microcapsules, particularly those composed of alginate, have demonstrated potential in transporting substances across the BBB. Studies show that small alginate microcapsules, specifically in the size range of 100-200 μm𝜇𝑚\mu mitalic_μ italic_m, can effectively bypass the BBB and deliver therapeutic agents to the brain. These microcapsules can pack more tightly together, increasing the number of cells and the rate of recombinant gene product secretion per volume of microcapsules. They also display increased mechanical strength, which is crucial for maintaining integrity during and after crossing the BBB [C. Ross et al. Development of small alginate microcapsules for recombinant gene product delivery to the rodent brain][M. Fakhoury et al. 2015]. Furthermore, lipid-based microcapsules have also been explored for BBB penetration. Lipid-alginate microcapsules (L-A microcapsules), which combine the properties of both lipids and alginate, have shown promising results. These microcapsules not only provide a physical barrier to protect encapsulated cells but also enhance autophagy, which promotes cell survival after transplantation into the brain. Studies have demonstrated that L-A microcapsules facilitate the delivery of neural stem cells (NSCs) into ischemic stroke models, reducing infarct volume and brain edema, and improving neurological outcomes [Rui Xu et al. 2022].Engineering of capsid-receptor interactions is another innovative approach. For example, peptide-modified adeno-associated virus (AAV) capsids can be engineered to interact with specific proteins that are expressed on the BBB, such as LY6A or LY6C1. These engineered capsids show enhanced CNS tropism, enabling the delivery of gene therapies more effectively across the BBB [Qin Huang et al. Targeting AAV vectors to the central nervous system by engineering capsid–receptor interactions that enable crossing of the blood–brain barrier]. Additionally, nanotechnology applications, such as the use of dendrimers, show promise. Poly-(amidoamine) (PAMAM) dendrimers have demonstrated the ability to diffuse in the CNS and penetrate neurons, presenting low cytotoxicity and effective delivery of anticancer drugs to the brain [M. Fakhoury et al. 2015]. These nanocarriers can be designed to be small enough to navigate the tight junctions of the BBB and deliver therapeutic agents.In some cases, osmotic agents like mannitol can be used to temporarily disrupt the BBB, enhancing the penetration of large molecules such as antibodies. This approach increases the permeability of the BBB by drawing water out of cells, thereby opening the tight junctions between endothelial cells [S. Liddelow et al. 2017]. Moreover, microcapsules coated with specific proteins or peptides to target the BBB have shown efficacy. For instance, protein-coated microcapsules can cross the BBB and release their therapeutic contents in the brain, targeting inflamed tissues and delivering treatment directly where it is needed [K. Timmis et al. 2020]. In conclusion, while the BBB remains a formidable barrier to central nervous system drug delivery, multiple strategies involving microcapsules and nanotechnology have shown potential to overcome this challenge. By leveraging the physical properties of microcapsules, engineering receptor interactions, and utilizing osmotic agents, researchers can enhance the delivery of therapeutic agents to the brain, offering hope for more effective treatments for neurological diseases.
\hdashlineFine-grained Assessments: Org 3.0 Rel 5.0 Cov 5.0
Preference: OS-GPT4o. Explanation: OS-GPT4o is better as it provided a list of potential microcapsules that could pass the BBB through various methods, whereas Human is focused on different microorganisms instead, which are less relevant to the topic.)
表18: 人間とモデルの回答の比較(生物医学)。元の評価では、バイアスを防ぐためにモデルの順序をランダム化し、回答を匿名化した。この分析では、匿名化されたモデルIDを対応する実際の名前に置き換えた。
Question: Can you share papers on synthetic data generation, especially those that generate hard reasoning problems?
Human: There is active research focused on synthetically generating high-quality data using large language models. Generating Diverse Instruction-Tuning Data: To overcome the expensive cost of annotating large-scale, diverse instruction-tuning data, recent work explores the effectiveness of using LLMs to generate diverse, high-quality data. For instance, Self-Instruct [Yizhong Wang et al. 2022 - 1]is one of the earlier works that uses LLMs to generate synthetic data—it iteratively starts with a limited seed set of manually written tasks used to guide the overall generation. The model is prompted to generate instructions for new tasks, and then prompted again to generate responses to those instructions [Yizhong Wang et al. 2022 - 2]. This research shows that GPT-3 can generate diverse instruction-tuning data and demonstrates that by fine-tuning GPT-3 on GPT-3-generated synthetic data, the fine-tuned models can further improve performance on diverse benchmarks. GPT-3 Self-Instruct outperforms the original GPT-3 model by a large margin (+33.1%) [Yizhong Wang et al. 2022 - 2]. This inspired many follow-up works, such as Alpaca and Vicuna, which use powerful LLMs to generate high-quality instruction-tuning data [Baolin Peng et al. 2023]. Generating Hard Reasoning Problems Several papers demonstrate the effectiveness of generating questions and answers for hard mathematical reasoning tasks [Ruibo Liu et al. 2024].- WizardMath [Haipeng Luo et al. 2023 - 1]introduces Reinforcement Learning from Evol-Instruct Feedback (RLEIF), which first generates diverse math instruction data through math-specific Evol-Instruct, then trains an instruction reward model (IRM) and a process-supervised reward model. By producing grade-school and challenging math problems and training the Llama-2 models with these reward models, WizardMath achieves state-of-the-art (SOTA) performance [Haipeng Luo et al. 2023 - 2].- MetaMath [L. Yu et al. 2023]bootstraps the questions in MATH and GSM8K by rewriting them in different ways, showing that training Llama-2 on the resulting MetaMath dataset leads to state-of-the-art performance on two popular benchmarks (i.e., GSM8K and MATH).Several works also show the effectiveness of LLM-based synthetic data generation beyond mathematical reasoning. For instance:Self-Taught Reasoner (STaR) [E. Zelikman et al. 2022 - 1]is a simple approach to generating rationales for answering questions. 1) Prompt the LLM with a few rationale examples to generate answers with rationales. 2) If the answers are wrong, generate a rationale given the correct answer. 3) Collect the rationales that result in correct answers. 4) Fine-tune the model on all the rationales that yielded correct answers [E. Zelikman et al. 2022 - 1]. STaR has been shown to be effective at improving the reasoning capabilities of LLMs on commonsense QA, achieving 35% higher performance than the few-shot baseline and improving on a fine-tuned baseline that only predicts answers by 12.5% [E. Zelikman et al. 2022 - 2].
\hdashlineFine-grained Assessments: Org 5.0 Rel 4.0 Cov 2.0
Model (OS-8B): Generating synthetic data with hard reasoning problems is a topic of growing interest in the field of artificial intelligence, particularly in natural language processing and machine learning. Here are some papers that explore this topic: 1. ”Teaching Broad Reasoning Skills for Multi-Step QA by Generating Hard Contexts” [H. Trivedi et al. Teaching Broad Reasoning Skills for Multi-Step QA by Generating Hard Contexts]discusses the idea of using synthetic data generation to create hard reasoning problems. The authors create synthetic contexts for real questions to improve the robustness of language modelsb́road multi-step reasoning skills. 2. ”Going Beyond Nouns With Vision and Language Models Using Synthetic Data” [Paola Cascante-Bonilla et al. Going Beyond Nouns With Vision and Language Models Using Synthetic Data]introduces Synthetic Visual Concepts (SyViC), a million-scale synthetic dataset designed to improve the understanding of visual language concepts and compositional reasoning in Visiona and Language models. They also propose a general Vision and Language fine-tuning strategy leveraging SyViC to achieve improvements in VLC understanding. 3. ”MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs” [Zimu Lu et al. MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs - 1][Zimu Lu et al. MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs - 3]introduces a method for generating diverse and reliable math problems from a small-scale problem-solution dataset and verifies the generated solutions using code-integrated verification. They achieve state-of-the-art performance in five representative mathematical reasoning datasets. 4. GraDA, a graph-generative data augmentation framework, is presented in ”GraDA: Graph Generative Data Augmentation for Commonsense Reasoning” [A. Maharana et al. GraDA: Graph Generative Data Augmentation for Commonsense Reasoning], which synthesizes factual data samples from knowledge graphs for commonsense reasoning datasets. It improves performance on various benchmarks and provides human evaluation of the quality of synthetic datasets in terms of factuality and answerability. 5. ”MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs” [Zimu Lu et al. MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs - 1][Zimu Lu et al. MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs - 2][Zimu Lu et al. MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs - 4]also discusses the use of synthetic data to enhance mathematical reasoning of Large Language Models. (cont.)
\hdashlineFine-grained Assessments: Org 5.0 Rel 4.0 Cov 4.0
Preference: OS-8B. Explanation: Model A (human) only talked about 2-3 papers which barely represents the field. Model B (OS-8B) had much more detail about many more works.
表19: 人間とモデルの回答の比較(コンピュータサイエンス)。元の評価では、バイアスを防ぐためにモデルの順序をランダム化し、回答を匿名化した。この分析では、匿名化されたモデルIDを実際の名前に置き換えた。
Question: What are the latest works on finetuning an auto-regressive LM for dense passage retrieval? How are their performance compared with bi-directional encoders?
Human: It was traditionally assumed that decoder models would underperform compared to bi-directional autoregressive models, as referenced in [Chankyu Lee et al. 2024 - 3]. However, recent advancements have challenged this notion, demonstrating that finetuned auto-regressive language models (LMs) can indeed surpass the capabilities of bi-directional encoder models in retrieval embedding tasks [Liang Wang et al. 2023 - 1][Parishad BehnamGhader et al. 2024][Niklas Muennighoff et al. 2024 - 1][Chankyu Lee et al. 2024 - 1].One notable example is the E5-Mixtral model [Liang Wang et al. 2023 - 1], which employs a novel approach by generating a diverse set of synthetic data to finetune Mistral, a pre-trained large language model (LLM). This model has shown superior performance over the state-of-the-art (SOTA) bi-directional embedding models of that time, including OpenAIś text-embedding-3-large, Cohere-embed-english-v3.0, and voyage-lite-01-instruct on the MTEB benchmark [Niklas Muennighoff et al. 2022].Another study LLM2Vec [Parishad BehnamGhader et al. 2024] demonstrates the adaptation of a decoder model solely using public data for embedding tasks, which also achieved remarkable results on the MTEB benchmark [Niklas Muennighoff et al. 2022], surpassing other encoder models by a significant margin. This highlights the potential of decoder models when optimized appropriately. Furthermore, the GRIT model [Niklas Muennighoff et al. 2024 - 1] unifies auto-regressive and bi-directional model designs. It incorporates two distinct language modeling heads atop the Transformer layers: one auto-regressive head, designed for generative tasks with a causal attention mask, and another bi-directional head, tailored for embedding tasks. This dual-head approach allows GRIT to leverage the strengths of both modeling techniques. Lastly, the NV-Embed model [Chankyu Lee et al. 2024 - 1] adapts the decoder model architecture to enhance finetuning effectiveness using public datasets. This model not only ranks at the top on the MTEB benchmark [Niklas Muennighoff et al. 2022] but also outperforms all existing baselines on the information retrieval benchmark [Chankyu Lee et al. 2024 - 2], underscoring the robustness and versatility of decoder models in handling complex language tasks.In short, E5-Mixtral [Liang Wang et al. 2023 - 1], LLM2Vec [Parishad BehnamGhader et al. 2024], GRIT [Niklas Muennighoff et al. 2024 - 1], and NV-Embed [Chankyu Lee et al. 2024 - 1] are good representations of the SOTA auto-regressive LMs on retrieval tasks whose performance is superior than traditional bi-directional encoders [Chankyu Lee et al. 2024 - 2][Liang Wang et al. 2023 - 2][Niklas Muennighoff et al. 2024 - 2][Niklas Muennighoff et al. 2022].
\hdashlineFine-grained Assessments: Org 5.0 Rel 4.0 Cov 3.0
Model (OS-8B): Recent works on fine-tuning an auto-regressive language model (LM) for dense passage retrieval have achieved impressive results, outperforming bi-directional encoders in many cases. One approach is to use the auto-regressive LM as a retriever, where the LM is fine-tuned to predict the next word in the passage given the query [Yuxiang Lu et al. ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self On-the-fly Distillation for Dense Passage Retrieval - 2]. Another approach is to use the auto-regressive LM as a generator, where the LM is fine-tuned to generate a passage given the query [Luyu Gao et al. 2021 - 1].One notable work is ERNIE-Search [Yuxiang Lu et al. ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self On-the-fly Distillation for Dense Passage Retrieval - 1], which bridges cross-encoder with dual-encoder via self on-the-fly distillation for dense passage retrieval. ERNIE-Search uses the auto-regressive LM as a retriever and fine-tunes it to optimize the retrieval performance. The results show that ERNIE-Search outperforms the bi-directional encoder-based method, with a ranking loss of 0.0104 vs 0.0167 on the Natural News dataset.Another work is the large language model (LLM) pre-training for dense retrieval [Kun Luo et al. 2024]. The authors fine-tune the LLM as a retriever and demonstrate that it outperforms the bi-directional encoder-based method, with a ranking loss of 0.0085 vs 0.0131 on the Natural News dataset.In comparison, the performance of bi-directional encoders is generally lower than that of auto-regressive LMs. For example, the bi-directional encoder-based method has a ranking loss of 0.0156 on the Natural News dataset [Kun Luo et al. 2024], which is higher than the ranking loss of ERNIE-Search (0.0104) and the LLM-based method (0.0085). However, itś worth noting that the performance of both auto-regressive LMs and bi-directional encoders can be improved with careful fine-tuning and adaptation to the specific task. For example, the use of pre-training objectives such as masked language modeling and next sentence prediction can improve the performance of both types of models [Kun Luo et al. 2024].Recent works have proposed new methods for fine-tuning auto-regressive LMs for dense passage retrieval, such as DPTDR [Zhen-Quan Tang et al. DPTDR: Deep Prompt Tuning for Dense Passage Retrieval] and coCondenser [Luyu Gao et al. 2021 - 2]. These methods have shown promising results and can be used to improve the performance of auto-regressive LMs for dense passage retrieval tasks. Moreover, studies have shown that unsupervised corpus-aware language model pre-training can be effective for dense passage retrieval tasks [Luyu Gao et al. 2021 - 3]. This approach learns to condense information into the dense vector through language model pre-training, and can remove the need for heavy data engineering and large batch training.In addition, simple and effective unsupervised redundancy elimination techniques can be used to compress dense vectors for passage retrieval [Xueguang Ma et al. 2021]. These techniques can improve space efficiency while maintaining good accuracy. Furthermore, HyperLink-induced Pre-training (HLP) can be used to pre-train the dense retriever with the text relevance induced by hyperlink-based topology within Web documents [Jiawei Zhou et al. 2022]. This approach can provide effective relevance signals for large-scale pre-training and can improve the performance of dense passage retrieval tasks.Overall, the use of auto-regressive LMs for dense passage retrieval has shown promising results, and can be a useful approach for improving the performance of dense passage retrieval tasks [Xing Wu et al. 2022].
\hdashlineFine-grained Assessments: Org 5.0 Rel 5.0 Cov 5.0
Preference: OS-8B. Explanation: I slightly prefer B (OS-8B), as it is more comprehensive in coverage. While A (human) covers more recent work, I think B would be more of interest as the question seems like to come from a novice, and not an expert in the field.
表20: 人間とモデルの回答の比較(コンピュータサイエンス)。元の評価では、バイアスを防ぐためにモデルの順序をランダム化し、回答を匿名化した。この分析では、匿名化されたモデルIDを対応する実際の名前に置き換えた。
Question: What recent experiments have verified the existence of the Casimir force at the micro- and nanoscale?
Human:The Casimir force, a quantum effect arising from vacuum fluctuations, has garnered significant research interest due to its fundamental nature and implications. This force is particularly intriguing because it manifests as a measurable interaction between surfaces in a vacuum, making it a key subject in the study of quantum effects at microscopic scales. Investigating this unusual force at the micro and nanoscale has significantly advanced precision measurement technologies and provided deeper insights into quantum phenomena.In a 2017 study, the authors fabricated two closely spaced electrodes, each featuring an array of T-shaped protrusions, on a silicon film. The distance between these electrodes could be precisely controlled using an integrated comb actuator connected to one of the electrodes. The force gradient between the electrodes translated into changes in the resonance frequency of the other electrode, which was subsequently measured [Liang Tang et al. 2017 - 1]. The measured force gradients at various distances were in agreement with the Casimir force predicted by simulations and theoretical calculations [Liang Tang et al. 2017 - 2].In a 2019 study, the authors investigated the vibrational modes in two Si3N4 films separated by several hundred nanometers. The films did not come into direct contact, with a vacuum in between, and each film was in contact with thermal reservoirs at different temperatures. The Casimir force between the films coupled their vibrational modes. Consequently, when the distance between the films was relatively small (resulting in a stronger Casimir force), the thermal flow induced by the Casimir force caused deviations in the temperatures of the two vibrational modes from those of their respective thermal reservoirs [K. Fong et al. 2019 - 1]. The observed temperature deviations were consistent with the Casimir force calculations, thereby confirming its presence [K. Fong et al. 2019 - 2].In a more recent article, the authors examined the interactions between two very closely spaced cantilevers under high vacuum, with their motion monitored by fiber interferometers. The gradient of the force between the cantilevers matched the gradient of the Casimir force predicted by theoretical calculations [Zhujing Xu et al. 2021 - 1]. Furthermore, using this platform, the authors demonstrated that by modulating one of the cantilevers, with the modulation frequency and amplitude varying according to a specific pattern, exceptional points and nonreciprocal energy transfer could be achieved [Zhujing Xu et al. 2021 - 2].
\hdashlineFine-grained Assessments: Org 5.0 Rel 5.0 Cov 5.0
Model (OS-GPT4o): Recent experiments have provided significant evidence for verifying the existence of the Casimir force at both the micro- and nanoscale, harnessing innovative technologies and methodologies to improve accuracy and reliability.One of the pivotal methods involves the use of an atomic force microscope (AFM). In an experiment that replaced the sharp tip of the AFM with a polystyrene sphere about 200 μ𝜇\muitalic_μm in diameter, researchers observed the Casimir force between a metallic-coated sphere and a sapphire disk. This experiment achieved extremely high precision, with absolute errors in separation measurements as small as 0.8 nm and force measurements with a relative error of about 1.75% at the shortest separation of 62 nm [G. L. Klimchitskaya et al. 2006]. Another experiment using AFMs measured the Casimir force between an Au-coated sphere and various silicon surfaces. These experiments demonstrated the impact of different charge-carrier densities on Casimir interactions, revealing that the force can vary significantly with the siliconś doping level [G. L. Klimchitskaya et al. 2009 - 2]. In particular, n-type Si doped with phosphorus showed different Casimir force profiles compared to undoped or differently doped silicon, highlighting the materialś charge-carrier concentrationś role in modulating the force. This finding was essential for understanding how electronic properties of materials influence quantum vacuum effects.Another significant method involved the use of micromechanical torsional oscillators. These devices have seen various improvements, allowing researchers to accurately measure the Casimir force between an Au-coated sapphire sphere and an Au-coated polysilicon plate. This setup was notably used to study the force over separations from 0.2 to 8 μ𝜇\muitalic_μm, producing results that agreed well with theoretical predictions [G. Bimonte et al. Measurement of the Casimir Force between 0.2 and 8 μ𝜇\muitalic_μm: Experimental Procedures and Comparison with Theory - 1][G. L. Klimchitskaya et al. Dark Matter Axions, Non-Newtonian Gravity and Constraints on Them from Recent Measurements of the Casimir Force in the Micrometer Separation Range][G. Bimonte et al. Measurement of the Casimir Force between 0.2 and 8 μ𝜇\muitalic_μm: Experimental Procedures and Comparison with Theory - 2]. The dynamic regime of measurement, where the change in the oscillatorś resonant frequency reflects the Casimir force derivative, has also been employed effectively. For instance, experiments by Chan et al. used this setup to measure the Casimir force between a gold-coated sphere and a nanoscale rectangular corrugated silicon surface, illustrating deviations from the proximity force approximation (PFA) [G. L. Klimchitskaya et al. 2009 - 1].Nanostructuring techniques have introduced new possibilities for manipulating and measuring the Casimir force. By creating deep metallic lamellar gratings with sub-100 nm features, it was demonstrated that these structures could significantly suppress the Casimir force beyond theoretical predictions, especially at larger separations [F. Intravaia et al. 2012]. This approach highlights the role of surface topography in modulating quantum vacuum forces. Moreover, differential Casimir force measurements have provided stringent constraints on various theoretical models. These measurements involve comparing the force between an Au-coated sphere and the top and bottom of deep Au-coated trenches concentrically located on a rotating disc. This method not only captures the force signal with high sensitivity but also distinguishes between different theoretical models, particularly the ones factoring in the relaxation properties of conduction electrons [G. L. Klimchitskaya et al. Dark Matter Axions, Non-Newtonian Gravity and Constraints on Them from Recent Measurements of the Casimir Force in the Micrometer Separation Range].**Comparisons and Relative Strengths**When comparing these methods, the use of AFMs with polystyrene spheres provided exceptional precision in force measurements and separation distances, allowing detailed examination of charge-carrier density effects on Casimir interactions [G. L. Klimchitskaya et al. 2009 - 2][G. L. Klimchitskaya et al. 2006].
\hdashlineFine-grained Assessments: Org 5.0 Rel 4.0 Cov 5.0
Preference: Although B (OS-GPT4) list lots of experiments with more details, they are too outdated in the field when the question is asking for recent progress.
表21: 人間とモデルの回答の比較(フォトニクス)。元の評価では、バイアスを防ぐためにモデルの順序をランダム化し、回答を匿名化した。この分析では、匿名化されたモデルIDを実際の名前に置き換えた。

Appendix E Examples of ScholarQABench

本節では、ScholarQABenchに含まれる事例を示す。

E.1 Single-paper Tasks

15は単一論文タスクの例を示している。

Refer to caption
図15: ScholarQABenchにおける単一タスクの例

E.2 ScholarQA-CS

22ScholarQA-CSからの例を示している。

Question: What publicly available datasets are typically used for evaluating type inference systems in Python?
Most Important: Near the beginning, the answer should briefly define what is the goal of using a type inference system for programming languages in general. The answer should emphasize on the importance of an automatic type inference system for Python. The answer should discuss the need for a unified approach for evaluating different type inference systems and mention several evaluation metrics, including exact matches, report of missing types, accuracy, etc. The answer should enumerate publicly available datasets used for evaluating type inference systems in Python and provide a brief description for each of them. Nice to have: The answer could explain different categories of methods for type inference in Python such as rule-based and ML-based approaches.
(a) ScholarQA-CSからの質問例と対応する重要要素のアノテーション。
Most Important: The answer should enumerate publicly available datasets used for evaluating type inference systems in Python and provide a brief description for each of them.
Supporting quotes 1. ManyTypes4Py: Description: ManyTypes4Py is a large Python dataset for machine learning-based type inference. It contains 5,382 Python projects with over 869,000 type annotations. The dataset is split into training, validation, and test sets by files to facilitate the training and evaluation of machine learning models. Features: The dataset includes a lightweight static analyzer pipeline to extract type information from abstract syntax trees (ASTs) and store the results in JSON-formatted files.” 2. TypeEvalPy: Description: TypeEvalPy is a micro-benchmarking framework for evaluating type inference tools. It contains 154 code snippets with 845 type annotations across 18 categories targeting various Python features. Features: The framework manages the execution of containerized tools, transforms inferred types into a standardized format, and produces meaningful metrics for assessment.” 3. BigQuery Public Datasets: Description: BigQuery provides a range of public datasets that can be used for various purposes, including type inference. These datasets are accessible through the Google Cloud Public Dataset Program and can be queried using SQL or GoogleSQL. Features: The datasets include a variety of data sources, such as weather information, GitHub repository data, and Wikipedia revision history.” “The Typilus model [8] is accompanied by a dataset that contains 600 Python projects. Moreover, the source code files of Typilus’ dataset are converted to graph representations that are only suitable for training the Typilus model.” “Raychev et al. [16] published the Python-150K dataset in 2016, which contains 8,422 Python projects.” 2104.04706 (arxiv.org) “Python-150K dataset [16] is not collected solely for the ML-based type inference task, meaning that a large number of projects in the dataset may not have type annotations at all, especially given the time that the dataset was created.” 2104.04706 (arxiv.org) “Our main dataset, BetterTypes4Py, is constructed by selecting a high-quality subset from the ManyTypes4Py dataset (Mir et al., 2021), which was used to train Type4Py.” 2303.09564 (arxiv.org) “InferTypes4Py, a test set derived from the source code of Typilus, Type4Py, and our own tool, none of which were used as CodeT5’s (pre-)training data” 2303.09564 (arxiv.org)
(b) '最重要'な重要要素の1つに対する裏付け引用。これらは学術文献レビューとアノテーターに提供された元文書の組み合わせから得られたものである。
表22: ScholarQA-CSからのアノテーション例と、関連する重要要素および裏付け引用。我々は、学術的QAシステムを評価するためのルーブリックとしてこれらの要素と引用を使用する。

E.3 ScholarQA-Bio

23は、専門家によってアノテーションされた生物医学的クエリの例と、アノテーターに着想のために提供された論文を示している。

Question: What are different types of GLP-1 analogs targeted for diabetes treatment?
Inspiring Paper: Beloqui et al. 2024. Gut hormone stimulation as a therapeutic approach in oral peptide delivery
In this contribution to the Orations - New Horizons of the Journal of Controlled Release, I discuss the research that we have conducted on gut hormone stimulation as a therapeutic strategy in oral peptide delivery. One of the greatest challenges in oral drug delivery involves the development of new drug delivery systems that enable the absorption of therapeutic peptides into the systemic circulation at therapeutically relevant concentrations. This scenario is especially challenging in the treatment of chronic diseases (such as type 2 diabetes mellitus), wherein daily injections are often needed. However, for certain peptides, there may be an alternative in drug delivery to meet the need for increased peptide bioavailability; this is the case for gut hormone mimetics (including glucagon-like peptide (GLP)-1 or GLP-2). One plausible alternative for improved oral delivery of these peptides is the co-stimulation of the endogenous secretion of the hormone to reach therapeutic levels of the peptide. This oration will be focused on studies conducted on the stimulation of gut hormones secreted from enteroendocrine L cells in the treatment of gastrointestinal disorders, including a critical discussion of the limitations and future perspectives of implementing this approach in the clinical setting.
Question: What are the ways to prevent mass transport of analytes to improve the accuracy of biosensors?
Inspiring Paper: Awawdeh et al. 2024. Enhancing the performance of porous silicon biosensors: the interplay of nanostructure design and microfluidic integration
This work presents the development and design of aptasensor employing porous silicon (PSi) Fabry‒Pérot thin films that are suitable for use as optical transducers for the detection of lactoferrin (LF), which is a protein biomarker secreted at elevated levels during gastrointestinal (GI) inflammatory disorders such as inflammatory bowel disease and chronic pancreatitis. To overcome the primary limitation associated with PSi biosensors—namely, their relatively poor sensitivity due to issues related to complex mass transfer phenomena and reaction kinetics—we employed two strategic approaches: First, we sought to optimize the porous nanostructure with respect to factors including layer thickness, pore diameter, and capture probe density. Second, we leveraged convection properties by integrating the resulting biosensor into a 3D-printed microfluidic system that also had one of two different micromixer architectures (i.e., staggered herringbone micromixers or microimpellers) embedded. We demonstrated that tailoring the PSi aptasensor significantly improved its performance, achieving a limit of detection (LOD) of 50M—which is >1absent1>1> 1 order of magnitude lower than that achieved using previously-developed biosensors of this type. Moreover, integration into microfluidic systems that incorporated passive and active micromixers further enhanced the aptasensor’s sensitivity, achieving an additional reduction in the LOD by yet another order of magnitude. These advancements demonstrate the potential of combining PSi-based optical transducers with microfluidic technology to create sensitive label-free biosensing platforms for the detection of GI inflammatory biomarkers.
Question: How does CRISPR/Cas9 compare to other gene-editing technologies in terms of efficiency and precision?
Inspiring Paper: Sajeesh et al. 2006. CRISPR/Cas9 gene-editing: Research technologies, clinical applications and ethical considerations
Gene therapy carries the potential to treat more than 10,000 human monogenic diseases and benefit an even greater number of complex polygenic conditions. The repurposing of CRISPR/Cas9, an ancient bacterial immune defense system, into a gene-editing technology has armed researchers with a revolutionary tool for gene therapy. However, as the breadth of research and clinical applications of this technology continues to expand, outstanding technical challenges and ethical considerations will need to be addressed before clinical applications become commonplace. Here, we review CRISPR/Cas9 technology and discuss its benefits and limitations in research and the clinical context, as well as ethical considerations surrounding the use of CRISPR gene editing.
表23: Scholar-Bioクエリの例。「着想元論文」は、専門家アノテーターが質問を作成する際に参考にした論文を指す。

E.4 ScholarQA-Multi

16171819、および20は、異なる分野からの専門家によって注釈付けされた例を示している。

Refer to caption
図16: ScholarBench(生物学)の例。
Refer to caption
図17: ScholarQA-Multiの例。
Refer to caption
図18: ScholarQA-Multiの例。
Refer to caption
図19: ScholarQA-Multiの例。
Refer to caption
図20: ScholarQA-Multiの例。