arXiv	https://arxiv.org/abs/2411.12372
論文のライセンス	http://creativecommons.org/licenses/by/4.0/

RedPajama: an Open Dataset for Training Large Language Models

Maurice Weber¹, Daniel Y. Fu^1,2, Quentin Anthony^4,8,10, Yonatan Oren¹ Shane Adams¹, Anton Alexandrov^7,, Xiaozhong Lyu⁷, Huu Nguyen⁵, Xiaozhe Yao⁷, Virginia Adams¹, Ben Athiwaratkun¹, Rahul Chalamala^1,11, Kezhen Chen¹, Max Ryabinin¹ Tri Dao^1,6, Percy Liang^1,2, Christopher Ré^1,2, Irina Rish^8,9, Ce Zhang^1,3

¹ Together AI,   ² Stanford University,   ³ University of Chicago
⁴ EleutherAI   ⁵ Ontocord.ai,   ⁶ Princeton University,   ⁷ ETH Zurich
⁸ Mila, Montréal, Canada   ⁹ Université de Montréal   ¹⁰ Ohio State University   ¹¹ Caltech

Abstract

大規模言語モデルは、人工知能、科学、そして社会全体において、ますます重要な基盤技術となりつつある。しかし、データセットの構成とフィルタリングの最適な戦略は、依然として大部分が不明瞭なままである。最高性能のモデルの多くは、データセットの選定やモデル開発プロセスにおいて透明性に欠けており、これは完全にオープンな言語モデルの開発の障害となっている。本稿では、オープンソースの言語モデルを進展させるために対処すべき3つの核心的なデータ関連の課題を特定する。これらには、(1)データ選定プロセスを含むモデル開発の透明性、(2)大量の高品質データへのアクセス、(3)データセットの選定と分析のためのアーティファクトとメタデータの利用可能性が含まれる。これらの課題に対処するため、我々はLLaMAの訓練データセットのオープンな再現であるRedPajama-V1をリリースする。さらに、生の未フィルタリングのテキストデータと品質シグナル、メタデータから成る大規模なウェブのみのデータセットであるRedPajama-V2もリリースする。 RedPajamaデータセットは合わせて100兆トークン以上に及び、複数のドメインにまたがり、その品質シグナルによってデータのフィルタリングを容易にし、数多くの新しいデータセットの開発を促進することを目指している。これまでに、これらのデータセットは既に、Snowflake Arctic、SalesforceのXGen、AI2のOLMoなど、実用化されている強力な言語モデルの訓練に使用されている。RedPajamaの品質に関する洞察を提供するため、我々は最大1.6Bパラメータのデコーダーのみの言語モデルを用いた一連の分析とアブレーション研究を提示する。我々の発見は、ウェブデータの品質シグナルがデータセットの高品質なサブセットを選定するために効果的に活用できることを示しており、RedPajamaが透明性が高く高性能な言語モデルの大規模な開発を進展させる可能性を強調している。

1 Introduction

事前学習データは、現代の大規模言語モデル（LLM）の開発において最も中心的な構成要素の一つである。しかし、この分野が直面している主要な課題の一つは、事前学習データの構成と選定戦略に関する一般的な透明性の欠如である [8]。実際、いくつかの注目すべき例外 [19, 4, 2, 65] を除いて、最先端のLLMを記録した報告の大半 [1] は、事前学習データセットについてほとんど、あるいは全く詳細を提供していない。 LLaMA [57, 58] のようなオープンウェイトモデルでさえ、学習データについてほとんど詳細を提供しておらず、ましてやデータセットを公開していない。さらに、最適なデータ構成の研究と構築、フィルタリングルールやヒューリスティクスの開発のプロセスは、学習データの異なる構成に対して多数のアブレーション実験を実行する必要があるため、時間がかかる。これらの課題に対処し、オープンソースLLMへのアクセスと開発を民主化するという包括的な目標のもと、我々はRedPajamaデータセットを公開した。これは合計で1000兆トークン以上のテキストデータで構成されている。この目標を念頭に置き、我々はオープンデータセットを作成するアプローチを導くために以下の設計原則を使用している：

透明性。我々は少なくとも2つの観点から最大限の透明性を追求している。一方では、これはデータキュレーションのすべての側面を文書化し、公開することを意味する¹¹1RedPajamaを再現するためのコードは github.com/togethercomputer/RedPajama-Data で入手可能である。。他方では、我々はオープンで透明性のあるデータセットを追求しており、これによりアプリケーション開発者や研究者が言語モデルをより良く理解し設計することができる。

規模。アクセス可能な大規模なデータプールは、最も強力な大規模言語モデル [52, 11, 58, 1] の中核的な構成要素の一つであるが、構築、キュレーション、保存に多大なリソースと専門知識が必要なため、入手が困難である。透明性に次いで、我々は規模も追求している。

多様性。我々は、汎用性の高いリソースを提供することで、最先端のオープン言語モデルを構築するためのデータセットとアーティファクトをコミュニティに提供することを目指している。高品質なデータセットの定義を規定するのではなく、ウェブ文書の幅広い汎用コーパスを提供する。各文書には品質シグナルが付与されており、ユーザーが特定のニーズや基準に基づいて情報に基づいた決定を下すことができるようになっている。

Refer to caption — 図1: RedPajamaデータセットを中心としたエコシステム。RedPajamaは、OpenELM [36]、OLMo [19]、Snowflakeの Arctic [54]、RedPajama-INCITEを含む複数のオープンソースLLMの事前学習データを提供している。SlimPajamaはRedPajama-V1のクリーニングおよび重複排除版である。

これらの原則に従い、我々はLLMの事前学習のためのRedPajamaデータセットを開発し、公開した。 RedPajama-V1は、公開されており、完全にオープンで、LLaMAモデルファミリーの最初のイテレーションを訓練するために使用された[57]で説明されている訓練データの最善の再現である。このデータセットとともに、我々はRedPajama-INCITEモデルを開発した。これには、3Bおよび7Bスケールのベース、指示調整、およびチャットモデルが含まれる。これらの取り組みから得られた最初の一連の学びに基づき、我々はRedPajama-V2データセットを構築した。この後者のデータセットは全く異なるアプローチを取り、ウェブデータに専念している。5つの言語で構成され、2014年から2023年までの84のCommon Crawlスナップショットから取得されている。生のテキストデータに加えて、我々はコーパスの50Tトークンサブセットに含まれる各文書に付随する品質シグナルも公開しており、ウェブデータをフィルタリングする原則的な方法の理解に向けた研究を促進することを目的としている。さらに、本稿では一連のアブレーション研究を提示し、生コーパスから様々な品質のサブセットを作成し、その後のモデルパフォーマンスに対する品質シグナルの価値を示している。

要約すると、本稿では以下の貢献を行う：

C1

我々は、LLaMA-1の訓練に使用されたデータセットのオープンな再現である RedPajama-V1 データセットを公開する[57]。また、コーパス作成に際して考慮された詳細な報告書も含めている。
C2

我々は、RedPajama-INCITEモデルの訓練過程と評価について報告する。これには、Summitスーパーコンピューターの使用方法や、対処しなければならなかった課題の詳細が含まれる。
C3

我々は、RedPajama-V2データセットを公開する。これは、ウェブからスクレイピングした生の、フィルタリングされていないデータで構成される最大のオープン事前訓練データセットであり、各文書に対して計算された46の品質指標とともに提供される。これにより、データキュレーションにおける更なる研究が可能となる。
C4

RedPajama-V2データセットに基づき、4億6800万パラメータのデコーダーのみのTransformerモデルに関する一連のアブレーション研究を提示する。これにより、一般的なNLPベンチマークにおいて様々な性能を持つモデルを作成するために、品質シグナルをどのように使用できるかを示す。

本稿の残りの部分は以下のように構成されている。第2節では、現在のオープン事前訓練データセットの状況におけるRedPajamaデータセットの位置づけを行う。第3節では、RedPajama-V1の作成プロセスの詳細、およびRedPajama-INCITEモデルファミリーの構築について説明する。第4節では、我々のウェブのみのデータセットであるRedPajama-V2に進む。データ処理ステップの説明に加えて、データセットの統計とアブレーション研究を提示する。最後に、第5節で結論を述べる。

2 Related Work

表1: 透明性、汎用性、規模の観点からの公開事前学習データセットの比較。

Dataset	Transparency		Versatility			Scale (TB)
Dataset	Open Access	Open Code	Raw Data	Composite	Multilingual	Scale (TB)
Refined Web [44]	✔(subset)	✗	✗	✗	✗	2.8
FineWeb [43]	✔	✔	✗	✗	✗	93.4
FineWeb-EDU [43]	✔	✔	✗	✗	✗	8.8
C4 [46]	✔	✔	✗	✗	✗	0.3
mC4 [63]	✔	✔	✗	✗	✔	9.7
DCLM baseline [30]	✔	✔	✗	✗	✗	10.0
DCLM-Pool [30]	✔	✔	✔	✗	✔	340.0
Dolma v1.7 [52]	✔	✔	✗	✔	✗	4.5
Pile [17]	✔	✔	✗	✔	✗	0.8
SlimPajama [51]	✔	✔	✗	✔	✗	0.9
ROOTS [26, 27]	✔	✔	✗	✔	✔	1.6
RedPajama-V1	✔	✔	✗	✔	✗	3.0
RedPajama-V2	✔	✔	✔	✗	✔	270.0

大規模言語モデルの事前学習データセットの構築に焦点を当てた多くの取り組みがある。これらのデータセットの中には、様々なソースを組み合わせて作成されたものもあれば、ウェブデータのみから派生したものもある。ウェブのみのデータセットの領域では、C4データセット[46]が最初の大規模ウェブデータセットの一つであり、CommonCrawlからフィルタリングされた175Bトークンのウェブコーパスで構成されている。 C4は今でもウェブデータセットの品質のベンチマークとなっている。最近では、RefinedWeb[44]とFineWeb[43]が、複数のドメインを組み合わせる必要なく、ウェブのみのデータで強力なモデルを生成できることを実証しており、我々の研究と同様に、データキュレーション技術に関する豊富な詳細を提供している。これらのデータセットとは対照的に、RedPajama-V2は、100兆トークンの生の、ほとんどフィルタリングされていないテキストで構成されている。40以上の品質シグナルを潜在的なフィルタリングに活用できるRedPajama-V2は、全く異なるアプローチを推進し、将来の高品質ウェブデータセットの新しい基準を設定することを目指しており、次世代の高品質ウェブデータセットのための堅固な基盤を提供している。さらに大きな関連性を持つのは、[45]で提案されたGopherルールであり、これは前述の多くのオープン事前学習データセットの中心的な役割を果たしている。

ウェブのみのデータセットを補完する形で、複合データセットは追加のドメインを導入し、より広範なカバレッジを可能にする。特筆すべきは、Pile [17] が最初の完全にオープンなデータセットの一つであったことである。 LLaMA [57] のリリース後、これは7つの個別のサブセットと複数のドメインを使用したが、我々はLLaMAのレシピのオープンソース複製としてRedPajama-V1を公開し、これは広く採用された。これを基に、SlimPajamaデータセット [51] がRedPajama-V1からさらなるクリーニングと重複排除によって派生した。同様に、Dolma [52] データセットには、The Stack [25]、StarcoderData [31] を含むコードデータセットのクリーンバージョン、およびRedPajama-V1のArXivとStackExchangeの分割など、他の専門ドメインが含まれている。Zyda [56] データセットも同様の方向性を持ち、RedPajama-V1から派生したSlimPajamaデータセットを含むオープンデータセットをさらに洗練している。最後に、ROOTS コーパス [26, 27] も複数のドメインと言語にまたがる主要なオープンデータセットの一つである。表 1 はこれらのオープンデータセットの概要を示し、透明性、多様性、規模の観点から各データセットの位置づけを比較している。

3 RedPajama-V1: An open Reproduction of the LLaMA Training Data

表2: RedPajama-V1データセットのトークン数。

Dataset Slice	Token Count
CommonCrawl	878B
C4	175B
GitHub	59B
Books	26B
ArXiv	28B
Wikipedia	24B
StackExchange	20B
Total	1.2T

RedPajamaデータセットの最初の反復において、我々の主要な目標はLLaMA技術報告書[57]に記載されている学習データを再現することであった。この目的のため、我々は元のレシピの記述に忠実に従った。本節では、まず元のLLaMA学習コーパスを再現するプロセスについて記述する（3.1節）。元のデータセット収集の記述における不明確な点を強調し、それらの曖昧さをどのように解決したかを説明する。次に、オークリッジ国立研究所（ORNL）との共同で、このコーパスで学習されたRedPajama-INCITEモデルファミリーについて報告する（3.2節）。結果として得られたモデルは3Bスケールでは性能が高いものの、7Bスケールでは元のLLaMA-7Bモデルとの間にまだギャップがあることがわかった。我々は、これが部分的にFP16精度で学習する必要性によるものであると仮説を立てている。さらに、これは元のLLaMA学習コーパスの構築に関する重要な詳細の一部が欠けている可能性も示唆している。

3.1 Data Processing Steps

ここでは、LLaMa技術報告書[57]に記載されている訓練コーパスを再現しようとした我々の試みについて説明する。 LLaMAの事前訓練データは、英語のCommonCrawl、C4、GitHub、Wikipedia、Books（Project GutenbergとBooks3）、ArXiv、Stack Exchangeの7つのデータセットから構成されている。これらのデータセットについては、LLaMA技術報告書で各々約1段落の簡潔な説明がなされているが、その記述には一部不明確な点がある。本節では、個々のデータセットを再現するプロセスの詳細を説明し、LLaMA技術報告書の記述における不明確な点を強調し、それらの曖昧さを解決するための我々の選択について述べる。これらの手順を合わせると、約1.2兆トークンのデータセットが得られた。表2にこれらのデータセットとトークン数の概要を示す。付録の表10では、データセットの構築中に遭遇したすべての不確実性をさらに列挙している。

CommonCrawl。 LLaMAコーパスには、2017年から2020年までの5つのCommonCrawlスナップショットが含まれており、CCNetパイプライン[61]を使用して処理されている。 CCNetは各スナップショットをシャードで重複排除し、各スナップショットのデータに品質分類を割り当てる。Wikipediaで訓練された5-gram Kneser-Neyモデルによって割り当てられた尤度の分布に基づいて、各文書に「head」、「middle」、「tail」の分類を割り当てる。本稿では「head」と「middle」のバケットのみを保持し、「tail」は破棄する。さらに、Touvron et al. [57]は、Wikipediaの参照記事で訓練された線形分類器を使用して低品質の文書をフィルタリングしている。 LLaMA論文では、使用されたスナップショットや分類器の詳細は指定されていない。

我々は、5つの英語CommonCrawlスナップショット2019-30、2020-05、2021-04、2022-5、および2023-06を選択した。これらはプロジェクト開始前の5年間における最初のスナップショットを表している。Wikipedia参照分類器を訓練するために、2023年4月1日時点で入手可能な最新の英語Wikipediaスナップショットをダウンロードした。 Wikipediaスナップショットから38MのURLを抽出し、300Kのページをクロールした。その後、CCNetパイプラインを使用してWikipedia参照に適度なクリーニング手順を適用し、fastTextを使用してユニグラム分類器を訓練した。最後に、スコアが0.25未満のすべての文書をフィルタリングし、我々のCommonCrawlデータセットをLLaMAのCommonCrawlデータセットとほぼ同じサイズに縮小した。

C4。 LLaMAコーパスには、CommonCrawlの多様なバージョンを含めるためにC4データセット[46]が含まれている。我々はC4のc4_enバージョンを使用しており、これはAllen AIによってHugging Face Hub²²2https://huggingface.co/datasets/allenai/c4で提供されている。

Github。 LLaMAコーパスは、Google BigQueryで利用可能な公開GitHubデータセットを使用し、Apache、BSD、MITライセンスの下で配布されているプロジェクトを保持している。LLaMAコーパスはさらにいくつかのヒューリスティックを用いて低品質のファイルをフィルタリングし、ファイルレベルで重複排除を行っている。 RedPajama-V1では、ファイルの長さ、英数字の割合、ファイル拡張子に関する一連のフィルターを使用して低品質のファイルを除去している。ヒューリスティックの完全なリストは付録Cに記載している。

Wikipedia。 LLaMAコーパスは、2022年6月から8月にかけての20言語のWikipediaダンプを使用し、ハイパーリンク、コメント、その他の書式設定用のボイラープレートを除去するようデータを処理している。 RedPajama-V1では、2023-03-20のダンプを使用してHugging Face Hubで利用可能なWikipediaデータセットを使用している。これもまた、ハイパーリンク、コメント、その他のボイラープレートを除去するようデータを前処理している。

GutenbergとBooks3。 LLaMAコーパスは、Gutenberg ProjectとPileのBooks3からの書籍コーパスを使用している。我々はGutenbergのPG19サブセットのみを使用し、SimHashを使用して近似重複を除去している。当初はBooks3も含めていたが、著作権の問題により削除した。

ArXiv。 LLaMAコーパスは、arXivのLaTeXファイルを処理し、[29]に従って、最初のセクションの前のすべて、コメント、インラインで展開された定義とマクロ、および参考文献を削除している。我々は、Amazon S3の「arXiv」リクエスター支払いバケットからarXivデータをダウンロードし、同様の後処理を実装した。LaTeXソースファイルのみを保持し、プリアンブル、コメント、参考文献を削除し、マクロを展開している。

Stack Exchange。 LLaMaコーパスには、Stack Exchangeのダンプが含まれている。28の最大のウェブサイトからデータが保持され、テキストからHTMLタグが削除され、回答は最高から最低のスコア順にソートされている。同様に、我々はInternet ArchiveからStack Exchangeをダウンロードし、28の最大サイトからの投稿のみを保持し、HTMLタグを削除している。さらに、投稿を質問-回答ペアにグループ化し、回答をスコアによって順序付けしている。

3.2 The RedPajama-INCITE family of LLMs

RedPajama-V1が元のLLaMAコーパスにどの程度適合しているかを評価するため、我々はInciteプロジェクトと協力し、オークリッジ国立研究所のSummitスーパーコンピューターを使用して、様々なサイズのLLMファミリーを訓練した。 RedPajama-Incite系列のLLMには、3Bおよび7Bモデルサイズの事前訓練済みおよび指示調整済みモデルのスイートが含まれる。本節では、まずSummitスーパーコンピューターの計算セットアップと事前訓練実行への影響について説明する（3.2.1節）。次に、モデルの評価方法と、これらのモデルとLLaMAファミリーとの品質の差異について推測する（3.2.2節）。

3.2.1 Summit Training Setup

本節では、Summitスーパーコンピューターと、RedPajama-Incite系列のLLMを訓練する際のエンジニアリングおよび事前訓練の課題について説明する。我々の言語モデルは、オークリッジ国立研究所のSummitスーパーコンピューターを使用して訓練された。このクラスターには4608台の6xV100ノードがあり、IBM Power9アーキテクチャで動作している。このセットアップは、最新のLLMを訓練する上でいくつかの課題をもたらした。以下では、これらの課題について議論し、我々がどのようにしてそれらを克服したかを説明する。

IBM Power9アーキテクチャは、ほとんどの最新チップセット（Intel、Arm、またはAppleベースのチップ）とは異なる命令セットを使用している。 PyTorchの最新バージョンとそれが依存するPythonスタックのほとんどは、Power9アーキテクチャをサポートするようにプリコンパイルされていない（公式にサポートされている最新バージョンはPyTorch 1.9であった）。最新のライブラリを使用して事前訓練をサポートするため、我々のチームのメンバーはPyTorchをゼロからリコンパイルし、Summit用のカスタム訓練スタックを構築する必要があった。これらの取り組みの一部は、GPT-NeoXの技術報告書[6]でより詳細に記録されている。

本稿執筆時点で、SummitスーパーコンピューターはLLMの訓練に通常使用されるA100やH100 GPUよりも古いV100 GPUで動作している。重要なことに、V100はLLMの最新の安定した訓練レシピに必要なbf16データ型をサポートしていない。そのため、我々はfp16で訓練を行い、安定した訓練実行を可能にするためにロススケーリング[37]を使用する必要があった。また、LLaMAの訓練で報告されている学習率よりも低い学習率を使用する必要があり、これが収束に影響を与えた可能性がある（3Bモデルでは $1.6\cdot 10^{-4}$ 、7Bモデルでは $1.2\cdot 10^{-4}$ ）。

IBM Power9アーキテクチャは遅い相互接続を持っており、各実行で使用できるノード数が制限された。また、他のプロジェクトが同時に実行されていたため、クラスター全体を使用することができなかった。我々は7Bの訓練に512ノード（3072 GPU）を並列で使用し、3Bの訓練に256ノード（1536 GPU）を並列で使用した。各モデルのグローバルバッチサイズは4Mトークンであった。スケーリング実験において、グローバルバッチサイズを増やさずに並列性をさらに増加させることはできないことがわかった。グローバルバッチサイズを増やすと収束が悪化するためである。

6xV100ノードは、テンソル並列性とパイプライン並列性を用いた訓練に課題をもたらす。我々は7Bモデルに12ウェイのパイプライン並列性を、3Bモデルに6ウェイのパイプライン並列性を使用し、両モデルに2ウェイのテンソル並列性を使用した。

これらの課題を考慮した上で、我々はSummitで3Bモデルを合計800Bトークン、7Bモデルを合計1.001Tトークン訓練することができた。学習率は、ウォームアップ期間の後、元のLLaMA論文で説明されているものと一致するように線形に減衰させた。

3.2.2 Evaluation

ここでは、RedPajama-INCITE-3Bおよび7Bモデルの一般的なベンチマークにおける評価について議論する。完全な結果とベンチマークスコアは付録C.2に記載されている。 RedPajama-Base-INCITE-3Bを800Bトークンで訓練した後、同サイズの他のオープンモデル（高く評価されているGPT-NeoやPythia-2.8B（それぞれPileで420Bおよび300Bトークンで訓練）を含む）と比較して、より優れたフューショット性能（HELM classic [9]で測定、16のコアシナリオの平均スコア）とゼロショット性能（Eleuther AIのLM評価ハーネス[18]を使用）を示した。HELMでは、これらのモデルを3-5ポイント上回った。LM評価ハーネスのタスクのサブセットでは、これらのオープンモデルを2-7ポイント上回った。

RedPajama-INCITE-7B-BaseモデルはHELM-classicにおいてFalcon-7Bより1.0ポイント、Llama-7Bより4.1ポイント下回っている。タスクをさらに詳しく分析すると、正解と不正解の確率の差を計算するlogprobsを使用するタスクでのみ遅れをとっていることがわかる。しかし、直接回答を生成し品質を測定するタスクでは、モデルは同等の平均HELMスコアを達成している。LMハーネスのすべてのベンチマークがlogprobsを使用しているため、このベンチマークでも同様に低い結果が見られる。我々は、これが部分的にFP16での訓練によるものであり、より大きな学習率を使用できなかったことが原因だと推測している。さらに、前節で説明したように、訓練データセットの構築には不確実性の源があり、Llama-1モデルの訓練に使用されたものとはわずかに異なるデータセットになった可能性が高い。我々は、これら2つの要因がLlamaモデルと比較してわずかに低いパフォーマンスにつながったと考えている。

RedPajama-INCITE-7B-Instructは、ベースモデルの指示調整版であり、P3（BigScience）[49]とNatural Instructions（AI2）[39]の両方から得た多様なNLPタスクのコレクションで訓練することで、フューショット性能を最適化している。Instruct版は、フューショットタスクで優れたパフォーマンスを示し、Llama-7B、Falcon-7B（ベース版とInstruct版の両方）、MPT-7B（ベース版とInstruct版の両方）を含む、同サイズの主要なオープンモデルをHELMで2-8ポイント上回っている。詳細な評価スコアは補足資料に記載している。

4 RedPajama-V2

RedPajamaデータセットの第一版とは対照的に、第二版はウェブデータに専念し、設計原則のTransparency（透明性）とScale（規模）に加えて、Versatility（多様性）にもより重点を置いている。具体的には、完全に透明性のあるオープンなデータセットを提供するという目標に加えて、このコーパスの目的は高品質なサブセットを作成するための基盤として機能することである。透明性の目標はデータセットとその成果物を公開することで達成され、規模はCommon Crawlコーパスの大部分を処理することで達成される一方で、Versatility（多様性）という設計原則に従うため、我々はRedPajama V2を、高品質で多様かつ大規模なデータセットを作成するための迅速で低コストな反復を可能にする一連のメタデータで強化されたデータセットとしてリリースする。本節では、まず生テキストデータを作成するために使用されたデータ処理手順を紹介し、各文書に利用可能な品質シグナルの概要を示し、データセットの構成に関する統計を提示する。最後に、品質シグナルを使用して段階的により良いデータセットを作成する方法についてのアブレーション研究を紹介する。

4.1 Data Processing Steps

RedPajama-V2は、CommonCrawl財団が提供するウェブ文書を処理して作成されたデータセットである³³3https://commoncrawl.org/。ウェブデータは本質的にノイズが多く、HTMLコードに埋め込まれたテキストとしてのみ利用可能であるため、LLMの訓練に適したものにするには処理が必要である。そのため、RedPajama-V2に使用される生データは一連の基本的な処理手順を経ており、我々はそれらについてより詳細に説明する。

4.1.1 Data Acquisition

Common Crawlアーカイブは、一般に無料で利用可能な膨大なウェブクロールデータのリポジトリである。このコーパスには2013年以降のクロール結果が含まれており、（隔）月単位で定期的に更新されている。HTML形式の生のウェブデータ（warc）に加えて、アーカイブはメタデータ（wat）とwet形式のプレーンテキストデータも提供している。これは、C4 [46]、RefinedWeb [44]、Dolma [52]、FineWeb [43]など、多くのデータセットの基礎となっている。

RedPajama-V2データセットを作成するために、我々は2014年から2023年4月までの全84の月次スナップショットからウェブ抽出テキスト（すなわち.wetファイル）を使用し、CCNetパイプライン [61]を通過させた。RPv1とは対照的に、ここではすべての複雑性バケットを保持し、英語に加えてフランス語、ドイツ語、イタリア語、スペイン語のデータも保持している。我々は、生のデータセットに可能な限り多くの情報を保持し、下流のモデル開発者がデータセットをフィルタリングできるようにするという我々の指導原則に沿って、軽度の処理を行うこのパイプラインを選択した。この処理ステップにより、1000億を超える個別のテキスト文書が生成される。

4.1.2 Quality Signals

Llama [57, 58]、Mistral [22]、Falcon [2]、MPT [53]、Qwen [3]モデルなどの最先端のオープンLLMの中心的な要素は、これらのモデルが訓練される大量の高品質データである。例えば、Llama 3は慎重に選別された15兆トークンで訓練されている。必要な規模を提供する最も顕著なデータソースは、CommonCrawlが公開しているクロールである。しかし、我々の場合はさらにCCNetパイプラインで処理されているこの生のテキストは、HTMLからプレーンテキストへの変換から生じるアーティファクト（例：解析エラー、メニュー）、一般的に低品質なソース、ウェブ上のコンテンツ分布に固有のバイアスのため、LLM訓練データとして直接使用するには依然として理想的ではない。このようなデータセットをクリーニングするために、文献では、異質なウェブデータの大規模コーパスから高品質のデータセットを抽出するための多数のヒューリスティックが提案されている。しかし、低品質のコンテンツをフィルタリングする以前のデータセットとは異なり、我々のアプローチは生のテキストコーパス全体を保持し、品質シグナルを追加のメタデータとして組み込んでいる。この戦略により、通常は破棄される部分を、データセットの有用性を高める情報属性に変換しながら、データの全スペクトルを使用することができる。これにより、C4などの他のデータセットをRedPajama-V2データセットの特殊なケースとして作成することが可能になる。各文書について、我々はC4 [46]、Gopher [45]、RefinedWeb [44]、Pretrainer's Guide [34]、DSIR [62]で使用されている品質シグナルを提供する。これらは大まかに、自然言語、テキストの反復性、テキストの内容に基づくもの、ML基盤のヒューリスティック、および重複排除を測定する品質シグナルに分類できる。以下では、これらの各カテゴリについて詳細に説明する。すべての品質シグナルの包括的なリストと詳細な説明、およびヒストグラムは付録D.2に記載されている。

自然言語。ウェブサイトから抽出されたテキスト文書には、JavaScriptコード、メニュー、その他のボイラープレートテキストなど、自然言語に対応しないコンテンツがしばしば含まれている。与えられたテキスト文書がどれほど自然であるかを測定するために、我々は大文字のみの単語や文字の割合、省略記号で終わる行の割合、一意の単語の割合、行が終止符で終わるかどうかなど、単純なヒューリスティック測定を提供する。

反復性。ウェブデータでよく観察される人工物は反復的なテキストであり、これは情報価値の低いコンテンツと関連付けられている [45]。反復的な生成は言語モデルの既知の失敗モードでもあり [21]、過度に反復的なコンテンツを除去することで、この挙動を緩和する可能性がある [45]。各文書について、我々は最も頻繁に出現する（単語） $n$ -gramに含まれる文字の割合を $n\in\{2,\,3,\,4\}$ について計算する。次に、重複する $n$ -gramに含まれる文字の割合を $n\in\{5,\,\ldots,\,10\}$ の値について計算する。重複する $n$ -gramで重複して出現する文字は1回のみカウントするようにしている。

コンテンツベース。ウェブ文書には有害で攻撃的なコンテンツが含まれる可能性があり、これに対処する必要がある。そのために、我々はC4とRefinedWebで使用されているシグナルを提供する。具体的には、(1) LDNOOBWブロックリスト⁴⁴4https://github.com/LDNOOBW/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Wordsに含まれる単語の連続数である。さらに、文書のドメインがUT1のブロックされたURLリスト⁵⁵5https://dsi.ut-capitole.fr/blacklists/に表示されるかどうかを示すフラグを含めている。これらの品質シグナルはNSFWコンテンツに焦点を当てているが、ドメインや埋め込みクラスタ [55]などの他のコンテンツベースのフィルタも有望な方向性であると我々は考えている。付録の図8に、埋め込みのクラスタリングによって見出されたトピックの分布を示す。

MLヒューリスティック。MLベースの品質シグナルは、高品質ドメインとの類似性を測定するという考えに基づいている。ここでは、fastTextクラシファイア [24]と、[62]で提案された重要度重みを使用する。MLフィルタはデータセットの品質を向上させることが示されているが（例：[12, 57, 11]）、バイアスを引き起こしたり、マイノリティを過小表現したりする可能性も報告されている [15]。RPv2で提供されるfastTextクラシファイアシグナルは、フィルタリングされていないRPv2データと高品質ドメインを区別するために訓練された単語バッグのユニグラムモデルである。英語データについては、Wikipedia、Wikipediaで参照されているウェブサイト、書籍、OpenWebTextデータセットを使用する。非英語データについては、Wikipediaのみを使用する。[62]で提案されたDSIR重みは、縮小された特徴空間において個々のサンプルの特定のターゲットドメインに対する重要性を推定し、単語ユニグラムおよびバイグラムモデルに基づいている。重みは、ターゲットドメインと元のドメインの言語モデル間の対数尤度比として定義され、fastTextクラシファイアと同じドメインを使用する。

重複排除。重複した訓練データを除去することで、モデルの複雑性が改善され、記憶量が減少し、同時に訓練データサイズと必要な計算量が削減されることが分かっている [28]。重複排除は、最も人気のあるデータセットの中核的な構成要素の1つでもある [46, 52, 44]。RPv2では、異なる類似度レベルでのファジー重複排除のためのMinHashシグナチャ [10]と、エラー率を $1\%$ に設定したBloomフィルタ [7]を使用して完全な重複と判断された文書のIDを含めている⁶⁶6完全な重複排除は.wet文書のハッシュに基づいて実行されたことに注意する。つまり、CCNetでデータを処理する前に行われた。。この文書レベルの重複排除では

4.2 Dataset Statistics

表3: RPv2データセットの各パーティションと言語におけるドキュメント数とトークン数。

	All		tail		head+middle		head+middle (dedupe)
	docs (B)	tokens (T)	docs (B)	tokens (T)	docs (B)	tokens (T)	docs (B)	tokens (T)
English	87.5	90.5	63.0	53.6	24.5	37.0	14.5	20.5
German	8.6	10.3	5.9	6.2	2.7	4.1	1.9	3.0
French	6.7	8.5	4.5	4.8	2.2	3.7	1.6	2.7
Spanish	6.9	9.5	4.7	5.6	2.3	3.9	1.8	2.8
Italian	3.5	4.7	2.4	2.7	1.2	1.9	0.9	1.5
Total	113.3	123.7	80.5	73.0	32.8	50.7	20.8	30.4

RPv2は、英語、ドイツ語、フランス語、スペイン語、イタリア語の5つの異なる言語で113Bのドキュメントで構成されている。前述のように、CCNetパイプラインはデータセットを「head」、「middle」、「tail」の3つのバケットに分割しており、これらはそれぞれWikipediaの低、中、高パープレキシティに対応している。head+middleパーティションには32.8Bのドキュメントがあり、tailパーティションには80Bのドキュメントがある。tailのドキュメントは通常、headとmiddleバケットのドキュメント（ $\sim 1500$ トークン）よりも短い（850トークン）。トークン数は、Mistral [22] BPEトークナイザーを使用して、100Mドキュメントの独立同分布サンプルに基づいて推定された。各言語とパーティションのトークン数の詳細な概要は表3に示されている。我々は、重複排除前後のドキュメント数や品質シグナルの分布に関するさらなる統計を補足資料で提供している。

4.3 Dataset Ablations

ここでは、セクション4.1.2で紹介した品質シグナルが、異なるヒューリスティクスでフィルタリングされたデータで訓練された言語モデルのダウンストリームパフォーマンスにどのように影響するかをより良く理解することを目的として、一連のデータセットアブレーションを提示する。より具体的には、ここでは異なる品質フィルタリングルールがダウンストリームパフォーマンスにどのように影響するかを問う。我々は幅広い評価を目指し、多様なダウンストリームベンチマークでのパフォーマンスと、複数のドメインにおける言語モデリング目的のパフォーマンスを測定する。

4.3.1 Setup

モデル。我々は、468Mパラメータと1.6Bパラメータ、2048シーケンス長のデコーダーのみのLlama-2アーキテクチャ[58]を採用する。両モデルとも24層、16アテンションヘッド、MLPの拡張比を4.0に設定している。468Mモデルは1024の隠れ次元を持ち、1.6Bモデルでは2048を使用する。各データセットに対して、468Mモデルを100Bトークンで、1.6Bモデルを350Bトークンで訓練する。我々はAdamW[14]オプティマイザを使用し、重み減衰を0.1、最大学習率をそれぞれ $510-3$ と $510-4$ に設定し、最初の1%のステップで線形ウォームアップを伴うコサイン減衰スケジュールを使用する。我々は比較的小規模なスケールを使用している。これにより、より広範なフィルターを探索することが可能となり、RedPajamaで利用可能な品質フィルターの幅広さを示すことができる。

ハードウェアとトレーニングスタック。セットアップの容易さ、使用の簡便さ、高いモデルフロップス利用率により、我々は分散トレーニングにOLMoフレームワーク⁷⁷7https://github.com/allenai/OLMoを使用し、複数のGPUとノードにわたる並列化にFSDP[66]を使用する。評価には、lm-evaluation-harnessを使用する。我々のモデルは、Infinibandインターコネクトを備えた最大5台のH100ノードで訓練される。

評価指標。我々はベンチマークとドメインの幅広いカバレッジを目指している。同時に、我々は比較的小規模で運用しており、多くのタスクがデータセットを区別するのに十分な高い信号を提供するには難しすぎる。

表4: 我々のアブレーションで使用されるベンチマーク。「Agg. BM-Eval」列は、そのスコアが表5と6で報告される集計スコアに使用されるかどうかを示している。

Task	Type	Random	Metric	Agg. BM-Eval
ANLI [40]	Natural language inference	25.0	acc
ARC-c [13]	Natural language inference	25.0	acc_norm
ARC-e [13]	Natural language inference	25.0	acc_norm	✔
Winogrande [48]	Coreference resolution	50.0	acc	✔
Hellaswag [64]	Sentence completion	25.0	acc_norm	✔
LAMBADA [42]	Sentence completion	0.0	acc	✔
CoQA [47]	Conversational QA	0.0	F1	✔
MMLU [20]	Multiple-choice QA	25.0	acc	✔
OpenbookQA [38]	Multiple-choice QA	25.0	acc_norm	✔
PIQA [5]	Multiple-choice QA	50.0	acc_norm	✔
PubMedQA [23]	Multiple-choice QA	33.3	acc	✔
SciQ [60]	Multiple-choice QA	25.0	acc_norm	✔
SocialIQA [50]	Multiple-choice QA	25.0	acc
TruthfulQA [33]	Multiple-choice QA	25.0	acc

FineWeb[43]データセットと同様に、我々はこの小規模なモデルスケールでも十分に高い信号対雑音比を提供するベンチマークを探している。慎重な検討の結果、我々は表4のベンチマーク選択に落ち着いた。ここでは、(1)ベンチマーク間の平均を計算し、(2)正規化された平均、(3)各データレシピのランクの正規化された合計を計算することで、集計されたスコアを提示する。後者を含めることにしたのは、異なるスケールのスコアを平均化することを避けるためである。より詳細なスコアは補足資料に記載されている。ターゲットドメインのパープレキシティに基づいてデータセットをランク付けするために、我々はDolma[52]で採用されたアプローチに従い、Paloma[35]とPile[17]の検証セットを採用する。

4.3.2 Results

表5: 異なるデータセットフィルターと他のSOTAウェブデータセットに対する468Mパラメータ言語モデルの評価。ベンチマークスコアは表3で概説されたベンチマークから集計され、(1)平均精度、(2)ランクスコア、(3)正規化された平均スコアを使用している。最高スコアは太字下線で示され、2番目に高いスコアは太字で、3番目はイタリック体下線で示されている。

Dataset	Deduplication		Rule-based		ML Heuristics			Agg. BM-Eval $(\uparrow)$			Val-Perplexity $(\downarrow)$
Dataset	Exact	Fuzzy	C4	Gopher	Classif.	DSIR	PPL	Avg.	Norm. Avg.	Rank-Score	Pile	Paloma
C4								35.8	0.140	0.472	29.5	39.5
Dolma-v1.7 CC								36.0	0.140	0.511	21.4	38.3
FineWeb								36.5	0.146	0.644	26.8	33.6
RefinedWeb								37.9	0.165	0.650	19.1	32.8
RPv1-CC	✔(sharded)				✔ (Wiki-Ref.)			35.6	0.127	0.461	18.7	31.5
RPv2 (2023-14)								36.4	0.141	0.594	19.7	31.1
RPv2 (2023-14)	✔							36.2	0.138	0.472	19.5	39.9
RPv2 (2023-14)		✔		✔ (full)				37.6	0.160	0.700	24.9	34.5
RPv2 (2023-14)		✔	✔					36.8	0.150	0.622	36.3	56.9
RPv2 (2023-14)		✔		✔ (natlang)			Wiki-middle	37.2	0.154	0.639	23.6	38.2
RPv2 (2023-14)		✔		✔ (Rep.)			Wiki-middle	37.5	0.158	0.633	20.4	36.0
RPv2 (9 Dumps)		✔	✔					35.3	0.128	0.517	35.0	54.2
RPv2 (9 Dumps)		✔	✔	✔ (full)				36.7	0.149	0.556	43.8	63.9
RPv2 (9 Dumps)		✔	✔	✔ (Rep.)		✔ (Palm-mix)		35.9	0.138	0.439	44.3	89.9
RPv2 (9 Dumps)		✔	✔	✔ (Rep.)	✔ (Palm-mix)			35.9	0.139	0.483	43.8	67.1
RPv2 (9 Dumps)		✔	✔	✔ (natlang)	✔ (Palm-mix)			36.7	0.152	0.550	41.8	67.9
RPv2 (9 Dumps)		✔	✔ (line-filter)	✔ (natlang)	✔ (Palm-mix)			36.4	0.144	0.539	32.4	52.9
RPv2 (9 Dumps)		✔	custom-rules		✔ (Wiki-Ref.)		$P_{\text{wiki}}>30$	35.8	0.130	0.467	18.5	39.7
RPv2 (9 Dumps)		✔	custom-rules + Gopher-Rep.		✔ (Wiki-Ref.)		$P_{\text{wiki}}>30$	35.9	0.133	0.500	19.8	45.8

表6: 異なるデータセットに対する1.6Bパラメータ言語モデルの集計評価。ベンチマークスコアは表4で概説されたベンチマークから集計され、(1)平均精度、(2)ランクスコア、(3)正規化された平均スコアを使用している。

Dataset	Fuzzy Deduplication	Rule-based		ML Heuristics		Agg. BM-Eval $(\uparrow)$			Val-Perplexity $(\downarrow)$
Dataset	Fuzzy Deduplication	C4	Gopher	Palm Classif.	Wiki-Ref Classif.	Avg.	Norm. Avg.	Rank-Score	Pile	Paloma
RefinedWeb						52.0	34.0	0.139	10.7	17.7
RPv2 (full)	✔		✔		✔	50.0	31.1	0.106	13.6	20.8
RPv2 (full)	✔	✔	✔(natlang)	✔		47.9	29.4	0.089	22.2	30.7

我々はまず、品質シグナルを使用して、文献で最も広く使用されているフィルターのいくつかを実装することから始める。さらに、RPv2で利用可能なMLヒューリスティクスも調査する。これらはfastTextの $n$ -gramバッグ分類器[24]とDSIR重要度重み[62]に基づいている。我々はRPv2の2つのサブセット、すなわち2023-14クロールと2021-49から2023-14までの9つのクロールに対してアブレーションを実行する。これらは128のハッシュ関数、9バンド、13行を持つMinHash LSHを使用して単語13-gramで重複排除されている。1.6Bのアブレーションでは、完全なRPv2データセットをフィルタリングし、約1Tトークンをサンプリングして、同じMinhashハイパーパラメータで重複排除を行う。

フィルター。我々は幅広い品質フィルタリング構成をカバーすることを目指している。特定のベンチマークでのパフォーマンスを最適化するのではなく、目標はRPv2データセットを異なる方法でフィルタリングすることで、モデルのパフォーマンスが大きく異なる可能性があることを示すことである。したがって、我々はC4とGopherルールのバリエーションを実験し、RPv2のML基準の品質シグナルも使用する。また、単語数、平均行長、WikipediaのパープレキシティとWikipediaの参照分類器に基づくカスタム構成custom-rulesも使用する。

結果。表5から、RedPajama-V2データセットのフィルタリングに関していくつかの結論を導き出すことができる。第一に、Gopherルールが一般的にパフォーマンスを向上させることがわかる。特に、ファジー重複排除とGopherによるフィルタリングが、すべてのRPv2データセットで最高の集計スコアを示している。さらに、ベンチマークスコアの平均と正規化された平均はRefinedWebに次いで2番目に高く、ランクスコアはRefinedWebよりも高い。付録の表18、19、20のベンチマークごとの表は、ファジー重複排除とGopherでフィルタリングされたRPv2データセットが常に上位中間（19中9の最小ランクスコア）にあることを示している。一方、RefinedWebはHellaswag、LAMBADA、Winogrande、MMLU、OpenBookQAでより悪いパフォーマンスを示している。これは、完全なGopherルールとファジー重複排除（Minhash LSH）でRPv2をフィルタリングすることで、他のすべてのデータセットよりも幅広いタスクで良好なパフォーマンスを示すデータセットが作成されることを示している。第二に、Gopher-natlangフィルターがGopher-repetitionフィルターよりも良いパフォーマンスを示すことがわかる。第三に、モデルベースのフィルタリングの文脈では、fasttextクラシファイアとDSIRの使用に大きな違いは見られない。第四に、行レベルのC4フィルターのみを使用すると、パープレキシティは減少するが、集計されたベンチマークスコアにはほとんど影響がないことがわかる。最後に、フィルタリングされていないRPv2 2023-14データセットがPalomaデータセットで最低のパープレキシティを示し、他のフィルタリング方法ではより高いパープレキシティを持つモデルになることに注目する。我々は、これが（少なくとも部分的に）Palomaがカバーする幅広いドメインに起因すると考えている。さらに、PalomaにはRPv1データセットも含まれており、これがRPv1-CCで訓練されたモデルが得た低いパープレキシティスコアを説明できる。表6は、完全なGopherルールでフィルタリングされたRPv2で訓練されたモデルが、Gopher-natlangルールのみでフィルタリングされたRPv2で訓練されたモデルを上回り、RefinedWebデータセットで訓練されたモデルの品質に近づくことをさらに示している。結論として、この一連のアブレーション研究は、RPv2データセットの品質シグナルをどのように使用して、より良いデータセットを段階的にフィルタリングできるかを示している。100Tトークン以上の膨大なスケールと組み合わせることで、このデータセットがLLMの事前訓練のための高品質なウェブデータセットを作成するための強力なソースを提供することがわかる。

5 Conclusion

本稿では、RedPajamaデータセットを紹介した。1000兆トークン以上を含むこれらのデータセットは、言語モデルの事前学習のための最大規模かつ完全にオープンで透明性のあるデータセットであり、多くの強力なオープンソースLLMの中心的な構成要素となっている。データセットに付随するドキュメンテーションに加えて、我々はRedPajama-V2をどのように段階的により高品質なサブセットにフィルタリングできるかの例も示した。これにより、多様なベンチマークタスクにおいて様々な品質レベルの言語モデルが得られ、他の大規模な事前学習コーパスで訓練されたモデルを凌駕する結果となった。モデルは比較的小規模であり、より広範なフィルターの探索を可能にしたが、これは同時に制限でもあり、さらに大規模な探索が必要である。我々は、一般的なベンチマークに対する徹底的な汚染除去分析や、データセット内の個人識別可能な情報の分析は行っておらず、これも本研究の限界となっている。RedPajama-V2データセットを生の未フィルタリング形式で公開し、一連の品質シグナルを付随させることで、今後の研究がRedPajamaをさらに発展させ、複数の事前学習コーパスのフィルタリング、キュレーション、混合に関する新しい革新的な方法を提供することを期待している。

Acknowledgments and Disclosure of Funding

我々は、Canada CIFAR AI Chair Program [I.R.]およびCanada Excellence Research Chairs Program [I.R.]からの支援に感謝する。本研究は、INCITE 2023プログラム賞「Scalable Foundation Models for Transferable Generalist AI」の一環として提供されたSummitスーパーコンピューターの計算資源のおかげで実現した。これらの資源は、米国エネルギー省科学局の契約No. DE-AC05-00OR22725の下で支援されているオークリッジ国立研究所のオークリッジリーダーシップコンピューティング施設によって提供された。我々は、以下の支援に深く感謝する：NIH（No. U54EB020405、Mobilize）、NSF（Nos. CCF2247015、Hardware-Aware、CCF1763315、Beyond Sparsity、CCF1563078、Volume to Velocity、1937301、RTML）、US DEVCOM ARL（Nos. W911NF-23-2-0184、Long-context、W911NF-21-2-0251、Interactive Human-AI Teaming）、ONR（Nos. N000142312633、Deep Signal Processing）、Stanford HAI（No. 247183）、NXP、Xilinx、LETI-CEA、Intel、IBM、Microsoft、NEC、Toshiba、TSMC、ARM、Hitachi、BASF、Accenture、Ericsson、Qualcomm、Analog Devices、Google Cloud、Salesforce、Total、HAI-GCP Cloud Credits for Researchプログラム、Stanford Data Science Initiative（SDSI）、およびStanford DAWNプロジェクトのメンバー：Meta、Google、VMWare。米国政府は、著作権表示にかかわらず、政府目的のために本稿を複製および配布する権限を有する。本稿に記載されている意見、発見、結論、または推奨事項は著者のものであり、必ずしもNIH、ONR、または米国政府の見解、方針、または承認（明示または黙示）を反映するものではない。

References

[1] Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. Gpt-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
[2] Ebtesam Almazrouei, Hamza Alobeidli, Abdulaziz Alshamsi, Alessandro Cappelli, Ruxandra Cojocaru, Mérouane Debbah, Étienne Goffinet, Daniel Hesslow, Julien Launay, Quentin Malartic, et al. The falcon series of open language models. arXiv preprint arXiv:2311.16867, 2023.
[3] Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, et al. Qwen technical report. arXiv preprint arXiv:2309.16609, 2023.
[4] Stella Biderman, Hailey Schoelkopf, Quentin Gregory Anthony, Herbie Bradley, Kyle O’Brien, Eric Hallahan, Mohammad Aflah Khan, Shivanshu Purohit, USVSN Sai Prashanth, Edward Raff, et al. Pythia: A suite for analyzing large language models across training and scaling. In International Conference on Machine Learning, pages 2397–2430. PMLR, 2023.
[5] Yonatan Bisk, Rowan Zellers, Ronan Le Bras, Jianfeng Gao, and Yejin Choi. Piqa: Reasoning about physical commonsense in natural language. In Thirty-Fourth AAAI Conference on Artificial Intelligence, 2020.
[6] Sid Black, Stella Biderman, Eric Hallahan, Quentin Anthony, Leo Gao, Laurence Golding, Horace He, Connor Leahy, Kyle McDonell, Jason Phang, et al. Gpt-neox-20b: An open-source autoregressive language model. arXiv preprint arXiv:2204.06745, 2022.
[7] Burton H Bloom. Space/time trade-offs in hash coding with allowable errors. Communications of the ACM, 13(7):422–426, 1970.
[8] Rishi Bommasani, Kevin Klyman, Shayne Longpre, Sayash Kapoor, Nestor Maslej, Betty Xiong, Daniel Zhang, and Percy Liang. The foundation model transparency index. arXiv preprint arXiv:2310.12941, 2023.
[9] Rishi Bommasani, Percy Liang, and Tony Lee. Holistic evaluation of language models. Annals of the New York Academy of Sciences, 1525(1):140–146, 2023.
[10] Andrei Z Broder. On the resemblance and containment of documents. In Proceedings. Compression and Complexity of SEQUENCES 1997 (Cat. No. 97TB100171), pages 21–29. IEEE, 1997.
[11] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901, 2020.
[12] Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, et al. Palm: Scaling language modeling with pathways. Journal of Machine Learning Research, 24(240):1–113, 2023.
[13] Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa Schoenick, and Oyvind Tafjord. Think you have solved question answering? try arc, the ai2 reasoning challenge. ArXiv, abs/1803.05457, 2018.
[14] P Kingma Diederik. Adam: A method for stochastic optimization. 2014.
[15] Jesse Dodge, Maarten Sap, Ana Marasović, William Agnew, Gabriel Ilharco, Dirk Groeneveld, Margaret Mitchell, and Matt Gardner. Documenting large webtext corpora: A case study on the colossal clean crawled corpus. arXiv preprint arXiv:2104.08758, 2021.
[16] Nan Du, Yanping Huang, Andrew M Dai, Simon Tong, Dmitry Lepikhin, Yuanzhong Xu, Maxim Krikun, Yanqi Zhou, Adams Wei Yu, Orhan Firat, et al. Glam: Efficient scaling of language models with mixture-of-experts. In International Conference on Machine Learning, pages 5547–5569. PMLR, 2022.
[17] Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe, Charles Foster, Jason Phang, Horace He, Anish Thite, Noa Nabeshima, et al. The pile: An 800gb dataset of diverse text for language modeling. arXiv preprint arXiv:2101.00027, 2020.
[18] Leo Gao, Jonathan Tow, Baber Abbasi, Stella Biderman, Sid Black, Anthony DiPofi, Charles Foster, Laurence Golding, Jeffrey Hsu, Alain Le Noac’h, Haonan Li, Kyle McDonell, Niklas Muennighoff, Chris Ociepa, Jason Phang, Laria Reynolds, Hailey Schoelkopf, Aviya Skowron, Lintang Sutawika, Eric Tang, Anish Thite, Ben Wang, Kevin Wang, and Andy Zou. A framework for few-shot language model evaluation, 07 2024.
[19] Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, et al. Olmo: Accelerating the science of language models. arXiv preprint arXiv:2402.00838, 2024.
[20] Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. Measuring massive multitask language understanding. Proceedings of the International Conference on Learning Representations (ICLR), 2021.
[21] Ari Holtzman, Jan Buys, Li Du, Maxwell Forbes, and Yejin Choi. The curious case of neural text degeneration. arXiv preprint arXiv:1904.09751, 2019.
[22] Albert Q Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, et al. Mistral 7b. arXiv preprint arXiv:2310.06825, 2023.
[23] Qiao Jin, Bhuwan Dhingra, Zhengping Liu, William Cohen, and Xinghua Lu. Pubmedqa: A dataset for biomedical research question answering. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 2567–2577, 2019.
[24] Armand Joulin, Edouard Grave, Piotr Bojanowski, and Tomas Mikolov. Bag of tricks for efficient text classification. In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers, pages 427–431. Association for Computational Linguistics, April 2017.
[25] Denis Kocetkov, Raymond Li, Loubna Ben Allal, Jia Li, Chenghao Mou, Carlos Muñoz Ferrandis, Yacine Jernite, Margaret Mitchell, Sean Hughes, Thomas Wolf, Dzmitry Bahdanau, Leandro von Werra, and Harm de Vries. The stack: 3 tb of permissively licensed source code. Preprint, 2022.
[26] Hugo Laurençon, Lucile Saulnier, Thomas Wang, Christopher Akiki, Albert Villanova del Moral, Teven Le Scao, Leandro Von Werra, Chenghao Mou, Eduardo González Ponferrada, Huu Nguyen, et al. The bigscience roots corpus: A 1.6 tb composite multilingual dataset. Advances in Neural Information Processing Systems, 35:31809–31826, 2022.
[27] Teven Le Scao, Angela Fan, Christopher Akiki, Ellie Pavlick, Suzana Ilić, Daniel Hesslow, Roman Castagné, Alexandra Sasha Luccioni, François Yvon, Matthias Gallé, et al. Bloom: A 176b-parameter open-access multilingual language model. 2023.
[28] Katherine Lee, Daphne Ippolito, Andrew Nystrom, Chiyuan Zhang, Douglas Eck, Chris Callison-Burch, and Nicholas Carlini. Deduplicating training data makes language models better. arXiv preprint arXiv:2107.06499, 2021.
[29] Aitor Lewkowycz, Anders Andreassen, David Dohan, Ethan Dyer, Henryk Michalewski, Vinay Ramasesh, Ambrose Slone, Cem Anil, Imanol Schlag, Theo Gutman-Solo, et al. Solving quantitative reasoning problems with language models. Advances in Neural Information Processing Systems, 35:3843–3857, 2022.
[30] Jeffrey Li, Alex Fang, Georgios Smyrnis, Maor Ivgi, Matt Jordan, Samir Gadre, Hritik Bansal, Etash Guha, Sedrick Keh, Kushal Arora, et al. Datacomp-lm: In search of the next generation of training sets for language models. arXiv preprint arXiv:2406.11794, 2024.
[31] Raymond Li, Loubna Ben Allal, Yangtian Zi, Niklas Muennighoff, Denis Kocetkov, Chenghao Mou, Marc Marone, Christopher Akiki, Jia Li, Jenny Chim, et al. Starcoder: may the source be with you! arXiv preprint arXiv:2305.06161, 2023.
[32] Zehan Li, Xin Zhang, Yanzhao Zhang, Dingkun Long, Pengjun Xie, and Meishan Zhang. Towards general text embeddings with multi-stage contrastive learning. arXiv preprint arXiv:2308.03281, 2023.
[33] Stephanie Lin, Jacob Hilton, and Owain Evans. Truthfulqa: Measuring how models mimic human falsehoods, 2021.
[34] Shayne Longpre, Gregory Yauney, Emily Reif, Katherine Lee, Adam Roberts, Barret Zoph, Denny Zhou, Jason Wei, Kevin Robinson, David Mimno, et al. A pretrainer’s guide to training data: Measuring the effects of data age, domain coverage, quality, & toxicity. arXiv preprint arXiv:2305.13169, 2023.
[35] Ian Magnusson, Akshita Bhagia, Valentin Hofmann, Luca Soldaini, Ananya Harsh Jha, Oyvind Tafjord, Dustin Schwenk, Evan Pete Walsh, Yanai Elazar, Kyle Lo, et al. Paloma: A benchmark for evaluating language model fit. arXiv preprint arXiv:2312.10523, 2023.
[36] Sachin Mehta, Mohammad Hossein Sekhavat, Qingqing Cao, Maxwell Horton, Yanzi Jin, Chenfan Sun, Iman Mirzadeh, Mahyar Najibi, Dmitry Belenko, Peter Zatloukal, et al. Openelm: An efficient language model family with open-source training and inference framework. arXiv preprint arXiv:2404.14619, 2024.
[37] Paulius Micikevicius, Sharan Narang, Jonah Alben, Gregory Diamos, Erich Elsen, David Garcia, Boris Ginsburg, Michael Houston, Oleksii Kuchaiev, Ganesh Venkatesh, et al. Mixed precision training. arXiv preprint arXiv:1710.03740, 2017.
[38] Todor Mihaylov, Peter Clark, Tushar Khot, and Ashish Sabharwal. Can a suit of armor conduct electricity? a new dataset for open book question answering. In EMNLP, 2018.
[39] Swaroop Mishra, Daniel Khashabi, Chitta Baral, and Hannaneh Hajishirzi. Cross-task generalization via natural language crowdsourcing instructions. In ACL, 2022.
[40] Yixin Nie, Adina Williams, Emily Dinan, Mohit Bansal, Jason Weston, and Douwe Kiela. Adversarial nli: A new benchmark for natural language understanding. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2020.
[41] Nomic. Structure unstructured data: Interact, discover insights and build with unstructured text, image and audio data., 2024. Accessed: 2024-06-12.
[42] Denis Paperno, Germán Kruszewski, Angeliki Lazaridou, Ngoc Quan Pham, Raffaella Bernardi, Sandro Pezzelle, Marco Baroni, Gemma Boleda, and Raquel Fernandez. The LAMBADA dataset: Word prediction requiring a broad discourse context. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1525–1534, Berlin, Germany, August 2016. Association for Computational Linguistics.
[43] Guilherme Penedo, Hynek Kydlíček, Anton Lozhkov, Margaret Mitchell, Colin Raffel, Leandro Von Werra, Thomas Wolf, et al. The fineweb datasets: Decanting the web for the finest text data at scale. arXiv preprint arXiv:2406.17557, 2024.
[44] Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Hamza Alobeidli, Alessandro Cappelli, Baptiste Pannier, Ebtesam Almazrouei, and Julien Launay. The refinedweb dataset for falcon llm: Outperforming curated corpora with web data only. Advances in Neural Information Processing Systems, 36, 2024.
[45] Jack W Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, et al. Scaling language models: Methods, analysis & insights from training gopher. arXiv preprint arXiv:2112.11446, 2021.
[46] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of machine learning research, 21(140):1–67, 2020.
[47] Siva Reddy, Danqi Chen, and Christopher D Manning. Coqa: A conversational question answering challenge. Transactions of the Association for Computational Linguistics, 7:249–266, 2019.
[48] Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula, and Yejin Choi. Winogrande: an adversarial winograd schema challenge at scale. Commun. ACM, 64(9):99–106, aug 2021.
[49] Victor Sanh, Albert Webson, Colin Raffel, Stephen H. Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Teven Le Scao, Arun Raja, Manan Dey, M Saiful Bari, Canwen Xu, Urmish Thakker, Shanya Sharma Sharma, Eliza Szczechla, Taewoon Kim, Gunjan Chhablani, Nihal Nayak, Debajyoti Datta, Jonathan Chang, Mike Tian-Jian Jiang, Han Wang, Matteo Manica, Sheng Shen, Zheng Xin Yong, Harshit Pandey, Rachel Bawden, Thomas Wang, Trishala Neeraj, Jos Rozen, Abheesht Sharma, Andrea Santilli, Thibault Fevry, Jason Alan Fries, Ryan Teehan, Stella Biderman, Leo Gao, Tali Bers, Thomas Wolf, and Alexander M. Rush. Multitask prompted training enables zero-shot task generalization, 2021.
[50] Maarten Sap, Hannah Rashkin, Derek Chen, Ronan LeBras, and Yejin Choi. Socialiqa: Commonsense reasoning about social interactions. arXiv preprint arXiv:1904.09728, 2019.
[51] Zhiqiang Shen, Tianhua Tao, Liqun Ma, Willie Neiswanger, Joel Hestness, Natalia Vassilieva, Daria Soboleva, and Eric Xing. Slimpajama-dc: Understanding data combinations for llm training. arXiv preprint arXiv:2309.10818, 2023.
[52] Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, et al. Dolma: An open corpus of three trillion tokens for language model pretraining research. arXiv preprint arXiv:2402.00159, 2024.
[53] MosaicML NLP Team. Introducing mpt-7b: A new standard for open-source, commercially usable llms, 2023. Accessed: 2023-05-05.
[54] Snowflake AI Research Team. Snowflake arctic: The best llm for enterprise ai — efficiently intelligent, truly open, 2023. Accessed: 2024-05-27.
[55] Kushal Tirumala, Daniel Simig, Armen Aghajanyan, and Ari Morcos. D4: Improving llm pretraining via document de-duplication and diversification. Advances in Neural Information Processing Systems, 36, 2024.
[56] Yury Tokpanov, Beren Millidge, Paolo Glorioso, Jonathan Pilault, Adam Ibrahim, James Whittington, and Quentin Anthony. Zyda: A 1.3t dataset for open language modeling, 2024.
[57] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.
[58] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288, 2023.
[59] Ben Wang and Aran Komatsuzaki. GPT-J-6B: A 6 Billion Parameter Autoregressive Language Model. https://github.com/kingoflolz/mesh-transformer-jax, May 2021.
[60] Johannes Welbl, Nelson F Liu, and Matt Gardner. Crowdsourcing multiple choice science questions. arXiv preprint arXiv:1707.06209, 2017.
[61] Guillaume Wenzek, Marie-Anne Lachaux, Alexis Conneau, Vishrav Chaudhary, Francisco Guzmán, Armand Joulin, and Edouard Grave. Ccnet: Extracting high quality monolingual datasets from web crawl data. arXiv preprint arXiv:1911.00359, 2019.
[62] Sang Michael Xie, Shibani Santurkar, Tengyu Ma, and Percy S Liang. Data selection for language models via importance resampling. Advances in Neural Information Processing Systems, 36:34201–34227, 2023.
[63] Linting Xue, Noah Constant, Adam Roberts, Mihir Kale, Rami Al-Rfou, Aditya Siddhant, Aditya Barua, and Colin Raffel. mT5: A massively multilingual pre-trained text-to-text transformer. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 483–498, Online, June 2021. Association for Computational Linguistics.
[64] Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, and Yejin Choi. Hellaswag: Can a machine really finish your sentence? In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019.
[65] Ge Zhang, Scott Qu, Jiaheng Liu, Chenchen Zhang, Chenghua Lin, Chou Leuang Yu, Danny Pan, Esther Cheng, Jie Liu, Qunshu Lin, et al. Map-neo: Highly capable and transparent bilingual large language model series. arXiv preprint arXiv:2405.19327, 2024.
[66] Yanli Zhao, Andrew Gu, Rohan Varma, Liang Luo, Chien-Chin Huang, Min Xu, Less Wright, Hamid Shojanazeri, Myle Ott, Sam Shleifer, et al. Pytorch fsdp: experiences on scaling fully sharded data parallel. arXiv preprint arXiv:2304.11277, 2023.

Appendix A Intended Uses

RedPajamaデータセットは、大規模言語モデルの訓練データを提供するという主要な使用事例を念頭に作成された。RedPajamaは様々なソースとドメインからのデータを含んでいる。RedPajama-V1は、ウェブスクレイピングによって得られたデータ、Wikipediaの記事、arXivで入手可能な論文から抽出された科学的内容、さらに様々なプログラミング言語のコードを含んでいる。RedPajama-V2は、ウェブスクレイピングに基づくデータのみを含んでおり、生のデータセットをフィルタリングするために使用されることを意図した一連の品質シグナルを伴っている。

Appendix B Dataset Accessibility

RedPajama-V1とRedPajama-V2の両方は、Huggingface Hubからhttps://huggingface.co/datasets/togethercomputer/RedPajama-Data-1Tおよびhttps://huggingface.co/datasets/togethercomputer/RedPajama-Data-V2でダウンロードが可能である。

公開HTTPエンドポイントによるアクセス。我々は、公開HTTPSエンドポイントを通じてもデータセットへのアクセスを提供している。RedPajama-V1データセットのコンポーネントのURLリストはhttps://data.together.xyz/redpajama-data-1T/v1.0.0/urls.txtから取得できる。RedPajama-V2の異なるコンポーネントのURLリストは、以下のURLから取得できる：

•

生のテキストドキュメントはhttps://data.together.xyz/redpajama-data-v2/v1.0.0/urls/document-urls.txtから取得できる
•

headおよびmiddleパーティションの品質シグナルはhttps://data.together.xyz/redpajama-data-v2/v1.0.0/urls/quality_signals-urls.txtから取得できる
•

完全な重複であるドキュメントIDのリストはhttps://data.together.xyz/redpajama-data-v2/v1.0.0/urls/duplicates-urls.txtから取得できる
•

ミンハッシュシグネチャはhttps://data.together.xyz/redpajama-data-v2/v1.0.0/urls/minhash-urls.txtから取得できる

B.1 Structure of the datasets

RedPajama-V1とRedPajama-V2はともにJSON Lines形式で配布され、シャードに分割されている。その性質の違いにより、2つのデータセットは異なる構造を持っている。

B.1.1 RedPajama-V1

RedPajama-V1は7つのドメインで構成され、それに応じて構造化されている。Common Crawlサブセットを除き、各コンポーネントは以下の構造に従っている。

⬇

{

"text": "...", "meta": {...}

}

metaフィールドは異なるソース間で変化する：

•

Arxivサブセットには、timestamp、yymm、arxiv_id、language、urlのmetaフィールドがある。
•

C4サブセットには、timestamp、source、language、urlのmetaフィールドがある。
•

Githubサブセットには、content_hash, timestamp, source, line_count, max_line_length, avg_line_length, alnum_prop, repo_name, id, size, binary, copies, ref, path, mode, license, languageのmetaフィールドがある。
•

Stack Exchangeサブセットには、timestamp、source、language、question_score、urlのmetaフィールドがある。
•

Wikipediaサブセットには、timestamp、title、language、urlのmetaフィールドがある。

Common Crawlサブセットは以下の構造に従っている。

⬇

{

"text": "...",

"pred_label": ...,

"pred_label_prob": ...,

"wiki_prob": ...,

"source": "..."

}

B.1.2 RedPajama-V2

データセットの核心は、テキスト文書と、それに付随する品質アノテーション、重複ID、およびミンハッシュ署名で構成されている。テキスト文書については、構造は主にCCNetで定義されたものに従っている。具体的には、特定のCommonCrawlスナップショットの文書は5000のシャードに分割され、ファイル名はシャード、文書の言語、および複雑性バケット（パーティション）を示している。品質アノテーション、重複、ミンハッシュも同じロジックに従い、生の文書のファイル名を反映している。

ファイル構造。生のテキスト文書を含むファイルは、以下のパターンに従って整理されている：

documents/<snapshot_id>/<shard_id>/<lang>_<ppl_bucket>.json.gz

ここで、snapshot_idはRPv2に含まれるクロールのいずれかに対応し、shard_idは0000から4999の範囲、langはen, de, fr, esまたはitのいずれかである。最後に、ppl_bucketはWikipediaの複雑性に基づくパーティショニングを示し、head、middle、またはtailのいずれかである。同様に、品質シグナル、重複ID、ミンハッシュは以下のパターンに従う：

quality_signals/<snapshot_id>/<shard_id>/<lang>_<ppl_bucket>.signals.json.gz, duplicates/<snapshot_id>/<shard_id>/<lang>_<ppl_bucket>.duplicates.parquet,

および

minhashes/<snapshot_id>/<shard_id>/<lang>_<ppl_bucket>.minhash.parquet。

文書の構造。documentsはGzip圧縮されたJSONLファイルとして保存され、以下のスキーマに従っている：

⬇

{

"url": "...",

"date_download": "...",

"digest": "...",

"length": ...,

"nlines": ...,

"source_domain": "...",

"title": "...",

"raw_content": "...",

"cc_segment": "...",

"original_nlines": ...,

"original_length": ..,

"line_ids": [...],

"language": "...",

"language_score": ...,

"perplexity": ...,

"bucket": "..."

}

品質シグナルの構造。quality signalsはGzip圧縮されたJSONLファイルで、以下のスキーマに従っている：

⬇

{

Appendix C RedPajama-V1

ここでは、RedPajama-V1データセットに関する追加の詳細と結果を提供する。

C.1 Filtering Heuristics for Code obtained from GitHub

本稿の主要部分で示したように、我々はApache、BSD、MITライセンスの下にあるプロジェクトのみを保持することで生のGitHubデータセットをフィルタリングし、さらにThe Stackデータセット[25]で使用されているものと同様のフィルタリングヒューリスティクスを適用している。具体的には、以下の一連のヒューリスティクスを適用し、以下の特性を持つファイルを除外している：

•

最大行長が1000文字を超えるもの。
•

平均行長が100文字を超えるもの。
•

英数字の割合が0.25未満のもの。
•

アルファベット文字数とトークン数の比率が1.5未満のもの。
•

拡張子が以下のホワイトリストに含まれていないもの： .asm, .bat, .cmd, .c, .h, .cs, .cpp, .hpp, .c++, .h++, .cc, .hh, .C, .H, .cmake, .css, .dockerfile, .f90, .f, .f03, .f08, .f77, .f95, .for, .fpp, .go, .hs, .html, .java, .js, .jl, .lua, .md, .markdown, .php, .php3, .php4, .php5, .phps, .phpt, .pl, .pm, .pod, .perl, .ps1, .psd1, .psm1, .py, .rb, .rs, .sql, .scala, .sh, .bash, .command, .zsh, .ts, .tsx, .tex, .vb, Dockerfile, Makefile, .xml, .rst, .m, .smali

C.2 Detailed Evaluations for the RedPajama-INCITE LLMs

ここでは、RedPajama-V1データセットで訓練されたRedPajama-INCITE 3Bおよび7B LLMsの詳細なベンチマークスコアを提供する。

表7: lm-evaluation-harness（ゼロショット）とHELMの一部におけるRedPajama-INCITE-Base-3B-v1の結果。同程度のパラメータ数のモデルと比較している。各ベンチマークで最高スコアのモデルは太字で強調されている。

	Lambada OpenAi (acc)	Hellaswag (acc_norm)	Winogrande (acc)	Piqa (acc)	Avg.	HELM avg.
GPT-Neo	0.6223	0.5579	0.5769	0.7219	0.6197	0.3570
Pythia-2.8B	0.6466	0.5933	0.6006	0.7399	0.6451	0.3770
Pythia-2.8B-dedup	0.6524	0.5941	0.5848	0.7404	0.6429	-
RedPajama-INCITE-Base-3B-v1	0.6541	0.6317	0.6322	0.7470	0.6662	0.4060

表8: RedPajama-INCITE-Base-7B-v1および指示調整済みモデルのHELMベンチマーク結果。各ベンチマークで最高スコアのモデルは太字で強調されている。

Model	RedPajama 7B Instruct	Llama 7B	MPT 7B	Falcon 7B	RedPajama 7B Base	GPT J	Falcon 7B Instruct	Pythia 7B	Dolly v2	MPT 7B Instruct	Stablelm Alpha 7B
HELM-AVG	0.492	0.472	0.444	0.441	0.431	0.417	0.407	0.400	0.396	0.393	0.288
MMLU - EM	0.366	0.345	0.294	0.285	0.323	0.249	0.271	0.266	0.238	0.349	0.293
BoolQ - EM	0.697	0.751	0.731	0.770	0.694	0.649	0.708	0.656	0.602	0.442	0.537
NarrativeQA - F1	0.623	0.524	0.541	0.549	0.512	0.545	0.381	0.427	0.441	0.220	0.218
NaturalQuestions (closed-book) - F1	0.229	0.297	0.284	0.289	0.258	0.156	0.192	0.141	0.133	0.247	0.077
NaturalQuestions (open-book) - F1	0.654	0.580	0.603	0.574	0.600	0.559	0.453	0.549	0.535	0.627	0.317
QuAC - F1	0.252	0.332	0.343	0.322	0.323	0.330	0.300	0.306	0.299	0.352	0.218
HellaSwag - EM	0.698	0.747	0.754	0.732	0.702	0.663	0.690	0.653	0.692	0.763	0.421
OpenbookQA - EM	0.488	0.574	0.540	0.546	0.504	0.514	0.498	0.496	0.516	0.532	0.394
TruthfulQA - EM	0.226	0.297	0.186	0.206	0.205	0.199	0.203	0.225	0.250	0.188	0.209
MS MARCO (regular) - RR@10	0.391	0.252	0.161	0.169	0.135	0.152	0.225	0.159	0.160	0.161	0.110
MS MARCO (TREC) - NDCG@10	0.709	0.482	0.369	0.362	0.322	0.345	0.481	0.342	0.359	0.387	0.253
CNN/DailyMail - ROUGE-2	0.143	0.149	0.137	0.147	0.137	0.131	0.114	0.101	0.140	0.148	0.045
XSUM - ROUGE-2	0.101	0.127	0.107	0.116	0.114	0.096	0.071	0.079	0.074	0.101	0.037
IMDB - EM	0.941	0.933	0.903	0.893	0.916	0.939	0.906	0.930	0.907	0.891	0.627
CivilComments - EM	0.667	0.578	0.525	0.511	0.536	0.520	0.516	0.527	0.520	0.270	0.490
RAFT - EM	0.682	0.583	0.618	0.586	0.611	0.619	0.498	0.542	0.466	0.616	0.368

表9: RedPajama-INCITE-Base-7B-v1および指示調整済みモデルのLM eval harness結果。各ベンチマークで最高スコアのモデルは太字で強調されている。

	MPT 7B Instruct	Falcon 7B	MPT 7B	RedPajama 7B Base	Llama 7B	RedPajama 7B Instruct	Falcon 7B Instruct	Dolly v2	GPT-J	Pythia 7B	StableLM Alpha 7B
LM-eval-harness-AVG	0.7195	0.7161	0.7100	0.6882	0.6881	0.6858	0.6813	0.6557	0.6526	0.6392	0.5260
arc_challenge (acc_norm)	0.4462	0.4326	0.4215	0.3925	0.4147	0.4078	0.4283	0.4027	0.3660	0.3532	0.2705
arc_easy (acc)	0.7218	0.7096	0.7008	0.6923	0.5253	0.7159	0.6789	0.6423	0.6225	0.6338	0.4487
boolq (acc)	0.7425	0.7361	0.7486	0.707	0.7315	0.6865	0.7089	0.6502	0.6544	0.6446	0.6006
copa (acc)	0.9000	0.8600	0.8500	0.880	0.8500	0.850	0.8400	0.8600	0.8300	0.7400	0.7500
hellaswag (acc_norm)	0.7717	0.7634	0.7626	0.7037	0.7620	0.7103	0.6978	0.6896	0.6625	0.6588	0.4122
lambada_openai (acc)	0.6918	0.7467	0.7056	0.7143	0.7360	0.6895	0.6831	0.6893	0.6831	0.6441	0.6379
piqa (acc_norm)	0.8041	0.8069	0.8052	0.7737	0.7810	0.7699	0.7856	0.7486	0.7617	0.7671	0.6736
winogrande (acc)	0.6780	0.6732	0.6859	0.6417	0.7040	0.6567	0.6669	0.6140	0.6409	0.6267	0.5012

C.3 Detailed Sources of Uncertainties in the Construction of the RedPajama-V1 Dataset

表10は、RedPajama-V1データセットの構築中に生じた様々な不確実性の源の詳細な概要を示している。これらの不確実性は主に、[57]で提示されたデータセットに関する詳細の不足に起因している。このリストから、RedPajama-V1とLlama-1モデルの訓練に使用されたデータセットの間にミスマッチがある可能性が高いことがわかる。我々は、これがRedPajama-INCITEとLLaMA-1の間のパフォーマンスの不一致に寄与した重要な要因であると考えている。

表10: RedPajama-V1データセットの構築中に行われた様々な不確実性と決定の概要。

Subset	Uncertainty	Decision
CommonCrawl	Which snapshots were used?	We use the first snapshot from 2019 to 2023.
	What classifier was used, and how was it constructed?	We use a fasttext classifier with unigram features and use 300k training samples.
	What threshold was used to classify a sample as high quality?	We set the threshold to match the token count reported in LLama.
GitHub	Quality filtering heuristics	We remove any file
		• with a maximum line length of more than 1000 characters.
		• with an average line length of more than 100 characters.
		• with a proportion of alphanumeric characters of less than 0.25.
		• with a ratio between the number of alphabetical characters and the number of tokens of less than 1.5.
		• whose extension is not in the following set of whitelisted extensions: .asm, .bat, .cmd, .c, .h, .cs, .cpp, .hpp, .c++, .h++, .cc, .hh, .C, .H, .cmake, .css, .dockerfile, .f90, .f, .f03, .f08, .f77, .f95, .for, .fpp, .go, .hs, .html, .java, .js, .jl, .lua, .md, .markdown, .php, .php3, .php4, .php5, .phps, .phpt, .pl, .pm, .pod, .perl, .ps1, .psd1, .psm1, .py, .rb, .rs, .sql, .scala, .sh, .bash, .command, .zsh, .ts, .tsx, .tex, .vb, Dockerfile, Makefile, .xml, .rst, .m, .smali
Wikipedia	Which Wikipedia dump was used?	We used the most recent at the time of data curation (2023-03-20).
Books	How were the books deduplicated?	We use SimHash to perform near deduplication.

Appendix D RedPajama-V2

本節では、RedPajama-V2ウェブデータセットの追加分析と統計を提供し、異なるフィルタリングを施した部分集合で訓練した比較モデルの詳細な結果を示す。

D.1 Summary Statistics of our Deduplication Approach

図3では、各クロールの時点の関数として、head+middleパーティションの文書数がどのように推移するかを示している。ここで目立つのは、2018年までは比較的安定した数値を示しているのに対し、2014年から2016年の間は文書数が大幅に少ない（例えばドイツ語では最大10倍）ことである。また、時間の経過とともにユニークな文書数がどのように推移するか（破線）にも注目に値する。具体的には、我々は最新のスナップショットから最古のものへと重複排除を実行したため、コーパス内のユニークな文書数が徐々に減少することが予想される。これは図3から観察できる（対数スケールに注意）。しかし、2014年から2017年の間のクロールでユニークな文書数が突然減少していることは注目に値する。我々は、これはその期間にCommonCrawlウェブクローラーが使用したシードリストが異なっていたことで説明できると考えている。

D.2 Quality Signals

本節では、RedPajama-V2データセットの一部である品質シグナルについて、さらなる詳細と統計を提供する。

D.2.1 Overview of Available Quality Signals

品質シグナルの集合は、自然言語を測定するもの（表12）、テキストの反復性を測定するもの（表14）、テキストの内容に基づくもの（表15）、または機械学習ベースのヒューリスティクス（表13）にグループ分けできる。さらに、ここではCCNetパイプラインによって計算される品質シグナルも表11にまとめている。

表11: CCNetパイプライン[61]由来の品質シグナル。

Annotation Tag	Description
ccnet_bucket	head, middle or tail bucket of the perplexity score
ccnet_language_score	score of the language identification model
ccnet_length	number of characters
ccnet_nlines	number of lines
ccnet_original_length	number of characters before line-level deduplication
ccnet_original_nlines	number of lines before line-level deduplication
ccnet_perplexity	perplexity of an LM trained on Wikipedia

表12: 文書が自然言語にどの程度対応しているかを測定する品質シグナルの概要。

Annotation Tag	Description	Reference(s)
rps_doc_curly_bracket	The ratio between the number of occurrences of ’{’ or ’}’ and the number of characters in the raw text.	[46]
rps_doc_frac_all_caps_words	The fraction of words in the content that only consist of uppercase letters. This is based on the raw content.	[34]
rps_doc_frac_lines_end_with_ellipsis	The fraction of lines that end with an ellipsis, where an ellipsis is defined as either "…" or "U+2026".	[44, 45]
rps_doc_frac_no_alph_words	The fraction of words that contain no alphabetical character.	[44, 45]
rps_doc_lorem_ipsum	The ratio between the number of occurrences of ’lorem ipsum’ and the number of characters in the content after normalisation.	[46]
rps_doc_mean_word_length	The mean length of words in the content after normalisation.	[44, 45]
rps_doc_stop_word_fraction	The ratio between the number of stop words and the number of words in the document. Stop words are obtained from https://github.com/6/stopwords-json.	[44, 45]
rps_doc_symbol_to_word_ratio	The ratio of symbols to words in the content. Symbols are defined as U+0023 (#), "…", and U+2026.	[44, 45]
rps_doc_frac_unique_words	The fraction of unique words in the content. This is also known as the degeneracy of a text sample. Calculated based on the normalised content.	[34]
rps_doc_unigram_entropy	The entropy of the unigram distribution of the content. This measures the diversity of the content and is computed using $\sum_{x}-\frac{x}{n}\cdot\log(\frac{1}{n})$ where the sum is taken over counts of unique words in the normalised content.	-
rps_doc_word_count	The number of words in the content after normalisation.	[44, 45]
rps_lines_ending_with_terminal_punctution_mark	Indicates whether a line ends with a terminal punctuation mark. A terminal punctuation mark is defined as one of: ".", "!", "?", "”".	[46]
rps_lines_javascript_counts	The number of occurrences of the word "javascript" in each line.	[46]
rps_lines_num_words	The number of words in each line. This is computed based on the normalised text.	[46, 44]
rps_lines_numerical_chars_fraction	The ratio between the number of numerical characters and total number of characters in each line. This is based on the normalised content.	[44]
rps_lines_start_with_bulletpoint	Whether the lines that start with a bullet point symbol. The following set of unicodes are considered a bullet point: U+2022 (bullet point), U+2023 (triangular bullet point), U+25B6 (black right pointing triangle), U+25C0 (black left pointing triangle), U+25E6 (white bullet point), U+2013 (en dash) U+25A0 (black square), U+25A1 (white square), U+25AA (black small square), U+25AB (white small square).	[43, 45]
rps_lines_uppercase_letter_fraction	The ratio between the number of uppercase letters and total number of characters in each line. This is based on the raw text.	[44]
rps_doc_num_sentences	The number of sentences in the content.	[46]

表13: 機械学習ヒューリスティクスに基づく品質シグナル。

Annotation Tag	Description	Reference(s)
rps_doc_books_importance	Given a bag of 1,2-wordgram model trained on Books $p$ , and a model trained on the source domain $q$ , This is the logarithm of the ratio $p/q$ .	[62]
rps_doc_openwebtext_importance	Given a bag of 1,2-wordgram model trained on OpenWebText $p$ , and a model trained on the source domain $q$ , this is the logarithm of the ratio $p/q$ .	[62]
rps_doc_wikipedia_importance	Given a bag of 1,2-wordgram model trained on Wikipedia articles $p$ , and a model trained on the source domain $q$ , this is the logarithm of the ratio $p/q$ .	[62]
rps_doc_ml_wikiref_score	Fasttext classifier prediction for the document being a Wikipedia reference. This is the same fasttext model used in the RedPajama-1T dataset. Only applies to English data.	[57]
rps_doc_ml_palm_score	Fasttext classifier prediction for the document being a Wikipedia article, OpenWebText sample or a RedPajama-V1 book. Only for English data.	[12], [16]
rps_doc_ml_wikipedia_score	Fasttext classifier prediction for the document being a Wikipedia article. This is used for non-English data	-

表14: テキストの反復性を測定する品質シグナルの概要。

Annotation Tag	Description	Reference(s)
rps_doc_frac_chars_dupe_10grams	The fraction of characters in duplicate word 10grams.	[43, 45]
rps_doc_frac_chars_dupe_5grams	The fraction of characters in duplicate word 5grams.	[43, 45]
rps_doc_frac_chars_dupe_6grams	The fraction of characters in duplicate word 6grams.	[43, 45]
rps_doc_frac_chars_dupe_7grams	The fraction of characters in duplicate word 7grams.	[43, 45]
rps_doc_frac_chars_dupe_8grams	The fraction of characters in duplicate word 8grams.	[43, 45]
rps_doc_frac_chars_dupe_9grams	The fraction of characters in duplicate word 9grams.	[43, 45]
rps_doc_frac_chars_top_2gram	The fraction of characters in the top word 2gram.	[43, 45]
rps_doc_frac_chars_top_3gram	The fraction of characters in the top word 3gram.	[43, 45]
rps_doc_frac_chars_top_4gram	The fraction of characters in the top word 4gram.	[43, 45]

表15: テキストの内容に基づき、有害性を測定する品質シグナルの概要。

Annotation Tag	Description	Reference(s)
rps_doc_ldnoobw_words	The number of sequences of words that are contained in the List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words blocklist. The blocklist is obtained from https://github.com/LDNOOBW/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words.	[46]
rps_doc_ut1_blacklist	A categorical id corresponding to the list of categories of the domain of the document. Categories are obtained from https://dsi.ut-capitole.fr/blacklists/	[44]

D.2.2 Histograms

品質シグナルの分布のヒストグラムを図4、5、6、および7に示す。これらの統計は2023年6月のスナップショットから得られたものであり、英語データのみを対象に計算されている。

D.3 Embedding-based Clustering

テキスト文書の意味に基づいてクラスタを計算するために、我々はRedPajama-V2データセットのフィルタリングされていない2021-04スナップショットから2,000,000文書をランダムにサンプリングし、Alibaba-NLP gte-large-en-v1.5モデル[32]を使用して各文書の中央8,192トークンの埋め込みを計算した。クラスタリングとトピックモデリング分析にはNomic Atlas[41]を使用した。クラスタと関連トピックの概要を図8に示す。ランダムにサンプリングされた6つの文書と、それぞれに対応するクラスタトピック、および各文書からランダムな空白文字の後に始まる1000文字の部分文字列を表16と表17に示す。

表16: Nomic Atlas[41]からの文書例と対応するクラスタトピック。

Cluster Topics	Document
(broad - medium - specific)
Election - Health (2) - COVID Testing	immediately moving to the Purple Tier. This is the most restrictive level in the State’s effort to control the spread of COVID-19. Businesses and residents must comply with the Purple Tier restrictions by Tuesday, Nov. 17. To determine restrictions by industry, business and activity, visit: https://covid19.ca.gov/safer-economy/ Read the full news release here: www.gov.ca.gov/2020/11/16/governor-newsom-announces-new-immediate-actions-to-curb-covid-19-transmission/ Watch the Governor’s press conference during which he made the announcement today here: www.facebook.com/CAgovernor/videos/376746553637721 According to County of Orange officials, schools that have not already opened must continue with remote classes and cannot reopen in-person. Read the County’s release here: https://cms.ocgov.com/civicax/filebank/blobdload.aspx?BlobID=118441 The California Department of Public Health has also issued a travel advisory encouraging Californians to stay home or in their region and avoid non-esse
Religion/Spirituality - Gaming - Gaming (3)	Top 100 Employers, and one of Canada’s Top Employers for Young People multiple years running! At Ubisoft Toronto, we look for people who are excited to create the future of games in one of the most diverse cities in the world. We believe that embracing our differences helps us build stronger creative teams and develop better games for all players. We are an equal-opportunity employer and welcome applications from all interested candidates. We strongly encourage applications from Indigenous people, racialized people, neurodivergent people, people with disabilities, people from gender and sexually diverse communities and/or people with intersectional identities. We are committed to providing reasonable accommodation for people with disability upon request. If this sounds like your kind of studio, what are you waiting for? Apply to join us now! We thank you for your interest, however, only those candidates selected for an interview will be contacted. No agencies please. Senior Game Design
Education - Golf - Rotary Meetings	what’s happening. Conversely, some people rely on the newsletter. Thus, the more avenues to inform people, the better. attendance at many social functions is poor, possibly due to the limited advertising reach. In practical terms, it means that social functions may be advertised in the OOC newsletter (current practice) the schedule, as is done for outdoor activities such as hikes the OOC’s Facebook group As when social functions are advertised in the newsletter, the person organizing the social function can choose how much location information to provide, especially if it is to be held at someone’s residence. OOC bylaw Article 3, Section 9 (f) states (highlighting added) (f) Social Coordinator: Shall be responsible for coordinating all social events for Club members only, and for preparing a schedule of these outings, not to be advertised to non-members. The executive voted to amend this statement by removing the limitation per Paragraph 3 of "Article 5 - Amending Formula" of the Const

表17: Nomic Atlas[41]からの文書例と対応するクラスタトピック。

Cluster Topics	Document
(broad - medium - specific)
Online Privacy - Privacy Policy - Contracts	shall be governed by the laws of the Federal Republic of Germany under exclusion of the UN Convention on the International Sale of Goods (CISG), without prejudice to any mandatory conflict of laws and consumer protection provisions. 11.2 If the Customer is an entrepreneur according to Sec. 14 German Civil Code (“BGB”), a legal person under public law or a special fund under public law the courts at the place of business of the vendor shall have exclusive jurisdiction in respect of all disputes arising out of or in connection with the relevant contract. 11.3 In the event that one or more provisions of the contract should be or become invalid or unenforceable, the validity of the remaining provisions shall not be affected thereby. The invalid or unenforceable provision shall be deemed to be replaced - as existent - with statutory provisions. In case of an unacceptable rigor to one of the parties, the contract shall be deemed invalid as a whole. 11.4 In case of deviations of these General
Religion/Spirituality - Film/Movie - Movie	Movie of Nelson Mandela’s life premieres in South Africa Nov. 04 - Stars Idris Elba and Naomie Harris attend the premiere of "Mandela: Long Walk to Freedom," based on the autobiography of anti-apartheid icon Nelson Mandela. Matthew Stock reports.
Election - Election (2) - Healthcare (4)	McAuliffe revived that language as an amendment to the budget. He also called on the General Assembly to immediately convene a special joint committee that had been created to assess the impact that repealing the ACA would have had on Virginia. The legislature will gather April 5 to consider the governor’s amendments and vetoes, but leaders said Monday that McAuliffe’s new budget language stands no better chance this time. In a joint statement, the Republican leadership of the House of Delegates said expanding Medicaid would lead to increased costs and eventually blow a hole in the state budget. “The lack of action in Washington has not changed that and in fact, the uncertainty of federal health policy underscores the need to be cautious over the long term,” the leaders, including House Speaker William J. Howell (R-Stafford) and the man selected to replace him as speaker when he retires next year, Del. Kirk Cox (R-Colonial Heights), said via email. “Virginians can barely afford our cu

D.4 Data Ablations: Detailed Evaluations

本稿の主要部分では、集計されたベンチマークスコアを示した。ここでは、より詳細な情報を提供し、各タスクのスコアを個別に報告する。結果は表18、19、および20に示されている。

表18: 468Mパラメータの言語モデルに対する異なるデータセットフィルターおよび他の強力なウェブデータセットの評価。各指標で最高スコアのデータセットは太字下線付きで、2番目に高いスコアは太字で、3番目に高いスコアのデータセットはイタリック体下線付きで示されている。

Dataset	Deduplication		Rule-based		ML Heuristics			Natural Language Inference			Coref. Res.	Sentence Completion
Dataset	Exact	Fuzzy	C4	Gopher	Classif.	DSIR	PPL	ANLI	ARC-c	ARC-e	Winogrande	Hellaswag	LAMBADA
C4								33.8	22.0	37.0	51.9	32.9	15.5
Dolma-v1.7 CC								33.5	24.0	38.3	49.6	32.3	17.3
FineWeb								34.0	23.4	37.7	51.8	32.8	18.1
RefinedWeb								32.8	22.6	38.3	51.9	31.6	17.8
RPv1-CC					✔ (Wiki-Ref.)			33.9	22.4	37.5	52.6	29.7	19.0
RPv2 (2023-14)								33.3	22.2	38.5	52.4	31.5	18.2
RPv2 (2023-14)	✔							33.9	22.1	38.1	50.6	31.3	18.0
RPv2 (2023-14)		✔		✔ (full)				34.1	22.3	38.3	52.2	32.1	18.7
RPv2 (2023-14)		✔	✔					33.4	22.7	38.9	51.1	32.4	17.5
RPv2 (2023-14)		✔		✔ (natlang)			Wiki-middle	33.4	24.2	37.7	49.8	33.1	19.2
RPv2 (2023-14)		✔		✔ (Rep.)			Wiki-middle	34.2	23.1	37.4	50.8	32.5	18.5
RPv2 (9 Dumps)		✔	✔					34.3	23.5	38.6	51.5	32.0	17.2
RPv2 (9 Dumps)		✔	✔	✔ (full)				33.5	23.3	38.4	50.2	32.8	16.8
RPv2 (9 Dumps)		✔	✔	✔ (Rep.)		✔ (Palm-mix)		33.8	21.9	38.0	52.5	32.0	17.3
RPv2 (9 Dumps)		✔	✔	✔ (Rep.)	✔ (Palm-mix)			34.6	23.3	38.6	52.2	32.7	16.4
RPv2 (9 Dumps)		✔	✔	✔ (natlang)	✔ (Palm-mix)			34.8	23.0	39.2	53.0	32.3	16.9
RPv2 (9 Dumps)		✔	✔ (line-filter)	✔ (natlang)	✔ (Palm-mix)			33.7	22.9	38.5	50.9	32.3	19.9
RPv2 (9 Dumps)		✔	custom-rules		✔ (Wiki-Ref.)		$P_{\text{wiki}}>30$	33.2	23.0	37.9	49.6	30.1	18.7
RPv2 (9 Dumps)		✔	custom-rules + Gopher-Rep		✔ (Wiki-Ref.)		$P_{\text{wiki}}>30$	33.0	23.8	38.9	50.5	30.0	18.9

表19: 468Mパラメータの言語モデルに対するMMLUおよびサブタスクの5ショット設定での評価。各指標で最高スコアのデータセットは太字下線付きで、2番目に高いスコアは太字で、3番目に高いスコアのデータセットはイタリック体下線付きで示されている。

Dataset	Deduplication		Rule-based		ML Heuristics			MMLU	Stem	Humanities	Other	Social Sciences
Dataset	Exact	Fuzzy	C4	Gopher	Classif.	DSIR	PPL	MMLU	Stem	Humanities	Other	Social Sciences
C4								24.9	26.4	24.1	25.8	23.4
Dolma-v1.7 CC								26.0	27.8	24.5	26.2	26.1
FineWeb								26.2	25.4	25.1	25.8	29.3
RefinedWeb								24.8	23.9	23.7	26.5	25.6
RPv1-CC					✔ (Wiki-Ref.)			25.1	25.1	23.7	24.0	28.5
RPv2 (2023-14)								26.3	26.7	25.3	24.1	29.6
RPv2 (2023-14)	✔							26.4	26.8	25.3	25.2	28.8
RPv2 (2023-14)		✔		✔ (full)				27.0	28.8	24.8	25.6	30.0
RPv2 (2023-14)		✔	✔					25.4	27.8	24.1	26.1	24.1
RPv2 (2023-14)		✔		✔ (natlang)			Wiki-middle	26.1	27.4	25.2	24.6	27.7
RPv2 (2023-14)		✔		✔ (Rep.)			Wiki-middle	25.5	24.3	25.2	27.8	24.8
RPv2 (9 Dumps)		✔	✔					26.3	28.3	25.3	25.8	26.6
RPv2 (9 Dumps)		✔	✔	✔ (full)				25.6	28.0	25.1	24.9	24.4
RPv2 (9 Dumps)		✔	✔	✔ (Rep.)		✔ (Palm-mix)		24.4	26.9	23.7	24.8	22.7
RPv2 (9 Dumps)		✔	✔	✔ (Rep.)	✔ (Palm-mix)			24.9	26.1	24.0	26.3	23.8
RPv2 (9 Dumps)		✔	✔	✔ (natlang)	✔ (Palm-mix)			25.3	27.8	24.2	25.4	24.5
RPv2 (9 Dumps)		✔	✔ (line-filter)	✔ (natlang)	✔ (Palm-mix)			25.1	27.5	24.0	25.0	24.4
RPv2 (9 Dumps)		✔	custom-rules		✔ (Wiki-Ref.)		$P_{\text{wiki}}>30$	27.0	27.9	25.1	26.0	30.0
RPv2 (9 Dumps)		✔	custom-rules + Gopher-Rep		✔ (Wiki-Ref.)		$P_{\text{wiki}}>30$	25.9	25.8	24.3	27.1	27.2

表20: 468Mパラメータの言語モデルに対する多肢選択タスクの評価。各指標で最高スコアのデータセットは太字下線付きで、2番目に高いスコアは太字で、3番目に高いスコアのデータセットはイタリック体下線付きで示されている。

Dataset	Deduplication		Rule-based		ML Heuristics			CoQA	OpenbookQA	PIQA	PubMedQA	SciQ	SocialIQA	TruthfulQA
Dataset	Exact	Fuzzy	C4	Gopher	Classif.	DSIR	PPL	CoQA	OpenbookQA	PIQA	PubMedQA	SciQ	SocialIQA	TruthfulQA
C4								3.8	30.2	64.4	46.0	51.7	33.4	33.3
Dolma-v1.7 CC								5.2	28.2	65.3	42.6	55.2	31.6	33.2
FineWeb								9.0	29.4	64.5	41.4	54.3	32.4	33.5
RefinedWeb								13.2	28.6	64.4	52.2	56.4	32.8	33.3
RPv1-CC					✔ (Wiki-Ref.)			11.6	25.4	57.3	40.6	56.7	33.1	33.9
RPv2 (2023-14)								12.5	29.2	61.6	40.8	53.0	32.9	31.4
RPv2 (2023-14)	✔							11.8	27.6	61.1	43.6	53.7	32.5	33.4
RPv2 (2023-14)		✔		✔ (full)				11.3	28.8	62.8	51.0	53.9	32.6	32.6
RPv2 (2023-14)		✔	✔					5.8	28.8	63.4	49.6	54.7	36.6	33.8
RPv2 (2023-14)		✔		✔ (natlang)			Wiki-middle	11.3	28.4	63.5	49.6	53.6	32.8	33.4
RPv2 (2023-14)		✔		✔ (Rep.)			Wiki-middle	11.9	29.4	63.1	52.6	53.4	32.5	31.6
RPv2 (9 Dumps)		✔	✔					6.6	29.0	62.0	36.2	53.7	33.2	34.3
RPv2 (9 Dumps)		✔	✔	✔ (full)				5.8	28.6	62.8	51.2	54.8	34.4	31.2
RPv2 (9 Dumps)		✔	✔	✔ (Rep.)		✔ (Palm-mix)		6.0	29.4	61.6	45.4	52.2	33.4	33.1
RPv2 (9 Dumps)		✔	✔	✔ (Rep.)	✔ (Palm-mix)			5.4	29.4	62.5	45.0	51.7	34.0	33.7
RPv2 (9 Dumps)		✔	✔	✔ (natlang)	✔ (Palm-mix)			4.9	28.0	62.9	52.8	52.0	33.0	33.6
RPv2 (9 Dumps)		✔	✔ (line-filter)	✔ (natlang)	✔ (Palm-mix)			6.4	27.0	63.2	47.8	52.9	32.8	32.0
RPv2 (9 Dumps)		✔	custom-rules		✔ (Wiki-Ref.)		$P_{\text{wiki}}>30$	10.0	27.8	59.6	41.2	55.8	33.3	32.0
RPv2 (9 Dumps)		✔	custom-rules + Gopher-Rep		✔ (Wiki-Ref.)		$P_{\text{wiki}}>30$	9.3	28.0	59.2	43.4	54.9	33.0	33.3

D.5 Evaluations for the 1.6B Parameter Models

表21、22、および23は、1.6Bモデルのアブレーション結果を示している。各モデルは350Bトークンで訓練された。

表21: 350Bトークンで異なるデータセットで訓練された1.6B言語モデルのダウンストリームタスク精度。

Dataset	Fuzzy Deduplication	Rule-based		ML Heuristics	Natural Language Inference			Coref. Res.	Sentence Completion
Dataset	Fuzzy Deduplication	C4	Gopher	ML Heuristics	ANLI	ARC-c	ARC-e	Winogrande	Hellaswag	LAMBADA
RefinedWeb					33.6	26.9	51.7	54.4	55.8	47.9
RPv2 (full)	✔		✔	WikiRef	32.4	27.9	51.3	56.4	47.4	47.4
RPv2 (full)	✔	✔	✔(natlang)	Palm-Mix	33.6	28.7	52.4	54.5	53.1	42.9

表22: 1.6Bパラメータ言語モデルのMMLUおよびサブタスクにおける5ショット設定での評価。

Dataset	Fuzzy Deduplication	Rule-based		ML Heuristics	MMLU
Dataset	Fuzzy Deduplication	C4	Gopher	ML Heuristics	MMLU	Stem	Humanities	Other	Social Sciences
RefinedWeb					25.3	24.9	24.9	27.0	24.7
RPv2 (full)	✔		✔	WikiRef	25.2	26.0	26.7	23.9	23.3
RPv2 (full)	✔	✔	✔(natlang)	Palm-Mix	24.7	25.7	25.4	23.8	23.4

表23: 1.6Bパラメータ言語モデルの多肢選択タスクにおける評価。

Dataset	Fuzzy Deduplication	Rule-based		ML Heuristics	CoQA	OpenbookQA	PIQA	PubMedQA	SciQ	SocialIQA	TruthfulQA
Dataset	Fuzzy Deduplication	C4	Gopher	ML Heuristics	CoQA	OpenbookQA	PIQA	PubMedQA	SciQ	SocialIQA	TruthfulQA
RefinedWeb					47.4	31.6	73.8	57.0	75.3	41.0	36.6
RPv2 (full)	✔		✔	WikiRef	43.7	32.6	67.4	55.6	72.7	40.4	36.9
RPv2 (full)	✔	✔	✔(natlang)	Palm-Mix	22.1	32.2	71.3	55.2	71.0	42.2	35.7

Appendix E Author Responsibility Statement

この集約データセットは、ODC-By-1.0の条件、および構成部分に適用される可能性のあるライセンスの下で、あなたにライセンス供与されている。

我々は、このデータセットに含まれるデータの正確性と合法性を確保するためにあらゆる努力を払ってきたが、その規模のため、絶対的な完全性や正確性を保証することはできない。したがって、このデータセットの使用を通じて、著作権侵害、プライバシー侵害、機密情報の不正使用を含むがこれらに限定されない、いかなる権利や法的またはその他の侵害が発生した場合、我々著者はそのような侵害に対して一切の責任を負わない。データセットは「現状のまま」提供され、明示または黙示を問わず、いかなる種類の保証もない。

このデータセットを利用することにより、あなたは、このデータセットの使用から生じる法的またはその他の結果について、全面的に責任を負うことに同意する。あなたは、データセットを使用する際に、適用されるすべての法律、規制、倫理的ガイドラインを遵守し、相当の注意を払うことを認める。このデータセットにアクセス、ダウンロード、または使用することにより、あなたはこの声明を受け入れ、ライセンスの条件を遵守することを約束したことになる。

Appendix F License

GitHub リポジトリ ⁸⁸8https://github.com/togethercomputer/RedPajama-Data で提供されているコードは、Apache 2.0 ライセンスの下で配布されている。データセット自体については、Common Crawl アーカイブから派生したデータセットに関しては、Common Crawl Foundation の利用規約 ⁹⁹9https://commoncrawl.org/terms-of-use を参照されたい。その他のデータセットについては、元々配布されていたライセンスを参照されたい。具体的には以下の通りである：

•

C4 データセット：https://huggingface.co/datasets/allenai/c4#license
•

GitHub サブセットは MIT、BSD、または Apache ライセンスのみに限定されている
•

arXiv サブセットに関する arXiv の利用規約：https://info.arxiv.org/help/api/tou.html
•

Wikipedia 由来のデータに関する Wikipedia ライセンス：https://huggingface.co/datasets/legacy-datasets/wikipedia#licensing-information
•

StackExchange データに関する Internet Archive 上の StackExchange ライセンス：https://archive.org/details/stackexchange

さらに、我々はユーザーに対し、使用するサブセットごとに個別のライセンスを遵守するよう要請する。