UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages
Abstract
大規模言語モデル(LLM)は、訓練データが限られているため、低リソース言語において性能が低下する。我々は、Common Crawl全体から低リソース言語のテキストデータを効率的に収集する手法を提示する。我々のアプローチであるUnifiedCrawlは、最小限の計算リソースを用いてCommon Crawlをフィルタリングおよび抽出し、これまで利用可能だったソースよりもはるかに大規模な単一言語データセットを生成する。このデータを活用し、効率的なアダプター手法(QLoRA)を通じて多言語LLMをファインチューニングすることで、低リソース言語の性能を大幅に向上させつつ、VRAMの使用を最小限に抑えることを実証する。我々の実験では、言語モデリングのパープレキシティに大きな改善が見られ、少数ショットプロンプティングのスコアも向上した。本稿と公開されたソースコードは、消費者向けハードウェアを使用して低リソース言語のLLMを改善するための手頃なアプローチを提供する。我々のソースコードはhttps://github.com/bethelmelesse/unifiedcrawlで入手可能である。
1 Introduction
生成AIは我々の日常生活に不可欠な存在となり、自然言語処理(NLP)やコンピュータビジョン(CV)の専門性を通じて、様々な形で我々を支援している。
自然言語処理(NLP)の分野において、生成モデルは一貫性があり文脈に適した文章を生成する上で重要な役割を果たしている。これらのモデルは、深層学習アーキテクチャ、特にトランスフォーマーベースのアーキテクチャを活用し、膨大な量のテキストデータで事前学習を行うことで、言語のニュアンスを学習している。これらのモデルは大規模なデータセットから言語のパターンと構造を学習し、入力データに類似した新しいテキストを生成することができる。
大規模言語モデル(LLM)によって駆動されるこれらのモデルは、その巨大なサイズによって特徴付けられ、多くの場合、パラメータ数で測定され、しばしば数十億に及ぶ。この膨大な数のパラメータにより、これらのモデルは複雑な言語パターンと文脈を捉えることができ、様々なNLPタスクにおいてパフォーマンスの向上をもたらしている。
例えば、OpenAIのGPT(Generative Pre-trained Transformer)シリーズBrown et al. (2020); OpenAI (2022, 2023b, 2023a)は、AI NLPツールに対する一般の人々の見方と使用法を変革する上で基本的な役割を果たしてきた。1750億のパラメータを持つGPT-3 Brown et al. (2020)は、トランスフォーマーベースのモデルのスケーラビリティを示す画期的なマイルストーンを表している。この技術は、商業利用における幅広い適用可能性により、大きな経済的潜在力を示している。
1.1 Problem Definition
大規模で多様なデータセット(多くの場合、高リソース言語で構成される)の利用可能性を活用することで、LLMはそれらの言語的文脈において人間のような応答を模倣し、優れたコンテンツ生成能力を示してきた。しかし、低リソース言語でプロンプトを与えられた場合、トレーニングデータとリソースの制限により、その性能は著しく低下する。この制限により、一貫性に欠ける応答が生成される結果となる。例えば、低リソース言語(エチオピアで最も広く使用されているアムハラ語(ISO:amh)など)でクエリを与えた場合、GPT-turbo-3.5OpenAI (2023b)のようなモデルは理解不能な出力を生成する。この課題は、高リソース言語でプロンプトを入力し、低リソース言語で応答するようモデルに指示した場合でも持続し、意味のある一貫性に欠ける文章が生成される。
LLMが低リソース言語を扱う上での制限は、主に英語中心の膨大なデータに大きく依存する初期トレーニングに起因している。セクション A.1およびA.2は、これらのLLMのトレーニングプロセスにおけるデータの分布と、高リソース言語および低リソース言語が占める割合を示している。
低リソース言語でのLLMの適応という課題に取り組むことは、その利用可能性を民主化し、実用的な適用範囲を拡大するために極めて重要である。しかし、LLMの事前トレーニングは、主に2つの理由から非常にコストがかかる可能性がある。
第一に、前述の通り、LLMの事前トレーニングには膨大な量のテキストデータが必要であり、低リソース言語ではこの要件を満たすリソースが不足していることが多い。例えば、広く使用されているCommon Crawl (CC) CommonCrawl (2007)コレクションでは、タガログ語、パンジャブ語、クルド語、ラオス語、アムハラ語などの低リソース言語は、英語、ドイツ語、ロシア語などの高リソース言語と比較して、ごくわずかな割合(0.01%未満)しか占めていない(A)。
第二に、膨大なパラメータ数で特徴付けられるLLMのトレーニングの資源集約的な性質は、大量のGPUパワー、メモリ、時間を必要とする。例えば、gpt-3.5-turbo(1,750億パラメータ)、Claude Bai et al. (2022)(520億パラメータ)、LLaMA Touvron et al. (2023)(16億パラメータ)のようなモデルは、非常に資源集約的なトレーニングプロセスを意味する。表 9はこれらのLLMのサイズの詳細を提供している。結果として、これらのLLMの巨大なサイズにより、トレーニングは非常に高価となり、裕福でないコミュニティ/国家、小規模企業、教育機関にとってはアクセス不可能となっている。
本稿では、以下の研究課題を調査することを主な目的としている:
-
1.
低リソース言語でLLMの性能を向上させるにはどうすればよいか?
-
2.
LLM用の低リソース言語における十分なトレーニングデータをどのように収集できるか?
-
3.
消費者向けデバイスのメモリ、ストレージ、計算能力の制約の中で、上記をどのように達成できるか?
1.2 Proposed Method
前述の課題に対処するため、我々は低リソース言語のデータ不足を克服し、低コストのハードウェアでLLMを効率的に訓練する手法を活用する新しいアプローチを提案する。
我々の提案手法は、Common Crawlコーパス全体から特定の低リソース言語に関する包括的なテキストコンテンツを抽出するための、効率的かつコスト効果の高いデータ収集戦略の開発を含む。図 3は我々のアーキテクチャを示している。データ収集パイプラインの各ステップにおけるメモリ、計算、ネットワーク使用量に特に注意を払うことで、我々の手法は個人用の一般的なハードウェアで完全に実行できるよう最適化されている - Common Crawlデータセット全体の処理は、10GB未満のRAMとストレージを使用して数日で達成できる。このプロセスの結果が、我々の慎重に選別されたUnifiedCrawlと呼ばれるデータセットである。我々の手法を使用することで、特定の低リソース言語のための単一言語コーパスを正常に抽出することができ、図 2に示すように、以前にコンパイルされたコレクションのサイズを大幅に上回ることができた。
その後、収集されたデータセットで多言語大規模言語モデル(LLM)を微調整するために、量子化と軽量な低ランクアダプターを活用する。この革新的な技術により、一般消費者向けGPUで例外的に大規模なモデルを利用することが可能となり、訓練のアクセシビリティと経済性が向上する。
図 1は、我々の提案スキームの全体的な概念を示している。我々のアプローチは、データ抽出手法を用いてCommon Crawlコーパスから抽出したUnifiedCrawlデータセットで事前訓練済みモデルを微調整することを含む。結果として得られた微調整済みモデルは、その後のダウンストリームタスクに適用することができる。
2 Related Works
2.1 Multilingual Large Language Models
近年、多言語大規模言語モデル(LLM)の開発が顕著に増加しており、言語間の理解の向上に貢献している。これらの大規模言語モデルの例を付録 Bに示しており、モデルの種類、サイズ、および学習対象言語数が含まれている。
これらの多言語モデルは多数の言語をカバーすることで言語的包括性に向けて前進しているが、依然として相当数の話者人口を持つ数百の低リソース言語を見過ごしている。これにより、高リソース言語と比較して多くの言語におけるモデルの効果が妨げられている。この制限は主に、低リソース言語に利用可能なオンライン学習データが不足していることに起因している。
本稿では、我々が収集したデータセットで学習することにより、上記のモデル(特にXGLMモデル)の低リソース言語における性能を向上させることを目指している。
2.2 Large Multilingual or Monolingual Datasets
我々は、特に多言語領域において言語モデルを学習する上でデータが重要な要素であることに注目している。しかし、言語や領域間でデータ量に大きな格差がある。最大規模のCommon Crawlコーパス(多様なウェブページを含む膨大なウェブアーカイブで、多数の言語やトピックにおけるテキストデータの豊富な源)においてさえ、41以上の言語がデータの0.01%未満を占め、100言語が0.1%を占めるに過ぎない - Common Crawlにおけるデータ量は図 4および5に示すようにほぼ指数関数的に減少している。これにより、世界の言語のうちごく一部のみが進化する言語技術やアプリケーションに表現されているJoshi et al. (2020)。
本研究では、特定の低リソース言語について、Common Crawl内の全アーカイブから利用可能なすべてのテキストデータを抽出する。Common Crawlデータセットを選択した理由は、インターネット全体を体系的にスクレイピングしているその膨大なサイズと多言語の包括性を活用し、利用可能なデータの獲得を最大化するという我々の目的に基づいている。
2.3 Common Crawl and Dataset Extraction
その広範な範囲のため、Common Crawl(CC)とその派生物は大規模言語モデルの事前学習に頻繁に使用されており、LLaMA Touvron et al. (2023)、GPT-3 Brown et al. (2020)、Falcon Almazrouei et al. (2023)、PALM Chowdhery et al. (2023)、Stable LM Islamovic (2023)などの最先端モデルの大半が、Common Crawlコーパスから得られたデータセットを学習パイプラインに組み込んでいる。この統合により、様々な分野や言語において人間のようなテキストを理解し生成する能力が向上している。
Common Crawlコーパスから抽出された複数の小規模データセットが、言語モデルの学習に貢献している。例えば、トランスフォーマーモデルの学習のために単一言語コーパスを抽出したCC-net Wenzek et al. (2020)、公開されているCCアーカイブからデータを収集したmC4 AllenAI (2021)、最新のCCアーカイブから単一言語コーパスのリリースに焦点を当てたOSCARプロジェクト Abadji et al. (2022)などがある。これらのサブセットは、mT5(mC4を使用) Xue et al. (2021)、BLOOM(OSCARを使用) Scao et al. (2022)などの最先端モデルの学習に使用されている。
しかし、共通の問題が残っている:共通コーパスから抽出された多くのデータセットは、しばしば一つの言語(例:CC-net)や少数のアーカイブ(例:OSCAR)に限定されているか、最新のCommon Crawlダンプで更新されていない(例:mC4)。さらに、コーパスの膨大な規模のため、すべてのCommon Crawlアーカイブから特定の言語のテキストデータを単純に抽出することは、時間とメモリを大量に消費するため困難である。また、これらのデータセットは最新のCommon Crawlアーカイブからのデータで容易に更新することができない。この制限により、特に非常に低リソースな言語のデータ抽出が妨げられ、利用可能なデータセットにおける言語的多様性の欠如につながっている。
これらの課題と制限に対応するため、我々は、以前のアーカイブと比較してはるかに大きい最新のCommon Crawlアーカイブを含む、すべてのCCアーカイブから低リソース言語のテキストデータを抽出する費用対効果の高い手段を提示する。我々の貢献には、他の研究者が低リソース言語のためにCCから独自のデータセットを抽出できるようにするコードベースのリリースが含まれる。これにより、我々はデータセット抽出方法論における既存のギャップに対処し、低リソース言語コンテキストにおける言語学研究の進歩に貢献することを目指している。
2.4 Deduplication
本稿で採用したもう一つの方法には、重複排除技術が含まれる。ウェブスクレイピングによって得られた生のテキストデータセットには、同じ行が複数回含まれていることがよくあるLee et al. (2022)。このデータセット内の繰り返しは、学習プロセスを遅くするだけでなく、モデルの汎化能力を制限するため、学習プロセスに悪影響を与える可能性がある。これらの課題を克服するために、抽出されたデータセットに何らかの形の重複排除を適用することが重要である。
これまでに多くの重複排除方法が提案され、先行研究で採用されている。例えば、CC-Netは段落ベースの完全ハッシュ重複排除を利用し、一方で、MinHash Broder (1997)、MinHash-LSH Baluja and Covell (2007)、SimHash Sadowski and Levin (2007); Gyawali et al. (2020)などの近似手法は、異なる文脈でより高速な重複排除のために使用されることがあるScao et al. (2022); Almazrouei et al. (2023)。
我々のデータ抽出パイプラインでは、Lee et al. (2022)の完全部分文字列重複排除方法を選択した。これはmC4、OSCAR、CC100で採用されているのと同じアプローチである。このアプローチは冗長性に効果的に対処するだけでなく、抽出されたテキストにしばしば存在する一般的なヘッダー/フッターのアーティファクトも除去し、データセットの全体的な品質を向上させる。我々の提案スキーム内でこの重複排除方法を採用することにより、モデルの学習に積極的に貢献する高品質なデータセットを抽出することを目指している。これにより、学習の加速、パープレキシティの改善、およびモデルの記憶の可能性の低減が期待される。
2.5 Low Resource Model Adaptation
大規模言語モデルのトレーニング(事前学習/微調整)は、その膨大なパラメータ数とリソース集約的な性質により、主要な企業や機関の設定を超えて実施することは多くの場合、非現実的である。例えば、多数のパラメータを持つモデルのトレーニングには、相当量のGPUメモリと時間を消費する - 例えば7Bモデルには28GBのGPU VRAMが必要であり、これは大半の消費者向けGPUの範囲外である。 この課題を緩和するための効果的な解決策には、LLMへの量子化技術の統合が含まれる。量子化は、量子化認識トレーニング Wang et al. (2023) やGptQ Frantar et al. (2023)、SmoothQuant Xiao et al. (2023)、bitsandbytes Dettmers et al. (2022) などのポストトレーニング量子化アプローチを通じて達成できる。これらの技術は、モデルパラメータの精度を低下させることで、より効率的な保存と計算を可能にし、GPU VRAMの使用量を劇的に削減する。
しかしながら、微調整は依然としてモデルパラメータに対する高価な勾配を必要とする。これに対処するため、より資源効率の高いアプローチとして、Hu et al. (2022)によって提案された、凍結されたLLMにアダプターをトレーニングする低ランク適応(LoRA)がある。LoRAは、事前学習済みモデルの重みを戦略的に凍結し、モデルのアーキテクチャにより小さな訓練可能な重みを導入する。これらの追加された低ランク行列のみが訓練されるため、全体の訓練可能なパラメータ数と最適化器の状態が大幅に削減され、それに応じてGPUメモリの要件も削減される。RoBERTa Liu et al. (2019)、DeBERTa He et al. (2021)、GPT-2 Radford et al. (2019)、GPT-3 Brown et al. (2020) などのいくつかの事前学習済みモデルでの実験により、LoRAは既存のアダプターやプロンプトベースの手法と同等またはそれ以上の性能を達成することが示されている。
この手法はさらにQLoRA Dettmers et al. (2023) に拡張され、量子化とアダプタートレーニングを組み合わせている。QLoRAはメモリ使用量をさらに削減し、完全な16ビット微調整タスクの性能を維持しながら、単一の48GB GPUで650億パラメータのモデルの微調整を可能にする。
3 Methods
本節では、まず、限られた計算資源を用いてCommon Crawlデータセットから低資源言語の訓練データを収集し処理する方法と手順を提示する。さらに、抽出された訓練データセットを用いて、限られたGPUリソースで大規模言語モデルを効率的に訓練する手法を採用する。
3.1 Data Collection Framework
低資源言語の生テキストデータは、コモンクロールデータセットから収集される。コモンクロールデータセットは非常に大規模であり、1回のクロールアーカイブあたり約100テラバイト、年間複数のアーカイブが存在する111https://commoncrawl.org/blog/jan-feb-2023-crawl-archive-now-available。その膨大なサイズのため、コーパスから直接生テキストデータセットをダウンロードすることは困難である。本節では、単一のコモンクロールアーカイブからデータを抽出するための効率的かつコスト効果の高いフレームワークを提案する。これは利用可能なすべてのダンプに対して繰り返される。図3は、単一のコモンクロールアーカイブから生テキストデータセットを抽出するための我々のデータ収集パイプラインを示している。
3.1.1 Index Filtering
コモンクロールは、アーカイブ内の各URLに対する言語注釈を含む列形式のインデックス(CCインデックス222https://commoncrawl.org/blog/index-to-warc-files-and-urls-in-columnar-format)を提供している333https://commoncrawl.org/blog/august-2018-crawl-archive-now-available。我々はこの情報を利用して、単一のアーカイブ(例:CC-MAIN-2023-23)から特定の低資源言語を選択的に抽出する。しかし、このCCインデックスでさえ、通常、単一のアーカイブに対して数百GBである。我々は43のアーカイブを処理するため、これは合計で数十TBのインデックスだけになり、保存が困難になる。
代わりに、我々はDuckDB Raasveldt and Mühleisen (2019)、インメモリ分析データベース管理システムを利用して、対象言語を主要なコンテンツ言語とするインデックスシャードをフィルタリングする。DuckDBのインメモリフィルタリングとダウンロードを利用することで、ストレージを大量に消費する初期の一括ダウンロードとその後のフィルタリングの必要性を排除する。
さらに、我々はPythonのmultiprocessingパッケージをDuckDBと統合し、全体的なダウンロード時間をさらに短縮する。この統合により、単一システム上のすべてのCPUコアにわたって複数のプロセスを同時に使用し、並列性を活用してグローバルインタプリタロックを回避し、データ取得プロセスを加速する。DuckDBとmultiprocessingの組み合わせにより、ストレージ使用量を大幅に最適化し、全体的なダウンロードプロセスを加速する。
3.1.2 Extracting WARC Files
前のステップでフィルタリングしてダウンロードしたインデックスシャードには、クロールされたウェブページのコンテンツとそのメタデータを含むWARC(Web ARChive)ファイル Kunze et al. (2008) へのパスが含まれている。CCアーカイブシャードのサイズが非常に大きいため、すべてのWARCファイルをダウンロードすることは現実的ではない。代わりに、我々はインデックスシャード内の対象言語に対応するWARCファイルを選択的にフィルタリングして保持し、すべてのWARCファイルのダウンロードを回避する。
このフィルタリングとダウンロードのプロセスでは、インデックスシャードに提供されている列形式の情報を利用する。これにはWARCファイル名、WARCレコードオフセット、WARCレコード長が含まれる(以前のインデックスフィルタリングステップで利用したURLとコンテンツ言語もここに存在する)。WARCファイル名は、この特定のWARCファイルを含むCCアーカイブシャードへのURLを提供し、WARCレコードオフセットは我々が必要とするWARCファイルの正確な位置を示し、WARC長はその範囲を指定する。
この情報を活用し、我々は対象言語を主要なコンテンツ言語とする各URLに対応するWARCを、HTTP Range Requests Fielding et al. (2014) を介してダウンロードする。このダウンロード方法により、必要なWARCファイルのみをダウンロードし、残りをスキップすることができる。これは、サーバーにHTTPメッセージの一部のみをクライアントに送り返すよう要求することで実現される - 我々の場合、対象言語に対応するファイルのみである。必要なWARCファイルのみをダウンロードすることで、すべてのWARCファイルをダウンロードすることによる帯域幅とストレージの消費を抑えることができる。
3.1.3 Text Extraction
次のステップは生テキストの抽出である。我々はまず、WARCIO ライブラリ Contributors (2017) を使用してダウンロードしたWARCファイルからHTMLソースを取得する。このライブラリは、WARC形式の読み書きを高速かつ効率的に行う方法を提供する。抽出されたHTMLソースから、最終的に我々はコマンドラインツールTrafilatura Barbaresi (2021)(Penedo et al. (2023)で使用されているのと同じツール)を使用して生テキストを取得する。このライブラリは、HTMLからテキストを抽出するだけでなく、ヘッダー、フッター、その他の情報などの繰り返し要素によって引き起こされるノイズを除去することでテキストの品質を向上させる。
注目すべきは、WARCファイルのダウンロードやWARC内の生HTMLの読み取りとテキスト抽出を含むプロセス全体が、時間とストレージの要件を削減する目的でインメモリで実行されることである。WARCファイル内で見つかる不要な要素や生HTMLの中の大量のJavaScript/HTMLタグなどを保存しないことで、ストレージ要件を劇的に削減している。
3.1.4 Deduplication
Trafilaturaライブラリは抽出されたテキストの品質を向上させるが、生テキストデータ内に繰り返しのシーケンスが存在することは一般的である。これらの繰り返しシーケンスには、著作権表示、一部のヘッダー/フッター、キーワードなど、多くの類似したウェブサイトのページ間で共通するものが含まれる。複数の繰り返しシーケンスが存在すると、モデルが一般化を学習するのではなく、記憶を優先するよう促すため、トレーニングデータの全体的な品質が低下する。したがって、データの品質をさらに向上させ、(後の)トレーニングプロセスを改善するために、これらの重複要素をドキュメントから削除する。我々は、データセットから指定された長さを超えるすべての重複出現を削除するために、完全一致部分文字列重複排除 Lee et al. (2022) 技術を採用した。ただし、繰り返しシーケンスを削除した後、一部のドキュメントが非常に短くなるため、非常に短い長さのドキュメントは破棄する。この最終ステップにより、我々が UnifiedCrawl と呼ぶ最終的なデータセットが生成される。
3.2 Low Resource Model Adaptation
一般的な多言語大規模言語モデル(LLM)は、しばしば低リソース言語の長尾部分で低いパフォーマンスを示す(Lin et al. (2022)、および表4)。我々のデータセットでLLMをファインチューニングすることは、AIの民主化への道を開き、低リソース言語におけるLLMの性能を向上させる。そのため、本稿では一般消費者向けハードウェアを使用する体制に焦点を当てる。
LLMは単にパラメータを保存するだけでも大量のGPUメモリを必要とし、我々が訓練/推論できる最大モデルサイズを制限する。4ビット量子化Dettmers et al. (2022)を使用することで、16ビットパラメータを使用する場合と比較して、同じGPUメモリで約3-4倍大きなモデルを適合させることができる。ただし、精度は若干低下する。4倍大きなLLMのパフォーマンス向上は、精度低下による若干の損失よりもはるかに大きいため、セクション5.2で示すように、可能な限り大きなモデルを使用することが有益である。
さらに、LLMのファインチューニングには、すべてのパラメータの勾配と最適化状態を保存するために大量のGPUメモリが必要となる。我々は代わりに、量子化された低ランクアダプター(QLoRA、Dettmers et al. (2023))を活用して、量子化されたLLM上でアダプターを効率的に訓練する。これにより、パフォーマンスを損なうことなくメモリ使用量を大幅に削減し、はるかに大きなモデルの訓練が可能となる。セクション6.1で示すように、より大きなモデルでQLoRAを使用することは、小さなモデルの完全なファインチューニングよりも優れたパフォーマンスを発揮する。
我々のデータ抽出方法は、一般的なクロールから得られた従来のデータセットよりも大規模なデータセットをもたらす。また、我々のモデル適応方法が言語モデリングのパープレキシティに大きな改善をもたらし、下流の質問応答タスクにおける少数ショットプロンプティングBrown et al. (2020)(セクション5.2.2)でも改善をもたらすことを示す。さらに、小さなモデルの完全なファインチューニングよりも優れたパフォーマンスを発揮する。
4 Experimental Settings and Implementation Details
4.1 Languages and Benchmark Datasets and Dataset Collection
4.1.1 Dataset Collection
UnifiedCrawlのデータ収集は、一般消費者向けのMBpsのインターネット接続を使用して行われた。我々の抽出した生テキストは、HuggingFace Wolf et al. (2020)のデータセット形式でフォーマットされた。Lee et al. (2022)の部分文字列重複排除方法はこの形式のデータセットを直接処理できないため、我々はText-dedup Kocetkov et al. (2023)を利用して、Lee et al. (2022)の重複排除の実装をHuggingFace形式と互換性を持たせるようにラップした。我々は、長さが少なくともの重複する部分文字列と、文字未満のすべての文書を削除した。これは恣意的な決定であるが、Penedo et al. (2023)のアプローチに従ったものである。
4.1.2 Compute Requirements
インデックスフィルタリングは、低リソース言語の場合、ネットワークのダウンロード帯域幅によって制約される。これは、インデックスの大部分が破棄され、のMBにフィルタリングされるためである。すべてのアーカイブのインデックスは、MBpsの一般消費者向けインターネット接続とGBのRAMを使用して、数日で処理できる。あるいは、12Gbpsネットワークを持つ単一のAWSサーバーを使用すると、各アーカイブは分で処理でき、CCの全体をUSDで日でフィルタリングできる。AWS Athena444https://aws.amazon.com/athena/などのクラウドビッグデータクエリサービスを使用すると、このステップをはるかに高速に実行できるが、のUSDのコストがかかる。アーカイブからのテキスト抽出と重複排除は数分で処理でき、すべてのCCアーカイブは数時間で処理できる。
4.1.3 Languages
我々のデータ抽出方法は、7つの言語でテストを行った:ハウサ語(hau)、パシュトー語(pus)、アムハラ語(amh)、ヨルバ語(yor)、スンダ語(sun)、シンド語(snd)、ズールー語(zul)である。これらは話者数の降順に並べられている。我々は特に、Common Crawlデータセットの0.004%未満を占める非常に低リソースの言語で、最も話者数の多い言語を選択した。表1は、各言語のISOコード、対応する話者数(百万人単位)、Common Crawlデータセット('CC-MAIN-2023-14'アーカイブ用)における表現の割合、およびこれらの言語が話される地理的地域に関する詳細を提供している。これらの言語に我々の方法を適用することで、我々の実装とアプローチが言語に依存しないことを示すことを目指している。
Language (ISO) | Fraction of CC | # Speakers(M) | Geographical Region |
---|---|---|---|
Hausa (hau) | 0.0036% | 80 | Nigeria, Chad, Cameroon, Ghana |
Pashto (pus) | 0.0033% | 60 | Afghanistan, Pakistan |
Amharic (amh) | 0.0036% | 60 | Ethiopia |
Yoruba (yor) | 0.0011% | 50 | Benin, Nigeria, Togo |
Sundanese (sun) | 0.0011% | 40 | Indonesia |
Sindhi (snd) | 0.0017% | 30 | Pakistan, India |
Zulu (zul) | 0.0016% | 30 | South Africa, Lesotho |
4.1.4 Benchmark Datasets
我々のUnifiedCrawlデータセットの規模と有効性を評価するために、Common Crawlから得られた他の注目すべきデータセットとのサイズの比較分析を行った。このベンチマーキングに含まれるデータセットは、OSCAR、mC4、CC-100、およびWikipediaである。この比較評価は、これらの広く使用されているデータセットと比較して、Unifiedcrawlの相対的なサイズと代表性に関する洞察を提供することを目的としている。
4.2 Models and Model Adaptation Settings
4.2.1 Models
本稿の著者らの言語専門知識、特にアムハラ語に関する知識を考慮し、我々はこの特定の言語のデータセットに焦点を当ててモデル適応と評価を行った。我々の手法を用いてCommon Crawl Corpusからアムハラ語のUnifiedCrawlを抽出した後、軽量なアダプターQLoRAを使用して多言語大規模言語モデルの微調整を行った。利用可能な事前学習済み多言語大規模言語モデルの中から、我々はXGLMモデルLin et al. (2022)を適応のために選択した。このXGLMモデルは、MとBの2つのサイズバリアントで利用可能である。
このモデルの選択は、その事前学習データセットにアムハラ語が含まれているためである。ただし、この要件はXGLM-Bパラメータモデルにのみ適用される。XGLM-Mはその学習データにアムハラ語を含んでいない。しかし、我々は小規模モデルに対しても適応プロセスを探索した。この意図的な選択により、同じモデル内での言語包含の変動を考慮しつつ、適応プロセスの微妙な違いを探索し分析することが可能となる。さらに、XGLMはmGPTよりも大規模であり、BLOOMYong et al. (2023)と同等かそれ以上の性能を発揮する。
4.2.2 Model Adaptation
我々はコードベースの実装にHuggingFaceWolf et al. (2020)ライブラリを使用する。Hu et al. (2022)が小さなrの値が効果的であることを発見したため、我々はLoRAランクにを使用し、すべての線形行列上でアダプターを学習する。これらのモデルを我々のUnifiedCrawl-Amharicデータセットでエポック微調整する。複数のエポックでより良い性能が得られるはずだが、計算資源の制約によりエポックのみ学習を行う。可能な限り元の/標準的なハイパーパラメータを使用し、学習率についてはグリッドサーチを行った。すべての実験はNvidia RTX3070またはRTX3090で実施され、微調整には日を要した。
4.3 Evaluation Settings
我々のモデルは、言語モデリングと下流タスクにおける少数ショットプロンプティングの2つの設定で評価された。
4.3.1 Language Modeling Evaluation
モデルの能力を評価するために、我々は、UnifiedCrawl-Amharicデータセットを用いてQLoRA Dettmers et al. (2023) によるファインチューニング中の我々のモデルのパープレキシティと、元のXGLMモデルのパープレキシティを両バリアントについて比較する。パープレキシティは言語モデリングの負の交差エントロピーの指数として定義され、言語モデルが前の単語が与えられた時に次の単語をどれだけ正確に予測できるかを測る指標である。パープレキシティが低いほど、モデルが次の単語をより正確に予測できていることを意味する。パープレキシティは異なるモデルを比較するための定量的かつ直接的な指標を提供する。
4.3.2 Downstream Evaluation
下流タスクでの言語モデルのテストは、モデルの実用的な適用可能性、汎化能力、および実世界のシナリオにおけるタスク固有のパフォーマンスを評価するために必要である。我々は、ファインチューニングプロセスの有効性を評価するために、UnifiedCrawl-Amharicデータセットでファインチューニングされたモデルを下流タスクでテストする。これにより、我々のモデルがファインチューニングプロセス中に有用な表現を学習したかどうか、そして言語モデリングタスクを超えて、明示的に訓練されていないものを含む多様なタスクに適用できるかどうかを知ることができる。
4.3.3 Question Answering Task
我々は、下流アプリケーションにおける我々の手法のパフォーマンスを評価するために、質問と文脈が与えられた際に応答を生成するタスクである質問応答を選択した。質問応答タスクは、モデルの理解力、推論能力、文脈理解を評価するため、事前訓練された言語モデルにとって価値ある下流評価である。したがって、質問応答タスクで評価することで、言語モデルが提供された文脈から情報を抽出・統合し、テキストの異なる部分間の関係を推論し、与えられたクエリに対して一貫性のある応答を生成する能力をどの程度持っているかを評価できる。我々は、下流の質問応答タスクでのモデルのパフォーマンスを評価するためにAmQAデータセット Abedissa et al. (2023) を使用する。
4.3.4 Few Shot Prompting Evaluation
この下流の質問応答は、少数ショットプロンプティング Brown et al. (2020) の設定で行われた。ここでは、モデルには少数の例のみが与えられ、出力を生成することが期待される。これは、我々のモデルが限られた情報で新しいまたは未見のシナリオに素早く一般化し適応できるかどうかを評価するためである。AmQAテストセットでの少数ショット評価では、プロンプトに のランダムな文脈-質問-回答の例を使用する。この数は、プロンプトにより多くの例を含めると単にシーケンス長の制限により切り捨てられてしまうため選択された。我々はこれらの例をAmQAの訓練セットから選び、テストサンプルから選んだ質問と文脈をこのプロンプトに追加した。我々の目的は、テストセットから選ばれた質問に対する回答を生成することである。生成された回答が正解ラベルに近いほど良い。この少数ショット評価は、B XGLMモデルで大まかに 分かかる。
4.3.5 Evaluation Metrics
我々は、質問応答タスクで一般的に使用されるF1スコアとEM(完全一致)スコアを使用して、モデルの全体的な品質と精度を評価した。精度と再現率の調和平均であるF1スコアは、生成された回答と正解の部分的な重なりを考慮に入れた、より細かい評価を提供する。F1スコアを補完するものとして、EMスコアは予測が正解の回答と完全に一致する割合を示す。次の章で詳細なパフォーマンス評価を提供する。
5 Performance Evaluation
我々は、我々のデータ抽出パイプラインを用いて抽出されたUnifiedCrawl-languageデータセットの分析を提示する。次に、QLoRAを用いてUnifiedCrawl-AmharicでファインチューニングされたXGLMモデルの実験結果と分析を示す。適応されたモデルを、言語モデリングのパープレキシティとAmQAにおける質問応答に関するダウンストリームの少数ショットプロンプティング性能に基づいて評価する。
5.1 Data Collection Evaluation
我々は、言語アノテーションを持つ最初のアーカイブである「CC-MAIN-2018-43」から始めて、合計のアーカイブを処理した555https://commoncrawl.github.io/cc-crawl-statistics/plots/languages。我々の提案するデータ収集アプローチを用いて、言語の単言語データセットを収集した。これには、ハウサ語(hau)、パシュトー語(pus)、アムハラ語(amh)、ヨルバ語(yor)、スンダ語(sun)、シンド語(snd)、ズールー語(zul)が含まれており、これらは話者数と最新のクロールサイズに基づいて選択された。
以下の小節では、アムハラ語(amh)に焦点を当てた詳細な分析を提供する。7言語すべてについてCommon Crawlから抽出された最終的なデータセットのサイズを表2に示す。
5.1.1 UnifiedCrawl Amharic
インデックスフィルタリング:アムハラ語(ISO: amh)はCommon Crawlの約を占める666https://commoncrawl.github.io/cc-crawl-statistics/plots/languages。各Common Crawlアーカイブインデックスは圧縮時である。したがって、フィルタリングされたインデックスの予想サイズは(CC内の単一アーカイブの割合 * アーカイブインデックスのサイズ)となる。インデックスフィルタリングプロセスの結果、予想通りの非圧縮フィルタリングインデックスが得られた。我々はデータセットの品質を向上させ、プロセスを高速化するために、対象言語のみを含むURLのみを保持している。任意の出現を含むURLを保持すると、フィルタリングされたインデックスのサイズが増加する。
WARCファイルの抽出:各アーカイブにはの圧縮WARCファイルがある。我々はRange requestsを使用して対象言語に対応するWARCのみをダウンロードし、アーカイブごとにのWARCをダウンロードしている。
最終テキスト抽出:WARC HTMLからプレーンテキストを抽出することで、サイズがに縮小され、すべてのアーカイブに対する最終的な総データセットサイズはとなった。
重複排除:部分文字列の重複排除は、まず各アーカイブ内で、次にすべてのアーカイブ間で実行される。各アーカイブ内では、重複排除によりサイズがからに縮小され、すべてのアーカイブ間ではとなる。これにより、最終的なデータセットのサイズはとなる。2つの重複排除を組み合わせることで、データセットのサイズが縮小された。
5.1.2 UnifiedCrawl for other Languages
同様に、7言語にわたるUnifiedCrawlデータセットの最終的なサイズを表2に示す。最初の列はデータセットを抽出した言語を示し、2列目は主要言語のみがコンテンツに含まれるデータセットのサイズ(例:content_language=[amh])を提供し、3列目は主要言語が対象言語であるが他の言語からの少量のコンテンツも含むデータセットのサイズ(例:content_language=[amh, en,...])を推定している。他の言語からの少量のコンテンツを含むページを許可することで、データセットのサイズが大幅に増加すると考えられ、我々はヨルバ語(yor)でこれを確認した。他の言語のサイズは、他の少数言語を含むURLの割合に基づいて推定されている。
Languages (ISO) | Size | Max Size |
---|---|---|
Hausa (hau) | 2.1 | 7 |
Pashto (pus) | 5.5 | 20 |
Amharic (amh) | 4.0 | 24 |
Yoruba (yor) | 0.9 | 2 |
Sundanese (sun) | 1.9 | 6 |
Sindhi (snd) | 4.2 | 15 |
Zulu (zul) | 1.7 | 6 |
5.1.3 Dataset Comparison with other Datasets
我々の方法を用いることで、低資源言語に対して、しばしば複数桁の規模で他の先行研究を上回るサイズの単言語コーパスを抽出することができた。
例えば、我々が抽出したデータセット(UnifiedCrawl-Amharic)は、アムハラ語の既存のデータセットのサイズを上回っている。具体的には、アムハラ語Wikipediaデータセットは777TFデータセットのアムハラ語Wikipedia: https://www.tensorflow.org/datasets/catalog/wikipedia#wikipedia20230601am、アムハラ語ニュースコーパスAzime and Mohammed (2021)は、OSCAR Abadji et al. (2022)は、mC4 AllenAI (2021)はである。これに対し、我々のデータセットは重複排除前で4GBに達している。
同様に、我々のUnifiedCrawl-言語データセットのサイズを、OSCAR888OSCARデータセットのサイズ: https://huggingface.co/datasets/oscar、mC4999mC4データセットのサイズ: https://github.com/allenai/allennlp/discussions/5265、CC-100101010CC-100データセットのサイズ: https://data.statmt.org/cc-100/、Wikipedia111111Wikipediaデータセットのサイズ: https://www.tensorflow.org/datasets/catalog/wikipediaといった他の著名なデータセットと比較して表3に示す。この表のすべてのサイズはMB単位である。OSCAR、mC4、CC-100はCommon Crawlコーパスから得られたデータセットであり、一方でWikipediaデータセットはTensorflow Datasetsを使用してWikipediaダンプ121212https://dumps.wikimedia.org/から構築されたすべての言語のクリーニング済み記事のコレクションである。
Languages (ISO) | OSCAR | mC4 | CC-100 | Wikipedia | UnifiedCrawl |
---|---|---|---|---|---|
Hausa (hau) | - | 850 | 60 | 60 | 2100 |
Pashto (pus) | 380 | 1500 | 110 | 100 | 5500 |
Amharic (amh) | 380 | 1200 | 130 | 20 | 4000 |
Yoruba (yor) | 0.1 | 160 | 1 | 20 | 900 |
Sundanese (sun) | 0.2 | 460 | 20 | 40 | 1900 |
Sindhi (snd) | 360 | 4000 | 70 | 40 | 4200 |
Zulu (zul) | - | 840 | 4 | 6 | 1700 |
5.2 Method Evaluation
我々は、UnifiedCrawlデータセットを用いてQLoRAモデルで微調整されたモデルの性能を2つの設定で評価する。まず、上流での言語モデリング能力を測定するためにパープレキシティ(PPL)を比較し、次に、下流の少数ショットプロンプティングタスクでモデルを評価する。両方のケースにおいて、元のモデルをベースラインとして使用する。
5.2.1 Language Modeling Evaluation
上流での事前学習性能を評価するために、我々は学習プロセス中のモデルのパープレキシティ(PPL)を分析し、その言語モデリング能力を測定する。
結果を表4に示す。「ours」とマークされたモデルは、QLoRAを使用してUnifiedCrawl-Amharicデータセットで微調整されたものである。QLoRAを使用して微調整された我々のモデル、XGLM-MとXGLM-Bは、どちらも元のXGLMモデルと比較して大幅に低いパープレキシティを示している。
Models | PPL |
---|---|
XGLM- | 14,974.70 |
XGLM- (ours) | 105.5 |
XGLM- | 35.6 |
XGLM- (ours) | 19.6 |
元のXGLM-モデルは、アムハラ語で学習されていなかったため、PPLはであった。我々のUnifiedCrawl-Amharicデータセットで学習した結果、パープレキシティは劇的にまで低下した。同様に、XGLM-モデルのPPLはからに減少し、の改善を示した。
これらの結果は、我々のデータセットを用いてQLoRAでモデルを微調整することで、モデルサイズに関わらずパープレキシティの大幅な削減につながることを示している。
5.2.2 Downstream Few Shot Prompting
下流タスクでは、アムハラ語データセットで微調整されたQLoRAモデルと元のモデルを、少数ショットプロンプティングの下で比較する。これらの評価では、F1スコアとEM(完全一致)スコアを報告する。
元のモデルと微調整されたモデルの少数ショット性能の比較を表5に示す。「ours」とマークされたモデルは、QLoRAを使用してUnifiedCrawl-Amharicデータセットで微調整されたものである。XGLM-はアムハラ語で事前学習されていなかったため、F1スコアとEMスコアはともに0であり、このモデルを我々のUnifiedCrawl-Amharicで微調整した後もスコアは変化しなかった。このモデルは小さすぎ、少数ショットプロンプティングで合理的に機能するには学習トークンが少なすぎる。
しかし、XGLM-モデルについては、微調整後にF1スコアがからに増加し、EMスコアはからに増加した。
これは、微調整が特に大規模なモデルに利益をもたらし、質問応答における少数ショットプロンプティングの性能を向上させたことを示している。
Models | F1 | EM |
XGLM- | 0 | 0 |
XGLM- (ours) | 0 | 0 |
XGLM- | 8.0 | 1.3 |
XGLM- (ours) | 9.9 | 2.3 |
6 Ablation Studies
我々は、異なるモデリング選択の影響を分析し、我々のアプローチの有効性を検証するためにアブレーション実験を実施する。具体的には、完全なファインチューニングと軽量なQLoRAモジュールのみを用いた適応との比較、事前学習済みモデルとランダムに初期化されたモデルの活用におけるトレードオフの検討、そして我々のUnifiedCrawlコーパスでの事前学習による利点がダウンストリームタスクの性能向上に繋がるかどうかを評価する。
6.1 Comparison with Full Finetuning
我々は、オリジナルのパラメータを凍結したまま軽量なアダプターQLoRAのみを訓練した我々のモデルの言語モデル(LM)パープレキシティを、アダプターを使用せずにモデルのすべてのパラメータを訓練した完全微調整モデルと比較した。両ケースにおいて、これらのモデルの訓練には我々のUnifiedCrawl-Amharicデータセットを使用した。
この比較の結果を表6に示す。ここでLM PPLはUnified-Crawl-Amharicで報告され、Few-shot F1/EMはAmQAで報告されている。GPUのメモリ制約により、我々はXGLM-モデルに対してのみ完全微調整を実施した。Bパラメータモデルの完全訓練を試みた際には、メモリ不足(OOM)エラーが発生した。
我々は、Mパラメータモデルの完全微調整が、QLoRAを使用してアダプターを訓練する場合と比較して、わずかに優れた言語モデリングパープレキシティ(対)をもたらすことを観察した。しかし、完全微調整は、QLoRAを使用する場合と比較して、はるかに多くのGPUメモリと計算リソースを必要とする。つまり、比較的小さな改善に対して、より高いVRAMと計算コストがかかる。
さらに、完全微調整は、同じ計算量でより大きなモデルにQLoRAを使用する場合と比較して、劇的に性能が低下する。例えば、Mモデルは完全微調整で PPLを達成するのに対し、Bモデルはを達成する。
我々はまた、小規模モデルにおける下流タスクのフューショットプロンプティング設定での性能も評価した。Mモデルでは、完全微調整とQLoRAの両方のケースでフューショットプロンプティングのスコアがゼロのままであったのに対し、B QLoRAモデルはF1スコアでを達成した。これは、QLoRAを使用してより大きなモデルを使用することの重要性をさらに強調している。
Model | LM PPL | Few-shot F1 | Few-shot EM |
---|---|---|---|
XGLM- (full finetune) | 76.7 | 0 | 0 |
XGLM- (ours) | 105.6 | 0 | 0 |
XGLM- (full finetune) | OOM | - | - |
XGLM- (ours) | 19.6 | 9.9 | 2.3 |
6.2 Comparison with Training from Scratch
我々は、事前学習済みモデルを適応させるためのQLoRAの使用と、新しいモデルをゼロから学習させることも比較した。公平な比較のため、すべてのモデルに対して、UnifiedCrawl-AmharicでエポックのXGLM-モデルの学習に必要な同じ計算予算を使用した。我々は、パラメータを持つ「ベース」サイズのモデル、およびモデル(我々の計算制約に基づく「計算最適」モデルサイズ、Chincilla Hoffmann et al. (2022)に基づく)を学習させた。
結果は表7に示されている。ここでLM PPLはUnified-Crawl-Amharicで報告され、Few-shot F1/EMはAmQAで報告されている。同等の計算量において、我々のモデル(QLoRAを使用して学習)は、ゼロから学習されたモデル(QLoRAなし)と比較して、大幅な性能向上を示すことが観察された。これにより、我々は、アダプターを使用して既に事前学習されたモデルを学習することが、モデルをゼロから学習するよりも優れていると結論付ける。これらのモデルは、多言語事前学習から得た事前知識を効果的に活用できるためである。
Model | LM PPL | Few-shot F1 | Few-shot EM |
---|---|---|---|
GPT2-74M (scratch) | 105.2 | 1.2 | 0 |
GPT2-110M (scratch) | 106.1 | 1.3 | 0 |
XGLM- (Ours) | 19.6 | 9.9 | 2.3 |
6.3 Comparison on Downstream Supervised Training
我々は、UnifiedCrawl-Amharicでファインチューニングしたモデルを、質問応答タスク(AmQA)の下流の教師あり学習においてベースラインモデルと比較した。Bモデルの学習がOOMを引き起こすため、すべてのモデルにQLoRAを使用した。
これらの結果を表8に示す。ここでPPL、F1、EMはAmQAデータセットに対するものである。「QLoRA」と表記されたモデルは、下流タスクでQLoRAを用いてファインチューニングした元の事前学習モデルである。「ours」と表記されたモデルは、下流タスクの学習前にUnifiedCrawl-Amharicでのファインチューニングを追加したステップを含む。
モデルはすべてのスコアで改善を示しているが、Bモデルの両方、つまりベースラインモデルとUnifiedCrawl-Amharicで学習したモデルのパープレキシティは非常に近く、F1スコアとEMスコアも同様である。
言語モデリングと少数ショットプロンプティングで観察された利点は、下流の教師あり学習での利点には変換されなかった。XGLM-のPPLはからに改善したが、UnifiedCrawl-AmharicでファインチューニングされたXGLM-4.5モデルのPPLは元のモデルと同じままであった。これは、おそらくこの下流データセットのサイズや品質が限られているためかもしれない。このデータセットは、わずか数個のWikipedia記事から得られたの学習サンプルしか含んでいない。
Models | PPL | F1 | EM |
XGLM-(QLoRA) | 99.4 | 0.6 | 0.2 |
XGLM- (ours) | 59.2 | 2.9 | 0.7 |
XGLM- (QLoRA) | 2.2 | 35.0 | 20.5 |
XGLM- (ours) | 2.2 | 34.7 | 20 |
7 Limitations and Future Works
我々のデータ抽出アプローチは低資源言語に対して効果的であることが証明されているが、高資源言語への適用は、その豊富さゆえに抽出時間の長期化と保存の課題によって制限される。可視化によって、F1やEMなどの従来の評価指標は、言語間の言語的多様性を考慮すると、正解と予測された回答の関係の微妙な差異を適切に捉えられない可能性があることが明らかになった。
今後の研究の方向性として、本稿で言及したもの以外の低資源言語にもデータ収集パイプラインを拡張することが考えられる。さらに、抽出されたデータの品質と多様性を向上させるために我々のアプローチを改善することができる。 また、ファインチューニング段階でBLOOMやmT5などの代替モデルアーキテクチャを探索することは、実用的な展開を達成するために有望であると我々は考えている。さらに、我々が抽出したデータであるUnifiedCrawlと推奨するモデル適応技術から得られる実世界での性能向上を検証するために、多様な下流タスクにわたるより包括的な評価が不可欠である。
これらの研究の方向性に取り組むことで、我々は低資源言語に対する大規模言語モデル(LLM)のアクセシビリティと能力を効果的に拡大する堅牢な技術の開発を目指している。このアプローチは、高度な言語モデルをより広く利用可能かつ適用可能にすることで、自然言語処理(NLP)の世界的な民主化に貢献する。
8 Conclusion
要約すると、我々の主要な貢献は二つある。第一に、Common Crawl全体から低資源言語の大規模な単一言語データセットを集約・抽出する効率的な手法を導入した。アーカイブデータを選択的にフィルタリングし、ストレージ需要を最小限に抑えることで、一般的なハードウェアのみを使用して既存のソースよりも大規模な生テキストデータを取得した。第二に、抽出したデータセットで軽量なアダプターモジュールを微調整することにより、多言語LLMの効果的な適応を実証した。QLoRAを使用してアダプターを持つ45億パラメータのモデルを微調整することで、1 GPU日未満の計算量で、アムハラ語における顕著な複雑性の低減とフューショット・プロンプティングスコアの向上を達成した。本稿の手法とソースコードは、LLMの民主化に向けた進展をもたらすものである。
References
- Abadji et al. (2022) Julien Abadji, Pedro Ortiz Suarez, Laurent Romary, and Benoît Sagot. 2022. Towards a cleaner document-oriented multilingual crawled corpus. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pages 4344–4355, Marseille, France. European Language Resources Association.
- Abedissa et al. (2023) Tilahun Abedissa, Ricardo Usbeck, and Yaregal Assabie. 2023. Amqa: Amharic question answering dataset. ArXiv preprint, abs/2303.03290.
- AllenAI (2021) AllenAI. 2021. The C4 Multilingual Dataset · allenai/allennlp · Discussion 5265 - github.com. https://github.com/allenai/allennlp/discussions/5265. [Accessed 15-12-2023].
- Almazrouei et al. (2023) Ebtesam Almazrouei, Hamza Alobeidli, Abdulaziz Alshamsi, Alessandro Cappelli, Ruxandra Cojocaru, Mérouane Debbah, Étienne Goffinet, Daniel Hesslow, Julien Launay, Quentin Malartic, Daniele Mazzotta, Badreddine Noune, Baptiste Pannier, and Guilherme Penedo. 2023. The falcon series of open language models. ArXiv preprint, abs/2311.16867.
- Azime and Mohammed (2021) Israel Abebe Azime and Nebil Mohammed. 2021. An amharic news text classification dataset.
- Bai et al. (2022) Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosiute, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemí Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, and Jared Kaplan. 2022. Constitutional AI: harmlessness from AI feedback. ArXiv preprint, abs/2212.08073.
- Baluja and Covell (2007) Shumeet Baluja and Michele Covell. 2007. Audio fingerprinting: Combining computer vision & data stream processing. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2007, Honolulu, Hawaii, USA, April 15-20, 2007, pages 213–216. IEEE.
- Barbaresi (2021) Adrien Barbaresi. 2021. Trafilatura: A web scraping library and command-line tool for text discovery and extraction. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations, pages 122–131, Online. Association for Computational Linguistics.
- Broder (1997) Andrei Z. Broder. 1997. On the resemblance and containment of documents. In Compression and Complexity of SEQUENCES 1997, Positano, Amalfitan Coast, Salerno, Italy, June 11-13, 1997, Proceedings, pages 21–29. IEEE.
- Brown et al. (2020) Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. 2020. Language models are few-shot learners. In Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual.
- Chowdhery et al. (2023) Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker Schuh, Kensen Shi, Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes, Yi Tay, Noam Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Ben Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy Gur-Ari, Pengcheng Yin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev, Henryk Michalewski, Xavier Garcia, Vedant Misra, Kevin Robinson, Liam Fedus, Denny Zhou, Daphne Ippolito, David Luan, Hyeontaek Lim, Barret Zoph, Alexander Spiridonov, Ryan Sepassi, David Dohan, Shivani Agrawal, Mark Omernick, Andrew M. Dai, Thanumalayan Sankaranarayana Pillai, Marie Pellat, Aitor Lewkowycz, Erica Moreira, Rewon Child, Oleksandr Polozov, Katherine Lee, Zongwei Zhou, Xuezhi Wang, Brennan Saeta, Mark Diaz, Orhan Firat, Michele Catasta, Jason Wei, Kathy Meier-Hellstern, Douglas Eck, Jeff Dean, Slav Petrov, and Noah Fiedel. 2023. Palm: Scaling language modeling with pathways. J. Mach. Learn. Res., 24:240:1–240:113.
- CommonCrawl (2007) CommonCrawl. 2007. Common Crawl - Open Repository of Web Crawl Data - commoncrawl.org. https://commoncrawl.org/. [Accessed 15-12-2023].
- Conneau et al. (2020) Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzmán, Edouard Grave, Myle Ott, Luke Zettlemoyer, and Veselin Stoyanov. 2020. Unsupervised cross-lingual representation learning at scale. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 8440–8451, Online. Association for Computational Linguistics.
- Contributors (2017) Warcio Contributors. 2017. GitHub - webrecorder/warcio: Streaming WARC/ARC library for fast web archive IO - github.com. https://github.com/webrecorder/warcio. [Accessed 15-12-2023].
- Dettmers et al. (2022) Tim Dettmers, Mike Lewis, Younes Belkada, and Luke Zettlemoyer. 2022. Gpt3.int8(): 8-bit matrix multiplication for transformers at scale. In Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, NeurIPS 2022, New Orleans, LA, USA, November 28 - December 9, 2022.
- Dettmers et al. (2023) Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, and Luke Zettlemoyer. 2023. Qlora: Efficient finetuning of quantized llms. In Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10 - 16, 2023.
- Devlin et al. (2019) Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. Association for Computational Linguistics.
- Fielding et al. (2014) Roy T. Fielding, Yves Lafon, and Julian Reschke. 2014. Hypertext Transfer Protocol (HTTP/1.1): Range Requests. RFC 7233.
- Frantar et al. (2023) Elias Frantar, Saleh Ashkboos, Torsten Hoefler, and Dan Alistarh. 2023. OPTQ: accurate quantization for generative pre-trained transformers. In The Eleventh International Conference on Learning Representations, ICLR 2023, Kigali, Rwanda, May 1-5, 2023. OpenReview.net.
- Gyawali et al. (2020) Bikash Gyawali, Lucas Anastasiou, and Petr Knoth. 2020. Deduplication of scholarly documents using locality sensitive hashing and word embeddings. In Proceedings of the Twelfth Language Resources and Evaluation Conference, pages 901–910, Marseille, France. European Language Resources Association.
- He et al. (2021) Pengcheng He, Xiaodong Liu, Jianfeng Gao, and Weizhu Chen. 2021. Deberta: decoding-enhanced bert with disentangled attention. In 9th International Conference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7, 2021. OpenReview.net.
- Hoffmann et al. (2022) Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katherine Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Oriol Vinyals, Jack W. Rae, and Laurent Sifre. 2022. An empirical analysis of compute-optimal large language model training. In Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, NeurIPS 2022, New Orleans, LA, USA, November 28 - December 9, 2022.
- Hu et al. (2022) Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. 2022. Lora: Low-rank adaptation of large language models. In The Tenth International Conference on Learning Representations, ICLR 2022, Virtual Event, April 25-29, 2022. OpenReview.net.
- Islamovic (2023) Anel Islamovic. 2023. Introducing Stable LM Zephyr 3B: A New Addition to Stable LM, Bringing Powerful LLM Assistants to Edge Devices — Stability AI - stability.ai. https://stability.ai/news/stablelm-zephyr-3b-stability-llm. [Accessed 15-12-2023].
- Joshi et al. (2020) Pratik Joshi, Sebastin Santy, Amar Budhiraja, Kalika Bali, and Monojit Choudhury. 2020. The state and fate of linguistic diversity and inclusion in the NLP world. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 6282–6293, Online. Association for Computational Linguistics.
- Kocetkov et al. (2023) Denis Kocetkov, Raymond Li, Loubna Ben allal, Jia LI, Chenghao Mou, Yacine Jernite, Margaret Mitchell, Carlos Muñoz Ferrandis, Sean Hughes, Thomas Wolf, Dzmitry Bahdanau, Leandro Von Werra, and Harm de Vries. 2023. The stack: 3 TB of permissively licensed source code. Transactions on Machine Learning Research.
- Kunze et al. (2008) John A. Kunze, Gordon Mohr, and Michael Stack. 2008. The WARC File Format (Version 0.16). Internet-Draft draft-kunze-warc-00, Internet Engineering Task Force. Work in Progress.
- Lee et al. (2022) Katherine Lee, Daphne Ippolito, Andrew Nystrom, Chiyuan Zhang, Douglas Eck, Chris Callison-Burch, and Nicholas Carlini. 2022. Deduplicating training data makes language models better. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 8424–8445, Dublin, Ireland. Association for Computational Linguistics.
- Lin et al. (2022) Xi Victoria Lin, Todor Mihaylov, Mikel Artetxe, Tianlu Wang, Shuohui Chen, Daniel Simig, Myle Ott, Naman Goyal, Shruti Bhosale, Jingfei Du, Ramakanth Pasunuru, Sam Shleifer, Punit Singh Koura, Vishrav Chaudhary, Brian O’Horo, Jeff Wang, Luke Zettlemoyer, Zornitsa Kozareva, Mona Diab, Veselin Stoyanov, and Xian Li. 2022. Few-shot learning with multilingual generative language models. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pages 9019–9052, Abu Dhabi, United Arab Emirates. Association for Computational Linguistics.
- Liu et al. (2023) Xiao-Yang Liu, Guoxuan Wang, and Daochen Zha. 2023. Fingpt: Democratizing internet-scale data for financial large language models. ArXiv preprint, abs/2307.10485.
- Liu et al. (2020) Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, and Luke Zettlemoyer. 2020. Multilingual denoising pre-training for neural machine translation. Transactions of the Association for Computational Linguistics, 8:726–742.
- Liu et al. (2019) Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. 2019. Roberta: A robustly optimized BERT pretraining approach. ArXiv preprint, abs/1907.11692.
- Lu et al. (2023) Yadong Lu, Chunyuan Li, Haotian Liu, Jianwei Yang, Jianfeng Gao, and Yelong Shen. 2023. An empirical study of scaling instruct-tuned large multimodal models. ArXiv preprint, abs/2309.09958.
- Luo et al. (2023) Haoran Luo, Haihong E, Zichen Tang, Shiyao Peng, Yikai Guo, Wentai Zhang, Chenghao Ma, Guanting Dong, Meina Song, and Wei Lin. 2023. Chatkbqa: A generate-then-retrieve framework for knowledge base question answering with fine-tuned large language models. ArXiv preprint, abs/2310.08975.
- Manvi et al. (2023) Rohin Manvi, Samar Khanna, Gengchen Mai, Marshall Burke, David B. Lobell, and Stefano Ermon. 2023. Geollm: Extracting geospatial knowledge from large language models. ArXiv preprint, abs/2310.06213.
- Muennighoff et al. (2023) Niklas Muennighoff, Thomas Wang, Lintang Sutawika, Adam Roberts, Stella Biderman, Teven Le Scao, M Saiful Bari, Sheng Shen, Zheng Xin Yong, Hailey Schoelkopf, Xiangru Tang, Dragomir Radev, Alham Fikri Aji, Khalid Almubarak, Samuel Albanie, Zaid Alyafeai, Albert Webson, Edward Raff, and Colin Raffel. 2023. Crosslingual generalization through multitask finetuning. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 15991–16111, Toronto, Canada. Association for Computational Linguistics.
- OpenAI (2022) OpenAI. 2022. Introducing ChatGPT - openai.com. https://openai.com/blog/chatgpt. [Accessed 15-12-2023].
- OpenAI (2023a) OpenAI. 2023a. Gpt-4 technical report.
- OpenAI (2023b) OpenAI. 2023b. Introducing ChatGPT and Whisper APIs - openai.com. https://openai.com/blog/introducing-chatgpt-and-whisper-apis. [Accessed 15-12-2023].
- Patra et al. (2023) Barun Patra, Saksham Singhal, Shaohan Huang, Zewen Chi, Li Dong, Furu Wei, Vishrav Chaudhary, and Xia Song. 2023. Beyond English-centric bitexts for better multilingual language representation learning. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 15354–15373, Toronto, Canada. Association for Computational Linguistics.
- Penedo et al. (2023) Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli, Hamza Alobeidli, Baptiste Pannier, Ebtesam Almazrouei, and Julien Launay. 2023. The refinedweb dataset for falcon LLM: outperforming curated corpora with web data, and web data only. ArXiv preprint, abs/2306.01116.
- Raasveldt and Mühleisen (2019) Mark Raasveldt and Hannes Mühleisen. 2019. Duckdb: an embeddable analytical database. In Proceedings of the 2019 International Conference on Management of Data, SIGMOD Conference 2019, Amsterdam, The Netherlands, June 30 - July 5, 2019, pages 1981–1984. ACM.
- Radford et al. (2019) Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. 2019. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9.
- Sadowski and Levin (2007) Caitlin Sadowski and Greg Levin. 2007. Simhash: Hash-based similarity detection.
- Scao et al. (2022) Teven Le Scao, Angela Fan, Christopher Akiki, Ellie Pavlick, Suzana Ilic, Daniel Hesslow, Roman Castagné, Alexandra Sasha Luccioni, François Yvon, Matthias Gallé, Jonathan Tow, Alexander M. Rush, Stella Biderman, Albert Webson, Pawan Sasanka Ammanamanchi, Thomas Wang, Benoît Sagot, Niklas Muennighoff, Albert Villanova del Moral, Olatunji Ruwase, Rachel Bawden, Stas Bekman, Angelina McMillan-Major, Iz Beltagy, Huu Nguyen, Lucile Saulnier, Samson Tan, Pedro Ortiz Suarez, Victor Sanh, Hugo Laurençon, Yacine Jernite, Julien Launay, Margaret Mitchell, Colin Raffel, Aaron Gokaslan, Adi Simhi, Aitor Soroa, Alham Fikri Aji, Amit Alfassy, Anna Rogers, Ariel Kreisberg Nitzav, Canwen Xu, Chenghao Mou, Chris Emezue, Christopher Klamm, Colin Leong, Daniel van Strien, David Ifeoluwa Adelani, and et al. 2022. BLOOM: A 176b-parameter open-access multilingual language model. ArXiv preprint, abs/2211.05100.
- Tan et al. (2022) Zhixing Tan, Xiangwen Zhang, Shuo Wang, and Yang Liu. 2022. MSP: Multi-stage prompting for making pre-trained language models better translators. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 6131–6142, Dublin, Ireland. Association for Computational Linguistics.
- Touvron et al. (2023) Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurélien Rodriguez, Armand Joulin, Edouard Grave, and Guillaume Lample. 2023. Llama: Open and efficient foundation language models. ArXiv preprint, abs/2302.13971.
- Wang et al. (2023) Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Huaijie Wang, Lingxiao Ma, Fan Yang, Ruiping Wang, Yi Wu, and Furu Wei. 2023. Bitnet: Scaling 1-bit transformers for large language models. ArXiv preprint, abs/2310.11453.
- Wenzek et al. (2020) Guillaume Wenzek, Marie-Anne Lachaux, Alexis Conneau, Vishrav Chaudhary, Francisco Guzmán, Armand Joulin, and Edouard Grave. 2020. CCNet: Extracting high quality monolingual datasets from web crawl data. In Proceedings of the Twelfth Language Resources and Evaluation Conference, pages 4003–4012, Marseille, France. European Language Resources Association.
- Wolf et al. (2020) Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Remi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, and Alexander Rush. 2020. Transformers: State-of-the-art natural language processing. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pages 38–45, Online. Association for Computational Linguistics.
- Xiao et al. (2023) Guangxuan Xiao, Ji Lin, Mickaël Seznec, Hao Wu, Julien Demouth, and Song Han. 2023. Smoothquant: Accurate and efficient post-training quantization for large language models. In International Conference on Machine Learning, ICML 2023, 23-29 July 2023, Honolulu, Hawaii, USA, volume 202 of Proceedings of Machine Learning Research, pages 38087–38099. PMLR.
- Xue et al. (2021) Linting Xue, Noah Constant, Adam Roberts, Mihir Kale, Rami Al-Rfou, Aditya Siddhant, Aditya Barua, and Colin Raffel. 2021. mT5: A massively multilingual pre-trained text-to-text transformer. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 483–498, Online. Association for Computational Linguistics.
- Yong et al. (2023) Zheng Xin Yong, Hailey Schoelkopf, Niklas Muennighoff, Alham Fikri Aji, David Ifeoluwa Adelani, Khalid Almubarak, M Saiful Bari, Lintang Sutawika, Jungo Kasai, Ahmed Baruwa, Genta Winata, Stella Biderman, Edward Raff, Dragomir Radev, and Vassilina Nikoulina. 2023. BLOOM+1: Adding language support to BLOOM for zero-shot prompting. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 11682–11703, Toronto, Canada. Association for Computational Linguistics.
Appendix A Distribution of Languages in Common Crawl
A.1 Distribution of Languages in Common Crawl except English
A.2 Distribution of Languages in Common Crawl after Top 60
Model Type | Multilingual LLMs | Size (# Params) | # Languages |
---|---|---|---|
Encoder-Only | mBERT Devlin et al. (2019) | 180M | 104 |
XLM-R Conneau et al. (2020) | 225M-10.7B | 15/100 | |
XY-LENT Patra et al. (2023) | 480M-2.1B | 21 | |
Decoder-Only | XGLM Lin et al. (2022) | 540M-7.5B | 30/134 |
mGPT Tan et al. (2022) | 1.3B | 101 | |
PaLM Chowdhery et al. (2023) | 540B | 122 | |
BLOOM Scao et al. (2022) | 560M-175B | 46 | |
BLOOMZ Muennighoff et al. (2023) | 560M-175B | 46 | |
GPT-3 Brown et al. (2020) | 175B | 1 | |
Encoder-Decoder | mT5 Xue et al. (2021) | 580M-13B | 101 |
mT0 Muennighoff et al. (2023) | 580M-13B | 101 | |
mBART Liu et al. (2020) | 680M | 25 |
Appendix B Overview of Multilingual LLMs
表9を参照されたい。