Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Scaling Data-Constrained Language Models, Niklas Muennighoff+, arXiv'23 #1829

Open
AkihikoWatanabe opened this issue Mar 23, 2025 · 0 comments

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Mar 23, 2025

URL

Authors

  • Niklas Muennighoff
  • Alexander M. Rush
  • Boaz Barak
  • Teven Le Scao
  • Aleksandra Piktus
  • Nouamane Tazi
  • Sampo Pyysalo
  • Thomas Wolf
  • Colin Raffel

Abstract

  • The current trend of scaling language models involves increasing both parameter count and training dataset size. Extrapolating this trend suggests that training dataset size may soon be limited by the amount of text data available on the internet. Motivated by this limit, we investigate scaling language models in data-constrained regimes. Specifically, we run a large set of experiments varying the extent of data repetition and compute budget, ranging up to 900 billion training tokens and 9 billion parameter models. We find that with constrained data for a fixed compute budget, training with up to 4 epochs of repeated data yields negligible changes to loss compared to having unique data. However, with more repetition, the value of adding compute eventually decays to zero. We propose and empirically validate a scaling law for compute optimality that accounts for the decreasing value of repeated tokens and excess parameters. Finally, we experiment with approaches mitigating data scarcity, including augmenting the training dataset with code data or removing commonly used filters. Models and datasets from our 400 training runs are freely available at https://github.com/huggingface/datablations.

Translation (by gpt-4o-mini)

  • 現在の言語モデルのスケーリングのトレンドは、パラメータ数とトレーニングデータセットのサイズの両方を増加させることにあります。このトレンドを外挿すると、トレーニングデータセットのサイズは、インターネット上で利用可能なテキストデータの量によって制限される可能性があることが示唆されます。この制限に動機づけられ、データが制約された状況での言語モデルのスケーリングを調査します。具体的には、データの繰り返しの程度と計算予算を変化させた大規模な実験を実施し、最大9000億トレーニングトークンと90億パラメータのモデルを使用します。固定された計算予算のもとで制約されたデータを用いる場合、最大4エポックの繰り返しデータでトレーニングを行っても、ユニークなデータを使用した場合と比較して損失にほとんど変化は見られませんでした。しかし、繰り返しが増えると、計算を追加する価値は最終的にゼロに減少します。私たちは、繰り返しトークンの価値の減少と過剰なパラメータを考慮した計算最適性のスケーリング法則を提案し、実証的に検証します。最後に、トレーニングデータセットをコードデータで拡張したり、一般的に使用されるフィルターを削除したりするなど、データ不足を軽減するアプローチを実験します。私たちの400回のトレーニング実行から得られたモデルとデータセットは、https://github.com/huggingface/datablations で自由に入手可能です。

Summary (by gpt-4o-mini)

  • 言語モデルのスケーリングにおいて、データ制約下でのトレーニングを調査。9000億トークンと90億パラメータのモデルを用いた実験で、繰り返しデータを使用しても損失に大きな変化は見られず、繰り返しの価値が減少することを確認。計算最適性のスケーリング法則を提案し、データ不足を軽減するアプローチも実験。得られたモデルとデータセットは公開。
@AkihikoWatanabe AkihikoWatanabe changed the title Scaling Data-Constrained Language Models, Niklas Muennighoff+, arXiv'23 Mar 23, 2025
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant