Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Dataset Distillation: A Comprehensive Review, Ruonan Yu+, arXiv'23 #1836

Open
AkihikoWatanabe opened this issue Mar 25, 2025 · 1 comment
Open

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Mar 25, 2025

URL

Authors

  • Ruonan Yu
  • Songhua Liu
  • Xinchao Wang

Abstract

  • Recent success of deep learning is largely attributed to the sheer amount of data used for training deep neural networks.Despite the unprecedented success, the massive data, unfortunately, significantly increases the burden on storage and transmission and further gives rise to a cumbersome model training process. Besides, relying on the raw data for training \emph{per se} yields concerns about privacy and copyright. To alleviate these shortcomings, dataset distillation~(DD), also known as dataset condensation (DC), was introduced and has recently attracted much research attention in the community. Given an original dataset, DD aims to derive a much smaller dataset containing synthetic samples, based on which the trained models yield performance comparable with those trained on the original dataset. In this paper, we give a comprehensive review and summary of recent advances in DD and its application. We first introduce the task formally and propose an overall algorithmic framework followed by all existing DD methods. Next, we provide a systematic taxonomy of current methodologies in this area, and discuss their theoretical interconnections. We also present current challenges in DD through extensive experiments and envision possible directions for future works.

Translation (by gpt-4o-mini)

  • 最近の深層学習の成功は、深層ニューラルネットワークのトレーニングに使用されるデータの膨大な量に大きく起因しています。前例のない成功にもかかわらず、膨大なデータは、残念ながらストレージや伝送の負担を大幅に増加させ、さらに煩雑なモデルのトレーニングプロセスを引き起こします。また、生データに依存してトレーニングを行うことは、プライバシーや著作権に関する懸念を生じさせます。これらの欠点を軽減するために、データセット蒸留(DD)、またはデータセット凝縮(DC)として知られる手法が導入され、最近ではコミュニティ内で多くの研究の注目を集めています。元のデータセットを基に、DDは合成サンプルを含むはるかに小さなデータセットを導出することを目指しており、そのデータセットを基にトレーニングされたモデルは、元のデータセットでトレーニングされたモデルと同等の性能を発揮します。本論文では、DDの最近の進展とその応用について包括的なレビューと要約を行います。まず、タスクを正式に紹介し、既存のすべてのDD手法に続く全体的なアルゴリズムフレームワークを提案します。次に、この分野の現在の方法論の体系的な分類を提供し、それらの理論的な相互関係について議論します。また、広範な実験を通じてDDにおける現在の課題を提示し、今後の研究の可能な方向性を展望します。

Summary (by gpt-4o-mini)

  • データセット蒸留(DD)は、深層学習における膨大なデータのストレージやプライバシーの問題を軽減する手法であり、合成サンプルを含む小さなデータセットを生成することで、元のデータセットと同等の性能を持つモデルをトレーニング可能にする。本論文では、DDの進展と応用をレビューし、全体的なアルゴリズムフレームワークを提案、既存手法の分類と理論的相互関係を議論し、DDの課題と今後の研究方向を展望する。
@AkihikoWatanabe AkihikoWatanabe changed the title Dataset Distillation: A Comprehensive Review, Ruonan Yu+, arXiv'23 Mar 25, 2025
@AkihikoWatanabe
Copy link
Owner Author

訓練データセット中の知識を蒸留し、オリジナルデータよりも少量のデータで同等の学習効果を得るDataset Distillationに関するSurvey。
image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant