文章来源于互联网:数据更多更好还是质量更高更好?这项研究能帮你做出选择
当计算预算低时,重复使用高质量数据更好;当不差钱时,使用大量数据更有利。

-
论文标题:Scaling Laws for Data Filtering—Data Curation cannot be Compute Agnostic -
论文地址:https://arxiv.org/pdf/2404.07177.pdf -
代码地址:https://github.com/locuslab/scaling_laws_data_filtering






其中
,这是新的每 bucket 衰减参数。


文章来源于互联网:数据更多更好还是质量更高更好?这项研究能帮你做出选择