文章来源于互联网:用大模型优化大模型预训练数据,节省20倍计算量,实现显著性能提升!

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

-
论文: https://huggingface.co/papers/2409.17115
-
代码框架: https://github.com/GAIR-NLP/ProX
-
预训练实验的全实验细节和模型: https://huggingface.co/gair-prox
-
超过 100B 的高质量通用语料和 5B 的高质量数学语料: https://hf.co/collections/gair-prox/prox-dataset-66e81c9d560911b836bb3704









-
设计出更灵活的接口,以覆盖多样化的数据优化需求,进一步提升数据质量。 -
将 ProX 发展到更多专用 domain:例如代码领域、多语言语料上,促进领域大模型的发展。 -
通过进一步减小模型尺寸、和其他加速手段,减小推理代价,使清洗 TB 级别文档不再遥远。
文章来源于互联网:用大模型优化大模型预训练数据,节省20倍计算量,实现显著性能提升!