文章来源于互联网:苹果也在蒸馏大模型,给出了蒸馏Scaling Laws
蒸馏模型的性能可以量化估算了。


-
论文标题:Distillation Scaling Laws -
论文链接:https://arxiv.org/pdf/2502.08606






-
(固定模型,变化数据) 对于一个固定的模型族,变化训练 token 的数量。 -
(IsoFLOP 配置) 在总计算约束下,同时变化模型大小和训练 token 的数量。




文章来源于互联网:苹果也在蒸馏大模型,给出了蒸馏Scaling Laws
文章来源于互联网:苹果也在蒸馏大模型,给出了蒸馏Scaling Laws
蒸馏模型的性能可以量化估算了。












文章来源于互联网:苹果也在蒸馏大模型,给出了蒸馏Scaling Laws