文章来源于互联网:DeepSeek开源数学大模型,高中、大学定理证明新SOTA
DeepSeek-Prover-V1.5 通过结合强化学习和蒙特卡洛树搜索,显著提升了证明生成的效率和准确性。




-
报告标题:DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search -
报告链接:https://arxiv.org/pdf/2408.08152 -
GitHub 链接:https://github.com/deepseek-ai/DeepSeek-Prover-V1.5




。树扩展步骤的内在奖励取决于是否向搜索树中添加新节点
-
通用模型
-
形式化数学的专用模型




文章来源于互联网:DeepSeek开源数学大模型,高中、大学定理证明新SOTA