文章来源于互联网:等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
-
论文标题:MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time -
论文地址:https://arxiv.org/abs/2405.16265v2
和潜在的下一步
作为输入,并返回奖励值
。
)对于给定的推理路径
可能是正确的,从而使扩展路径值得进一步探索。相反,低奖励值则表示新步骤可能不正确,这意味着遵循此路径的解决方案也可能不正确。
后,我们设计了一个提示模板(Example 3.1),以从 LLM 中收集下一步。正如示例所示,LLM 将原始问题作为 {question},将当前推理路径作为 {answer}。注意,在算法的第一次迭代中,所选择的节点是仅包含问题的根节点,因此 {answer} 为空。对于推理路径
,LLM 生成 N 个中间步骤,并将它们作为当前节点的子节点附加。在算法的下一步中,将评估这些新生成的子节点,并选择一个新的节点进行进一步扩展。我们还意识到,生成步骤的另一种方法是使用步骤标记对 LLM 进行微调。然而,这可能会降低 LLM 的推理能力,更重要的是,这与本文的重点 —— 在不修改权重的情况下增强 LLM 推理能力相悖。







