内容目录
文章来源于互联网:阿里国际版o1来了,Marco-o1:聚焦开放式问题推理
-
论文标题:Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions -
论文链接:https://arxiv.org/pdf/2411.14405 -
项目地址:https://github.com/AIDC-AI/Marco-o1
-
Open-o1 CoT 数据集(已过滤):研究者通过应用启发式和质量过滤过程完善了 Open-o1 项目的 CoT 数据集,这一改进使模型能够有效地采用结构化推理模式。 -
Marco-o1 CoT 数据集(合成):研究者使用 MCTS 生成了 Marco-o1 CoT 数据集,这有助于制定复杂的推理路径,进一步增强了模型的推理能力。 -
Marco 指令数据集:认识到强大的指令遵循能力在执行复杂任务中的关键作用,研究者整合了一组指令遵循数据。这种整合确保了模型能够胜任各种任务,在保持其普遍有效性的同时显著增强其推理能力。
-
节点是推理状态:在 MCTS 框架中,每个节点代表解决问题过程的推理状态; -
动作作为 LLM 输出:节点可能执行的动作是 LLM 生成的输出。这些输出代表推理链中的潜在 step 或 mini-step; -
Rollout 和奖励计算:在 rollout 阶段,LLM 继续推理过程直至终止状态; -
指导 MCTS:奖励分数 R 用于评估和选择 MCTS 中的有希望的路径,从而有效地引导搜索走向更置信、更可靠的推理链。
-
Marco-o1-MCTS (step):使用每个推理 step 作为一个动作(step); -
Marco-o1-MCTS (mini-step of 64 tokens):使用 64 个 token 的 mini-step 作为一个动作(64 个 token); -
Marco-o1-MCTS (mini-step of 32 tokens):使用 32 个 token 的 mini-step 作为一个动作(32 个 token)。
文章来源于互联网:阿里国际版o1来了,Marco-o1:聚焦开放式问题推理