文章来源于互联网:图像生成迎来CoT时刻!港中文首次提出文生图的o1推理和Inference Scaling新范式!

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

-
论文标题:Can We Generate Images with CoT? Let’s Verify and Reinforce Image Generation Step by Step -
论文地址:https://arxiv.org/pdf/2501.13926 -
项目地址:https://github.com/ZiyuGuo99/Image-Generation-CoT
-
离散化 Token 表示:无论是语言还是图像数据,自回归模型都将其量化为离散 Token,并通过逐步预测的方式进行生成。 -
逐步解码(Step-by-Step Decoding):类似于 CoT 在数学问题上的逐步推理,自回归图像生成也可以逐步生成中间图像,并在生成过程中进行验证与优化。






-
清晰度判断(Clarity Judgment):识别哪些中间步骤的图像已经足够清晰,可用于后续评估。 -
潜力性评估(Potential Assessment):分析当前步骤是否有潜力生成高质量的最终图像。 -
最佳选择(Best-of-N’ Selection):在高潜力路径中选择最佳的最终图像。





