文章来源于互联网:将越狱问题转换为求解逻辑推理题:「滥用」推理能力让LLM实现自我越狱
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

-
论文标题:Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models -
论文链接:https://arxiv.org/pdf/2502.11054 -
GitHub 链接:https://github.com/NY1024/RACE


-
受害者模型:专注于解决推理任务,看似在进行合法的推理。 -
影子模型:负责生成和优化查询,但并不直接识别背后的有害意图。
-
攻击状态机(ASM)框架:将攻击过程建模为一系列推理状态和状态转换,确保每一步都符合逻辑推理的规则,同时逐步推进攻击目标。这种结构化的攻击方式不仅提高了攻击的成功率,还使得攻击过程更加难以被检测。 -
动态优化与恢复机制:通过增益引导探索(Gain-guided Exploration)、自我博弈(Self-play)和拒绝反馈(Rejection Feedback)三个模块,动态优化攻击过程。
-
增益引导探索(Gain-guided Exploration):该模块通过信息增益(Information Gain)来衡量查询在攻击过程中的有效性,选择与目标语义一致且能提取有用信息的查询,确保攻击的稳步进展。

-
自我博弈(Self-play):自我对抗模块通过模拟受害者模型的拒绝响应,提前优化查询结构,提高攻击效率。这一模块利用影子模型和受害者模型之间的相似性,通过 “自我博弈” 来优化查询。

-
拒绝反馈(Rejection Feedback):当攻击尝试失败时,拒绝反馈模块会分析失败的原因,并将失败的查询重构为替代的推理任务,从而快速恢复并维持攻击的稳定性。



文章来源于互联网:将越狱问题转换为求解逻辑推理题:「滥用」推理能力让LLM实现自我越狱