← 返回论文列表

超越符号求解:大语言模型几何推理中的多链思维投票机制
Beyond Symbolic Solving: Multi Chain-of-Thought Voting for Geometric Reasoning in Large Language Models

作者: Md. Abu Bakor Siddique, Shahrin Hossain, Sadman Ahmed Siam 等6人
arXiv: 2604.00890v1
分类: cs.AI, cs.CL, cs.CV
📝 论文摘要
几何问题求解(GPS)作为提升大语言模型数学推理能力的核心,因其需要结合图表理解、符号运算与逻辑推理而备受关注。现有研究主要集中于将图表描述与文本信息同步处理以解决问题,并采用了神经、符号或神经符号相结合的方法。然而,这些方法仅满足了前两项要求——图表理解与符号运算,而逻辑推理能力的发展仍显不足,通常局限于单一思维链(CoT)。为弥补现有模型的这一缺陷,本文提出MARS-GPS模型,该模型通过生成多个并行推理路径并辅以Python代码执行进行数值验证,采用词元级熵作为置信度信号对路径排序,并通过多阶段投票与自验证流程整合答案。实验结果表明:采用8条并行推理路径的MARS-GPS在Geometry3K数据集上达到88.8%的准确率,较先前最优模型提升近11%,且当推理路径数量从1增至16时,准确率呈现稳定增长趋势(在消融实验子集上提升6.0%)。相关代码与数据已发布于匿名仓库:https://anonymous.4open.science/r/MARS-GPS-DE55。

📊 核心分析

🎯 研究动机
该论文旨在解决大型语言模型在几何问题求解中的逻辑推理能力不足问题。研究背景是:现有几何问题求解方法主要关注图表描述与文本的同步以及问题求解,通常采用神经、符号或神经符号方法,但这些方法仅解决了图表理解和符号操作两个需求,而逻辑推理能力发展不足,通常仅限于单一思维链推理。
🔧 核心方法
论文提出了MARS-GPS方法,具体包含: - 生成多个并行推理路径,每条路径都结合了Python代码执行进行数值验证 - 使用词元级熵作为置信度信号对推理路径进行排序 - 通过多阶段投票和自验证流程聚合答案
💡 核心创新
论文的核心创新点包括: - 提出了多思维链投票机制,突破了传统单一思维链推理的限制 - 将代码执行验证与推理过程深度融合,实现了数值验证与逻辑推理的协同 - 引入了基于熵的置信度评估和多阶段投票聚合策略,提高了推理的可靠性和鲁棒性 - 实现了从单一推理到并行多路径推理的范式转变,显著提升了逻辑推理能力
🏆 总体贡献
论文对该领域的整体贡献是: - 在Geometry3K基准测试上达到了88.8%的准确率,比先前最优方法提升了近11% - 证明了推理准确率随并行推理路径数量增加而持续提升(从1到16条路径提升6.0%) - 为几何推理任务提供了新的多路径推理框架,推动了大型语言模型在复杂数学推理方面的发展 - 开源了代码和数据,促进了该领域的研究进展