该论文旨在解决大型语言模型在几何问题求解中的逻辑推理能力不足问题。研究背景是:现有几何问题求解方法主要关注图表描述与文本的同步以及问题求解,通常采用神经、符号或神经符号方法,但这些方法仅解决了图表理解和符号操作两个需求,而逻辑推理能力发展不足,通常仅限于单一思维链推理。
论文提出了MARS-GPS方法,具体包含:
- 生成多个并行推理路径,每条路径都结合了Python代码执行进行数值验证
- 使用词元级熵作为置信度信号对推理路径进行排序
- 通过多阶段投票和自验证流程聚合答案
论文的核心创新点包括:
- 提出了多思维链投票机制,突破了传统单一思维链推理的限制
- 将代码执行验证与推理过程深度融合,实现了数值验证与逻辑推理的协同
- 引入了基于熵的置信度评估和多阶段投票聚合策略,提高了推理的可靠性和鲁棒性
- 实现了从单一推理到并行多路径推理的范式转变,显著提升了逻辑推理能力
论文对该领域的整体贡献是:
- 在Geometry3K基准测试上达到了88.8%的准确率,比先前最优方法提升了近11%
- 证明了推理准确率随并行推理路径数量增加而持续提升(从1到16条路径提升6.0%)
- 为几何推理任务提供了新的多路径推理框架,推动了大型语言模型在复杂数学推理方面的发展
- 开源了代码和数据,促进了该领域的研究进展