标量多样性的连续解释性引导

📝 论文摘要

语用推理本质上是渐变的。不同词汇项引发的语用充实程度各异，等级含义通过"量表多样性"体现了这一特性——不同量表项产生的含义强度存在差异。然而，当前对大语言模型语用推理能力的评估多依赖提示词操控。本研究突破提示层面的局限，提出连续解释性引导方法，通过将激活层引导强度作为连续实验变量，探测渐变的语用解释现象。为支撑分析，研究构建了编码渐变量表多样性的新数据集GraSD。在四个大语言模型上的实验表明：均匀激活引导虽能全局提升语用解释倾向，却会消除项目级差异；而分级激活引导能产生与量表多样性等级相匹配的差异化解释偏移。这表明渐变敏感性已编码于表征空间中，并能通过受控干预系统性地恢复。连续解释性引导方法与GraSD数据集共同构成了评估大语言模型渐变语用敏感性的理论框架。

🎯 研究动机

该论文旨在解决大语言模型(LLMs)中语用推理(pragmatic inference)评估的局限性。研究背景是：语用推理本质上是渐变的(graded)，不同词汇项(lexical items)引发的语用强化(pragmatic enrichment)程度不同，这体现在等级含义(scalar implicature)的标量多样性(scalar diversity)上。然而，现有对LLMs语用推理的评估通常依赖于基于提示(prompt-based)的操作，未能深入探究提示层面之外的影响。

🔧 核心方法

论文提出了两种核心方法： - **连续解释性引导(Continuous Interpretive Steering, CIS)**：一种通过将激活层引导(activation-level steering)强度作为连续实验变量，来探测渐变语用解释的方法。 - **新数据集GraSD**：一个编码了渐变标量多样性(graded scalar diversity)的新数据集。实验在四个LLMs上进行，比较了均匀激活引导(uniform activation steering)与渐变激活引导(graded activation steering)对语用解释的影响。

💡 核心创新

论文的核心创新点在于： - **方法创新**：提出了CIS方法，将激活引导强度作为连续变量，超越了传统的、离散的提示操控(prompt manipulation)，能够更精细地探测LLMs内部的渐变语用表征。 - **发现创新**：首次通过实验证明，均匀激活引导虽然能全局增加语用解释，但会抹平项目层面的差异；而渐变激活引导能产生与标量多样性等级相匹配的差异化解释偏移(differentiated interpretive shifts)。这表明LLMs的表示空间(representation space)中编码了对语用信息的渐变敏感性(graded sensitivity)，并且可以通过受控干预(controlled intervention)系统性地恢复。 - **资源创新**：构建了专门用于评估渐变标量多样性的数据集GraSD，为相关研究提供了基准。

🏆 总体贡献

论文对该领域的整体贡献是： - **理论与方法框架**：CIS方法与GraSD数据集共同提供了一个原则性的框架(principled framework)，用于系统评估LLMs中的渐变语用敏感性(graded pragmatic sensitivity)。 - **新的分析视角**：将研究视角从提示层面深入到模型内部的激活表示层面，揭示了LLMs内部语用知识的结构化编码方式。 - **实证发现**：为“LLMs能够编码并处理渐变的、与人类语用直觉一致的语用信息”这一观点提供了新的、基于模型内部干预的实验证据。

标量多样性的连续解释性引导
Continuous Interpretive Steering for Scalar Diversity

📊 核心分析

标量多样性的连续解释性引导 Continuous Interpretive Steering for Scalar Diversity

📊 核心分析

标量多样性的连续解释性引导
Continuous Interpretive Steering for Scalar Diversity