该论文旨在探究双语语言模型中的跨语言激活是否与人类双语者的认知过程相似。研究背景是:人类双语者在阅读时会出现跨语言激活,特别是对于具有共享表面形式的词汇——同源词(cognates/friends)通常产生促进效应,而同形异义词(interlingual homographs/false friends)则导致干扰或无效应。
论文采用以下具体方法:
- 训练荷兰语-英语因果Transformer模型,设置了四种词汇共享条件,以操控(假)同源词是否获得共享或语言特定的词嵌入(embeddings)。
- 使用来自双语阅读研究的心理语言学刺激材料。
- 通过惊奇度(surprisal)分析和词嵌入相似性(embedding similarity)分析来评估模型。
- 进行回归分析以探究驱动效应的因素。
论文的核心创新点在于:
- 首次系统性地在双语Transformer模型中模拟并检验了人类双语阅读中的跨语言激活现象,特别是针对同源词和同形异义词的对比效应。
- 创新地设计了四种词汇共享条件,以精确操控词嵌入的共享策略,从而分离出不同编码方式对跨语言激活模式的影响。
- 揭示了模型与人类处理对齐的关键条件:只有当同源词共享词嵌入时,才能复现人类双语者的定性模式,这表明词汇重叠的编码方式是决定模型解释充分性的关键因素。
论文对该领域的总体贡献是:
- 实证表明双语语言模型能够捕捉到部分跨语言激活效应,验证了其作为研究工具的潜力。
- 同时指出,模型与人类处理的对应关系高度依赖于词汇重叠的编码方式,这限制了其作为双语阅读模型的解释充分性(explanatory adequacy)。
- 为未来构建更贴近人类认知的双语计算模型提供了重要的设计启示和评估基准。