引文幻觉大幅下降的AI模型诞生 准确率与人类专家相近

时间:2026-02-05 08:27    来源:科技日报

图片来源:AI生成

《自然》4日报道了一个开源语言模型“OpenScholar”,其在准确进行文献综述方面可超越商用大语言模型。比如,在该研究开展的实验中,GPT4o会在78%至90%的情况下出现引文幻觉,而“OpenScholar”的引文准确率却与人类专家相仿。虽然仍需进一步优化,但该工具有望帮助科学家处理复杂且日益繁重的科学文献综述任务。

科学文献综述对于支持循证决策、微调科学过程和引导新发现都很重要。然而,文献发表数量的增长使研究人员很难掌握全部资讯。商用大语言模型可以提供协助,但却很容易出错,如归因能力有限和引文幻觉。

为了生成准确、全面、透明的科学文献综述,美国华盛顿大学团队推出了“OpenScholar”。该模型是专为科研任务设计的检索增强语言模型。其他系统也用过这个框架,但研究团队将其与一个包含4500万篇最新开放获取科研论文的专业数据库以及一个自我评估机制相结合,从而优化了其输出。

研究团队还创建了名为“ScholarQABench”的基准工具来评估文献综述的自动化。测试显示,“OpenScholar”的准确率比GPT4o和PaperQA2(一个文献综述工具)这类现有系统分别高出6.1%和5.5%。此外,“OpenScholar”生成的答案,在50%到70%的情况下比专家注释器的答案更有用。

团队总结道,以上结果和引文幻觉大幅下降证明了“OpenScholar”有望支持和推动进一步研究工作。但他们指出,该系统仍有局限性并强调基于语言模型的系统无法使科学文献综述完全自动化。他们向学界同时开放“ScholarQABench”和“OpenScholar”,以鼓励进一步研究和优化。