只需几秒钟,开源模型检索 4500 万篇论文,比 GPT-4o 还靠谱!
这就是由华盛顿大学和艾伦人工智能研究所(Ai2)打造的最新模型 OpenScholar。它还是首个从论文到数据集、模型检查点都完全开源的科研助手模型。 仅调用 8B 模型
一句话总结:它存储了 4500 万篇论文的大规模数据,并使用自定义训练的检索器、重排器和 8B 参数语言模型进行检索,并根据最新的科学文献内容回答问题。 具体来说,OpenScholar-8B(OS-8B)系统包括以下组件:
- 1.开放学者数据存储:包含超过 4500 万篇论文、以及对应的约 2.5 亿段落嵌入。底层论文数据截止到 2024 年 10 月。
- 2.专业检索器和重排序器:这些工具专门用于从科学文献数据存储库中识别相关段落。
- 3.专业 8B 语言模型:这是一个针对科学文献综合任务优化的 8B 参数语言模型,在性能与计算效率之间取得了很好平衡。团队基于来自迭代自我反馈生成管道生成的合成数据训练并微调了 Llama 3.1 8B。
- 4.迭代自我反馈生成:在推理过程中,团队使用迭代自我反馈来通过自然语言反馈精炼模型输出。每次迭代都额外检索更多论文,使模型能够提高回答质量并缩小引用差距。
为了评估 OpenScholar,团队还开发了 ScholarQABench—— 一个专门用于评估从多篇论文中综合信息以解决开放式科学问题的基准。
ScholarQABench 包含七个数据集:三个专注于单篇论文评估的现有数据集,以及四个需要跨多篇论文综合的新收集数据集。搜索的可靠性方面,OpenScholar 更是远超 GPT-4o。
GPT-4o 在 90% 以上的情况下都引用了不存在的论文,而 OpenScholar 的结果都是来自确定来源。
以及在信息覆盖率、实用性、相关性等多个维度方面,OpenScholar 撰写的结果都优于 GPT-4o。
传送链接: