上海交大人工智能学院智慧医疗团队在构建多语言医学大模型方面取得新进展

发布日期： 2024年10月01日

来源：上海交大新闻学术网

文章内容

上海交大人工智能学院智慧医疗团队在构建多语言医学大模型方面取得新进展

近日，《自然通讯》（Nature Communications）发表了上海交通大学人工智能学院智慧医疗团队的研究论文：“Towards Building Multilingual Language Model for Medicine”，提出了一种构建多语言医学大语言模型范式，涵盖了大规模预训练语料库、模型构建，以及全面的基准测试。该模型性能在多项医疗评测指标中可与GPT-4相媲美。研究团队将所有的模型和训练数据进行开源，促进了大语言模型在医疗领域，特别是在语言障碍和医疗资源全球化垂直应用的发展。

医疗健康是关系民生的重大问题，如何用人工智能技术辅助医生工作，提升医疗服务效率、质量与公平成为全球关注的焦点。然而，尽管众多研究者投入了大语言模型在医疗领域的应用，当前的大部分模型仍然主要依赖于英语基座模型和训练数据，缺乏处理多语言医疗专业数据的能力，且性能距离临床应用要求仍有较大距离。为了克服这一挑战，研究团队提出了一系列创新解决方案，包括：创建了一个包含255亿tokens的多语言医疗语料库MmedC；开发了一个涵盖六种语言、21种医学子领域的多语言医疗问答评测基准MmedBench；开源了多语言医疗基座模型MMed-Llama 3，该模型在多项基准测试中表现卓越，显著超越了现有的开源模型，特别适用于医学垂直领域的定制微调。

图a展示了多语言医疗语料库MMedC的构建过程。图b描绘了多语言医疗问答评测基准MMedBench的构建细节。图c对主流大语言模型与医疗专用语言模型的性能进行了对比分析。图d展示了模型在进行医疗知识增强前后，在各项性能指标上的提升情况。

在预训练数据的收集方面，研究团队从四个不同的来源精心整理了数据。首先，他们利用启发式算法从大规模通用文本数据库中筛选出医疗相关内容；其次，使用光学字符识别技术（OCR）从医学教科书中提取文本；再者，通过从多国的官方许可医疗网站上爬取数据；最后，整合了一些现有的小规模医疗数据集。这些数据涵盖了六种主要语言，覆盖了全球大部分地区，并且对更多语言的支持仍在不断更新和扩展中。

MMedC训练语料的数据统计。图a展示了该语料库所涵盖语言的地理分布；图b提供了各语言的详细数据量统计；图c详细呈现了每种语言数据来源的分布比例。

在评测基准的设计方面，研究团队推出了一项创新的多语言选择题问答评测标准，涵盖了两个主要的评测维度：选择准确率和解释合理性。在评测过程中，模型不仅需要选择正确的答案，还必须提供合理的解释，从而进一步测试模型理解和解释复杂医疗信息的能力，实现更全面的评估。

MMedBench评测基准的数据统计。图a展示了MMedBench训练集和测试集的基本统计信息；图b揭示了MMedBench样本在各个主题上的分布情况。

研究团队对主流大语言模型进行了全面测试，使用MMedBench作为评测标准。测试结果显示，所提出的模型在选择准确率和解释合理性这两个关键维度上均超越了现有的同级别开源模型，并可与GPT-4媲美。在解答理由的评估中，除了采用自动化指标之外，研究团队还进行了人工打分评估。在人工评估结果中，提出的模型最受到人类用户的偏好。

对比分析模型打分结果。图a展示了模型按照BLEU分数、人工质量排序以及GPT-4质量排序的量化得分。图b则展示了自动指标与人类评估之间的相关性，其中k表示拟合直线的斜率，t表示肯德尔相关系数。

该研究不仅推动了医疗领域的多语言大模型研究，也为临床实践提供了新的工具，特别是在解决语言障碍和医疗资源全球化方面展现了巨大潜力。目前所有数据和代码均已开源，进一步促进了全球研究社区的合作和技术共享。

上海交通大学博士生邱芃铖和吴超逸为论文的共同第一作者，上海交通大学人工智能学院王延峰教授和谢伟迪副教授为论文的共同通讯作者。该研究得到了中国国家重点研发计划（2022ZD0160702）、上海市科委（22511106101、18DZ2270700、21DZ1100100）、111计划（BP0719010）以及超高清视音频制播呈现国家重点实验室的支持。

论文链接：https://www.nature.com/articles/s41467-024-52417-z

作者：

惠慧

供稿单位：

人工智能学院

交流讨论

领取技术资料和解决方案

SuperScript IV CellsDirect cDNA合成！无需分离纯化RNA，单管完成细胞裂解和反转录，适用于微量样品/单细胞，产物可直接用于PCR等下游应用，欢迎索取详细资料

以肿瘤研究为特色的临床前药理药效CRO服务平台，点击咨询技术详情！

获取赛默飞蛋白预制胶选择指南：NuPAGE Bis-Tris预制胶、Tris-乙酸预制胶、Tricine预制胶、NativePAGE Bis-Tris非变性胶怎么选？

基因打靶方案行不行？赛业生物“阿尔法鼠”AlphaKnockout基因打靶专家系统汲取多年专业经验，借助AI算法和天河二号超算能力，快速为您提供基因敲除小鼠设计方案，科研领域免费使用！欢迎索取资料

皖仪新品“高性能实时荧光定量PCR仪—专为科研及医疗用户设计打造”欢迎试用和领取详细技术资料！

WesternBlot产品选择繁多，哪些适合您的蛋白样品和实验需求？赛默飞BlotBuilder根据您的样品/要求为您个性化推荐更适合的WB实验方案和产品指南！填写联系方式领取指南！

上海交大人工智能学院智慧医疗团队在构建多语言医学大模型方面取得新进展

《PNAS》抗利尿激素能提高“社恐”猴子的社交能力

上海交大人工智能学院智慧医疗团队在构建多语言医学大模型方面取得新进展