让AI知识触手可及

首页 » 轻量开源!微软基础模型LLaVA-Rad:自动生成高质量放射学报告

文章来源于互联网:轻量开源!微软基础模型LLaVA-Rad:自动生成高质量放射学报告

编辑丨coisini

多模态生成式人工智能的最新进展已将生物医学应用扩展到同时处理文本和图像,在视觉问答和放射学报告生成等任务中展现出潜力。然而,这些模型在临床实现中面临挑战,特别是大型模型在计算成本等方面带来了部署难题。小型多模态模型(SMM)虽然更高效,但与大型模型相比仍存在显著性能差距。此外,缺乏可访问的开源模型和可靠的事实正确性评估方法,特别是模型幻觉为临床采用设置了重大障碍。

来自微软研究院、华盛顿大学、斯坦福大学、南加州大学、加州大学戴维斯分校和加州大学旧金山分校的研究人员提出了一种新型小型多模态模型(SMM)——LLaVA-Rad,以及用于事实正确性自动评分的新指标 CheXprompt。

论文地址:https://arxiv.org/pdf/2403.08002

LLaVA-Rad 专注于胸部 X 光(CXR)成像,旨在为医学影像检查自动生成高质量放射学报告。该模型在七个不同来源的数据集上进行了训练,共包含 697435 对放射学图像 – 报告,并在仅有结构化标签时利用 GPT-4 进行报告合成。

值得一提的是,LLaVA-Rad 仅需单个 V100 GPU 进行推理,并使用 8 个 A100 集群在一天内完成训练。

LLaVA-Rad 的架构代表了一种小型多模态模型(SMM)的全新方法,尽管其规模显著小于 Med-PaLM M 等模型,但仍实现了卓越的性能。该模型的设计理念围绕将训练过程分解为不同的阶段:单模态预训练和轻量级跨模态学习。

LLaVA-Rad 的架构采用了一种高效的适配器机制,将非文本模态嵌入到文本嵌入空间中。训练过程分为三个阶段:预训练、对齐和微调。这种模块化方法实现了稳健的单模态模型开发和有效的跨模态适应。

与类似规模的模型(如 LLaVA-Med、CheXagent 和 MAIRA-1,均为 70 亿参数)相比,LLaVA-Rad 表现出卓越的性能。并且,尽管规模显著较小,但 LLaVA-Rad 在关键指标上超越了 Med-PaLM M 模型,在放射学文本评估中,ROUGE-L 提高了 12.1%,F1-RadGraph 提高了 10.1%。

LLaVA-Rad 在多个数据集(包括 CheXpert 和 Open-I)上均保持了优异性能,即使在测试未见过数据时也是如此。这归功于 LLaVA-Rad 的模块化设计和数据高效架构。LLaVA-Rad 的整体性能和计算效率使其在实际应用中极具实用性。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

文章来源于互联网:轻量开源!微软基础模型LLaVA-Rad:自动生成高质量放射学报告

06
12 月
2025
04
12 月
2025
03
12 月
2025
30
11 月
2025
28
11 月
2025
27
11 月
2025
27
11 月
2025
27
11 月
2025
26
11 月
2025
25
11 月
2025
22
11 月
2025
21
11 月
2025
21
11 月
2025
19
11 月
2025
19
11 月
2025
最新提问
🎉🎉🎉AI问答功能上线喽!!
安装pytorch的时候提示拒绝访问
已经成功安装pytorch,但是import时提示"找不到指定的模块"
Pytorch安装后不能使用的问题
YOLO模型训练时提示报错
YOLO的安装使用报错问题
有哪些GPU云环境可以使用
公众号
滚动至顶部
0
希望看到您的想法,请您发表评论x