轻量开源！微软基础模型LLaVA-Rad：自动生成高质量放射学报告

首页 » 轻量开源！微软基础模型LLaVA-Rad：自动生成高质量放射学报告

文章来源于互联网:轻量开源！微软基础模型LLaVA-Rad：自动生成高质量放射学报告

编辑丨coisini

多模态生成式人工智能的最新进展已将生物医学应用扩展到同时处理文本和图像，在视觉问答和放射学报告生成等任务中展现出潜力。然而，这些模型在临床实现中面临挑战，特别是大型模型在计算成本等方面带来了部署难题。小型多模态模型（SMM）虽然更高效，但与大型模型相比仍存在显著性能差距。此外，缺乏可访问的开源模型和可靠的事实正确性评估方法，特别是模型幻觉为临床采用设置了重大障碍。

来自微软研究院、华盛顿大学、斯坦福大学、南加州大学、加州大学戴维斯分校和加州大学旧金山分校的研究人员提出了一种新型小型多模态模型（SMM）——LLaVA-Rad，以及用于事实正确性自动评分的新指标 CheXprompt。

论文地址：https://arxiv.org/pdf/2403.08002

LLaVA-Rad 专注于胸部 X 光（CXR）成像，旨在为医学影像检查自动生成高质量放射学报告。该模型在七个不同来源的数据集上进行了训练，共包含 697435 对放射学图像 – 报告，并在仅有结构化标签时利用 GPT-4 进行报告合成。

值得一提的是，LLaVA-Rad 仅需单个 V100 GPU 进行推理，并使用 8 个 A100 集群在一天内完成训练。

LLaVA-Rad 的架构代表了一种小型多模态模型（SMM）的全新方法，尽管其规模显著小于 Med-PaLM M 等模型，但仍实现了卓越的性能。该模型的设计理念围绕将训练过程分解为不同的阶段：单模态预训练和轻量级跨模态学习。

LLaVA-Rad 的架构采用了一种高效的适配器机制，将非文本模态嵌入到文本嵌入空间中。训练过程分为三个阶段：预训练、对齐和微调。这种模块化方法实现了稳健的单模态模型开发和有效的跨模态适应。

与类似规模的模型（如 LLaVA-Med、CheXagent 和 MAIRA-1，均为 70 亿参数）相比，LLaVA-Rad 表现出卓越的性能。并且，尽管规模显著较小，但 LLaVA-Rad 在关键指标上超越了 Med-PaLM M 模型，在放射学文本评估中，ROUGE-L 提高了 12.1%，F1-RadGraph 提高了 10.1%。