斯坦福大学发布首个原生3D腹部CT视觉语言模型，Merlin在752类任务中全面领先

殴打小八爷 · 发表于昨天 22:47

CT（Computed Tomography）作为临床诊疗中常用的影像学检查手段，已广泛应用于全身多部位病变的诊断。据统计，全球每年 CT 检查量已高达约 3 亿次，其中腹部 CT 约占 1/4。随着医学诊疗对影像技术的依赖程度不断提升，影像诊断需求持续增长。然而，一名放射科医师完成单例腹部 CT 图像解读通常需要 20 分钟，诊断效率已难以匹配快速增长的临床需求。更为严峻的是，放射科医师人力资源存在严重短缺，预测数据显示，到 2036 年部分地区放射科医师缺口将超过 19,000 人，行业供需矛盾日益突出。

机器学习凭借其复杂的数据处理和高通量分析能力，能够快速对海量医学影像进行特征提取与智能识别，有效弥补传统人工阅片效率低、人力不足等痛点。尤其是视觉语言模型（Vision-Language Model, VLMs），在对比语言图像（Contrastive Language-Image Pretraining, CLIP）预训练技术推动下，文本表征与视觉表征能在共享嵌入空间中实现对齐，从而支持使用自然语言对视觉模型进行监督。此类模型作为基础模型，不仅可实现零样本学习，在结合大语言模型后经过临床数据训练还可快速适配放射科影像与报告分析。

不止于理论技术的进步，当前基于 VLMs 的方法正在放射学领域展现出巨大应用潜力，例如 BiomedCLIP、LLaVA-Rad、Med-PaLMM 等模型相继落地。然而，技术进步与模型落地并不意味着应用成熟，VLMs 在实际应用中仍面临诸多关键挑战，制约其在临床场景中的深度普及和可靠使用。

首先，现有方法多聚焦于 X 光片等二维影像，难以高效处理腹部 CT 等三维影像，通过切片聚合的方法解析全容积效率极低；其次，目前尚无应用于 VLMs 训练和评估的公开腹部 CT 数据集，私有模型也未充分融合诊断编码、放射报告等多模态临床数据，且缺乏统一的三维腹部 CT 任务基准，导致相关基础模型的训练与评价体系存在明显空白。

针对以上挑战，来自斯坦福大学的研究团队提出了首个针对腹部 CT 的原生三维视觉语言基础模型 Merlin，以及一个包含 25,494 例腹部 CT 扫描与放射学报告配对的数据集。Merlin 利用真实医院中配对 CT 扫描、电子健康记录（Electronic Health Record, EHR）诊断代码和放射学报告等结构化和非结构化数据，在单张 NVIDIA A6000 GPU 上训练而成。研究团队在 5,137 个 CT 扫描上进行了内部验证，并在 44,098 个 CT 扫描以及两个聚焦腹部 CT 扫描的公开数据集（VerSe 和 TotalSegmentator）上进行了外部验证，验证结果显示，Merlin 在基准测试任务中全面优于特定的基准模型。

相关研究成果以「Merlin: a computed tomography vision–language foundation model and dataset」为题，刊登于 Nature。

研究亮点：

研究提出首个针对腹部 CT 的原生三维视觉语言基础模型 Merlin，弥补了以往模型仅聚焦二维影像的劣势
研究发布一个包含 25,494 例腹部 CT 扫描与放射学报告配对的大规模数据集，填补了相关研究领域数据集空白
研究创新融合结构化 EHR 数据与非结构化放射学报告作为监督信号，同时提出多任务学习和分阶段训练的多阶段预训练框架

论文地址：

https://www.nature.com/articl...
关注公众号，后台回复「Merlin」获取完整 PDF

填补 VLMs 训练与评估数据空白

为弥补缺乏公开腹部 CT 数据集用于三维 VLMs 训练和评估的空白，研究团队采用了大量来自真实医疗中心的合规数据，并最终发布了一个包含 18,321 例患者的高质量临床数据集，涵盖配对的 CT 扫描、非结构化放射学报告和结构化 EHR，其中：

CT 扫描数据：

数据来源于全腹部 CT 检查数据，每份含多个序列，选取轴位切片最多的序列以最大化信息量。该过程从 25,528 次 CT 扫描中获得 10,628,509 张二维图像。

放射学报告：

研究整理了每项 CT 检查对应的放射报告，报告含多个部分，其中最核心的是「findings」和「impression」两个部分，前者包括各器官系统详细观察结果；后者则包括关键临床发现总结。值得一提的是，基于所提供信息的粒度和先前工作的有效性，训练仅使用了「findings」部分，共 10,051,571 个 token。

EHR：

数据利用国际疾病分类（ICD）代码形式的诊断信息进行模型训练，ICD 代码与对应患者 CT 检查时的就诊记录相关联。数据集中总计包括 954,013 条 ICD9 代码，涉及 5,686 条唯一代码；2,041,280 条 ICD10 代码，涉及 10,867 条唯一代码。

数据划分上，预训练数据集按照 60%（15,331 例 CT 扫描）、20%（5060 例 CT 扫描）、20%（5137 例 CT 扫描）划分，分别用于训练、验证和测试。谨慎起见，单个患者的多次 CT 扫描不会出现在同一划分当中。

此外，实验还采用了三个独立机构的 44,098 例数据用于外部验证，均用于测试。具体如下：

外部数据集 1：包含 6,997 例腹部 CT 扫描
外部数据集 2：包含 25,986 例腹部 CT 扫描
外部数据集 3：包含 4,872 例腹部 CT 扫描和 6,243 例胸部 CT 扫描

另外两个两个专门的腹部 CT 扫描公开数据集分别为 VerSe 和 TotalSegmentator，其中 VerSe 数据集包含 160 次 CT 扫描；TotalSegmentator 数据集包含 401 次 CT 扫描，其中 34 份经筛选的扫描数据用于多任务多疾病预测的预训练与测试，剩余 367 份扫描数据按照 80%（293 份）、20%（74 份）进行划分，分别用于训练和验证。

多任务学习与分阶段训练策略，差异化方案确保 Merlin 高效

模型架构上，Merlin 通过采用图像编码器和文本编码器双重编码器架构，实现「图像-文本」的对齐。其中，图像编码器采用 I3D ResNet152，通过「Inflation」复用二维预训练模型权重，复制到三维卷积核第三维；本文编码器选用 Clinical Longformer，其具备优于其他生物医学预训练模型和通用 CLIP 本文编码器的长文本能力，支持 4,096 长上下文，可适配报告长文本需求。

Merlin 训练与评估概述

模型训练上，Merlin 采用两种损失函数分别处理表型分类任务和放射学报告：采用二元交叉熵（Binary Cross-entropy）损失函数处理表型分类；采用 InfoNCE 损失函数处理放射学报告对比学习。图像与文本的嵌入维度统一设定为 512，与 OpenCLIP 实验中 ViT-Base 模型所使用的嵌入维度保持一致。之后在训练策略上对视觉编码器和文本编码器均启用梯度检查点技术，并采用 FP16 混合精度训练。

优化器采用 AdamW，初始学习率为 1 x 10⁻⁵，β = （0.9，0.999），并采用余弦学习率调度器，将学习率衰减至 0 的训练轮次设定为 300。硬件采用单张 48GB A6000 GPU，批次大小最大为 18。

除了以多任务方式联合使用 EHR 表型和放射学报告进行训练外，研究还考虑了分阶段训练方案。具体来说，首先在第一阶段使用 EHR 诊断代码训练 Merlin 图像编码器；然后在第二阶段使用放射学报告进行对比训练。为防止遗忘第一阶段学到的 EHR 信息，第二阶段训练将以较低权重加入表型损失函数。

第一阶段采用 AdamW 优化器，初始学习率为 1 x 10⁻⁴， β = （0.9，0.999），指数学习率调度器为 γ = 0.99，硬件选择为单张 A6000 GPU，批次大小为 22。第二阶段使用的超参数与多任务训练一致。

总的来说，多任务学习和分阶段训练实现了两种策略的差异化设计，且研究团队针对分阶段训练做了抗遗忘改进。这种差异化的训练策略可谓是保障 Merlin 高效、严谨的核心设计，并且在后续消融实验中得到进一步验证。

752 类任务全面评估，Merlin 性能全面领先

实验过程，研究团队分别基于 5,137 个 CT 扫描进行了内部验证，基于 44,098 个 CT 扫描与两个聚焦腹部 CT 扫描的公开数据集（VerSe 和 TotalSegmentator）进行了外部验证，总计 6 大类评估任务，涵盖 752 项具体细分任务，大类任务包括零样本分类（31 项细分任务）、表型分类（692 项细分任务）、零样本跨模态检索（23 项细分任务）、5 年期疾病预测（6 项细分任务）、放射学报告生成以及三维分割。

在零样本分类（Zero-shot classification of findings）任务中，针对 30 份来自内部和外部临床数据的腹部 CT 扫描，Merlin 在内部验证数据集上 F1 评分达到 0.741（ 95% 的置信区间，0.727-0.755），在外部验证数据集上平均 F1 得分为 0.647（ 95% 的置信区间，0.607-0.678）。这些评分显著高于采用 k=1 池化的 2D OpenCLIP 模型和经过微调的、采用平均池化的微调 2D BioMedCLIP 模型（P＜0.001）。如下图所示：

零样本分类的试验评估

从定性角度看，Merlin 在外部数据集上对特征显著的疾病，如胸腔积液、腹水等，保持较高的性能，但当面对细粒度特征的发现时，如阑尾炎、淋巴结肿大等，其性能稍有下降。另外，未进行放射学报告分割时，Merlin 在外部评估数据集上取得的平均 F1 得分为 0.656（95% 的置信区间）。

在消融实验对比中，采用膨胀三维网络初始化的 Merlin 模型表现出最佳状态，F1 得分为 0.741（95% 的置信区间，0.727-0.755）；对放射学报告进行分割处理时，结合 EHR 与放射学报告的模型得分为 0.735（95% 的置信区间，0.719-0.748）；仅使用放射学报告并实施报告分割的方案位列第三，F1 分数为 0.730（95% 的置信区间，0.714-0.744）。是否分割放射学报告对模型性能影响最为显著，未进行报告分割时，Merlin 模型的 F1 分数平均下降 7.9 分（P＜0.01）。

另外值得一提的是，零样本 Merlin 在 10% 训练数据和 100% 训练数据的有监督实验中，均优于所有有监督基线。在使用 100% 训练数据时 F1 得分提高了 29%，而在使用 10% 训练数据时居然提高了 45%。实验证明，在 100% 训练数据设置下，零样本 Merlin 显著优于有监督 Merlin，F1 分数提高了 16%。

在表型分类（Phenotype classification）任务中，实验评估了 Merlin 在预测 PheWAS 定义的 692 种临床表型方面的性能，其宏平均受试者工作特征曲线下面积（AUROC）值达到 0.812（95% 的置信区间，0.808-0.816）。其中多达 258 中表型的 AUROC 值超过 0.85，102 种表型 AUROC 值更是超过 0.9。如下图所示：

表型分类实验评估

在内部测试集中分析发病率最高的前 20 个常见表型时，Merlin 在检测肝脏、肾脏、输尿管、胃肠道等在内的多器官系统疾病方面表现卓越。

在零样本跨模态检索（Zero-shot cross-model retrieval）任务中，首先是针对基于 64 个病例的「图像-发现」的检索任务，Merlin 相对 OpenCLIP 和 BioMedCLIP 而言，表现出明显的优势。这得益于 Merlin 所采用的 Clinical Longformer 文本编码器，而 OpenCLIP 和 BioMedCLIP 所允许的最大 token 长度分别为 77 和 256；反之，在针对基于 64 个病例的「发现-图像」的检索任务中，Merlin 优异的表现同样得到复现。如下图所示：

零样本跨模态检索评估

更为重要的证据表现是，Merlin 即便仅使用报告中客观描述的「发现」进行视觉-语言对齐训练，其在处理高度概括的报告「印象」时，依然能够展现出高度跨领域泛化能力，并在逆向任务重再次验证。另外，虽然 Merlin 在外部测试数据集上的检索性能相较内部测试数据集有所下降，但如此表现仍旧比其他外部基线高出 5-7 倍。

在五年期疾病预测（Multi-disease 5-year prediction）任务中，实验评估了 Merlin 预测健康患者在未来五年内患多种重大慢性疾病的风险，包括慢性肾病、骨质疏松症、心血管疾病、缺血性心脏病、高血压和糖尿病。

在对 Merlin 进行微调后并使用 100% 下游标签时，其预测五年内疾病发病的 AUROC 值达到了 0.757（95% 的置信区间，0.743-0.772），这样的表现比仅使用图像的 ImageNet 预训练（I3D）模型高出 7%。即便仅使用 10% 的标签，Merlin 预测五年内疾病发病的 AUROC 仍然可以达到 0.708（95% 的置信区间，0.692-0.723），且表现超过 ImageNet 预训练模型 4.4%。如下图所示：

五年期疾病预测评估
另外，即便仅使用 1/10 训练数据，Merlin 的预测性能也能达到与使用 100% 数据训练的 ImageNet 预训练模型相当的水平，这极大体现了 Merlin 的零样本能力和强大迁移能力。

在放射学报告生成（Radiology report generation）任务中，相较于基准模型 RadFM 而言，在基于 RadGraph-F1、BERT Score、ROUGE-2 和 BLEU 等量化指标的测试中，Merlin 在所有解剖学逻辑结构及完整报告结果方面均优于前者。

从质量上看，Merlin 生成的报告质量极佳，且对于病症的发现定位和描述十分准确。不过 Merlin 偶尔也会做出保守判断，比如少报人工生成报告和 CT 报告中均发现的问题，这是由于基于 CT 扫描生成放射学报告的早期演示，随着报告质量提升会得到进一步改善。

在三维语义分割（3D semantic segmentation）任务中，仅使用 10% 训练数据时，Merlin 在宏观平均 Dice 分数上就比 nnUNet 框架高出 4.7%；当使用 100% 数据进行训练时，nnUNet 框架的表现略优于 Merlin 的初始化模型，然而 Dice 分数差距也仅 0.006。

在测试集中的 20 个器官上，当使用 10% 数据训练时，Merlin 在 12 个器官上获得比 nnUNet 框架更高的 Dice 分数，其中前列腺分割的改进幅度高达 41%。

另外在外部验证试验中，研究团队利用超过 10 万份外部 CT 扫描数据集，在总计 44,098 份外部 CT 扫描上对 Merlin 进行评估，在不同站点和解剖部位间均表现出稳定且精准的性能，克服了训练数据集与外部测试数据集之间的分布偏移。此外，其表现持续优于其他架构基线模型，甚至在胸部任务上打败了专业的胸部 CT 基础模型。

视觉语言模型深挖大规模多模态医学数据潜在价值

除本研究外，其他关于视觉语言模型在医学中的成果也在相继涌现，如同样来自斯坦福大学的研究团队，提出一种基于统一掩码建模的多模态 Transformer（Multimodal transformer with Unified maSKed modeling, MUSK），这也是一种视觉语言基础模型，旨在整合大规模、未标记、非配对的图像和文本数据。

论文题目：A vision–language foundation model for precision oncology
论文地址：

https://www.nature.com/articl...

上海交通大学等提出的知识增强病例基础模型 KEEP，解决了当前主要依赖数据驱动，缺乏对医学知识的显式整合的问题。该模型利用 11,454 种疾病和 139,143 个属性的综合疾病知识图谱，将数百万病理图像-文本对重组为 143,000 个与疾病本体层级对齐的语义结构化组。这种知识增强的预训练方法在分层语义空间中对齐视觉与文本表征，从而实现了对疾病关系及形态学模式的深度理解。

论文题目：Knowledge-enhanced pretraining for vision-language pathology foundation model on cancer diagnosis
论文地址：

https://www.sciencedirect.com...

总的来说，视觉语言模型凭借跨模态理解能力，正在医学和放射学领域展现出了巨大潜力。它能够联动医学影像、病例文本和临床指南，实现病灶智能识别、病例辅助分析和诊断报告自动生成，不仅为医师提供了高效的辅助工具，更为疾病预测提供了新思路，让现代医疗加快从「经验驱动」迈向「数据驱动」。

		自动登录	找回密码
密码			立即注册