南开大学范登平团队 | 智驱结肠镜:技术变革与前沿洞察

结肠镜检查目前是结直肠癌最为精准的筛查方法之一。本文旨在探讨智能结肠镜技术的研究前沿及其在多模态医学应用中的潜在影响。为此,我们首先从数据驱动和模型驱动两个角度,对结肠镜场景感知的四类任务进行评估,包括分类、检测、分割以及视觉语言理解。评估结果揭示了该领域的特定挑战,并强调了在结肠镜研究中进一步开展多模态研究的必要性。针对这些问题,本文构建了三项基础性资源:大规模多模态指令微调数据集 ColonINST、面向结肠镜设计的多模态语言模型 ColonGPT,以及一个多模态基准测试平台。为推动该快速发展领域的持续进展,我们还建有一个公开网站以发布最新进展:https://github.com/ai4colonoscopy/IntelliScope
图片来自Springer全文下载:Frontiers in Intelligent ColonoscopyGe-Peng Ji, Jingyi Liu, Peng Xu, Nick Barnes, Fahad Shahbaz Khan, Salman Khan & Deng-Ping Fanhttps://link.springer.com/article/10.1007/s11633-025-1597-6
全文导读尽管在高收入国家中结直肠癌(CRC)的发病率有所下降,但它仍然是全球第三大常见癌症,并且在发展中国家的发病率正在上升。作为一种高效的结直肠癌筛查方法,结肠镜检查通过一根配备摄像头的柔性管道,对结肠内部进行可视化检查。如图1(a)所示,该临床操作还可以借助套圈器、活检钳和电灼设备等专用器械进行干预,用于切除锯齿状息肉和腺瘤性息肉等癌前病变。近期一项研究表明,在结肠镜检查中引入人工智能(AI)技术,与传统方法相比,可将结直肠肿瘤的漏检率降低约50%。这一成果激励我们进一步探索智能结肠镜领域的研究前沿。
结肠镜检查是一种内窥镜光学成像技术。由于结肠解剖结构复杂且具有多重褶皱,其成像通常会出现光照不均以及视觉模式同质化等问题,这些特点与通用图像数据(如ImageNet)存在明显差异。这表明,在解读结肠镜数据时需要采用专门的方法。基于此,我们首先对结肠镜领域最新的智能技术进行了系统调研,对当前研究格局进行评估,以梳理该领域特有的挑战和尚未充分探索的研究方向。分析结果表明,结肠镜领域的多模态研究仍然基本处于空白状态。为弥补这一不足,我们总共做了以下三项工作,如图1(b)所示。
图1 结肠镜概述与研究亮点:
(a) 展示了消化道中大肠(结肠)的解剖结构、结肠镜检查过程中息肉切除(polypectomy)操作示意,以及结肠镜的组成部件。
(b) 总结了本研究的三项主要亮点。
主要贡献1)我们从数据驱动与模型驱动两个视角,对四类结肠镜场景感知任务(见图2)的最新研究进展进行了系统梳理。研究总结了自2015年以来发表的63个数据集和137种具有代表性的深度学习方法的关键特征,并进一步分析了该领域的新兴趋势与未来研究方向。
2)我们提出ColonINST,这是一个面向多模态研究的开创性指令微调数据集,旨在指导模型以交互方式执行用户驱动的任务。该数据集整合自19个公开数据源,包含303,001张结肠镜图像,覆盖62个子类别,反映了结肠镜检查过程中可能出现的多样化场景。我们从两个方面扩展了这些视觉样本:首先,利用多模态AI聊天机器人GPT-4V生成128,620条医学图像描述;其次,对450,724条人机对话进行了结构化重构,以支持多模态适配。
3)基于上述指令微调数据,我们构建了一个多模态语言模型ColonGPT,可通过交互式对话为内镜医生提供辅助。为保证普通研究人员能够复现实验,我们以资源友好的方式实现该模型:采用0.4B参数的视觉编码器SigLIP-SO和1.3B参数的轻量级语言模型Phi-1.5。不同于以往视觉—语言(VL)连接方法通常使用多层感知机对视觉编码器输出的所有token进行等权处理,我们提出了一种多粒度适配器(multigranularity adapter),能够根据视觉token的重要性进行选择性采样。该策略在不降低性能的情况下,将视觉token数量减少至原来的34%,并在我们新构建的多模态基准测试的三项任务中取得了最佳性能。此外,该模型仅需两张 NVIDIA H200 GPU在约7小时内即可完成训练,从而有助于后续研究快速开展概念验证。
图2 从视觉到多模态视角的结肠镜场景感知。在临床实践中,纯视觉任务——包括(a)分类、(b)检测和(c)分割——主要用于识别感兴趣目标,例如息肉和内镜器械。(d)多模态应用则通过执行与临床需求相契合的交互式、用户驱动任务,进一步提升结肠镜操作流程。例如,聊天机器人可以提供个性化建议、自动生成检查报告,并优化操作流程。
研究范围本研究与现存文献存在多方面的差异。早期关于传统方法与深度学习的综述多集中在2020年以前,已无法涵盖当下的最新成果。尽管近期有研究探讨了结肠镜的多种应用,例如质量分析和异常检测,但缺乏系统的数值验证。另一些基准研究则仅局限于特定且较为狭窄的研究子领域。相比之下,我们围绕结肠镜场景感知的四类任务展开深入分析,并评估其当前发展状况,以识别关键挑战和尚未充分研究的方向。更重要的是,我们的研究视角超越了上述局限,通过为多模态领域的后续发展奠定基础来推动该方向的进步。为此,我们开展了三项工作:构建多模态指令微调数据集、开发多模态语言模型,以及建立多模态基准测试平台。
论文结构本文结构安排如下:第2节介绍研究的历史背景,并讨论该领域所面临的独特挑战;第3节对63个结肠镜相关数据集进行系统梳理;第4节综述137种深度学习模型;第5节面向多模态时代提出三项工作:ColonINST数据集的构建、ColonGPT模型的技术细节,以及包含消融分析的多模态对比基准测试;最后,第6节对全文进行总结。
结论该文探讨了智能结肠镜技术的研究前沿,并前瞻性地审视了其在多模态领域的深远影响。全文双线并进,一方面,剖析了四类结肠镜场景感知任务的现有格局,精准锚定了当前的核心挑战与亟待突破的盲区;另一方面,直面结肠镜多模态研究尚不充分的现状。本文破局而立,推出了三大奠基性资源:大规模多模态指令微调数据集 ColonINST、结肠镜多模态模型 ColonGPT,以及一套标准化的多模态基准测试体系。
作者团队全文下载:Frontiers in Intelligent ColonoscopyGe-Peng Ji, Jingyi Liu, Peng Xu, Nick Barnes, Fahad Shahbaz Khan, Salman Khan & Deng-Ping Fanhttps://link.springer.com/article/10.1007/s11633-025-1597-6BibTex:@Article {MIR-2025-03-122,author={Ge-Peng Ji, Jingyi Liu, Peng Xu, Nick Barnes, Fahad Shahbaz Khan, Salman Khan, Deng-Ping Fan},journal={Machine Intelligence Research},title={Frontiers in Intelligent Colonoscopy},year={2026},volume={23},issue={1},pages={70-114},doi={10.1007/s11633-025-1597-6}}
特别感谢本文第一作者、澳大利亚国立大学季葛鹏博士对以上内容的审阅和修改!
纸刊免费寄送Machine Intelligence ResearchMIR为所有读者提供免费寄送纸刊服务,如您对本篇文章感兴趣,请点击下方链接填写收件地址,编辑部将尽快为您免费寄送纸版全文!说明:如遇特殊原因无法寄达的,将推迟邮寄时间,咨询电话010-82544737收件信息登记:https://lcn76mgd97vz.feishu.cn/share/base/form/shrcnsQ6cmRjqoxPF5WDowSBFVr
关于Machine Intelligence ResearchMachine Intelligence Research(简称MIR,原刊名International Journal of Automation and Computing)由中国科学院自动化研究所主办,于2022年正式出版。MIR立足国内、面向全球,着眼于服务国家战略需求,刊发机器智能领域最新原创研究性论文、综述、评论等,全面报道国际机器智能领域的基础理论和前沿创新研究成果,促进国际学术交流与学科发展,服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划",已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等20余家国际数据库收录,入选图像图形领域期刊分级目录-T2级知名期刊。2022年首个CiteScore分值在计算机科学、工程、数学三大领域的八个子方向排名均跻身Q1区,最佳排名挺进Top 4%,2023年CiteScore分值继续跻身Q1区。2024年获得首个影响因子(IF) 6.4,位列人工智能及自动化&控制系统两个领域JCR Q1区;2025年发布的最新影响因子达8.7,继续跻身JCR Q1区,最佳排名进入全球第6名;2025年一举进入中科院期刊分区表计算机科学二区。▼往期目录▼2026年第1期 | 自我中心视觉、基于图的推荐系统、智能结肠镜检查、多模态大语言模型......2025年第6期 | 大语言模型、自动驾驶、医学图像分割……2025年第5期 | 生成式模型、疾病诊断、步态识别、行人再识别......2025年第4期 | 特约专题: 具身智能2025年第3期 | 大语言模型、医学图像分割、图像阴影去除、写作风格变化检测......2025年第2期 | 常识知识获取、图因子分解机、横向联邦学习、分层强化学习...
2025年第1期 | 机器视觉、机器人、神经网络、反事实学习、小样本信息网络...
2024年第6期 | 图神经网络,卷积神经网络,生物识别技术...
2024年第5期 | 大语言模型,无人系统,统一分类与拒识...
2024年第4期 | 特约专题: 多模态表征学习
2024年第3期 | 分布式深度强化学习,知识图谱,推荐系统,3D视觉,联邦学习...
2024年第2期 | 大语言模型、零信任架构、常识知识推理、肿瘤自动检测和定位...
2024年第1期 | 特约专题: AI for Art

▼好文推荐▼上海交通大学夏泽洋教授团队 | 基于半监督学习的心脏磁共振影像动态特征分类精选好文 | 基于多模态学习的非酒精性脂肪肝病预测南京大学Kai Ming Ting团队 | 综述:基于孤立机制的异常检测研究南洋理工大学肖佳平 等 | 基于深度强化学习的异构机器人系统目标搜索与导航南开大学程明明团队 | MCANet:基于多尺度交叉轴注意力的医学图像分割自动化所吴书 等 | GraphFM: 用于特征交互建模的图因子分解机香港理工大学周立培团队等 | 综述: 面向以物体为中心的机器人操作的具身学习清华大学朱军团队 | DPM-Solver++:用于扩散概率模型引导采样的快速求解器南航张道强团队 | 综述:基于脑电信号与机器学习的注意力检测研究可信图神经网络的全面综述:隐私性、鲁棒性、公平性和可解释性
哈工大江俊君团队 | SCNet:利用全1X1卷积实现轻量图像超分辨率
自动化所刘成林团队 | 统一分类与拒识: 一种一对多框架
上海交大张拳石团队 | 综述: 基于博弈交互理论的神经网络可解释性研究
专题好文 | 再思考人群计数中的全局上下文
专题好文 | Luc Van Gool团队: 基于分层注意力的视觉Transformer
浙江大学孔祥维团队 | 综述: 迈向真正以人为本的XAI
澳大利亚国立大学Nick Barnes团队 | 对息肉分割的再思考: 从分布外视角展开
前沿观点 | Segment Anything并非一直完美: SAM模型在不同真实场景中的应用调查
精选好文 | 推荐系统的波纹知识图谱卷积网络
复旦邱锡鹏团队 | MOSS: 一个开源的对话式大语言模型
自动化所黄凯奇团队 | 分布式深度强化学习:综述与多玩家多智能体学习工具箱
约翰霍普金斯大学Alan Yuille团队 | 从时序和高维数据中定位肿瘤的弱标注方法专题综述 | 大语言模型中的知识生命周期精选综述 | 零信任架构的自动化和编排: 潜在解决方案与挑战欧洲科学院院士蒋田仔团队 | 脑成像数据的多模态融合: 方法与应用金耀初团队&郑锋团队 | 综述: 深度工业图像异常检测专题好文 | 创新视听内容的联合创作: 计算机艺术面临的新挑

▼MIR资讯▼对话优博·第1期 | 如何从保研小白成长为CCF优博?MIR高下载Top文章集锦(2024-2025年)MIR高被引Top10文章集锦 (2024-2025年)2026年 AI 领域国际学术会议参考列表 (含8大方向,附PDF)合作办会@CVPR|第2届 Subtle Visual Computing(SVC)国际研讨会与挑战赛正式启动!合作办会@CVPR | Call for Participation / Papers: AIMS 2026合作办会@ICME | Call for Papers: AIART 2026专题征稿 | Theory and Applications of Datatic LearningMIR优秀编委 & 优秀审稿人 (2025年度)MIR致谢审稿人 (2025年度)进阶前5%!MIR登榜”中国最具国际影响力学术期刊”影响因子全球第6名!MIR稳步进军世界一流期刊行列
喜报 | MIR 首次入选中科院期刊分区表计算机科学类二区
喜报!MIR入选中国科技期刊卓越行动计划二期项目
特别提醒!请认准MIR官方渠道,谨防受骗前进20名!MIR再度跻身国际影响力TOP期刊榜单喜报 | MIR入选图像图形领域 T2级 “知名期刊”!喜报 | MIR被 ESCI 收录!喜报 | MIR 被 EI 与 Scopus 数据库收录
分类