在近期举行的ImageCLEFmedical 2024全球医疗图像分析和文本生成竞赛中,鹏城实验室专注于医学模型研究的PCLmed团队凭借卓越的技术实力和创新的解决方案,从来自世界各地的61支参赛队伍中脱颖而出,斩获冠军殊荣。这一成就不仅彰显了团队在医疗图像解读领域的深厚造诣,也为推动医疗图像自动化解读技术的发展注入了新的动力。
ImageCLEFmedical作为医疗图像分析和文本生成领域的年度赛事,旨在解决临床诊断中医疗图像解读和总结的瓶颈问题。本届竞赛聚焦于两个核心子任务:概念检测任务和图像描述任务。其中,概念检测任务旨在识别和定位医疗图像中的相关概念,这些概念构成了场景理解的基础。而图像描述任务旨在基于检测到的概念和图像中的视觉信息,为整个图像生成连贯的描述。
PCLmed:引领医疗图像解读新突破
PCLmed团队是由鹏城实验室联合北京大学、中山大学、深圳先进技术研究院等高校组建的以医学多模态大模型研究为主的团队,参加此次竞赛的成员包括鹏城实验室助理研究员张彤博士、北京大学深圳研究生院邹月娴教授、以及北京大学和鹏城实验室联培博士生杨邦等。该团队在竞赛中专注于图像描述任务,他们成功提出了一种全新的医疗视觉-语言基础模型,该模型不仅具备强大的图像理解能力,能够准确识别和定位医疗图像中的关键概念,还能够基于这些概念和图像中的视觉信息,为整个图像生成连贯、准确的描述。
这一研究成果在参赛中获得了多项指标第一的佳绩,有效缓解了现有方法在医疗图像表示学习和参数高效微调方面的局限性,也为医疗图像的自动化解读提供了强有力的支持。
PCLmed团队参赛结果获得了多项指标第一的佳绩
ImageCLEFmedical Caption | ImageCLEF / LifeCLEF - Multimedia Retrieval in CLEFhttps://www.imageclef.org/2024/medical/caption
在技术创新方面,PCLmed团队提出的模型引入了视觉编码器集成(Vision Encoder Ensembling, VEE)和模态感知适应(Modality-Aware Adaptation, MAA)两项创新技术。其中,VEE结合通用和专业医疗视觉基础模型,旨在生成更加全面的医疗图像表示;MAA通过参数隔离手段在大语言模型中引入了两部分小规模可训练参数,用于分别适配视觉和文本特征,从而避免模态差异干扰联合表征的学习。
模型框架图
在模型实现方面,PCLmed以通用图像基础模型EVA-CLIP和医疗图像基础模型BioMedCLIP为编码器,使用BLIP-2提出的Query Transformer (Q-Former) 作为连接器,将鹏城·盘古α大语言模型(2.6B参数规模)作为解码器。
在学术研究方面,该研究成果形成的论文已投稿ImageCLEFmedical 2024,其中张彤博士为论文通信作者,杨邦为论文第一作者。该论文深入探讨了医疗多模态大模型在医学图像自动解读方面的应用,验证了所提VEE和MAA两项创新技术的有效性,为医学AI智能诊断的发展提供了有力的支持。
依托开源社区,推动医学AI技术创新
值得一提的是,PCLmed团队在竞赛中取得的优异成绩离不开OpenI启智社区的大力支持。社区为团队提供了代码协同、数据管理以及基于中国算力网的充沛算力进行模型调试-训练-推理等全方位的技术支持。依托OpenI启智社区,PCLmed团队得以将最新的技术和模型创新结合,打造出具有竞争力的解决方案。目前,该模型已在社区开源,相关代码将在后续开放。
此外,PCLmed团队在医学模型研究和开源贡献方面的工作也非常值得赞赏。他们不仅专注于研发创新的医学人工智能算法和模型,而且还致力于将这些成果开源,以便研究者和开发者能够共同学习和进步。目前,该团队已将异构计算框架下的多模态医学人工智能算法及模型等多项研究成果开源至OpenI启智社区,组织名称为“PCLmed-多模态医学AI算法库”,不仅体现了PCLmed团队的开放性和合作精神,也为整个医学AI领域的发展注入了新的活力,将大大促进医学图像分析、疾病诊断、治疗规划等领域的研究和应用。
PCLmed团队表示,获得ImageCLEFmedical 2024竞赛冠军是团队努力的结果,也是不断探索和创新的体现。未来,团队将继续致力于医学模型研究和开源贡献,推动医学AI技术的持续发展,为医疗领域带来更多创新和突破。
欢迎对医学类模型感兴趣的小伙伴们通过参与PCLmed团队的开源项目,深入了解医学AI的最新研究成果,学习先进的算法和模型设计思路,并与PCLmed团队共同探讨和解决医学领域的问题。
PCLmed团队在启智的开源组织页面
组织页面链接:
https://openi.pcl.ac.cn/OpenMedIA