近日,中国科学院合肥物质院智能所先进制造中心王红强研究员团队提出一种宽域跨模态机器视觉AI模型,突破了传统单域模型跨模态信息处理瓶颈,实现了跨模态图像检索技术新突破。该研究成果被计算机视觉顶会(欧洲计算机视觉大会,ECCV2024)正式接收。
跨模态机器视觉研究是当前人工智能研究的前沿领域与主要挑战之一,难点在于如何识别模态间的一致性和互补性。传统方法通常在图水平和特征水平上进行,往往受限于信息粒度过大和图像资源稀缺等问题。科研团队发现,相比图和特征,细节关联在多数情况下更好地保持了跨模态间的不变性。
为此,科研团队提出了一种宽域信息挖掘神经网络(WRIM-Net),通过构建全域交互学习机制实现了在空间域、通道域以及尺度域等多域中的细节关联挖掘,突破了传统单域模型的局限性。此外,通过设计跨模态关键实例对比学习模块有效引导了网络提取模态关联信息。在验证实验中,不仅在
标准SYSU-MM01和RegDB数据集上,还在最新的大规模跨模态LLCM数据集上证实了所提出模型的有效性,多项关键性能指标首次突破90%,比如在SYSU-MM01上R1指标达92.1%,在RegDB上mAP指标达90.5%,接近实际应用水平。该模型可用于视觉追溯与检索、多模态大模型、医学影像分析、安防监控等多个人工智能应用领域。
博士生吴勇敢为文章的第一作者,王红强为通信作者。该研究工作得到了国家自然科学基金项目、中国科学院设备开发、安徽省重点研究与开发计划等科研项目的支持。
据悉,欧洲计算机视觉大会(ECCV)是计算机视觉领域的顶尖国际学术盛会之一,与ICCV和CVPR并列“三大顶会”。自1986年起,ECCV每两年举行一次,聚焦计算机视觉的全方位研究,包括图像与视频的处理、分析和理解,及其在机器学习、模式识别、机器人、医学影像、AR/VR等领域的应用。
跨模态信息关联性与宽域信息挖掘模型原理