详情

科学岛团队提出一种跨模态机器视觉人工智能模型实现跨模态图像检索技

来源:合肥物质科学研究院 作者:高皖2024/9/11 8:30:47134
导读
近日,中国科学院合肥物质院智能所先进制造中心王红强研究员团队提出一种宽域跨模态机器视觉AI模型,突破了传统单域模型跨模态信息处理瓶颈,实现了跨模态图像检索技术新突破。
  近日,中国科学院合肥物质院智能所先进制造中心王红强研究员团队提出一种宽域跨模态机器视觉AI模型,突破了传统单域模型跨模态信息处理瓶颈,实现了跨模态图像检索技术新突破。该研究成果被计算机视觉顶会(欧洲计算机视觉大会,ECCV2024)正式接收。
 
  跨模态机器视觉研究是当前人工智能研究的前沿领域与主要挑战之一,难点在于如何识别模态间的一致性和互补性。传统方法通常在图水平和特征水平上进行,往往受限于信息粒度过大和图像资源稀缺等问题。科研团队发现,相比图和特征,细节关联在多数情况下更好地保持了跨模态间的不变性。
 
  为此,科研团队提出了一种宽域信息挖掘神经网络(WRIM-Net),通过构建全域交互学习机制实现了在空间域、通道域以及尺度域等多域中的细节关联挖掘,突破了传统单域模型的局限性。此外,通过设计跨模态关键实例对比学习模块有效引导了网络提取模态关联信息。在验证实验中,不仅在标准SYSU-MM01和RegDB数据集上,还在最新的大规模跨模态LLCM数据集上证实了所提出模型的有效性,多项关键性能指标首次突破90%,比如在SYSU-MM01上R1指标达92.1%,在RegDB上mAP指标达90.5%,接近实际应用水平。该模型可用于视觉追溯与检索、多模态大模型、医学影像分析、安防监控等多个人工智能应用领域。
 
  博士生吴勇敢为文章的第一作者,王红强为通信作者。该研究工作得到了国家自然科学基金项目、中国科学院设备开发、安徽省重点研究与开发计划等科研项目的支持。
 
  据悉,欧洲计算机视觉大会(ECCV)是计算机视觉领域的顶尖国际学术盛会之一,与ICCV和CVPR并列“三大顶会”。自1986年起,ECCV每两年举行一次,聚焦计算机视觉的全方位研究,包括图像与视频的处理、分析和理解,及其在机器学习、模式识别、机器人、医学影像、AR/VR等领域的应用。
 
跨模态信息关联性与宽域信息挖掘模型原理

版权与免责声明:凡本网注明“来源:兴旺宝”的所有作品,均为浙江兴旺宝明通网络有限公司-兴旺宝合法拥有版 权或有权使用的作品,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:兴旺宝”。违反上述声明者,本网将追究其相关法律责任。 本网转载并注明自其它来源(非兴旺宝)的作品,目的在于传递更多信息,并不代表本网赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品第一来源,并自负版权等法律责任。 如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。

展开全部
热门评论