详情

阿里联手中科院研发“听音识人”技术被CVPR收录

来源：TechWeb2021/3/25 15:47:12148

导读

据阿里安全图灵实验室*算法专家华棠介绍，该技术后续将在内容安全和账户安全领域探索应用，对抗伪造类视频攻击，保护用户财产和信息安全。

　　近日，中科院和阿里安全的研究者让AI掌握通过声音找到“主人”的任务。经验证，相较于人类67%的正确率，AI的准确率接近90%。在“1对N”的匹配实验中，AI还能对声音归属人脸的“可能性”进行排序。

　　该技术是一种自适应的学习框架，用来挖掘和学习人脸与声音的潜在联系，该论文研究成果随即也被CVPR 2021接收。

　　现有研究表明，人脸和声音受到年龄、性别、生理结构、语言习惯等共同因素的影响，两者的联系强烈而复杂多样。该研究*作者、中科院计算所博士研究生温佩松介绍，中科院和阿里安全的研究团队将公开数据集中两种类型的数据在共享空间中表示，从而达到跨模态匹配的目的，在学习策略上利用了数据集的局部和全局信息，提高了模型的学习效率和效果。

　　通俗来看，即声音可能是音频格式，人脸是图片格式，两类信息以不同的格式存储，难以比较，所以研究者将声音和人脸“翻译”成了同一种格式的信息，让AI模型可以对两种信息之间的关联自行学习。AI学会了两种信息的关联性之后，就能帮声音找到人脸，或者帮人脸找到声音。因此，AI的这项技能不仅可以“听音识人”，还能“见人知声”。

　　温佩松介绍，该研究进行了三类实验，*种，给定一段声音和仅含有一张正确人脸的若干张人脸图片，AI匹配声音和人脸的正确率*可达87.2%；第二种，给定一段声音和一张人脸，询问AI这是否属于同一个人，准确率*可达87.2%；第三种，给定一段声音和含有若干张正确人脸的图片，要求AI把所有人脸排序，使得正确的人脸尽可能靠前，AI也能准确完成任务。该实验在公开测试集上一共测试了20076张人脸和21850段音频，AI的表现都令人惊喜。

　　在相同的任务上，如果待鉴别对象不限制性别，人类判断的准确率达81.3%，在限制性别的情况下，准确率仅为57.1%，性别因素对AI的影响却非常小，准确率依然如上述结果，高于人类。

　　据阿里安全图灵实验室*算法专家华棠介绍，该技术后续将在内容安全和账户安全领域探索应用，对抗伪造类视频攻击，保护用户财产和信息安全。“有些人利用伪造视频试图骗过认证系统，AI的这项技能将进一步验证声音与相应真人是否匹配，防范欺诈，守护安全。”华棠说，这也是让AI在提升安全水位上有更多用武之地。

　　原标题：阿里联手中科院研发“听音识人”技术被CVPR收录

上一篇：《鼓励发展的重大环保技术装备目录(2020 年版)》脱硫技术

下一篇：解决冻干机真空度故障提升益生菌粉干燥质量水平

版权与免责声明：凡本网注明“来源：兴旺宝”的所有作品，均为浙江兴旺宝明通网络有限公司-兴旺宝合法拥有版权或有权使用的作品，未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的，应在授权范围内使用，并注明“来源：兴旺宝”。违反上述声明者，本网将追究其相关法律责任。本网转载并注明自其它来源（非兴旺宝）的作品，目的在于传递更多信息，并不代表本网赞同其观点或和对其真实性负责，不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时，必须保留本网注明的作品第一来源，并自负版权等法律责任。如涉及作品内容、版权等问题，请在作品发表之日起一周内与本网联系，否则视为放弃相关权利。

展开全部

热门评论