从文字识别到语音输入,科技的发展让我们的生活更加便利,也让人机互动的方式更加匪夷所思,但是这并不意味着这项技术就已经发展到头了,事实上任由不少的问题等待着我们去解决,例如用机器去解读唇语。
唇语是一种非常特殊的技巧,其本质是通过眼睛观察对方说话时候嘴唇的运动方式,来理解对方表述的内容。由于一般正常说话的时候,人的嘴唇和语音是同步的,并且在发音过程中,嘴唇运动的方式并不相同,因此可以实现“看”懂对方说话内容的目的。但是在实际的使用过程中,由于说话时嘴唇的运动变化的区别很难察觉,因此理解唇语的难度也非常高。
简而言之,想要实现唇语的解读总结起来就有两个要素:识别嘴唇运动以及做出对应反馈。而这两点其实对于机器来说是具备优势。一方面,机器通过影像传感器来捕捉运动对象已经是一种很成熟的技术了,并且这项技术目前的精度非常高,想要瞬间识别嘴唇的运动并不困难;另一方面,在存储技术以及半导体技术的发展下,目前机械的交互响应速度已经非常可观,结合大数据以及人工智能算法的辅助,只要能够预先在系统中针对不同唇形对应的发音情况,在短时间内针对捕捉到的唇形破译出说话内容也并非一件难事。
那么是不是说唇语解读系统就很容易被制造出来呢?答案其实是否定的,事实上,即便在唇语解读核心的两个基础条件已经可以满足的前提下,仍有一个更加严重的问题影响着唇语的解读难度——干扰因素。事实上,在我们的正常生活中,面部的角度、光照、毛发遮挡、衣物遮挡等,都可能成为影响唇语捕捉的要素,再加上一部分人说话习惯的影响,嘴唇变化实际的可能其实远比预想的还要多,这也就导致了这种机器的制造难度非常高。即便是目前唇语识别准确率较高的非接触式视觉图像方法,因为因为干扰因素的存在,而出现失误。
那么没有其他解决方法吗?答案是有的,那就是从唇形更进一步地深入到肌肉动作的解读。我们说话时,嘴唇的运动是通过肌肉伸缩完成的,而肌肉运动会带动脸部变化,因此如果能够捕捉到肌肉的细节,就可以避免干扰因素的存在来完成唇形识别。但是也正因为肌肉的动作非常细微,因此解读难度也就有了明显的上升。
而就在最近,清华大学机械工程系智能与生物机械团队推出一种新颖的唇语解读系统,这套系统通过自供电的柔性传感器采集肌肉的微小动作信号,并采用基于原型学习的深度学习模型进行唇语的捕捉与解读,因此准确率也更高。
而这项成果的公开,也让人机互动以及恢复失声人群的基本语音交流能力等研究有了进一步的进展。不过,就现阶段来说,这项技术还需要解决样本容量的问题,由于唇语的机器解读依赖库的大小,因此,理论上来说,随着越来越多的唇语模型被收入到数据库中,机器“看”懂语言的能力也会越来越强。
原标题:科技 让机器“看”懂你说的话