麻省理工学院开发出可“听音识貌”的人工智能
美国麻省理工学院的研究人员已经开发出一种令人印象深刻但又令人生畏的人工智能应用程序,它可以通过听你的声音来弄清楚你的样子。
在最近一篇名为“语音转脸部:声音背后的学习”的论文中,研究人员详细介绍了AI软件如何利用各种声音后重建面部。
为了实现这一目标,神经网络从视频网站youtube上获得了数百万个视频,其中包含超过100000人。
研究人员在研究报告中解释说,这项工作的目标是研究我们在多大程度上可以从一个人的说话推断出他的容貌。
显然,面容和声音之间没有一对一的匹配关系。 因此,科学家们的目标不是预测精确面部的可识别图像,而是捕捉与输入语音相关的人的主要面部特征。
人工智能能够研究视频素材,并在说话人的声音和面部之间形成相关性,并对年龄,性别和种族等因素做出判断。
研究人员说,这种人工智能能够在不需要人为干预的情况下做到这一点。
这项人工智能将来可能具有有益的应用
研究人员表示,这项人工智能将来可能具有有益的应用,例如,根据说话者的声音将其脸部添加到电话/视频通话中。
然而,他们警告说,神经网络并不意味着能够准确描述一个人的样子,相反,它只生成粗略的近似值。
人工智能形成说话者的声音和面部之间的相关性,并对年龄,性别和种族等因素做出判断
研究人员表示,他们也能够发现面部模式中的一些相关性,他们认为这可能是一个突破。
该论文指出:“我们的重建揭示了颅面特征(例如鼻子结构)和声音之间不可忽略的相关性。”
鉴于人工智能有望判断一个人的外表,研究人员说,他们觉得有必要解决他们的研究结果引起的一些潜在的道德和隐私问题。
例如,该AI很难判断具有某些身份的人。当它被分析一个说中文的亚裔美国人的镜头时,它正确地判断出了这是一个亚洲人。但是此人讲英语时。它会错误地认为此人为白人。
人工智能很难判断具有某些身份的人
AI还认为,高音调的人是女性,男性声音着更低沉。
有些人在发现他们的脸被用于研究之后感到不安,研究人员确实试图解决研究中的隐私问题,并指出他们的系统不会产生“人的真实身份”,只会产生“大众面孔”。
但是根据论文中提供的示例,AI生成的面部仍然相对逼真,与训练录像中显示的原始人非常相似。
该研究发表在Arxiv论文网站上。