嗨热线网 > 科技 > 智能 >

AI声音皮肤:用东北话说“假如生活欺骗了你,不

2019-12-23 13:37
  12月21日,极客公园创新大会十周年在北京举行未来趋势论坛。搜狗CEO王小川在会上说,语音识别技术解决难点有语义理解、智能降噪、语音合成等。
 
  王小川现场展示了一段讨论视频和语音转换界面,视频显示有多名讨论者、发言夹杂了中英文、掌声和笑声等语音识别难点。王小川说,其中,语音转换需要实现区别不同人声的人声分离,提供掌声、笑声等其他声音的识别来帮助观众理解内容,同时解决中英文夹杂的难题。
  在上述的识别难题背后,还有其他的技术难点,如在嘈杂环境中如何让人和机器听得更清楚?王小川说,传统的降噪处理通过麦克风矩阵来解决,计算多个麦克风的中间数值和信号处理,现在的降噪处理则可通过人工智能方式来学习4万余种真实噪音,加入新的降噪算法,使机器有能力去分辨各种噪音并智能降噪。
 
  另外,语音合成也是未来AI语音识别的发展方向。王小川说,目前基础的语音合成已经较为普遍,如语音合成林志玲、高晓松的声音,但在长篇演讲、音频付费节目等应用中,如何让语音合成脱离机械播报,成为有情感的表演是一个难题。
 
  对此,AI通过提取声音特征、添加“声音皮肤”的方式来解决,王小川举例说,这需要一名负责读出演讲者文章的转述师,AI能提取演讲者的声音特征和转述师的声音情绪,两者的结合就相当于给演讲者的声音披上了“声音皮肤”,变成有情绪的声音。王小川现场演示了用蜡笔小新、高晓松、东北大姐的声音说出了“假如生活欺骗了你,不要抱怨,抱我”。
 
  王小川介绍,搜狗也在从语音变声走向视频合成,比如AI合成主播。在这方面,目前实现的效果有语音唇动同步生成、展现较为丰富的表情、多语言多场景播报、对话能力等,搜狗也推出了第六代分身技术——央视的天气预报主播,能展现“主播”大角度、大幅度的合成动作画面。
 
  王小川认为,未来语言AI的发展方向是“自然交互+知识计算”,自然交互需要运用语音、图像、视觉等技术,使人与机器能通过语音、图像、手势进行交流,另外,语言AI更难的地方在于知识计算,需要实现翻译、问答、对话等能力,自然交互和知识计算的结合最终将发展成“智能助理”,苹果的Siri就是其中一例。

郑重说明:网站资源摘自互联网,如有侵权,麻烦通知删除,谢谢!

联系方式:hiholiday12399@gmail.com