IBM语言学家研发动听的机器语言,提升用户体验

周彤 8年前 (2016-02-16)

有感情的计算机声音最好听。

对于一个小说爱好者而言,可以听小说在十年之前可以说是十分令人期待的事。那时候还是初中生的小编第一次从学习机中听到了小说,但是不可不说,声音相当地机械,难听至极,毫无感情,一点听下去的欲望都没有,之后就再也没有想过让机器“说话”。

之后,慢慢地随着语音系统的发展,越来越多的设备加入了语音播报,直到现在人工智能设备几乎可以和人使用语音进行特定的交流。声音的质量也一直的改善,如何让用户听得舒服是工程师们不懈的追求。

2009年,六个IBM语言学家、工程师、营销人员聚在一起,一起思考人工智能程序Watson将文本转换为语音时应该使用什么样的声音才会受到用户的喜欢。进过十八个月的努力,最终他们精心制作出了一款声音,虽说不是那么地人性化,但是也不像《2001太空漫游》中HAL 9000的声音那么冰冷,也算是好听了。

语音系统已经成为现在智能设备不可或缺的功能,人们需要语音控制来简化操作。当然这样的设备已经出现不少,越来越多的机器在学习聆听、理解、甚至是说话,直接通过语音和人进行交流。汽车、玩具、家电等都已经家入其中,比如家庭陪伴机器人Pepper和Jibo,亚马逊的语音设备Echo等等。

像这样可以理解人类语音命令并且做出回应的软件一般被叫做“会话代理”,在不断开发的过程当中,还发明了新的技术——人机交互设计,不仅仅是科学性上的极大进步,更体现了浓浓的艺术性。

现在已经很普遍的语音播报就是天气预报和交通导航,即使做得再人性化也很难和人的声音一模一样,这其中的关键就是语调和情绪的表现,或是说韵律的展示,但是想让人工智能表现出和人一样丰富的情绪,对于现在的技术而言还几乎是不可能的事情。

合成语音的方法有很多,要想效果达到最好,就需要使用人类语言,生成拥有很多不同说话方式的数据库,每个数据库都保存有人类配音数十至上百小时,尽可能多的拥有更为丰富的素材。

在电影《她》当中,男主角就爱上了人工智能Samantha,他们之间正是通过这种语音来交流的。其中电影里面也充分体现了计算机语言加入情绪的重要性以及困难程度。

IBM语言学家研发动听的机器语言,提升用户体验1

现代语音合成技术的奠基人、苏格兰计算机科学家、卡内基梅隆大学语言技术研究所教授Alan Black表示:即使现在语音合成系统已经取得了巨大的进步,但是依旧不能够像人类那样完美,是做不到像人类一样“带着感情说话”的。

当然对于一些玩具或是娱乐产品的公司来讲,语音系统不完善并不能造成什么影响,只要达到娱乐效果就可以了。但是对于一些需要以此作为联系,与人类进行合作或是工作的语音系统来讲,就是一个需要解决的极大困难了。

对此,IBM制作了一个电视广告,作曲家鲍勃·迪伦和Watson同时出镜,但是当Watson一开口时,鲍勃·迪伦就吓得退场了,因为人工智能的声音实在是太恐怖了。IBM此举就是想告诉人们,他们的目标就是并不需要机器语言那么地像人类,但是也不能过于吓人,过于难听,达到这样的程度就可以了。

IBM研究院的研究员Andy Aaron表示:机器的出错率依旧是最大的挑战,团队的部分成员在一年多的时间中建立了一个非常庞大的正确发音的数据库,才能正确地读出单词,将出错率最大程度地降低至零。

曾经,IBM还专门聘请过25名配音员,专门寻找那种很特别的人类声音,在这个基础上再来开发Watson的语音系统。在挑选出最合适的声音之后再进行调整,甚至是提升频率,最终有点像小孩子的声音,不过这个有个性的声音最后遭到了一致反对。

其实最想要的声音就是那种缓慢、平稳而令人愉悦的声音,这使得工程师的工作更像是艺术家,必须使得最终得出的声音即使一听就听出来是计算机的声音,但是却透露这乐观、还包含着活泼,这才是最好听的。

随着计算机语音技术的不断发展,应用范围肯定会越来越广。以色列公司Imperson之前一直做的都是娱乐型的对话角色,现在正在往政治方向发展,比如让虚拟竞选者和民众进行互动对话,即使都知道是假的,但是依旧会让民众产生亲切感。

声音的大小、质感等都会在无形当中产生很大的影响,将声音做到“好听”,无疑会给产品本身增色不少,我们期待更好的语音系统,更动听的声音。

最后,记得关注微信公众号:镁客网(im2maker),更多干货在等你!

镁客网


科技 | 人文 | 行业

微信ID:im2maker
长按识别二维码关注

硬科技产业媒体

关注技术驱动创新

分享到