人工智能必须学习语音科学

语音控制:为什么人工智能必须抵制我们刻板的人类语言的坏习惯?

文件20180517 26266 1JR7Q62.jpg?Ixlib=RB 1.1
鹦鹉时尚。
模板

语音控制设备——比如亚马逊的Alexa,谷歌(Google)的主页或苹果(Apple)的HomePod越来越受欢迎,但是人们应该停下来考虑机器学习这可能导致应用程序理解语音中的不同情绪。

首席执行官谷歌,圣代比奇,最近说公司20%的搜索是由语音启动通过手机。而且,2017年底,对美国市场的分析表明4400万亚马逊Alexa和谷歌家庭设备已经被卖了。

这项技术在识别单词方面的能力越来越令人印象深刻,但是作为一个声学专家–我很清楚,口头交流要复杂得多。事物的表达方式和词语本身一样重要。当有人说“我没事”时,他们的语气可能会告诉你,他们的情绪与他们声称的相反。

语音控制小工具,也称为智能演讲者或虚拟助理,因为他们只注意单词,而且大多忽略了语言的表达方式。科技巨头希望设备的下一个前沿领域,例如亚马逊回声,将被检测一个人的感受从他们的声音,使互动更自然。

人类的声音可以提供关于那个人是谁的信息,他们来自哪里,他们的感受如何。当陌生人说话时,人们立刻学会了他们的口音和语调,并对他们的班级做出了假设,背景和教育背景。

如果语音控制设备接收到这些信息,语音接口可以改进。但值得警惕的是意外的后果。这项技术依赖于机器学习,这是人工智能这将一台被输入大量数据的机器学习到的算法和统计数据结合在一起,因此它的行为不完全可预测。

未来是聪明还是愚蠢?

研究显示用于培训机器学习应用程序的语音示例可能会导致偏差。这种技术的问题在谷歌翻译等流行工具中已经很明显了。

使用时,例如,翻译土耳其语“o bir doktor”以及“O bir hem_ire”译成英语,谷歌的服务返回结果“他是医生”“她是个护士”。但是“O”是土耳其语中中性的第三人称代词。医生是男性,护士是女性的假设反映了文化偏见和医疗行业性别分布的扭曲。

google translate发现了一种人类文化偏见,这种偏见存在于算法训练的数据中,最终导致了一个性别歧视的翻译系统。

谷歌的机器学习翻译显示出文化偏见。
屏幕抓取

解决这类问题并非易事,因为机器学习与人类的刻板印象相呼应。当人类倾听声音时,他们简化了通过使用经验法则来计算如何回应某人的工作。

研究表明,当人们听到一个女人以向上的屈折来结束她的许多句子时,被称为uptalk,典型的假设是他们年轻。如果一个人说话声音低沉,有人认为他高大强壮。这种对语言的简化假设可能会导致有偏见的判断。

带有伯明翰口音的犯罪嫌疑人,一项研究发现,与那些口音更中性的人相比,他们更有可能被判有罪。研究也有透露非本地口音被认为更不真实。

弄清楚一个人是否生气,从他们的讲话中得到的快乐或悲伤对任何使用语音控制设备的人来说都是非常有用的。但人们发出的声音信号因人而异,跨语言和跨文化。人类并不总是正确地识别情绪,任何曾经有过恋爱关系的人都会作证,那么,为什么要期望机器能做得更好呢?

研究人们的听觉“gaydar”–一些声称自己能凭直觉判断某人是否是同性恋的人使用的口语术语,女同性恋或双性恋——提供了一个模棱两可甚至是虚假信号的好例子。听者做出假设,例如,关于同性恋男人的声音,比如有一个高音调的声音,但这些经常是错误的。演员在对观众期望的明显反应中表现出不正确的刻板印象,在电视屏幕上成为某种文化规范,研究表明.

个性化,除非技术公司,否则声音信号的自然模糊性很可能导致错误。从他们的不幸中吸取教训.根深蒂固的偏见可以通过试图解释人类声音的应用程序来学习,考虑到这项技术如此依赖于从数据中学习,所以它是被馈送的。

对话开发语音控制设备和服务的技术公司可能已经和声学专家谈过了。但他们需要密切倾听这些警告,以更好地理解要避免的陷阱,申请前机器学习解码人类的声音。

这篇文章最初发表在对话.阅读原文.

广告

对“的一个回应人工智能必须学习语音科学

  1. 也许你不能快速追踪人工智能。也许它需要相当于35亿年进化史的巨无霸才能“得到它”。

留下答复

在下面填写您的详细信息或单击图标登录:

格拉瓦塔
wordpress.com徽标

您正在使用您的wordpress.com帐户进行评论。注销/变化

谷歌照片

您正在使用您的Google帐户进行评论。注销/变化

Twitter图片

您正在使用您的Twitter帐户发表评论。注销/变化

Facebook照片

您正在使用Facebook帐户发表评论。注销/变化

正在连接到%s

此网站使用Akismet来减少垃圾邮件。了解如何处理评论数据.