网易科技讯12月12日消息,据国外媒体报道,自2014年亚马逊发布智能音箱Echo以来,亚马逊Echo、谷歌Home和Apple HomePod等“智能音箱”设备已经销售了数以百万台,大科技公司正在将亚马逊Alexa、苹果Siri、谷歌Assistant、微软Cortana,以及Facebook的类似服务整合到人们生活中。咨询公司Juniper Research估计,到2023年,全球智能音箱年市场规模将达到110亿美元,全球约有74亿部语音控制设备。
科技公司表示智能音箱只有在用户激活时才会录音,但事实上正在把永远开着的麦克风引入私密空间。亚马逊及其竞争对手表示,绝大多数语音请求都是由电脑自动执行的,无需人工审核。然而,这些智能设备都在依赖成千上万的低薪员工进行人工转录,用户私密对话已经成为他们最有价值的数据集之一。所有科技公司都认为,这是改善他们产品的一种合理方式。
苹果
2011年,苹果公司推出了带有Siri功能的iPhone 4S,不再需要通过实验室收集录音。几天之内,苹果卖出了400多万部4S手机,开始免费积累不可估量的自然语音数据。在最初的几年里,直到2014年之前,苹果都在依赖外部语音软件专家使用这些数据来提高Siri的分析能力。过去几年,苹果在收集和分析自然语音方面非常积极,期望外包商能解释语音片段中不同的语言、方言和文化特质。在GlobeTech办公室里,合同工们戴着耳机坐在电脑前,每天要抄录1300个片段。当合同工点击播放语音录音时,电脑会在一个文本框中填入它认为Siri“听到”的单词,然后提示通过或更正内容。当合同工询问负责人是否可以跳过过于私密的语音片段时,却被告知没有任何片段是过于私密的。合同工通常只工作几个月,关于隐私问题的培训也很少。一名对这项工作毫无疑虑的前合同工表示,偷听真实世界的用户的声音“绝对令人捧腹”。
2015年,苹果Siri每周处理的请求超过10亿次。这时的用户可以开启一项功能,不必再按iPhone上的按钮来激活语音助手,但这种情况下Siri总是处于倾听状态。苹果表示,语音数据可能会被记录和分析以改进Siri,但它没有提到人们可能会被监听。“偷听别人说话让我觉得非常不舒服,”一位前合同工说。
苹果Siri部门的十名前高管表示,他们从不认为Siri系统侵犯了隐私。这些前高管表示,录音与苹果用户标识无关,他们认为用户会理解苹果在处理他们的音频剪辑,那么有人帮忙处理又有什么关系呢?“我们在情感上感到安全,认为这样做是正确的,”Siri高级开发小组前员工约翰·伯基(John Burkey)说。“这与应用程序崩溃并询问你是否要将报告发送给苹果是一样的。这只是个语音错误。”
苹果公司表示,只有不到0.2%的Siri请求经过了人工分析。到2019年,苹果将Siri引入无线耳机和HomePod音箱等产品后,Siri每月处理150亿条语音指令,0.2%仍意味着每月有3000万次请求经过语音分析,一年就是3.6亿次。
亚马逊
在智能音箱领域,苹果的HomePod估计只占美国市场的5%。亚马逊估计有70%。亚马逊Echo的七个麦克风一直在监听“唤醒词”,这将触发新的录音。与苹果一样,每一段用户音频都会被发送到公司的服务器,其中的一部分会被分流到数百个数据关联公司中进行人工审查。
默认情况下,亚马逊会无限期保留录音。亚马逊没有透露这些数据的具体用途,只是表示在将Alexa翻译成世界各地新语言和扩展其响应能力方面,人工转录已被证明具有巨大的优势。
从罗马尼亚首都布加勒斯特到印度南部城市钦奈,亚马逊已经在世界各地的城市建立了数量众多的人工转录机构,今年它已经举办了好几次为海外人工转录员举行的招聘会。一位花了数十年时间为科技公司开发识别系统的技术专家表示,亚马逊最近一次招聘活动中概述的音频数据分析规模之大令人震惊。亚马逊表示,它非常重视“客户及其语音记录的安全”,而且它需要完全理解地方口音和各种口语,才能让Alexa全球化。
微软
今年8月,微软承认,会使用人工审查包括Cortana和即时通讯应用程序Skype在内的语音识别技术产品生成的语音数据。宝马、惠普和Humana等公司正在将相关技术整合到自己的产品和服务中。行业分析师说,谷歌和Facebook同样认为音频数据将极大推动它们庞大的广告业务。密歇根大学教授Schaub表示,网页浏览行为向这些公司提供了大量个人信息,但录音可以让人工智能更容易估算出用户年龄、性别、情绪,甚至所处地点和兴趣。
谷歌
谷歌Assistant为谷歌搜索引擎提供来自10亿台设备的查询,包括Android智能手机和平板电脑、Nest恒温器和索尼电视。谷歌也聘请海外临时工来转录音频片段,以提高系统的准确性。谷歌承诺,经过审查的语音记录不会与任何个人信息相关联。但今年夏天,谷歌一家承包商向比利时广播公司VRT NWS共享了1000多份用户录音。媒体根据录音内容确立了一些用户,让人大为震惊。其中大约有10%的录音片段是在未经这些用户同意的情况下录制的,因为设备错误地检测到了唤醒词“OK,谷歌”。
谷歌的一名女发言人说:“自从听到这些担忧后,我们一直致力于暂停助理音频的人工转录,同时加强我们的隐私控制。该公司拒绝评论人类是否转录了从其他谷歌服务收集到的语音数据。谷歌助理的一名高级工程师最近离开了公司,他说,如果语音助理(包括谷歌的)更有用的话,人们可能会忽视窥探的担忧。
Facebook在2018年11月推出了集智能音箱和可视电话于一体的Portal时,就已经受到数据隐私丑闻的困扰。但其也一直依赖人工转录音频来训练人工智能,来源不止是用户音频。Facebook通过埃森哲雇佣的一名承包商被要求使用Facebook个人账户给朋友和家人打电话,创建新的音频,但没有告诉他们为什么。Facebook内部的一名消息人士证实,这些同化会被记录下来。但Facebook表示,从未明确要捕捉实际的通话内容。
Facebook聊天应用Messenger支持用户传输音频信息,其也依赖人工转录。公司会提示用户选择让其人工智能自动转录这些语音信息,但没有告诉他们这些剪辑也被交给了承包商TaskUs进行人工审查。Facebook也没有告诉TaskUs这些音频是从哪里来的。
负责监督Facebook硬件部门的副总裁安德鲁·博斯沃思(Andrew Bosworth)说,除了像苹果那样将语音文件与用户ID分开之外,Facebook软件还会在将文件转发给承包商之前,略微改变每个人的音调。他承认使用语音指令工具需要“对工具背后的技术承包商抱有很大信息”,但很他相信谷歌、亚马逊以及Facebook使用语音数据实在改善他们的服务而非利用敏感信息。博斯沃思表示自己家中也有多个语音设备。
————————————————
今年,几家大型科技公司调整了它们的策略。谷歌暂停人工转录Assistant音频,苹果已经开始允许用户删除Siri的历史记录,并选择不再分享更多内容;把共享录音设为可选项,并直接聘用许多前承包商来加强对人工转录的控制。Facebook和微软在其隐私政策中增加了更明确的免责声明。亚马逊也披露了类似的信息,并开始允许Alexa用户选择对录音不进行人工审核。“这是业内众所周知的事情,”亚马逊最近谈到人工转录时说。“不管是媒体还是用户都知道,很明显我们在这方面做得不够好。”