清华大学|信息学院|国家实验室|English Version

“创交会”未来科技论坛:“人-机联网”请先验证“声音密码”


U5959P841DT20170512091740.jpg

"创交会“未来科技论坛现场

U5959P841DT20170512091832.jpg

清华大学语音和语言技术中心主任郑方教授讲解“声纹识别”技术


让人和机器用自然语言交流,是人工智能科学家多年来的梦想。可是,如果机器连它对面说话的是谁都“傻傻分不清楚”,这一科幻场景就永远只能停留在想象。

5月11日,成都“双创会创交会”进入第二天。继上午3位诺贝尔奖得主登台演讲后,备受瞩目的“世界未来科技论坛”迎来了当前大热的“人工智能”主题环节,其唯一讲者是来自清华大学的郑方教授。他带来的正是目前解决“人机通讯”身份验证问题的最新科技——用声音作“密码”。

AI狂飙突进之下被忽视的“安全”

只要留意下身边就会发现,仅连接桌面计算机的PC互联网时代已成过去,从以手机为接入终端的移动互联网,到号称“连接一切”的物联网,被接入网络(云)的各种终端智能设备数量正呈指数级增长。

然而问题来了:当物联网+人工智能时代到来,网络“大脑”究竟该如何分辨:哪些接入设备是你的,哪些接入设备是别人的?

可以设想,这一问题不解决将埋下种种隐患:一个人可以轻而易举地盗数据、盗手机、盗银行卡、盗汽车,甚至盗取你的“一切”。人们对网络安全可靠性的担心将永远无法消除。

更进一步,如果网络不能准确辨认人和机器的关系,不仅会给冒用盗用者以可乘之机,甚至还可能使机器逐渐脱离人的控制。这将使万物互联的价值和存在理由遭到严重挑战。

“要解决网络信息安全的‘最后一厘米’问题,人的远程身份认证是关键。”郑方教授表示。然而在他看来,目前包括对安全性要求极高的手机银行等在内的很多应用,其安全手段都没有完全解决人(用户)、机(智能终端)之间的一致性这“最后一厘米”问题。

生物特征识别,“想要认你不容易”

在喜闻乐见的谍战片接头场景里,要向对方证明“自己是自己”是一件相当困难的事。无论是证件还是暗号,即便不被自己弄丢或者遗忘,被对手仿冒、窃取的可能性更是多得令人防不胜防,陷入人人自危。

而在网络和平年代,从财产到隐私,由身份确认导致的安全问题并不比战争年代更少。

郑方教授认为,要证明“我是我”通常有三种手段:一种是根据“我知道什么”,比如接头暗号、取款密码等;一种是根据“我有什么”,比如身份证件、IC卡、银行U盾等;还有一种是“我是谁”,即不凭借任何外界材料,“自己证明自己”。

这便是当前方兴未艾的生物特征识别技术。它用起来最简单,实现起来却最复杂。

说到生物特征,人们最容易想到的是指纹和人脸。然而郑方教授告诉记者,生物特征在科学家看来实际上包含两大类,一类是生理特征,包括指纹、人脸、掌纹、虹膜、视网膜等统统属于这一类;还有一类近来才逐渐被人所知,即行为特征,比如声纹、签名、步态、手势、键盘敲击等。两类特征都具有个体唯一和不被遗忘等特点。可是,不同生物特征的防攻击能力却存在很大差异。

就在两个月前,中央电视台“3•15”晚会上曝光的人脸识别技术安全漏洞就让人们惊出了一身冷汗。主持人陈伟鸿在现场技术人员支持下,仅凭从微博上获取的一张观众自拍照,就成功攻破了“刷脸登录”的人脸认证系统,这场神奇的“换脸”黑科技也成为2017年“3•15”晚会上的一大亮点。

2016年6月,美国斯坦福大学的研究团队研发出一款人脸跟踪软件Face2Face,它可以通过摄像头捕捉用户的动作和面部表情,然后使用该软件驱动视频中的目标人物做出一模一样的动作和表情,效果极其逼真。

指纹和虹膜同样难逃被攻击的命运。在西班牙巴塞罗那举办2016年世界移动通信大会上,《华尔街日报》的记者做了一个实验,  他先是把手指在一个软胶模上按压了5分钟,待模具成型后,再使用一种粘土橡皮泥,便形成了一个指纹模。之后他将指纹膜按压在iPhone的指纹传感器上,手机瞬间被解锁。而早在2015年,著名的混沌计算机俱乐部的安全研究员Jan  Starbug接受采访时称,仅仅需要用通过谷歌搜索找到的高清晰度图像,就可以使用一些虹膜扫描工具进行攻击……。

“人们最先认识的生物特征是生理特征,它是人体生物学上的特征,具有稳定可靠、易于辨别的特点。在早期,这些具有‘静态’特点的生理特征被认为是具有天然优势的;然而,随着人工智能技术的飞速发展,其外在表现缺少变化反倒越来越成为一种劣势,原因是这些特征容易模仿,一旦不慎‘遗失’或被非法窃取,就会一‘丢’百丢。”郑方说

芝麻开门吧!智能语音时代来了

相信很多人都有过这种经验:毕业若干年后,你接到一个久未谋面的老同学电话,当电话那头的声音响起,你可能一下子就听出了那个熟悉的声音,你能马上想起来他是谁,脑海里却怎么也回忆不出他的模样,可谓“欲辨已忘颜”。

而在古代寓言“阿凡提和四十大盗”和现代电影《大话西游》里,一句“芝麻,开门吧”,就成了阿凡提开启宝藏和紫霞仙子打开盘丝洞大门的独门咒语。可是,如果换了个人念出这句咒语,结果又会怎样?  宝藏之门还会只为阿凡提而开吗?

在浙江卫视的流行科学节目《最强大脑》里,百度研发的智能机器人“度秘”虽然准确听出了人的讲话内容,却在挑战讲话人是谁这一任务时遇到了难题。对此百度AI团队的科学家是这样解释的,“声纹识别要比语音识别困难得多”。

“声纹识别不同于我们平常所说的语音识别,”郑方解释说,后者一般指的是识别讲的内容,而不区分是谁讲。他介绍,目前国内外语音识别技术都还做不到“理解”,只能类似机械化的把声音抓成文字等等。而要让机器理解人讲的内容是什么、是什么意图,还是件很遥远的事。

不过,今天的机器已经能分辨出话是谁讲的了,科学家把这种AI能力直观称为“说话人识别”。相关技术已经走出实验室,开始进入百姓生活,这就是“声纹识别”。

据了解,清华大学是我国最早开展生物特征识别研究的研究单位之一,郑方便是语音团队的关键人物。他师从我国著名的人工智能专家石纯一教授和全国信息奥林匹克竞赛总教练、清华大学吴文虎教授,并得到我国人工智能界“泰斗”、中国科学院院士张钹的指导,从第一篇有关语音识别的论文开始,至今已二十多个年头。2002年,为将这一科研成果产业化,清华大学支持成立了“得意音通”公司,担负起智能语音技术产业化的重任。然而,由于技术极为复杂,在这期间,团队一直在默默开展算法研究、产品优化和人才培养等,外界鲜见其发声,行事极为低调。

2016年被媒体和投资界称为中国AI元年。随着谷歌“阿尔法狗”战胜人类围棋大师的新闻被爆炒,以机器学习为代表的AI技术仿佛一战成名,进入大众视野。而历经数年艰苦研究,各种应用场景也纷纷落地。厚积薄发的声纹识别等智能语音技术终于迎来大发展。

“最简单地说,声纹识别技术就是帮助你用你自己的声音打造一把专属于你的声纹锁。”郑方透露,得意音通的旗舰产品之一“声密保”已在国家信息中心投入使用,并预装上中国建设银行手机银行客户端,内测的最新版本已经具备了防录音、防时变等能力。他们还与中国银联达成了战略合作协议,近期“声密保”也将在中国银联上线。作为金融、公安、工信等诸多行业声纹标准的主要起草单位,这家清华系公司正广泛涉猎包括移动电子支付在内的几乎所有远程身份认证应用领域,立志从最前端的身份验证开始,推动中国人工智能行业的发展。

来自市场的迹象同样表明,对智能语音的需求已在暗涌。工信部电子科学技术情报研究所最近的一份研究报告显示,2017年全球智能语音产业规模将突破100亿美元。

不只是身份识别,围绕声音还有更多的研究正在紧锣密鼓的开展着。

郑方介绍,由于声音信号具有“形简意丰”的优势,从一小段声音里就能提取出很多很多信息,比如身份、内容、性别、语种、口音、情感……。“比如你说话时的情绪是高兴还是悲伤?是焦虑或是恐惧?是主动自愿地在说还是背后被人胁迫了才说?”这些信息都可以从声音中得到。此外,通过声音还可以“用一句话解决所有问题”。设想一下,用户只要说出“给张三转1000元钱”,系统就能同时完成业务识别、意图识别及身份认证,这无疑可以为用户带来极大的便利。

“21世纪必定是语音的世纪。”采访结束时,郑方肯定地说。

转自“新浪四川频道”http://sc.sina.com.cn/city/xwgz/2017-05-12/092127622.html

 

【发布时间:2017-05-15】【浏览次数:1149】