  
- 积分
- 24651
- 威望
- 24651
- 包包
- 144062
|
DeepMind最近做了个能读懂唇语新软件,为失聪者提供有力工具
# R* ^# X4 ]7 a来源:腾讯科技 / 作者: / 2016-11-10
; @( _6 v, I6 Q y2 Q/ F. v专业唇语阅读者识别唇语的准确率只有20%到60%。人类在日常说话过程中嘴唇的微小移动很难被可靠地解读,尤其是在有一定距离,或画面不清晰的情况下。不过,唇语并不只是美剧《海军罪案调查科》中的噱头,对全球的失聪者来说,这是一项有用的工具。如果能可靠地解读,那么将给数百万人带来帮助。2 l6 C/ P8 A9 z3 Z) X3 `6 O" Q! X
牛津大学的最新研究描述了一种名为LipNet的人工智能系统。通过“观看”人类说话的视频,以及输入相应文字,这一软件对唇语的解读准确率高达93.4%。这项研究得到了谷歌(微博)旗下DeepMind的资助。
9 J- z; S* G" T l4 ]- m) m, A; j此前最佳的唇语解读工具只能实现逐个单词的解读,准确率只有79.6%。牛津大学研究员表示,新系统获得成功的关键在于通过不同方式去思考这一问题。这一系统不再利用可视元素,即说话者嘴型的变化去训练人工智能,而是每次都处理一整个句子。这使得人工智能可以学会单词对应于什么样的嘴型变化。7 t. M% Y! }' @, I0 g0 t
为了训练这一系统,研究员向人工智能展示了2.9万条带文字标签的视频,每段视频长度为3秒。而为了观察专业唇语阅读者做得如何,该团队还邀请了“牛津学生残疾人社团”的3名成员,用300条随机视频去进行类似的测试。这些专家的平均错误率为47.7%,而人工智能的错误率只有6.6%。
# Q& A0 V9 @# I& {尽管这一项目取得了成功,但也暴露出了当代人工智能研究的局限。在指导人工智能如何阅读唇语的过程中,牛津大学团队使用了经过设计的视频。视频中的所有人物都面向前方,光线明亮,说出标准结构的语句。
7 i$ C) |1 \( F8 R' q% d$ H& H视频中的典型语句时长为3秒钟,例如:“Place blue in m 1 soon。”这其中包括命令、颜色、介词、字母、数字,以及副词。所有语句都采用这样的模式。因此,人工智能的超高准确率只是在一种极端情况下取得的。如果要求人工智能从随机的YouTube视频中阅读唇语,那么结果可能很不准确。
; w/ a$ q9 x6 F7 q3 e" J p0 Q有其他研究人员指出,利用这种特殊视频去训练并不符合真实世界场景。不过,论文作者南多•德弗雷塔斯(Nando de Freitas)为自己的成果进行了辩护。他指出,该团队曾尝试过其他视频,但这些视频带来了太多“噪音”。这些视频各不相同,因此人工智能无法取得有意义的结论。这也意味着,完美的数据集可能并不存在。德弗雷塔斯认为,考虑到这一人工智能的准确率,最终情况如何将取决于任务本身。- ~4 A8 V! g1 b$ B* R- _. t9 ^
OpenAI的杰克•克拉克(Jack Clark)表示,如果希望在现实世界中得到应用,那么这一人工智能还需要三方面的优化:人们在现实世界场景中大量的说话视频;让人工智能可以从多个不同角度去阅读唇语;以及让人工智能可预测的短语类型更多样化。
4 H5 n6 W {+ Q" _" K4 M' O% F克拉克表示:“这项技术具备显而易见的应用,但这看起来似乎并不可能。”如果人工智能可以学会阅读唇语,那么将适用于多种场景。此类系统可以被用于帮助听力障碍人士了解周围发生的对话,或是让其他人工智能更好地辨别视频中的声音,生成准确的字幕。4 j4 ?! B9 e4 P; _' V3 C
; w7 L* _& a6 H8 C% k& b/ K- ?4 c
6 @* S& r% M. n |
|