首页 生活 > 内容

人工智能和芯片的进步增强了语音识别能力

时间:2023-08-30 16:02:08 来源:
导读 IBM和加州大学旧金山分校和伯克利分校在语音识别技术方面的独立发展为患有声带麻痹和失语的患者带来了好消息。IBM报告称,他们开发出一种更...

IBM和加州大学旧金山分校和伯克利分校在语音识别技术方面的独立发展为患有声带麻痹和失语的患者带来了好消息。

IBM报告称,他们开发出一种更快、更节能的计算机芯片,能够增强语音识别模型的输出。

随着人工智能项目大型语言模型的爆炸式增长,硬件性能的限制导致训练周期延长和能源消耗螺旋式上升的问题已经暴露出来。

在能源消耗方面,《麻省理工学院技术评论》最近报道称,训练单个人工智能模型会产生超过626,000磅的二氧化碳,几乎是美国汽车平均排放量的五倍。

人工智能运算巨大能源消耗背后的一个关键因素是内存和处理器之间的数据交换。

寻求解决方案的IBM研究人员表示,他们的原型在芯片内集成了相变存储设备,优化了称为乘法累加(MAC)运算的基本AI流程,从而大大加快了芯片的活动速度。这绕过了在内存和处理器之间传输数据的标准耗时和耗能例程。

IBM的StefanoAmbrogia在8月23日在线《自然》杂志上发表的一项研究中表示:“据我们所知,这是在商业相关模型上首次展示商业相关准确度水平。”

“我们的工作表明,当与片上辅助计算的时间、面积和能源效率实现相结合时,所提供的高能源效率和吞吐量……可以扩展到整个模拟人工智能系统,”他说。

在处理器密集型语音识别操作中,IBM的原型机每秒每瓦实现了12.4万亿次操作,效率水平比目前使用的最强大的CPU和GPU提高了数百倍。

与此同时,加州大学旧金山分校和加州大学伯克利分校的研究人员表示,他们为失去说话能力的人设计了一种脑机接口,可以根据用户的想法和发声努力生成单词。

加州大学旧金山分校神经外科主任爱德华·张(EdwardChang)表示:“我们的目标是恢复一种完整、具体的沟通方式,这是我们与他人交谈的最自然的方式。”

张和他的团队在一名患有肌萎缩侧索硬化症的妇女的大脑表面植入了两个微型传感器,这是一种神经生成疾病,会逐渐剥夺患者的活动能力和语言能力。

尽管受试者仍然可以发出声音,但肌萎缩侧索硬化症限制了她使用嘴唇、舌头和喉部说出连贯的单词。

这些传感器通过脑机接口连接到装有语言解码软件的计算机组。

300mm晶圆用于制造模拟。图片来源:IBM的RyanLavine

这位女士接受了25次训练,每次持续4小时,她在训练中朗读了260到480个句子。她在阅读过程中的大脑活动由解码器翻译,解码器检测音素并将其组装成单词。

然后,研究人员根据她几年前在婚礼上的讲话录音合成了她的讲话,并设计了一个反映她面部动作的头像。

结果是有希望的。

经过四个月的训练,该模型能够跟踪受试者尝试发声并将其转换为可理解的单词。

当基于125,000个单词的训练词汇(几乎涵盖了受试者想说的任何内容)时,准确率为76%。

当词汇量限制为50个单词时,翻译系统的表现要好得多,90%的时间都能正确识别她的讲话。

此外,该系统能够以每分钟62个单词的速度翻译受试者的讲话。尽管单词识别率是早期类似实验的三倍,但研究人员意识到,要满足每分钟160个单词的自然语音识别率,还需要改进。

该研究的合著者FrankWillett于8月23日发表在《自然》杂志上,他说:“这是一个概念的科学证明,而不是人们可以在日常生活中使用的实际设备。”“但这对于恢复无法说话的瘫痪患者的快速沟通来说是一个巨大的进步。”

标签:
最新文章