通信
当前位置:时讯网 > 通信 >

云从科技语音技术刷新多项世界纪录

2021-06-19 12:40:43 中网资讯科技 浏览数: 时讯网

让AI听得出、听得清,听得懂,成为每个人的真正知音,是云从人机协同战略让机器从知音到知心迈出的重要一步。 近日,云从科技语音技术取得多项重大突破,在语音识别、语义纠错、深度学习降噪等领域刷新多项国际、国内语音识别权威纪录,超越亚马逊、搜狗等企...

  让AI听得出、听得清,听得懂,成为每个人的真正“知音”,是云从人机协同战略让机器从知音到知心迈出的重要一步。

  近日,云从科技语音技术取得多项重大突破,在语音识别、语义纠错、深度学习降噪等领域刷新多项国际、国内语音识别权威纪录,超越亚马逊、搜狗等企业创下的此前最好成绩,夯实业界领先的技术地位。

  此次云从创新提出的新模型,对应语音技术不同角度的突破,包含巨大的应用价值,推动技术朝更智能地“听”迈进了一大步:

  语义纠错技术:在权威中文语音识别数据集Aishell和清华大学语音Thchs30测试集上,将字错率(Character Error Rate,CER)第一遍WFST解码以及第二遍RNN重打分结果分别相对降低21.7%和10.3%。

  这意味着让AI“听得懂”:字错率降低代表使语音更准确地转换文字,纠正语义的错误。

  语音识别技术:刷新Aishell纪录,将字错率降低到4.34%,较过去最好成绩降低了8%;云从团队提出的新模型,巧妙融合了语音识别和说话人识别,提高识别率的同时,极大提升了在不同说话人场景下的鲁棒性。

  这意味着让AI“听得出”:将每个人同“指纹”一样独有的“声纹”识别出来,指标提升意味着更精准识别出说话者。

  深度学习降噪模型:在国际顶会Interspeech2020 DNS Challenge比赛数据集上取得了目前最好的结果。

  这意味着让AI“听得清”:针对在嘈杂环境去除噪声,使语音更清晰。

  在语音技术高度发展的基础上,每提升1个百分点的准确率,都如同征服一座高山。此次云从一举在三项语音技术上取得新突破、新模型,不仅展现出深厚的科研基础与强大创新能力,同时也彰显出云从技术实力的全面性与综合性。近年来语音技术已经广泛应用于人们的生活,但大多是依托智能语音设备在室内安静环境下的单人交互,云从团队提出的多个创新模型,对于突破业界瓶颈,攻克嘈杂环境、多人对话等复杂应用难题,具有重大意义。

  在人工智能第二浪背景下,全链技术形成行业价值闭环、AI工程学的重要性日益突显。云从科技在视觉、语音等技术频频突破,再次夯实核心技术闭环实力,为行业打造更全面、更有价值的智能化方案,为每个人构筑更流程灵活的交互体验。

  创新研究模型 直击技术难点

  此前云从的语音技术已取得刷新全球最大开源语音识别数据集Librispeech纪录、发表多篇顶会论文、发表多篇新型发明专利等成绩。尽管近年来整个人工智能语音领域有了快速发展,但目前常见语音交互场景多是在安静环境下的单人交互,在日常应用仍有诸多问题亟待突破:例如在多人场景的语音、噪声混合中,如何追踪并识别至少一个声音、正常在嘈杂环境下正常交流,也就是“鸡尾酒会问题”,仍是研究者们致力解决的难题。

  针对这些技术难点,云从在语音识别、语义纠错、深度学习降噪等多个方向上,创新性提出新模型,并在多个数据集上刷新最优成绩。

  语义纠错:

  针对常见的语法纠错、拼写纠错与语音识别系统转写的错误分布差异较大、传统模型不适合直接使用等问题,云从科技提出一种基于BART预训练模型的语义纠错技术方案,不仅可以对数据中常见的拼写错误进行纠正,还可以对一些常识错误、语法错误,甚至一些需要推理的错误进行纠正。

  在云从科研团队一万小时语音数据的实验中,纠错模型可以将基于3gram WFST解码结果的错字率相对降低21.7%,取得与RNN重打分相近的效果。在RNN重打分的基础上使用纠错,可以进一步取得10.3%的CER相对降低。

  

  部分纠错示例如下:

  

  语音识别:

  云从科研团队结合声纹识别x-vector embedding以及自研multi-stream TDNNF结构的XmasNet,刷新Aishell的纪录,在测试集Aishell-test上CER指标提高到4.34%,相比于SOTA,提升了8%。这种方法结合了最新的说话人识别技术,进一步提高了语音识别在口音环境下的识别率。

  值得一提的是,本次云从团队提出新模型结构,在训练数据固定(原始178小时音频)的情况下,仅通过优化模型结构,取得识别率的提升。

  该结构巧妙融合了语音识别和说话人识别,提高识别率的同时,极大提升了在不同说话人场景下的鲁棒性。

  

  x-vector embedding(上)以及XmasNet网络结构(下)

  深度学习降噪:

  云从科研团队提出一种基于U-Net和注意力机制attention的深度学习神经网络模型CARN模型,在DNS Challenge比赛数据集上取得了目前最好的结果。

  该数据集中,亚马逊PoCoNet模型、西北工业大学和搜狗合作的DCCRN模型等在具有混响的仿真场景和真实场景下,只能得到中等品质的音频;相比之下,云从CARN模型在各类场景下均有优秀表现,无论是没有混响的仿真场景(no_reverb)、还是具有混响的仿真场景和真实场景下,都能大幅减少音频中的噪音,处理取得清晰的优质音频,提升音频的清晰度。

  

版权与免责声明:

凡未注明"稿件来源"的内容均为转载稿,本网转载出于传递更多信息的目的;如转载稿涉及版权问题,请作者联系我们删除,同时对于用户评论等信息,本网并不意味着赞同其观点或证实其内容的真实性;

转载本站原创文章请注明来源:时讯网

行业聚焦

工业和信息化部办公厅关于进一步加强商务楼宇宽带垄断专项整治工作的通知

工业和信息化部办公厅关于进一步加强商务楼宇宽带垄断专项整治工作的通知 工信厅通信函〔2020〕162号 各...[详细]

2020ChinaJoy高通骁龙再度包馆,极致数字娱乐体验竞速开启

7月31日,2020ChinaJoy在上海新国际博览中心盛大开幕。高通公司(Qualcomm)再度携手产业生态链合作伙伴,以高通骁龙品牌命名主题馆,希望为游戏玩家和电竞爱好者打造一场游戏狂欢季。展览首日,高通公司携手中国电信、中国联通、中国移动三大运营商,黑鲨、iQO...[详细]

珠江电缆大力支持电网中的“5G”特高压技术

中国是全球唯一掌握特高压技术,并商业化运营的国家。中国的技术标准,也是全球唯一的标准。特高压输电,这个看似和生活相距遥远的科技,却实实在在地改变着我们的生活,甚至影响着经济版图。 1、特高压,输电技术中的5G 建发电厂容易,可想把电送出去,却绝不...[详细]

麒麟980处理器本身没有集成5G基带

高通这种内置4G调制调解器,外挂5G调制解调器的解决方案,更像是5G来临前的过渡方案。手机厂商可以选择是否使用X50调制解调器来支持5G网络。在5G来临前,只选择支持4G的骁龙855处理器,有利于降低成本,减少不必要的浪费。 华为的想法和高通类似,麒麟980处理...[详细]

华为赶在各个手机厂商之前拿出新一代旗舰芯片

华为赶在各个手机厂商之前拿出新一代旗舰芯片,首发了7纳米工艺,首发Mali-G76 GPU图形处理单元,首发Cortex-A76架构,甚至是首款采用双核NPU的芯片。不管怎么讲在名头上抢了先。 高通和苹果一方盘踞安卓,一方独占iOS。虽然高通始终没有跨出独立NPU那一步,...[详细]

一周排行每月关注