0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里读唇AI帮助5亿听障人士

汽车玩家 来源:venturebeat 作者:venturebeat 2019-12-06 16:00 次阅读

阿里又出黑科技。新的唇语阅读 AI 系统在识别准确率表现上不仅超越基线标准,也优于专家级人类水平,有望为全球近 5 亿听障人士带来福音。

阿里巴巴又出黑科技,AI 看唇语知内容!

实际上,能够从视频中读取嘴唇的 AI 和机器学习算法并没有什么不同。早在 2016 年,来自 Google 和牛津大学的研究人员就详细介绍了一种系统,该系统可以 46.8% 的准确度注释视频录像,这个表现明显优于专业唇语识别人士 12.4% 准确度。但是,即使是最先进的系统,也难以克服唇语识别时的歧义问题,这使唇语 AI 的性能一直难以超越音频语音识别

为了追求更好的性能,浙江阿里巴巴公司和史蒂文斯理工学院的研究人员联合设计了一种方法,称为 LIBS,该方法利用从语音识别器中提取的特征作为唇语识别时的补充信息。研究人员表示,LIBS 系统在两个基准测试中都达到了业界领先的准确度,在识别字符错误率方面,LIBS 分别较基线性能高出 7.66% 和 2.75%。

LIBS 和其他类似的解决方案一样,都可以帮助听障人士观看缺少字幕的视频。据估计,全世界有 4.66 亿人患有失能性听力障碍,约占世界人口的5%。根据世界卫生组织的数据,到 2050 年,这一数字可能会超过 9 亿。

LIBS 会从说话人的视频中以多种不同尺度提取有用的音频信息,包括序列级、上下文级和帧级。然后,系统会识别这些信息之间的对应关系,将数据与视频数据进行对齐(由于开头或结尾有时会出现采样率不一致、视频和音频序列的长度不一致等情况),并利用过滤技术来优化蒸馏功能。


LIBS 系统架构示意图

LIBS 的语音识别器和口语阅读器组件均基于注意力的 seq2seq 体系结构,这是一种机器翻译方法,可将序列的输入(即音频或视频)映射到带有标签的输出和注意力值上。研究人员对上述内容在 LRS2 和 CMLR 数据集上进行了训练,LRS2 包含来自 BBC 的 45000 多个口语句子,CMLR 则是最大的中文普通话口语语料库,包括了来自中国网络电视台网站的 10 万余个自然句(包括 3000 多个汉字和 20000 多个短语)。

不过,研究团队也表示,由于某些句子长度太短,该模型难以在 LRS2 数据集上实现“合理的”结果。(解码器从少于 14 个字符的句子中提取相关信息时会遇到困难。)但是,一旦对最大长度为 16 个单词的句子进行了预训练,解码器将可以通过对上下文级别的知识进行设置,提高 LRS2 数据中句子结尾部分的质量。

研究人员在描述其工作的论文中写道:“ LIBS 减少了对无关框架的关注。” “帧级知识提炼进一步提高了视频帧特征的可分辨性,使注意力更加集中。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26464

    浏览量

    264090
  • 语音识别
    +关注

    关注

    37

    文章

    1635

    浏览量

    111838
  • 阿里
    +关注

    关注

    6

    文章

    428

    浏览量

    32697
收藏 人收藏

    评论

    相关推荐

    阿里云内部全面推行AI写代码

    阿里云正在内部全面推行 AI 编程,使用通义灵码辅助程序员写代码、读代码、查 BUG、优化代码等。
    的头像 发表于 04-07 09:22 259次阅读

    阿里巴巴推出自主多模态AI代理MobileAgent

    阿里巴巴最近推出了一款名为MobileAgent的自主多模态AI代理,这款产品模拟人类操作手机,并采用纯视觉解决方案,无需任何系统代码。
    的头像 发表于 02-04 10:34 513次阅读

    新火种AI|淘宝天猫“换帅”风波,AI电商能为阿里扳回一局吗?

    换帅、寒冬、围攻,阿里“权变”的季节。
    的头像 发表于 12-26 10:26 569次阅读
    新火种<b class='flag-5'>AI</b>|淘宝天猫“换帅”风波,<b class='flag-5'>AI</b>电商能为<b class='flag-5'>阿里</b>扳回一局吗?

    X2000系列北京君正CPU: 外研通点笔VT-6C

    芯片,语音识别,语音控制,语音模块,离线语音\")和大容量内存,运行稳定,读取速度快。它还配备了高清保真喇叭,音质清晰,给孩子带来沉浸式的体验。   软件功能:外研通点笔VT-6C支持
    发表于 12-13 18:00

    拼多多超越阿里,而AI电商时代才刚开始

    拼多多市值超越阿里巴巴,电商的新一轮较量才刚开始。
    的头像 发表于 12-12 10:24 260次阅读
    拼多多超越<b class='flag-5'>阿里</b>,而<b class='flag-5'>AI</b>电商时代才刚开始

    阿里云发布AI大模型,谷歌地热项目助力绿色能源转型

    大家好,欢迎收看河套IT WALK第124期。 今天,阿里云发布了具有720亿参数的大型语言模型Qwen-72B,这一创新将助力多语言AI的发展,掀开了AI技术在全球沟通和数据处理方面的新篇章。谷歌
    的头像 发表于 12-01 20:15 576次阅读
    <b class='flag-5'>阿里</b>云发布<b class='flag-5'>AI</b>大模型,谷歌地热项目助力绿色能源转型

    阿里为何要把一切“翻篇归零”

    和云智能集团的完全分拆暂停。 而且新任阿里巴巴集团CEO吴泳铭则在财报电话会上重点强调,现在都必须翻篇归零,唤醒重新创业的心态。同时吴泳铭判断下一个十年挑战和机遇同在,AI将带来非常深刻的变革。 从各个消息以及阿里财报电话会
    的头像 发表于 11-17 14:43 1204次阅读

    全新NVIDIA Spectrum-X网络平台构筑阿里生成式AI云底座

    全新 NVIDIA Spectrum-X 网络平台构筑阿里生成式 AI 云底座。
    的头像 发表于 11-02 09:07 348次阅读
    全新NVIDIA Spectrum-X网络平台构筑<b class='flag-5'>阿里</b>生成式<b class='flag-5'>AI</b>云底座

    2023云栖大会 阿里巴巴要打造AI时代最开放的云

    2023云栖大会 阿里巴巴要打造AI时代最开放的云 2023杭州·云栖大会以“计算,为了无法计算的价值”为主题开启。2023云栖大会昨天开幕,阿里巴巴集团董事会主席蔡崇信在开幕式上致辞;2023
    的头像 发表于 11-01 17:42 788次阅读

    阿里新任CEO吴泳铭发全员信 创业心态 AI驱动 用户第一

    阿里新任CEO吴泳铭发全员信 创业心态 AI驱动 用户第一 阿里正式交棒到吴泳铭手上,阿里新任CEO吴泳铭发全员信,宣布两大战略重心:用户为先、AI
    的头像 发表于 09-12 15:24 811次阅读

    阿里平头哥发布首个 RISC-V AI 软硬全栈平台

    转自https://m.ithome.com/html/714391.htm 2023 RISC-V 中国峰会8月23日在北京召开,平头哥在会上发布了首个自研 RISC-V AI 平台。 据介绍,该
    发表于 08-26 14:14

    阿里云开源AI大模型,挑战Meta、OpenAI

    创新 · 挑战Meta: 阿里云开源通义千问大模型 Google的RT-2:当人工智能遇上机器人 在这个充满各种技术创新的时代,Google再次引领潮流,将AI与机器人技术相结合,为我们带来了一个全新
    的头像 发表于 08-04 18:45 545次阅读
    <b class='flag-5'>阿里</b>云开源<b class='flag-5'>AI</b>大模型,挑战Meta、OpenAI

    Ai 部署的临界考虑电子指南

    虽然GPU解决方案对训练,AI部署需要更多。 预计到2020年代中期,人工智能行业将增长到200亿美元,其中大部分增长是人工智能推理。英特尔Xeon可扩展处理器约占运行AI推理的处理器单元的70
    发表于 08-04 07:25

    阿里云Serverless 容器服务全面升级:新增组件全托管、AI镜像秒级拉取能力

    6 月 1 日在阿里云粤港澳大湾区云峰会上,阿里云智能云原生应用平台总经理丁宇宣布,Serverless 容器服务 ASK全面升级,进一步帮助企业和开发者降本提效。 Gartner 曾预测,2023
    的头像 发表于 06-02 14:30 552次阅读

    我们拆了一款Tof+AI的扫地机

    追觅W10 Pro是2022年初推出的新品,相较前一代W10,两者间最大的区别是将LDS避升级为了Tof+AI,扫地机本体前脸像给W10开了“大眼特效”的传感器和摄像头就是机械避
    发表于 05-26 10:10