0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Mozilla使用开源Common Voice语音识别数据集进行多语言操作

JsPm_robot_1hjq 来源:未知 作者:胡薇 2018-06-12 11:18 次阅读

Mozilla 宣布它正在使其众包项目 Common Voice 支持更多语言。Common Voice 是一个旨在创建开源语音识别数据集的项目,于去年6月发布,它邀请来自世界各地的志愿者通过网络和移动应用程序,用他们的声音记录文本片段。

业内普遍认为语音将成为下一个重要的技术平台,近年来随着人工智能理论与技术的迅猛发展,语音识别技术在不断突破,通过语音助手如 Alexa、Google Assistant、Siri 和 Cortana,各公司将收集到的用户语音数据归为公司自己所有,这些数据的价值或许目前很难被外界看出来,但是在信息化高度发达,特别是今天这样一个大数据和人工智能时代,为开发机器学习模型提供语音数据集怎么看都是一件有深远意义的事,这些语音数据的意义会慢慢体现。

而最终当它们的价值逐渐显现,人们会发现在这背后亚马逊、谷歌、苹果和微软等公司已经牢牢锁住了语音技术的命门,主导了这场语音市场之争。

Common Voice 项目就是为了避免这样的事情而诞生的,它的目的是将收集到的语音数据集开源给公众,使得任何人都可以自由使用这些数据集来将语音识别技术智能地构建到各种应用程序和服务中。Mozilla 已经在去年11月公布了 Common Voice 英语数据集的第一批成果,其中收录了20000个人录制的40万个录音、大约500小时的演讲。此次 Mozilla 又宣布它正式开始收集法语、德语和威尔士语三种语言的语音数据,同时也在为收集另外40种语言做准备,巴西葡萄牙语、印度尼西亚语、波兰语和荷兰语等已经准备好启动众包语音数据收集。

Mozilla 首席创新官 Katharina Borchert 在他的博客中写到:“我们希望用户使用自己的语言甚至方言的时候是可以被机器理解的,但是我们相信这些技术上的接口不应该由少数几家公司控制,他们不能像守门员一样来完全把控语音服务。”

Common Voice 项目的意义与用于打击私人平台的开放许可证项目类似,OpenStreetMap 就是一个很好的例子。OpenStreetMap 为开发者提供了开放且可自由使用的世界地图,使得开发商不再需要依赖于 Google Maps 这样的竞争对手,不仅降低了成本开销,技术上也不再受到限制。

“使用多种语言标志着 Common Voice 迈出了重要的一步,我们希望它对整体语音技术来说也是一大步”,Mozilla Common Voice 项目的数字策略师 Michael Henretty 补充到:“语音技术的民主化不仅会降低全球创新的障碍,也会让人们获取信息更加便捷。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Mozilla
    +关注

    关注

    0

    文章

    46

    浏览量

    11153
  • 语音识别
    +关注

    关注

    37

    文章

    1635

    浏览量

    111831

原文标题:打破语音垄断 Mozilla Common Voice 支持更多语言

文章出处:【微信号:robot-1hjqr,微信公众号:1号机器人网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    这个多语言包 怎么搜不到

    大家好,这个多语言包怎么搜不到 seven language lib 谁有离线包不 感谢分享,
    发表于 03-24 10:06

    语言模型(LLMs)如何处理多语言输入问题

    研究者们提出了一个框架来描述LLMs在处理多语言输入时的内部处理过程,并探讨了模型中是否存在特定于语言的神经元。
    发表于 03-07 14:44 143次阅读
    大<b class='flag-5'>语言</b>模型(LLMs)如何处理<b class='flag-5'>多语言</b>输入问题

    车内语音识别数据在智能驾驶中的价值与应用

    车内语音识别数据在智能驾驶中的价值与应用 一、引言 随着智能驾驶技术的不断发展,车内语音识别数据在智能驾驶中的应用越来越广泛。车内语音
    的头像 发表于 02-19 11:47 246次阅读

    车内语音识别数据在智能驾驶中的应用与挑战

    将详细介绍车内语音识别数据在智能驾驶中的应用、面临的挑战以及未来的发展趋势。 二、车内语音识别数据在智能驾驶中的应用 语音控制:通过车内
    的头像 发表于 01-26 18:14 770次阅读

    多语言开发的流程详解

    现在不少应用都是要求有多语言切换的, 使用QT开发上位机也同样需要做多语言功能, 不过QT是自带了多语言翻译功能, 可以很方便的借助原生工具进行, 下面就简单来看看
    的头像 发表于 11-30 09:08 382次阅读

    如何在TSMaster面板和工具箱中实现多语言切换

    对应的多语言文件,就可以同时满足国内外的需求,便于在公司内部和国内外合作伙伴进行协作。今天重点和大家分享一下关于TSMaster中面板和工具箱的多语言版本切换如何实现。
    的头像 发表于 11-11 08:21 321次阅读
    如何在TSMaster面板和工具箱中实现<b class='flag-5'>多语言</b>切换

    车内语音识别数据:驾驶体验升级与智能出行的未来

    车内语音识别数据是指在汽车内部通过语音识别技术对驾驶员和乘客的语音指令进行处理和响应的
    的头像 发表于 11-08 17:01 216次阅读

    基于LLaMA的多语言数学推理大模型

    MathOctopus在多语言数学推理任务中,表现出了强大的性能。MathOctopus-7B 可以将LLmMA2-7B在MGSM不同语言上的平均表现从22.6%提升到40.0%。更进一步,MathOctopus-13B也获得了比ChatGPT更好的性能。
    发表于 11-08 10:37 212次阅读
    基于LLaMA的<b class='flag-5'>多语言</b>数学推理大模型

    车载语音识别数据的应用与挑战

    随着人工智能技术的迅猛发展,车载语音识别数据成为汽车科技领域的一项重要资源。车载语音识别技术将语音信号转化为可
    的头像 发表于 08-28 23:00 289次阅读

    车载语音识别数据的技术进展与前景

    近年来,随着人工智能和语音识别技术的飞速发展,车载语音识别数据的应用前景愈加广阔。车载语音识别
    的头像 发表于 08-28 17:15 260次阅读

    车载语音识别数据的社会影响与未来展望

    随着车载语音识别数据的技术不断进步,其社会影响也变得愈发显著。车载语音识别技术的普及不仅将改变驾驶员与车辆之间的互动方式,还将深刻影响交通安全、用户体验以及出行方式。
    的头像 发表于 08-28 16:55 281次阅读

    蚂蚁集团开源高性能多语言序列化框架Fury解读

    Fury 是一个基于 JIT 动态编译和零拷贝的多语言序列化框架,支持 Java/Python/Golang/JavaScript/C++ 等语言,提供全自动的对象多语言 / 跨语言
    的头像 发表于 08-25 17:05 737次阅读
    蚂蚁集团<b class='flag-5'>开源</b>高性能<b class='flag-5'>多语言</b>序列化框架Fury解读

    方言语音识别数据驱动人工智能的多元文化发展

    人工智能作为一项引领科技发展的关键技术,正在改变着我们的生活方式和社会格局。然而,传统的人工智能系统往往集中在标准语言识别和处理上,忽视了世界上众多方言的存在。方言语音识别数据的引入
    的头像 发表于 07-11 15:21 622次阅读

    车内语音识别数据是驱动智能出行的新动力

    随着人们对智能化出行的需求不断增长,车内语音识别技术成为了汽车领域的重要创新。而这项技术的发展离不开车内语音识别数据的支持,它为智能车辆提供了更加便捷、智能的人机交互体验。 车内
    的头像 发表于 07-09 00:46 299次阅读

    HarmonyOS低代码开发-多语言支持及屏幕适配

    多语言支持:低代码页面支持多语言能力,让应用开发者无需开发多个不同语言的版本。开发者可以通过定义资源文件和引用资源两个步骤以使用多语言能力。 1.在指定的i18n文件夹内创建
    发表于 05-23 14:37