0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

科大讯飞智能录音笔升级,可进行12种方言和10种语种转写

牵手一起梦 来源:智东西 作者:佚名 2020-06-01 15:33 次阅读

5月27日消息,科大讯飞针对其讯飞智能录音笔进行录音、转写和编辑三大性能升级,新增支持声源定位、12种方言和10种语种转写、支持智能摘要等13项功能,进一步为用户带来更便捷高效的录音体验。

去年5月,科大讯飞一枪打在了传统录音笔市场创新赛道上,推出业内首款带屏录音笔——讯飞智能录音笔SR系列,直接催生了一个潜力不可小觑的新品类市场。

至今,SR系列已覆盖媒体、商务、教育、律政等应用领域,进入全球115个国家、646座城市的市场,并拿下2019年双11天猫&京东双平台录音笔品类和单品销售额第一的成绩。

如今,随着今年全国两会如火如荼地召开,讯飞智能录音笔亦成为人民网、文汇报、齐鲁晚报、21世纪经济报道4家媒体记者团,报道两会的指定录音笔,协助记者等专业团队提高报道效率,更好地记录民声民意。

实现这一系列成果,讯飞智能录音笔只花了一年。

在这背后,既是讯飞自2016年成立消费者事业群以来,在To C市场不断摸索和布局,也是讯飞智能语音技术21年来的技术积累,在转写赛道上不断研发创新。

在这个千万级规模的录音笔市场下,讯飞哪来的信心和底气选择以带屏录音笔杀入这个几乎饱和,却玩家拥挤的市场?自敲开录音笔新品类市场后,讯飞在过去一年又取得了哪些重要的成绩?市场又发生了哪些变化?

为此,智东西再度独家对话科大讯飞联合创始人&执行总裁胡郁、科大讯飞副总裁兼消费者事业群副总裁李传刚,在直击讯飞三大重磅升级的同时,进一步揭开这些答案的真实面纱。

一、三大升级亮点:支持超20种语言语种,远程拾音准确率提升30%

“作为AI录音笔的龙头厂商,我们应该尽快让用户体验到AI技术与录音笔融合的真正效果。”胡郁谈到,在过去一年,讯飞不断地对录音笔AI性能进行优化和升级,选择在今天进行重要的三大升级,也是为了让原有的录音笔用户率先体验更新颖的智能化功能。

此次,讯飞智能录音笔主要围绕智能录音、语音转写和智能编辑三个方面,进行13项重要升级,包括声源定位、方言转写、语义分段、个人词库等功能。

1、智能录音:360度声源定位,准确率提升30%

针对录音的专业性,讯飞智能录音笔新增了录音声源定位、非人声过滤和高增益降噪三项功能。

一是声源定位,录音笔能够通过判断声源方位,实现更好的拾音效果;二是非人声过滤,其与AI算法相配合,可将录音中空白或嘈杂等无用声去掉,保留有用人声;三是高增益降噪,在5至15米的录音范围内,转写准确率提升30%,人声也更加清晰。

2、语音转写:支持22种语言+语种,7大专业领域转写

这方面升级中的最大亮点在于新增了粤语、河南话、云南话和重庆话等12种方言转写,维吾尔语和藏语两种少数民族语言转写,以及西班牙语、越南语、俄语、英语、日语和韩语等8种语种转写,进一步扩大录音笔的语言应用场景。

同时,针对不同领域的专业术语转写,讯飞还更新了7大专业领域的转写支持,覆盖IT科技、财经贸易、文化体育、医疗、政法、运营商和教育领域。同时,还新增中英文混合转写功能功能。

3、智能编辑:个性化词库,文字编辑更清晰

面对不同录音场景、多个说话人和口语表达习惯,讯飞在智能编辑方面新增了智能语义分段、自动区分讲话人、口语规整、个人词库和智能摘要5项功能,让录音笔能更智能地进行文字编辑。

例如,在区分讲话人方面,录音笔采用了讯飞的声纹识别技术,能根据录音及转写结果,自动区分并标注讲话人。

“这次三大方面的功能升级,不仅能更加满足消费者的需求和体验,也更利于我们对市场的开拓和认知。”李传刚说。

三大升级之于讯飞智能录音笔,不仅是对产品性能和体验的进一步丰富完善,提升讯飞在录音笔新品类市场的优势和竞争力,同时它之于录音笔之上的讯飞消费者事业群,亦为其深入布局AI+办公这一细分市场提供了新的技术储备和解决方案。

“拳头”升级,讯飞打响的带屏智能录音笔新战局再度升温。

二、21年深耕与积累,讯飞智能语音技术的硬核力量

罗马并非一日建成。讯飞智能录音笔能在短时间内站稳市场,并占据一定身位的领先优势,是其长达21年的智能语音技术迭代和积累。

“过去几年,我们的智能语音技术曾经历了三次较大的革新与升级。”胡郁提到,这主要集中在语音识别、方言识别,以及多语种的录音转写、翻译上,而这些技术性能亦是讯飞大举进攻细分市场的差异化竞争点。

在语音识别领域,讯飞语音识别模块采用了基于深度全序列卷积神经网络的语音识别框架,识别准确率达98%,同时还通过多麦克风阵列去混响和多麦克风波束成形,进一步提升信噪比。如今,其麦克风阵列与录音笔回传的数据进行叠加后,能够在几十米的范围内获得更好的拾音效果。

在多语言识别领域,不管是中国方言的识别,还是全球多语种的录音转写和翻译,讯飞都下足了功夫。

简单地说,针对方言识别,讯飞采用统一的建模技术,通过少量的方言数据,进一步提升录音笔在方言语境场景的录音效果;另一方面,讯飞通过语音识别技术的不断研发和优化,将多语种的转写和翻译性能效果都实现了提升。

尤其在多语言识别方面,胡郁透露,目前中国科学院专门支持中国科学技术大学开展了一项多语识别先导项目,目标研发超过50个语种以上的核心技术,涉及语音识别、语音合成以及自然语言处理等技术。

“这是目前国内投资规模最大的多语种研发项目,现阶段还没有任何一家公司有这样的资源和能力,对这种规模的多语种系统进行研发。”胡郁谈到,这将进一步促进讯飞在多语言技术领域的研究。

如今,讯飞智能录音笔的研发团队已突破百人规模,包括硬件、软件、UI交互等均由讯飞的核心研发力量设计。

值得一提的是,随着讯飞在智能语音领域长达21年的布局和深耕,已打下了坚实的技术根基,技术储备力量不断丰富。

其中以语音识别技术为例,早在2016年,讯飞就已在国际多通道语音分离和识别大赛CHiME-4中,一鼓作气拿下了三个项目第一。在2020年CHiME-6上,讯飞不仅在给定说话人边界的多通道语音识别任务中夺冠,更刷新了自己在CHiME-5中的语音识别错误率记录,从46.1%降至30.5%。

这二十余年的技术成果与积累,无疑为讯飞敲开录音笔市场新品类的大门,带来了十足的信心与底气。

三、打响带屏录音笔市场第一枪,技术融合下的小爆发

一面是人工智能不断赋能各行各业的技术浪潮,一面是当下传统录音笔和录音技术的转写痛点,讯飞浇灌了21年的智能语音技术,终于在带屏录音笔这块新市场中破了土,发了芽。

讯飞入局录音笔市场的第一枪,为何瞄准了带屏录音笔?

“加入讯飞前我就在想,AI作为未来的一个技术发展方向,除了在手机、智能穿戴设备和智能音箱智能硬件方面赋能,还能在哪里找到突破口?”李传刚谈到,作为北大MBA的导师,他经常到北大与学生们进行案例讨论,当时他发现,学生几乎人手备有一个传统录音笔,主要用在对知识的记录与巩固上。

但问题是,他们常常需要自己再花时间重复听一遍录音,才能将内容记录下来。这一大量的时间和人力成本,让李传刚抓到了新的突破口——传统录音笔与AI的技术融合。

在与胡郁进行了一番沟通后,李传刚发现讯飞也正在考虑这一方向,两人一拍即合。经历将近半年的硬件研发与打磨,2019年5月,讯飞智能录音笔SR系列终于面世。

一石激起千层浪,SR系列的推出直接点燃了传统录音笔市场的热情。

一方面,讯飞智能录音笔SR系列一上市,就在2019年京东“618”中获得录音笔品类成交金额第一的成绩,目前已进驻全国超2000家线下门店;另一方面,现阶段SR系列也已拓展至国际市场,进入全球115个国家,646个城市中销售。

“讯飞智能录音笔SR系列最大的创新性并不在于带屏,而在于将它是一个独立的智能录音设备。”在胡郁看来,在不同的场合下,用户对录音笔的心理依赖程度不同。

一个单独的录音笔,并不会像手机录音软件一样受到各种干扰,它能持续独立地使用,同时又能通过统一的账号在手机和PC上进行后台处理。基于后台操作的需求,才进而衍生出大屏的需求,让用户的操作更加便捷。“一个独立的能够进行智能转写的设备,这才是它的颠覆性所在。”胡郁说。

随着讯飞智能录音笔SR系列的推出,讯飞消费者事业部的智能硬件产品线得到了很大的丰富。除了SR系列智能录音笔外,讯飞听见系列也正逐步朝更大的市场迈进,同时与录音转写相关的硬件设备也在预期中迅速增长。

在此影响下,讯飞的AI广告和内容服务业务,以及与政府、国企之间的业务也在加速发展。据科大讯飞2019年财报,在2019年度,讯飞的营收首次突破100亿人民币,达到100.79亿元,同比增长27.30%。其中,消费者业务营收36.25亿人民币,同比增长43.99%,占总营收比进一步攀升至35.96%。

To B+To C的双线战略驱动下,讯飞正加速发展。

四、创新=蓝海,讯飞消费者业务的三驾马车

从一支小小的录音笔,到如今多了一块屏幕与AI技术协同发展成一个新品类,在讯飞智能录音笔SR系列推出后的短短一年内,录音笔市场经历了翻天覆地的变化。

“对于整个录音笔市场来说,我们打开的并不是一个存量市场,而是一个新的增量市场。”李传刚说。

一面是整个行业在思考录音笔市场的未来走向,不断解决消费者的多样化转写需求;一面是传统玩家与新玩家携手,共同建立产业联盟,以加速推进包括转写技术、智能语音识别技术在传统录音笔中的融合发展。

随着玩家的不断转型和创新发展,又将会给讯飞带来哪些挑战?

“整体上看,更多玩家的加入我觉的是一件好事。”胡郁谈到,由于现在从传统录音笔向智能录音笔转换的过程中,最大的障碍仍然是用户教育——如何让用户意识到使用智能录音笔更有价值。

尽管讯飞开拓了新的录音笔品类市场,但纵观整个产业的发展,它仍是一个螺旋式上升的过程,智能化发展也将是这一产业逐渐演变的方向。在这一过程中,既要靠消费者消费习惯的转变,也需要靠传统录音笔厂商自身的转型推动。

“不管有多少玩家加入,讯飞在这市场中仍是一个龙头地位。”胡郁说,讯飞非常有信心在这个市场中持续保持自己的领先优势,这一信心也来自于讯飞所提供的多样性服务,例如面向政府部门的会议宝,以及涉及面向教育、商务和律政等应用场景下的智能硬件产品。

据产业研究机构新思界最新发布的《2019-2023年录音笔行业深度市场调研及投资策略建议报告》,2018年,我国录音笔行业的产量约为452.12万台,出货量与2017年的431.97万台基本持平。

整体来看,我国录音笔市场出货量较为稳定,市场规模仍较小。那么,在这之下的AI+录音笔市场又将如何发展呢?

“创新永远是蓝海。”李传刚谈到,传统录音笔市场的需求在过去二、三十年并未产生太大变化,但随着AI技术的赋能,录音笔除了录音之外,还将具有智能转写、智能翻译和智能编辑等更多功能,市场规模也将进一步扩大,激发出更多原有录音技术不足而未开发的市场。

市场仍在潜滋暗长,科大讯飞的下一步在哪里?

纵观讯飞的消费者事业群,胡郁谈到,讯飞将持续以平台(iFLYOS操作系统)、硬件(智能硬件)、服务(广告和运营商互联网服务)为发展重心,进一步拉动“AI+翻译”、“AI+办公”、“AI+教育”三驾马车同时往前走。

往后看,是讯飞在智能语音领域长达21年的技术基因和积累;往前看,是讯飞在AI技术热潮下敢于尝试技术跨界与融合创新的信心和勇气。

结语:以AI为刃,传统录音笔市场的创新与变革

回顾智能录音笔市场过去一年的发展,科大讯飞按下的,不仅是自身消费者业务加速布局智能市场的“快进键”,也是录音笔行业与AI技术跨界融合下催生新市场的“启动键”。在这一节点下,讯飞智能录音笔三大技术的升级,也将为公司以及市场竞争的发展添加新的差异化竞争优势。

谈及智能录音笔的未来,胡郁认为将有两条路,一是与手机APP等结合,朝着极简的方向发展,二是向更高端、更专业的定制化独立设备前进。这条路究竟走向何方,我们尚不得而知。

但我们能看到的是,在当下传统录音笔结合新兴技术的转型下,有越来越多的玩家投入这片蓝海市场,他们单打独斗也好,互相结盟也罢,同一个目标无疑都是抢下这块蛋糕。在这场愈发激烈的长跑赛道上,最终谁将真正拔得头筹?我们拭目以待。

责任编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26443

    浏览量

    264043
  • 科大讯飞
    +关注

    关注

    19

    文章

    743

    浏览量

    60386
  • 智能音箱
    +关注

    关注

    31

    文章

    1774

    浏览量

    78026
收藏 人收藏

    评论

    相关推荐

    中软国际与科大讯飞签协议助力“人工智能+”行动,赋能产业升级

    2024年3月13日,中软国际与科大讯飞在北京科大讯飞新总部大楼签订战略合作协议,将在城市及行业智算中心建设与运营、行业大模型联创、双方企业自有需求相互供给以及智慧政务项目等方面紧密合作,共同推进大模型的场景落地,打通大模型从研、产到应用的全链条服务,助力“人工
    的头像 发表于 03-15 10:28 393次阅读

    科大发布星火语音大模型

    科大行业资讯
    北京中科同志科技股份有限公司
    发布于 :2024年01月31日 09:17:28

    方言离线语音控制场景解决方案

    小孩想要听故事,她只需对智能音箱说:“播放故事”,即可开始享受美妙的故事。   以老人使用方言控制智能音箱为例,假设他想要听一段京剧。他只需对智能音箱说:“给我来一段京剧”,音箱就会开
    发表于 11-17 17:57

    轻生活科技的“小语种离线语音模块”:打破语言壁垒,开启智能新纪元

    “小语种离线语音模块”采用了高性能AI芯片,搭载中科院声学所的小语种离线语音识别算法,可支持中、英、日、韩、粤语等小语种。其中越南语和印尼语也包含在内,这款模块的出现,不仅满足了越南语和印尼语用户的需求,也为其他小
    的头像 发表于 11-07 14:11 170次阅读
    轻生活科技的“小<b class='flag-5'>语种</b>离线语音模块”:打破语言壁垒,开启<b class='flag-5'>智能</b>新纪元

    打破语言壁垒,小语种离线语音模块助力全球产品成功出海

    “小语种离线语音模块”是轻生活科技公司针对全球小语种与多语种语音控制特定场景与要求开发和定制的一款产品。这款模块采用了高性能AI芯片,搭载了中科院声学所的小语种离线语音识别算法,可支持
    的头像 发表于 11-06 14:41 202次阅读
    打破语言壁垒,小<b class='flag-5'>语种</b>离线语音模块助力全球产品成功出海

    智能语音开放平台选哪家,启英泰伦提供硬件、软件一体化开发服务

    和降低了开发难度。 【小语种语音模型开发】:上传小语种命令词文件和少量录音音频文件,即可通过平台自动进行训练,从而识别小语种的语音识别。 0
    发表于 08-17 14:00

    谁创造了大运会上最特别的“志愿者”?能说英语会讲方言

    , 让AI的星火照亮每个角落 在最近闭幕的第31届世界大学生夏季运动会上,出现了一位特别的志愿者,她是科大讯飞利用AI创造的虚拟志愿者“小芙”。小芙能用中文、英文、四川方言等多语种进行
    的头像 发表于 08-09 18:45 607次阅读

    录放音模块的使用教程 录音笔 语音播报

    模块
    学习电子知识
    发布于 :2023年07月17日 19:42:21

    打造个性化康复管理,科大升级医疗平台

          近期科大讯飞宣布在其星火认知大模型的基础上,对旗下的医疗诊后康复管理平台进行了全面升级。 据了解,新升级的讯飞医疗ERP平台能够根据患者的健康画像自动
    的头像 发表于 07-17 10:19 291次阅读

    基于音频芯片WT2605的录音笔方案

    整套系统主要由WT2605芯片+4G或者WiFi/BLE模组组成,通过WT2605采集MIC的数据,将数据编码后存储到SPI FLash或者TF卡内,同时通过UART串口将录音数据发给4G或者WiFi/BLE模块上传到服务器或者手机APP进行保存,实现本地
    发表于 07-13 10:50 857次阅读
    基于音频芯片WT2605的<b class='flag-5'>录音笔</b>方案

    方言语音识别数据驱动人工智能的多元文化发展

    人工智能作为一项引领科技发展的关键技术,正在改变着我们的生活方式和社会格局。然而,传统的人工智能系统往往集中在标准语言的识别和处理上,忽视了世界上众多方言的存在。方言语音识别数据的引入
    的头像 发表于 07-11 15:21 627次阅读

    挖掘中国方言语音数据的重要性与应用

    语音数据的重要性,并介绍其在语言学研究、智能化应用以及文化保护方面的应用。 语言学研究的宝贵资源: 中国方言语音数据是语言学研究的宝贵资源。通过收集和分析不同方言的语音数据,研究者可以深入了解
    的头像 发表于 06-24 10:33 420次阅读

    探索中国方言多样性:中国方言数据库的重要性与应用

    方言数据库的重要性,并介绍其在语言学研究、文化保护以及智能化应用方面的应用。 保护和传承方言文化遗产: 中国方言数据库的建立对于保护和传承方言
    的头像 发表于 06-24 10:17 830次阅读

    方言语音数据在方言语音识别中的关键作用

    方言语音识别是一项重要的技术,它能够将方言语音转化为文字或指令,从而实现对方言用户的理解和响应。而方言语音数据在方言语音识别中起到了关键作用
    的头像 发表于 06-24 10:06 696次阅读

    Hi3861:智能录音笔【环境搭建+配网】

    /BV1PY41147z8 一、课题详情 1、项目描述 基于OpenHarmony开发一款智能录音笔,功能如下: 1,能够支持录音 2,支持配网 3,支持录音上传生成文稿 2、项目产出
    的头像 发表于 06-14 10:23 1073次阅读
    Hi3861:<b class='flag-5'>智能</b><b class='flag-5'>录音笔</b>【环境搭建+配网】