0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

百度大脑5.0实现史上最大升级 发布远场语音交互芯片“鸿鹄”

Hf1h_BigDataDig 来源:yxw 2019-07-05 15:43 次阅读

“这是百度大脑历史上最具跨越性的升级。”

近日的百度开发者大会上,百度首席技术官王海峰正式发布百度大脑5.0,并在下午的百度大脑分论坛,公布了其在AI算法、计算架构和应用场景各方面的新进展。

提出流式多级的截断注意力模型SMLTA

升级后的百度大脑5.0更加强调AI技术的标准化、自动化和模块化。

百度语音技术部高级总监高亮介绍,识别方面,百度提出流式多级的截断注意力模型SMLTA,这是国际上首次实现局部注意力建模超越整句的注意力模型,也是国际上首次实现在线语音大规模使用注意力模型。

SMLTA在大幅提升识别速度的同时,也提高了识别准确率。在输入法有效产品相对准确率提升15%,音箱有效产品相对准确率提升20%。

合成方面,针对现阶段面临风格迁移、音色模拟和情感拟人的三大挑战,百度推出语音合成技术Meitron,可以将语音中的音色、风格、情感等要素映射到不同的子空间,在使用时,不同要素可以任意组合,灵活的控制合成语音的风格。同时降低语言合成门槛,仅需20句话就可以制作一个人的专属声音。

发布针对远场语音交互打造的芯片——百度鸿鹄芯片

对于落地应用正在端侧呈现出巨大需求,百度大脑语音团队研发出一款针对远场语音交互打造的芯片——百度鸿鹄芯片。

鸿鹄芯片的设计遵循“软件定义芯片”的全新设计思路。该芯片采用双核HiFi4架构,2.8M大内存,台积电40nm工艺,在此硬件规格上,100mw左右平均工作功耗,即可支持远场语音交互核心的阵列信号处理和语音唤醒能力。同时,按照车规级标准打造使鸿鹄芯片可满足极严格的需求,将为车载语音交互,以及智能家居等场景带来更大想象力。鸿鹄芯片流片的同时,即实现了量产。

交互升级包含一体化人机交互系统和大场景物理世界交互系统。简单而言,一体化人机交互系统是人与机器、虚拟环境的自然交互与融合,该系统适用于实现AR特效的直播、小视频、特效小程序等场景,已应用于百度多款视频App。

大场景物理世界交互系统是将视觉定位与AR技术突破性结合,实现大范围的虚拟信息与物理世界的精准叠加,从而建立起AI时代全新的交互系统。目前,软硬件结合可以满足应用场景更高效的视觉计算,以及更低延时的体验,同时能保护数据隐私。百度视觉方面的软硬件结合主要聚焦于模型压缩平台PaddleSlim、多模态FaceID开发组件以及软硬件一体解决方案AI相机三部分。FaceID覆盖设备量已超1200万台。

视觉语义化平台更新至2.0

视觉语义化平台2.0更新了许多先进的感知技术,也让机器人技术实现新突破。

百度三维视觉首席科学家杨睿刚介绍,机器人就是一个智能体,除了感知技术,智能体需要决策和动作相关的技术,实现从环境感知到主动感知。目前,百度研究的智能体技术主要集中在自动驾驶Apollo、工程机械和服务机器人三大方面。

上午主论坛中王海峰现场与一只机械臂“茶博士”进行了互动对话,还完成了传统的长嘴壶倒茶工作,其背后依靠的正是服务机器人方案。

基于百度3D视觉,机器人可以对茶杯的位置进行检测和追踪。通过机器人运动规划和控制,机械臂可以对工作空间进行碰撞检测,避开障碍物;实时规划运动后,可自动生成倒茶轨迹;随后,感知水流变化,,王海峰在演示过程中故意改变了茶杯位置,茶博士也准确识别出了相关位置并成功续茶。

迎接5G时代,发布新一代AI计算架构

百度大脑5.0不仅包含算法层面创新,在算力方面也实现重大突破。近年来,算法对算力需求增长近300,000倍,而芯片的计算性能仅提升30倍,两者之间存在巨大鸿沟。

百度副总裁侯震宇为现场观众分享了百度新一代AI计算架构。面对AI计算的挑战,需要能够从端到端来提供AI计算能力,这要求计算系统从旧有的对海量数据处理能力、对IO高峰值的追求,转变为满足AI训练功能方面IO密集、计算密集、通信密集的需求,和AI推理功能方面大吞吐和低延迟的需求。

侯震宇认为,面对即将到来的AI+5G时代,计算将无处不在。真正的计算会发生在设备(Device)、边缘(Edge)和云(Cloud)中,因而D-E-C场景将会是接下来需要重点研究的问题;与此同时,包括芯片之间、系统之间、设备之间的互相连接,将帮助不同场景中的计算连接在一起,产生更大的计算力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    447

    文章

    47772

    浏览量

    409074
  • 百度
    +关注

    关注

    9

    文章

    2171

    浏览量

    88920
  • 人工智能
    +关注

    关注

    1776

    文章

    43837

    浏览量

    230589
  • 智能语音
    +关注

    关注

    10

    文章

    759

    浏览量

    48370

原文标题:百度大脑5.0实现史上最大升级,发布远场语音交互芯片“鸿鹄”

文章出处:【微信号:BigDataDigest,微信公众号:大数据文摘】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    玩转语音合成芯片(TTS芯片),看这一篇就够了

    什么是语音合成芯片语音合成芯片也称为TTS芯片,即文字转语音
    的头像 发表于 03-19 18:13 227次阅读
    玩转<b class='flag-5'>语音</b>合成<b class='flag-5'>芯片</b>(TTS<b class='flag-5'>芯片</b>),看这一篇就够了

    亚马逊发布史上最大文本转语音模型BASE TTS

    亚马逊的人工智能研究团队近日宣布,他们成功开发出了迄今为止规模最大的文本转语音模型——BASE TTS。这款新模型拥有高达9.8亿个参数,不仅在规模上超越了之前的所有版本,还在能力上实现了质的飞跃。
    的头像 发表于 02-20 17:04 386次阅读

    新品上市,公有云轻安防就选目凌云! #人工智能 #目 #目凌云 #百度智能云

    人工智能百度智能云
    jf_98614062
    发布于 :2024年02月19日 11:39:42

    思必驰语音算法与芯片的完美结合 人机交互

    TH1520芯片解决方案AISpeech思必驰深圳羲顿科技有限公司TH1520是深聪智能(思必驰旗下的芯片设计企业)根据语音交互市场及算法的需求及发展方向,自主定义开发的“
    的头像 发表于 12-29 11:43 224次阅读
    思必驰<b class='flag-5'>语音</b>算法与<b class='flag-5'>芯片</b>的完美结合 人机<b class='flag-5'>交互</b>

    产品升级为什么要加语音控制?#语音控制 #语音模块 #语音识别 #离线语音识别 #语音芯片

    语音芯片
    轻生活科技语音模块
    发布于 :2023年10月20日 15:10:21

    WT588E语音芯片的基本介绍

    WT588E02B语音芯片是一款SPI通讯方式的语音芯片最大的特点便是客户可以自行通过SPI协议,按照规定的数据更换流程发送
    的头像 发表于 10-20 11:19 534次阅读
    WT588E<b class='flag-5'>语音</b><b class='flag-5'>芯片</b>的基本介绍

    AISpeech 思必驰 思必驰语音算法与芯片的完美结合 人机交互

    TH1520是深聪智能(思必驰旗下的芯片设计企业)根据语音交互市场及算法的需求及发展方向,自主定义开发的 “芯片+算法” 的人工智能人机语音
    的头像 发表于 10-18 14:43 1309次阅读
    AISpeech 思必驰 思必驰<b class='flag-5'>语音</b>算法与<b class='flag-5'>芯片</b>的完美结合 人机<b class='flag-5'>交互</b>

    华为鸿鹄900智能电视芯片发布:性能全面提升,智慧屏V5 Pro搭载

    华为v5 pro有85英寸和98英寸两种尺寸,以超窄的边框提供“无限”的视觉效果。该产品搭载了鸿鹄SuperMiniLED技术、鸿鹄明晰控光Pro技术,具备1000级照明调节分区,最大亮度可达2000nit。
    的头像 发表于 09-26 10:08 1497次阅读

    华为全新智慧屏芯片鸿鹄 900 发布:智慧屏 V5 Pro 首发;高通资料泄露:骁龙 8Gen4 将基于台积电 N3E 工艺打造

    热点新闻 1、华为全新智慧屏芯片鸿鹄 900 发布:智慧屏 V5 Pro 首发,CPU 较行业旗舰提升 81% 今日正在举行的华为秋季全场景新品发布会上,全新智慧屏
    的头像 发表于 09-25 17:25 2011次阅读
    华为全新智慧屏<b class='flag-5'>芯片</b><b class='flag-5'>鸿鹄</b> 900 <b class='flag-5'>发布</b>:智慧屏 V5 Pro 首发;高通资料泄露:骁龙 8Gen4 将基于台积电 N3E 工艺打造

    鸿蒙升级3.0.0,百度导着航,系统中途会关闭我的定位

    然后百度显示没有定位了,就自动开启智能导航。系统决定我的定位开关设置在哪里,我记得以前开定位是手动开关的。升级后,下拉菜单打开定位,百度导航开着一会系统定位就被关闭了。害得我跑错了好多路。现在就是我的
    发表于 09-03 23:34

    智能座舱的语音交互系统技术应用

    从用户发出语音指令到实现与智能设备的交互,其过程并不像其名词描述的那么简单,要实现通过语音来完成人机交互
    发表于 07-28 10:17 343次阅读
    智能座舱的<b class='flag-5'>语音</b><b class='flag-5'>交互</b>系统技术应用

    拖地机语音播放芯片,低功耗语音交互方案,WT588F02B-8S语音ic

    在现代科技的快速发展中,语音交互已成为众多智能设备的重要功能之一。为了满足市场需求,我们推出了一款创新的拖地机语音播放芯片——WT588F02B-8S,该
    的头像 发表于 07-11 09:13 322次阅读
    拖地机<b class='flag-5'>语音</b>播放<b class='flag-5'>芯片</b>,低功耗<b class='flag-5'>语音</b><b class='flag-5'>交互</b>方案,WT588F02B-8S<b class='flag-5'>语音</b>ic

    拖地机语音播放芯片,低功耗语音交互方案,WT588F02B-8S语音ic

    可以支持存放170秒语音内容(若客户对音质没有要求,最大可以存放320秒的语音内容)。WT588F02B-8S区别于传统OTP芯片最大的突
    的头像 发表于 07-11 09:11 375次阅读
    拖地机<b class='flag-5'>语音</b>播放<b class='flag-5'>芯片</b>,低功耗<b class='flag-5'>语音</b><b class='flag-5'>交互</b>方案,WT588F02B-8S<b class='flag-5'>语音</b>ic

    语音识别技术的概念及应用前景

    交互的自然性,已经越来越成为人与终端交互的主要入口路径。 ​ 启英泰伦目前已推出离在线语音方案,可以实现离线控制和在线音乐、视频、社交、新闻、
    发表于 05-27 09:41

    KiCad 7.0.4发布啦!

    以下百度网盘下载Windows版本: 链接:https://pan.baidu.com/s/1sWPg2KgxtHKcT08FvX9tUQ 提取码:6opy Release note尚未发布,不过
    发表于 05-23 15:22