0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

子弹短信爆火,人工智能反而倒退一大步?

5RJg_mcuworld 来源:未知 作者:工程师曾玲 2018-09-23 11:52 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

这两天被子弹短信这款刚刚完成 1.5 亿元融资的即时通讯应用刷屏了。许多朋友发了子弹短信的联系人二维码,还有一些朋友在问子弹短信是什么,到底有什么好?

子弹短信是什么?为什么这么火?

我们从产品分析的角度跟大家探讨其中一个功能:子弹短信在发送语音信息时,不仅会把语音转化成文字,还能同时把语音保留下来。

许多朋友问了:微信不是也能做到吗?在此我想先描述一下微信语音的这个功能,再跟大家聊聊子弹短信软件对这个功能的重新诠释。

微信从爆发之初开始,立足于极致的用户体验。它的语音留言(也叫对讲机)功能是早期吸引用户和拉动流量的一个重要的来源。

这个功能是这样的:用户进入聊天目录之后,打开某个与联系人的对话,然后按下屏幕下方的麦克风按钮,说一段话,然后松手发出。对方接受到的是一个条状按钮,点击之后会播放收到的语音,语音时常不超过60秒。

语音的数据都经过高度压缩,可以在牺牲音质的情况下非常好地节省流量。接收方和发送方都可以长按这个语音条,在弹出的选项中选择”语音转文字“,就可以把语音转化成文字,通常需要30秒-2分钟。

不知道大家有没有这种经历:收到了来自一个朋友的语音,有时候甚至是连着好几条长达几十秒的消息。因为当时没有办法花3-5分钟全部听完、或者碰巧在会议室、教室、图书馆或者工作岗位等需要安静、不方便播放语音的场合,所以暂时搁置了。一整天过完,本来想在晚上再整理一下今天的消息,因为新的消息和群聊涌入,这个对话就埋没在几十条消息之下,就再也没想起来要听这条消息,彻底忘记了。

不少人都有过被长语音轰炸、刷屏的经历

这个现象的本质原因是因为文字可以跳读,而语音无法跳听。或者用我们程序员的术语说,就是“线性访问(Linear Access)” 或者 “非线性访问(Non-Linear Access)”这两个概念,也叫“非随机访问(NonRandom Access)”和“随机访问(Random Access)”。例如,磁带就是线性、非随机的访问,而常见的内存就是非线性、随机访问。

文字可以进行跳读,就可以浏览、略读等快速读取法。我们在小学语文学过的中心句归纳法、英文习作的文段首句要概括全段,以及咨询领域大名鼎鼎的“麦肯锡方法——金字塔阅读/写作”等方法,都是基于文字的“非线性读取”型。

因为有非线性访问能力,所以才能在快速访问过程中不影响对信息的处理,可以用树状逻辑结构来组织信息,从而为更高速的访问信息创造了可能。在日常生活中就体现在,我写这篇文章用了一个小时,而你读完本文可能只需要3-5分钟。

因为语音无法跳听,带来了很大的不便。有人说,微信不是也有语音转换功能吗?这并不一样,因为微信的语音转换是接受方做的,所以语音转换需要接受方介入,需要接受方在浏览的时候中断手上的事情,把各个语音逐一点击长按选取转换,造成了对接受方的“线性访问”的额外负担,无法略读,因此降低了速度。

因为这种不便,导致了微信逐渐上有这么一个基本的礼仪:在条件允许的情况下,为了接受方的便利,最好用语音输入法先把语音手动转换成文字再发给对方。甚至还有朋友认为向长辈、客户和上级发送语音是有失礼仪的。这固然是仁者见仁、智者见智的价值判断,但是凸显了发送语音对接受方的不便,已经是公认的一个问题。

子弹短信和之前锤子科技的“闪念胶囊”都采用语音转换成文字同时保留原语音的功能。相对于微信的接收方负责语音转换,子弹短信则是发送方进行文字转化,于是语音到文字的转化发生在发送端——信息源端。

这样做有几个好处:第一,校对的工作在信息的源头处理,可以确保如果转换错误太多,信息源(发送方)可以重新录制和编辑校正。第二,让接受方可以阅读文字,在无法理解的少数错误情况下,可以听取语音来理解和纠错。第三,减少和避免了在群里发语音的时候,多个不同接受方都提出转换文字的请求造成的云服务器后台的额外负担。另外,子弹短信的语音条是可以有进度条可供拖动的,方便快速跳过一部分语音。这样做的好处是发送方可以很便捷的发送消息,只在必要的情况下校对修改,比打字便利。接受方依然可以快速读取,比听语音便利。

从此,再也不用担心给别人发语音消息带来的不便了。

子弹短信向前一小步,人工智能倒退一大步?

它推出的大背景,是语音识别能力的提高是近几年是人工智能的一大进步之一。子弹短信保留了语音,方便听者对语音内容进行校对。

为什么要校对呢?这是因为语音识别目前的转化准确率还不是很高,特别是在环境嘈杂或者用词比较不常见(行业术语、需要上下文信息加以判断的内容等)的时候,准确率就更差了。如果能够语音识别非常准确,那么根本不需要保留语音,只保留文字就够了。所以有人说,语音保留的这个功能受到人们欢迎,宣示着人工智能的不完善,是一个倒退。

语音识别技术的挑战,涉及到人工智能领域的语音特征提取、自然语言处理和对对话内容的背景知识(context)和常识(common sense)等知识图谱的大量获取、积累和筛选。有的语音输入法号称有97%的准确率,实际体验是80~90%。

更重要的是,这里还有一个信息学领域的长尾现象在起作用:那些最不容易识别的部分,往往携带最重要的信息要素。

打个比方,有一个说法说“学会2000个英文单词,就能看懂英文报纸90%的内容”。其实学了小学英语一看英文报纸,发现这里的 2000 个单词,都是 the、a、of 之类不带信息量的词汇。

真正携带信息量的是那些不常出现的单词。这些高级词汇或者术语名词不常出现,所以一出现必定是携带特定信息而来的。根据信息学里面的定义,信息量就是用来衡量一个信息可以降低系统状态的不确定性的程度。如果一个词汇常出现,因为每一篇文章都有这些词汇,带有词汇对降低文章信息不确定性帮助不大,则其携带的增量信息就少了。

这也正是人工智能的最大挑战。2010 年以来,人工智能进行了长足进步,语音和图片识别的准确率大幅提升。然而人工智能在识别效果等方面的作用还有很大的发展空间,即使在一些已经多数情况超过人类的智能领域,人类比计算机依然有着适应力、容错率强的优势。

电脑,还是用人脑?这成了人工智能工业革命以来的一个大问题。我们所说的聊天应用里面的识别语音就是这个问题在我们身边的一个例子。究竟是发送者自己把文字打出来,还是让机器帮我们识别出来,就成了“用人脑,还是用电脑”的选择。

这是不仅是一个哲学问题、也是一个工程学问题。这个问题并不是一个新问题,与之类似的还有比如无人驾驶汽车里面人类的驾驶应该有多少,能否完全无人干预?超市的自动售货或者结算程度要到什么程度,能否完全实现无人超市?

在二十世纪50-60年代,美苏空间争霸的时候,苏联的宇宙飞船设计里面长期是不提供手动驾驶能力的。因为苏联进行过几十次的用“飞行犬”代替飞行员试飞,飞船已经可以实现远程遥控或者自主飞行的驾驶能力,所以飞行员也不需要驾驶。

尽管后来加加林飞行的时候飞船加上了手动驾驶功能,在加加林遇险需要手动驾驶的时候,还需要打开密封的信封输入密码才能切换到驾驶。作为苏联当时最优秀的飞行员之一,加加林最后通过自己的手动驾驶救了自己一命,也拯救了一艘飞船和苏联的航空进程的一部分。

最近的几十年,人工智的性能和效果越来越好,甚至在许多应用场景下比人类更可靠。但是至少在一部分最糟糕的情况下,人类能做一些计算机可能很长时间都做不到的事情——例如聊天中对语音的识别。在这个时候,完全抛弃计算机的智力能力(例如只用人工手动输入),那么人类就无法享受科技带来的便捷。而完全抛弃人工干预修正的能力,则会在机器出错的关键时候无法修正。

子弹短信这个语音转文字同时保留语音的,其背后的哲学理念其实就是既用电脑,也用人脑。看似是在应用人工智能方向这件事上退后了一步,其实是一个进步。(转自载思考)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49783

    浏览量

    261893

原文标题:子弹短信向前一小步,人工智能倒退一大步?

文章出处:【微信号:mcuworld,微信公众号:嵌入式资讯精选】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    继千问!阿里最新AI硬件定档11月27日发布!#人工智能#AI眼镜

    人工智能
    jf_15747056
    发布于 :2025年11月26日 18:45:38

    人工智能+”,走老路难赚到新钱

    昨天的“人工智能+”刷屏了,这算是官方第次对“人工智能+”这个名称定性吧?今年年初到现在,涌现出了一大批基于人工智能的创业者,这已经算是A
    的头像 发表于 08-27 13:21 547次阅读
    “<b class='flag-5'>人工智能</b>+”,走老路难赚到新钱

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    家人们,最近在研究人工智能相关设备,挖到了款超厉害的宝藏——比邻星人工智能综合实验箱,必须来给大伙分享分享!可☎(壹捌伍 柒零零玖 壹壹捌陆) 、开箱即学,便捷拉满 这个实验箱真的
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    家人们,最近在研究人工智能相关设备,挖到了款超厉害的宝藏——比邻星人工智能综合实验箱,必须来给大伙分享分享!可☎(壹捌伍 柒零零玖 壹壹捌陆) 、开箱即学,便捷拉满 这个实验箱真的
    发表于 08-07 14:23

    迅为RK3588开发板Linux安卓麒麟瑞芯微国产工业AI人工智能

    迅为RK3588开发板Linux安卓麒麟瑞芯微国产工业AI人工智能
    发表于 07-14 11:23

    最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)

    人工智能大模型重塑教育与社会发展的当下,无论是探索未来职业方向,还是更新技术储备,掌握大模型知识都已成为新时代的必修课。从职场上辅助工作的智能助手,到课堂用于学术研究的智能工具,大模型正在工作生活
    发表于 07-04 11:10

    开售RK3576 高性能人工智能主板

    ,HDMI-4K 输出,支 持千兆以太网,WiFi,USB 扩展/重力感应/RS232/RS485/IO 扩展/I2C 扩展/MIPI 摄像头/红外遥控 器等功能,丰富的接口,个全新八核拥有超强性能的人工智能
    发表于 04-23 10:55

    亚马逊年助力两百万人提升人工智能技能的关键洞察

    诸多企业应用人工智能技术的一大障碍。根据亚马逊云科技与全球领先的科技咨询公司Access Partnership的研究显示,73%的雇主认为拥有人工智能人才是当务之急,而其中75%的雇主坦言难以找到合适人选。  
    发表于 04-21 15:17 768次阅读
    亚马逊<b class='flag-5'>一</b>年助力两百万人提升<b class='flag-5'>人工智能</b>技能的关键洞察

    人工智能与物联网深度融合重新诠释“万物互联”

    ChatGPT的横空出世,到DeepSeek在全球范围引发轰动,再到如今Manus的,这些大型模型犹如巨石投入平静湖面,激起层层涟漪,持续搅动着人工智能领域的“池春水”。
    的头像 发表于 03-21 14:28 988次阅读

    人工智能对智慧园区的提升和帮助

    ,进一步提升了智慧园区的运营效率、安全性和用户体验,为园区的可持续发展提供了强有力的支持。以下是人工智能对智慧园区的提升和帮助的具体体现。 1.提升运营效率 人工智能通过自动化技术和智能
    的头像 发表于 03-13 14:39 774次阅读

    个中国AI产品Manus刷屏 中国AI新星Manus 全网抢邀请码

    Manus 的 AI 产品在科技圈,全球首款通用智能体Manus开启内测,据说现在很
    的头像 发表于 03-06 14:09 1626次阅读

    Stellantis与Mistral AI深化人工智能合作

    近日,Stellantis宣布与Mistral AI进一步扩大人工智能战略合作伙伴关系,旨在将人工智能技术深度整合到车辆工程、车内体验等多个关键领域,共同推动汽车行业的智能化发展。
    的头像 发表于 02-11 15:50 669次阅读

    法国将投资超千亿欧元于人工智能领域

    的高度重视和坚定决心。作为当今科技领域的热门话题,人工智能不仅具有巨大的发展潜力,还将在未来对各国的经济、社会和文化产生深远影响。因此,法国政府希望通过这一大规模的投资,推动本国在人工智能领域的研发和应用,从而
    的头像 发表于 02-11 09:33 687次阅读

    人工智能推理及神经处理的未来

    、个性化和效率的社会需求,又进一步推动了人工智能技术的集成。此外,不断发展的监管体系,则强调了合乎伦理道德的人工智能、数据隐私和算法透明度的重要性,进而指导人工
    的头像 发表于 12-23 11:18 883次阅读
    <b class='flag-5'>人工智能</b>推理及神经处理的未来

    多模态医疗大模型发布:人工智能引领医疗新纪元

    当下,人工智能(AI)正以不可阻挡之势渗透到各行各业,包括医疗行业。12月14日,2024中国医学人工智能大会的召开。会上,款名为“亥”的多模态医疗大模型的正式发布。
    的头像 发表于 12-19 17:56 799次阅读