子弹短信爆火，人工智能反而倒退一大步？-电子发烧友网

这两天被子弹短信这款刚刚完成 1.5 亿元融资的即时通讯应用刷屏了。许多朋友发了子弹短信的联系人二维码，还有一些朋友在问子弹短信是什么，到底有什么好？

子弹短信是什么？为什么这么火？

我们从产品分析的角度跟大家探讨其中一个功能：子弹短信在发送语音信息时，不仅会把语音转化成文字，还能同时把语音保留下来。

许多朋友问了：微信不是也能做到吗？在此我想先描述一下微信语音的这个功能，再跟大家聊聊子弹短信软件对这个功能的重新诠释。

微信从爆发之初开始，立足于极致的用户体验。它的语音留言（也叫对讲机）功能是早期吸引用户和拉动流量的一个重要的来源。

这个功能是这样的：用户进入聊天目录之后，打开某个与联系人的对话，然后按下屏幕下方的麦克风按钮，说一段话，然后松手发出。对方接受到的是一个条状按钮，点击之后会播放收到的语音，语音时常不超过60秒。

语音的数据都经过高度压缩，可以在牺牲音质的情况下非常好地节省流量。接收方和发送方都可以长按这个语音条，在弹出的选项中选择”语音转文字“，就可以把语音转化成文字，通常需要30秒-2分钟。

不知道大家有没有这种经历：收到了来自一个朋友的语音，有时候甚至是连着好几条长达几十秒的消息。因为当时没有办法花3-5分钟全部听完、或者碰巧在会议室、教室、图书馆或者工作岗位等需要安静、不方便播放语音的场合，所以暂时搁置了。一整天过完，本来想在晚上再整理一下今天的消息，因为新的消息和群聊涌入，这个对话就埋没在几十条消息之下，就再也没想起来要听这条消息，彻底忘记了。

不少人都有过被长语音轰炸、刷屏的经历

这个现象的本质原因是因为文字可以跳读，而语音无法跳听。或者用我们程序员的术语说，就是“线性访问（Linear Access）” 或者 “非线性访问（Non-Linear Access）”这两个概念，也叫“非随机访问（NonRandom Access）”和“随机访问（Random Access）”。例如，磁带就是线性、非随机的访问，而常见的内存就是非线性、随机访问。

文字可以进行跳读，就可以浏览、略读等快速读取法。我们在小学语文学过的中心句归纳法、英文习作的文段首句要概括全段，以及咨询领域大名鼎鼎的“麦肯锡方法——金字塔阅读/写作”等方法，都是基于文字的“非线性读取”型。

因为有非线性访问能力，所以才能在快速访问过程中不影响对信息的处理，可以用树状逻辑结构来组织信息，从而为更高速的访问信息创造了可能。在日常生活中就体现在，我写这篇文章用了一个小时，而你读完本文可能只需要3-5分钟。

因为语音无法跳听，带来了很大的不便。有人说，微信不是也有语音转换功能吗？这并不一样，因为微信的语音转换是接受方做的，所以语音转换需要接受方介入，需要接受方在浏览的时候中断手上的事情，把各个语音逐一点击长按选取转换，造成了对接受方的“线性访问”的额外负担，无法略读，因此降低了速度。

因为这种不便，导致了微信逐渐上有这么一个基本的礼仪：在条件允许的情况下，为了接受方的便利，最好用语音输入法先把语音手动转换成文字再发给对方。甚至还有朋友认为向长辈、客户和上级发送语音是有失礼仪的。这固然是仁者见仁、智者见智的价值判断，但是凸显了发送语音对接受方的不便，已经是公认的一个问题。

子弹短信和之前锤子科技的“闪念胶囊”都采用语音转换成文字同时保留原语音的功能。相对于微信的接收方负责语音转换，子弹短信则是发送方进行文字转化，于是语音到文字的转化发生在发送端——信息源端。

这样做有几个好处：第一，校对的工作在信息的源头处理，可以确保如果转换错误太多，信息源（发送方）可以重新录制和编辑校正。第二，让接受方可以阅读文字，在无法理解的少数错误情况下，可以听取语音来理解和纠错。第三，减少和避免了在群里发语音的时候，多个不同接受方都提出转换文字的请求造成的云服务器后台的额外负担。另外，子弹短信的语音条是可以有进度条可供拖动的，方便快速跳过一部分语音。这样做的好处是发送方可以很便捷的发送消息，只在必要的情况下校对修改，比打字便利。接受方依然可以快速读取，比听语音便利。

从此，再也不用担心给别人发语音消息带来的不便了。

子弹短信向前一小步，人工智能倒退一大步？

它推出的大背景，是语音识别能力的提高是近几年是人工智能的一大进步之一。子弹短信保留了语音，方便听者对语音内容进行校对。

为什么要校对呢？这是因为语音识别目前的转化准确率还不是很高，特别是在环境嘈杂或者用词比较不常见（行业术语、需要上下文信息加以判断的内容等）的时候，准确率就更差了。如果能够语音识别非常准确，那么根本不需要保留语音，只保留文字就够了。所以有人说，语音保留的这个功能受到人们欢迎，宣示着人工智能的不完善，是一个倒退。

语音识别技术的挑战，涉及到人工智能领域的语音特征提取、自然语言处理和对对话内容的背景知识（context）和常识（common sense）等知识图谱的大量获取、积累和筛选。有的语音输入法号称有97%的准确率，实际体验是80~90%。

更重要的是，这里还有一个信息学领域的长尾现象在起作用：那些最不容易识别的部分，往往携带最重要的信息要素。

打个比方，有一个说法说“学会2000个英文单词，就能看懂英文报纸90%的内容”。其实学了小学英语一看英文报纸，发现这里的 2000 个单词，都是 the、a、of 之类不带信息量的词汇。

真正携带信息量的是那些不常出现的单词。这些高级词汇或者术语名词不常出现，所以一出现必定是携带特定信息而来的。根据信息学里面的定义，信息量就是用来衡量一个信息可以降低系统状态的不确定性的程度。如果一个词汇常出现，因为每一篇文章都有这些词汇，带有词汇对降低文章信息不确定性帮助不大，则其携带的增量信息就少了。

这也正是人工智能的最大挑战。2010 年以来，人工智能进行了长足进步，语音和图片识别的准确率大幅提升。然而人工智能在识别效果等方面的作用还有很大的发展空间，即使在一些已经多数情况超过人类的智能领域，人类比计算机依然有着适应力、容错率强的优势。

用电脑，还是用人脑？这成了人工智能工业革命以来的一个大问题。我们所说的聊天应用里面的识别语音就是这个问题在我们身边的一个例子。究竟是发送者自己把文字打出来，还是让机器帮我们识别出来，就成了“用人脑，还是用电脑”的选择。

这是不仅是一个哲学问题、也是一个工程学问题。这个问题并不是一个新问题，与之类似的还有比如无人驾驶汽车里面人类的驾驶应该有多少，能否完全无人干预？超市的自动售货或者结算程度要到什么程度，能否完全实现无人超市？

在二十世纪50-60年代，美苏空间争霸的时候，苏联的宇宙飞船设计里面长期是不提供手动驾驶能力的。因为苏联进行过几十次的用“飞行犬”代替飞行员试飞，飞船已经可以实现远程遥控或者自主飞行的驾驶能力，所以飞行员也不需要驾驶。

尽管后来加加林飞行的时候飞船加上了手动驾驶功能，在加加林遇险需要手动驾驶的时候，还需要打开密封的信封输入密码才能切换到驾驶。作为苏联当时最优秀的飞行员之一，加加林最后通过自己的手动驾驶救了自己一命，也拯救了一艘飞船和苏联的航空进程的一部分。

最近的几十年，人工智的性能和效果越来越好，甚至在许多应用场景下比人类更可靠。但是至少在一部分最糟糕的情况下，人类能做一些计算机可能很长时间都做不到的事情——例如聊天中对语音的识别。在这个时候，完全抛弃计算机的智力能力（例如只用人工手动输入），那么人类就无法享受科技带来的便捷。而完全抛弃人工干预修正的能力，则会在机器出错的关键时候无法修正。

子弹短信这个语音转文字同时保留语音的，其背后的哲学理念其实就是既用电脑，也用人脑。看似是在应用人工智能方向这件事上退后了一步，其实是一个进步。（转自载思考）

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉