0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何在手持设备上安装庞大的transformer网络

CEVA 来源:CEVA 2023-10-11 14:37 次阅读

Siri和OK Google是最早实现语音控制的应用程序,这着实为我们带来了很多乐趣;但很快我们便意识到,必须仔细说出请求才能获得实用回答。

就现在所见,ChatGPT理解程度高,使用起来更容易,但直到最近,其功能还仅限于通过基于云的应用程序进行文本互动。现如今,ChatGPT是大势所趋,手机几乎人人必备,促使着针对ChatGPT(手机版)的transformer网络尽快推出,让每个拥有手机的人都能感受到大语言模型的威力。

在此方面面临的一个明显挑战是,我们所知的 ChatGPT依赖于数万亿个参数。而这种规模的transformer网络只能在云端运行。有人建议采用混合模式,即先由手机或其他应用程序负责完成部分简单工作,再连接到云端进行更为繁重的推理。然而,普通手机用户可能无法接受混合解决方案与生俱来的长时间延迟和隐私风险问题。因此,更好的方法是,直接在手机上处理大部分或全部transformer网络工作,只在需要时将偶尔出现的匿名搜索请求转至云端处理。

缩减网络大小

如何在手持设备上安装庞大的transformer网络?Google DeepMind在检索transformer方面取得了重大突破。其RETRO transformer网络运行时的大小只有 LLM transformer的百分之几,因为前者的模型参数中不包含具体数据。只保留了基本的语言对话技能,但在理解水平上仍可与GPT3相媲美。如此将网络大小缩减到了约80亿个参数。

CEVA在预处理时进一步缩减此网络大小,将对感兴趣领域提示的准确度几乎没有影响的参数归零,进行再训练。仔细利用这一功能可以大大加快transformer网络分析的速度。

准备边缘模型的第二步是压缩,CEVA对此非常熟悉,并在支持检索transformer方面做得更好。我们充分利用NeuPro-M架构进行再训练,大力推进此步骤,促使广泛的混合定点精度和低精度选项降到4位,未来甚至还能降到2位。

通过使用这些技术,我们可以将现有检索transformer压缩至最低1/20(较现在而言),尽管其相较LLM而言已经压缩了很多。将这种压缩剪枝应用于RETRO模型缩减后,可以产生巨大缩减,将万亿参数模型转换为十亿参数模型,进而有望实现ChatGPT(移动版)。

NeuPro-M AI核心

当然,仅仅适合的transformer网络是不够的。它还需要运行得足够快,才能满足用户对响应时间的期望。而这一点可以通过专为LLM应用程序优化的NeuPro-M NPU IP多引擎架构实现。在此流程中,首先要做到的是由真正的稀疏引擎来进行管理,且这一步举足轻重。稀疏引擎管理可跳过权重或数据为零的冗余操作,提高吞吐量,这是需要注意的一点。而在预处理时缩减之后,会出现大量归零参数,尽管这些参数分布不均匀。对于这种非结构化稀疏引擎,每个NeuPro-M处理器内核中的专用稀疏引擎可发挥4倍性能优势(与传统稀疏引擎相比),并相应地降低功耗。

鉴于transformer架构可以分解为可并行实现的离散正交运算,下一优化应运而生。此时,可以利用 NeuPro-M多核架构支持多达8个内核。transformer中 query、key和value三个向量的计算会在引擎中分批进行,在共享公共二级缓存的多个内核并行处理。并行处理不仅有利于attention步骤,还有利于softmax步骤,以及计算attention函数之后的归一化函数。在传统的人工智能系统中,softmax可能是遏制性能提升的重大瓶颈。在NeuPro-M中,attention和softmax可以并行实现,因此softmax对于吞吐时间的增加几乎可以忽略不计。NeuPro-M在transformer计算中实现大规模并行处理如下图所示。

fca80bde-67ff-11ee-939d-92fbcf53809c.png

fcbd0f2a-67ff-11ee-939d-92fbcf53809c.png

▲transformer计算中的可扩展并行化

NeuPro-M架构包括特殊支持,最大限度地提高芯片吞吐量,线程之间几乎没有停滞,进一步简化这些流中的高度并行性以及线程之间的数据共享。

为ChatGPT(移动版)构建语音界面

完成最难的部分后,在前端添加语音识别和在后端添加文本转语音,便可以通过额外相对简单的transformer网络实现。将我们的ClearVox语音处理前端软件连接到语音识别transformer,以输入提示,并接受引导,确定主transformer应执行哪一组精炼提示。必要时,可从互联网上检索查询相关文档。最后,使用文本转语音transformer对下载的回复或文件进行语音处理。现在来说,完全在手机上运行,且具有完全基于语音的 ChatGPT功能界面便是ChatGPT(移动版)的不同之处。

更广泛的应用

NeuPro-M平台并不局限于ChatGPT(移动版)这样的GPT类应用。它可以同样应用于任何生成式方法。例如,您可以使用稳定的扩散transformer生成图像、视频或任何其他人工生成或修改的体验。NeuPro-M解决方案在transformer网络建模方面非常通用。

审核编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 网络
    +关注

    关注

    14

    文章

    7251

    浏览量

    87443
  • 手持设备
    +关注

    关注

    0

    文章

    41

    浏览量

    23939
  • 应用程序
    +关注

    关注

    37

    文章

    3136

    浏览量

    56398
  • Transformer
    +关注

    关注

    0

    文章

    130

    浏览量

    5898

原文标题:针对ChatGPT(手机版)的优化版Transformer网络

文章出处:【微信号:CEVA-IP,微信公众号:CEVA】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    何在STM32MP157C DK2实现管脚输出PTP的PPS信号?

    的步骤如何? 例如设置一个STM32MP157C 为master,另一个STM32MP157C 为slave , 进行网络时钟同步。 可以安装运行PTP4L这样的程序吗? 另外如何在 STM32MP157C DK2
    发表于 04-11 07:18

    手持终端定制|PDA|手持机|rfid手持终端设备开发解决方案

    手持终端定制|PDA|手持机|rfid手持终端设备开发解决方案厂家。以联发科64位八核MT6771芯片为核心,搭载Android 10系统,运行速度更快、功耗更低。其2GB LPDDR
    的头像 发表于 12-27 19:12 209次阅读
    <b class='flag-5'>手持</b>终端定制|PDA|<b class='flag-5'>手持</b>机|rfid<b class='flag-5'>手持</b>终端<b class='flag-5'>设备</b>开发解决方案

    浅谈网络变压器(Network Transformer

    网络变压器(Network Transformer)是一种用于信号转换和传输的电子设备,广泛应用于网络设备中,如路由器、交换机、网卡等。网络
    的头像 发表于 11-24 09:31 521次阅读

    LabVIEW中如何在网络使用远程VI服务器

    LabVIEW中如何在网络使用远程VI服务器 如何在网络使用远程VI服务器? 解答: 首先,需要在远程的计算机上打开一个在VI服务器
    发表于 11-12 20:25

    何在USB HID设备执行供应商指令

    何在USB HID 设备执行供应商指令。 它包括两个供应商指令, 读写。 USB 工具, Bus Hound 用于显示传输程序和供应商指令发送。 用户也可以通过 UART 终端工具观察传输结果
    发表于 08-23 06:55

    三防手持终端设备_智能手持终端定制方案商

    、抗摔和耐高低温等。 多功能手持移动设备广泛应用于各个领域,支持全网通公共网络通信,并内置了RTK定位和DMR数模对讲功能。根据客户需求,对讲手持终端可以进行模块化定制,灵活配置。该
    的头像 发表于 07-25 18:51 367次阅读
    三防<b class='flag-5'>手持</b>终端<b class='flag-5'>设备</b>_智能<b class='flag-5'>手持</b>终端定制方案商

    语音应用中Transformer和循环神经网络的比较

    Transformer中,注意力图的某些头部并不总是像Tacotron 2中那样是对角线的。因此,我们需要选择在哪些位置应用引导性注意力损失[24]。-使用Transformer进行解码的速度也比使用RNN慢(每帧6.5毫秒 vs 单线程CPU上每帧78.5毫秒)。
    发表于 07-24 11:30 408次阅读
    语音应用中<b class='flag-5'>Transformer</b>和循环神经<b class='flag-5'>网络</b>的比较

    深圳远景达二维码扫码模块为手持设备厂商高效赋能

    随着科技的不断进步,自动识别技术在各行各业中得到广泛应用。作为一种高效、便捷的数据采集方式,自动识别技术,尤其是二维码识别技术在手持设备中的应用越来越受到重视。深圳远景达(RAKINDA)作为国内
    的头像 发表于 06-26 16:46 446次阅读
    深圳远景达二维码扫码模块为<b class='flag-5'>手持</b><b class='flag-5'>设备</b>厂商高效赋能

    【新品发布】TF1011 同星智能推出首款手持式ECU刷写设备

    新品发布ON06.16TF1011是同星智能开发的一款手持式ECU刷写工具,在TSMaster中导入诊断流程即可离线一键刷写。在PC端完成配置后,在设备可以在手持式离线场景下实现:基于UDS协议
    的头像 发表于 06-21 17:45 440次阅读
    【新品发布】TF1011 同星智能推出首款<b class='flag-5'>手持</b>式ECU刷写<b class='flag-5'>设备</b>

    Transformer结构及其应用详解

    本文首先详细介绍Transformer的基本结构,然后再通过GPT、BERT、MT-DNN以及GPT-2等基于Transformer的知名应用工作的介绍并附上GitHub链接,看看Transformer是如
    的头像 发表于 06-08 09:56 1449次阅读
    <b class='flag-5'>Transformer</b>结构及其应用详解

    何在树莓派4上安装 openwrt?

    何在 Raspberry Pi 4上安装 openwrt
    的头像 发表于 06-07 10:25 937次阅读

    请问如何在Android 9以上的设备正常使用这个功能?

    请问如何在Android 9以上的设备正常使用这个功能?好像是https或者http引起的。 谢谢
    发表于 05-25 08:30

    何在 Python 中安装和使用顶级聚类算法

    有许多聚类算法可供选择,对于所有情况,没有单一的最佳聚类算法。相反,最好探索一系列聚类算法以及每种算法的不同配置。在本教程中,你将发现如何在 python 中安装和使用顶级聚类算法。
    的头像 发表于 05-22 09:13 350次阅读
    如<b class='flag-5'>何在</b> Python 中<b class='flag-5'>安装</b>和使用顶级聚类算法

    何在手机上打开/启动应用程序?

    您希望如何在手机上打开/启动应用程序?您会手动启动还是通过语音命令启动它?
    发表于 05-04 08:56

    何在安装的Windows机器构建ESplorer?

    ESplorer 项目时,我收到一条错误消息,指出“Java 安全套接字扩展”(“JSSE”) 不可用。我尝试加载“jsse-1_0_3_04-do”但没有成功。 有谁知道如何在安装的 Windows 机器构建 ESplo
    发表于 05-04 08:56