0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何在手持设备上安装庞大的transformer网络

CEVA 来源:CEVA 2023-10-11 14:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Siri和OK Google是最早实现语音控制的应用程序,这着实为我们带来了很多乐趣;但很快我们便意识到,必须仔细说出请求才能获得实用回答。

就现在所见,ChatGPT理解程度高,使用起来更容易,但直到最近,其功能还仅限于通过基于云的应用程序进行文本互动。现如今,ChatGPT是大势所趋,手机几乎人人必备,促使着针对ChatGPT(手机版)的transformer网络尽快推出,让每个拥有手机的人都能感受到大语言模型的威力。

在此方面面临的一个明显挑战是,我们所知的 ChatGPT依赖于数万亿个参数。而这种规模的transformer网络只能在云端运行。有人建议采用混合模式,即先由手机或其他应用程序负责完成部分简单工作,再连接到云端进行更为繁重的推理。然而,普通手机用户可能无法接受混合解决方案与生俱来的长时间延迟和隐私风险问题。因此,更好的方法是,直接在手机上处理大部分或全部transformer网络工作,只在需要时将偶尔出现的匿名搜索请求转至云端处理。

缩减网络大小

如何在手持设备上安装庞大的transformer网络?Google DeepMind在检索transformer方面取得了重大突破。其RETRO transformer网络运行时的大小只有 LLM transformer的百分之几,因为前者的模型参数中不包含具体数据。只保留了基本的语言对话技能,但在理解水平上仍可与GPT3相媲美。如此将网络大小缩减到了约80亿个参数。

CEVA在预处理时进一步缩减此网络大小,将对感兴趣领域提示的准确度几乎没有影响的参数归零,进行再训练。仔细利用这一功能可以大大加快transformer网络分析的速度。

准备边缘模型的第二步是压缩,CEVA对此非常熟悉,并在支持检索transformer方面做得更好。我们充分利用NeuPro-M架构进行再训练,大力推进此步骤,促使广泛的混合定点精度和低精度选项降到4位,未来甚至还能降到2位。

通过使用这些技术,我们可以将现有检索transformer压缩至最低1/20(较现在而言),尽管其相较LLM而言已经压缩了很多。将这种压缩剪枝应用于RETRO模型缩减后,可以产生巨大缩减,将万亿参数模型转换为十亿参数模型,进而有望实现ChatGPT(移动版)。

NeuPro-M AI核心

当然,仅仅适合的transformer网络是不够的。它还需要运行得足够快,才能满足用户对响应时间的期望。而这一点可以通过专为LLM应用程序优化的NeuPro-M NPU IP多引擎架构实现。在此流程中,首先要做到的是由真正的稀疏引擎来进行管理,且这一步举足轻重。稀疏引擎管理可跳过权重或数据为零的冗余操作,提高吞吐量,这是需要注意的一点。而在预处理时缩减之后,会出现大量归零参数,尽管这些参数分布不均匀。对于这种非结构化稀疏引擎,每个NeuPro-M处理器内核中的专用稀疏引擎可发挥4倍性能优势(与传统稀疏引擎相比),并相应地降低功耗。

鉴于transformer架构可以分解为可并行实现的离散正交运算,下一优化应运而生。此时,可以利用 NeuPro-M多核架构支持多达8个内核。transformer中 query、key和value三个向量的计算会在引擎中分批进行,在共享公共二级缓存的多个内核并行处理。并行处理不仅有利于attention步骤,还有利于softmax步骤,以及计算attention函数之后的归一化函数。在传统的人工智能系统中,softmax可能是遏制性能提升的重大瓶颈。在NeuPro-M中,attention和softmax可以并行实现,因此softmax对于吞吐时间的增加几乎可以忽略不计。NeuPro-M在transformer计算中实现大规模并行处理如下图所示。

fca80bde-67ff-11ee-939d-92fbcf53809c.png

fcbd0f2a-67ff-11ee-939d-92fbcf53809c.png

▲transformer计算中的可扩展并行化

NeuPro-M架构包括特殊支持,最大限度地提高芯片吞吐量,线程之间几乎没有停滞,进一步简化这些流中的高度并行性以及线程之间的数据共享。

为ChatGPT(移动版)构建语音界面

完成最难的部分后,在前端添加语音识别和在后端添加文本转语音,便可以通过额外相对简单的transformer网络实现。将我们的ClearVox语音处理前端软件连接到语音识别transformer,以输入提示,并接受引导,确定主transformer应执行哪一组精炼提示。必要时,可从互联网上检索查询相关文档。最后,使用文本转语音transformer对下载的回复或文件进行语音处理。现在来说,完全在手机上运行,且具有完全基于语音的 ChatGPT功能界面便是ChatGPT(移动版)的不同之处。

更广泛的应用

NeuPro-M平台并不局限于ChatGPT(移动版)这样的GPT类应用。它可以同样应用于任何生成式方法。例如,您可以使用稳定的扩散transformer生成图像、视频或任何其他人工生成或修改的体验。NeuPro-M解决方案在transformer网络建模方面非常通用。

审核编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 网络
    +关注

    关注

    14

    文章

    8141

    浏览量

    93184
  • 手持设备
    +关注

    关注

    0

    文章

    54

    浏览量

    24652
  • 应用程序
    +关注

    关注

    38

    文章

    3342

    浏览量

    59977
  • Transformer
    +关注

    关注

    0

    文章

    154

    浏览量

    6825

原文标题:针对ChatGPT(手机版)的优化版Transformer网络

文章出处:【微信号:CEVA-IP,微信公众号:CEVA】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    手持移动终端的常见设备,智能移动终端设备的机型有哪些?

    目前常见的智能手持移动终端设备有:PDA手持终端,RFID读写器,条码扫码移动终端、二维码扫码手持终端、NFC手持终端、工业平板、测温测振P
    的头像 发表于 12-03 11:14 191次阅读
    <b class='flag-5'>手持</b>移动终端的常见<b class='flag-5'>设备</b>,智能移动终端<b class='flag-5'>设备</b>的机型有哪些?

    Transformer如何让自动驾驶变得更聪明?

    ]自动驾驶中常提的Transformer本质是一种神经网络结构,最早在自然语言处理里火起来。与卷积神经网络(CNN)或循环神经网络(RNN
    的头像 发表于 11-19 18:17 1974次阅读

    何在NVIDIA Jetson AGX Thor通过Docker高效部署vLLM推理服务

    继系统安装与环境配置后,本期我们将继续带大家深入 NVIDIA Jetson AGX Thor 的开发教程之旅,了解如何在 Jetson AGX Thor ,通过 Docker 高效部署 vLLM 推理服务。
    的头像 发表于 11-13 14:08 3299次阅读
    如<b class='flag-5'>何在</b>NVIDIA Jetson AGX Thor<b class='flag-5'>上</b>通过Docker高效部署vLLM推理服务

    RFID手持扫描设备是什么 RFID手持扫描设备有什么作用

    在物流仓库、商场货架、图书馆等场景中,你可能见过工作人员拿着一个类似手机或对讲机的设备,轻轻一扫就能快速识别物品信息——这就是RFID手持扫描设备。它不像传统条码扫描那样需要对准标签,哪怕物品被包装
    的头像 发表于 08-18 16:22 813次阅读
    RFID<b class='flag-5'>手持</b>扫描<b class='flag-5'>设备</b>是什么 RFID<b class='flag-5'>手持</b>扫描<b class='flag-5'>设备</b>有什么作用

    什么是RFID手持终端设备

    在大型仓库里,管理员握着一个巴掌大的设备在货架间漫步,无需逐件翻看,数十件货物的信息就自动显示在屏幕;在图书馆,工作人员用一个便携仪器扫过书架,几十本图书的借阅状态瞬间统计完成——这些高效场景
    的头像 发表于 08-01 15:01 855次阅读
    什么是RFID<b class='flag-5'>手持</b>终端<b class='flag-5'>设备</b>?

    【经验分享】在Omni3576编译Redis-8.0.2源码,并安装及性能测试

    本文首先介绍Redis是什么,然后介绍如何在Omni3576编译Redis-8.0.2源码,以及从源码编译、安装Redis,最后介绍如何在Omni3576
    的头像 发表于 06-05 08:05 781次阅读
    【经验分享】在Omni3576<b class='flag-5'>上</b>编译Redis-8.0.2源码,并<b class='flag-5'>安装</b>及性能测试

    何在Ubuntu 22.04安装NVIDIA显卡驱动

    Ubuntu 22.04 安装 NVIDIA 显卡驱动完整步骤
    的头像 发表于 05-20 11:00 4985次阅读

    何在Android设备安装Cyusb3014芯片驱动?

    1.如何在Android设备安装Cyusb3014芯片驱动? 我们在 Windows 上有 FX3 驱动程序 SDK。 2.如何在Andr
    发表于 05-15 07:23

    何在Ubuntu安装NVIDIA显卡驱动?

    专有显卡驱动。本文将详细介绍在Ubuntu系统安装NVIDIA显卡驱动的多种方法,帮助用户根据自身情况选择最适合的安装方式。 二,硬件参数 平台:PX22_GPU CPU:I7-1165G7
    的头像 发表于 05-07 16:05 2105次阅读
    如<b class='flag-5'>何在</b>Ubuntu<b class='flag-5'>上</b><b class='flag-5'>安装</b>NVIDIA显卡驱动?

    何在 Raspberry Pi 5 设置 Raspberry Pi AI Kit

    本指南将帮助您在RaspberryPi5安装RaspberryPiAIKit。这将使您能够使用HailoAI神经网络加速器运行rpicam-apps摄像头演示。如果您在开始安装人工智
    的头像 发表于 03-25 09:44 582次阅读
    如<b class='flag-5'>何在</b> Raspberry Pi 5 <b class='flag-5'>上</b>设置 Raspberry Pi AI Kit

    告别复杂的终极指南:如何在树莓派上安装 Manjaro:2024

    如果你想在RaspberryPi上体验ArchLinux,Manjaro可能是你的最佳选择。它基于Arch,但被打包成一个传统的Linux发行版,支持多种桌面环境和架构。让我们来学习如何在RaspberryPi安装它。什么是L
    的头像 发表于 03-25 09:39 1145次阅读
    告别复杂的终极指南:如<b class='flag-5'>何在</b>树莓派上<b class='flag-5'>安装</b> Manjaro:2024

    人脸识别指南:如何在树莓派上安装和设置 Dlib

    学习如何在树莓派上安装Dlib并配置人脸识别功能,为您的AI项目奠定基础。在树莓派上安装Dlib的详细步骤要为树莓派安装Dlib并确保人脸识别项目顺利运行,请按照以下详细步骤操作。前置
    的头像 发表于 03-24 17:31 1296次阅读
    人脸识别指南:如<b class='flag-5'>何在</b>树莓派上<b class='flag-5'>安装</b>和设置 Dlib

    顶坚手持终端赋能铁路巡检,打造智慧铁路网络

    手持终端以其强大的数据采集、实时通讯与智能化分析能力,正深刻变革着铁路巡检模式,为构建高效、安全、智能的智慧铁路网络奠定了坚实基础。通过精准捕捉设备状态,即时传输巡检信息,手持终端不仅
    的头像 发表于 03-10 10:30 654次阅读
    顶坚<b class='flag-5'>手持</b>终端赋能铁路巡检,打造智慧铁路<b class='flag-5'>网络</b>

    磁编码器在手持喷码机上的作用

    首先我们要了解下手持喷码机,手持喷码机通常用于在物品表面打印各类信息,手持式的工作特点是方便灵活移动。但是同时因为手会抖动或者物体表面的不平整等因素会导致打印的信息弯曲变形,所以需要一个编码器来做
    发表于 03-04 16:52

    transformer专用ASIC芯片Sohu说明

    的旧图像模型,也不能运行CNN、RNN或LSTM。 但对于transformer来说,Sohu是有史以来最快的芯片。 借助Llama 70B每秒超过50万个token的吞吐量,Sohu可以让您构建在GPU无法实现的产品
    的头像 发表于 01-06 09:13 1703次阅读
    <b class='flag-5'>transformer</b>专用ASIC芯片Sohu说明