0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPT-4 Turbo多模态,应用生态加速

智能计算芯世界 来源:智能计算芯世界 2024-01-04 16:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文来自“GPT-4精华专题:多模态能力提升,应用生态加速(2023)”,2023年11月7日,OpenAI通过开发者大会推出新产品:

1)GPT4-Turbo:该模型通过增加上下文窗口以支持更长的工作流,同时具备视觉和语音等多模态能力,输入和输出的tokens价格大幅下降,从而帮助开发者以更低的价格获取更高的模型性能。

2)GPTs:用户只需输入指令并提供外设的知识库即可创建专属GPT,应用开发门槛大幅降低,未来在收益计划的助力下,AI应用有望迎来大爆发,形成全新的AI Agent生态。

3)Assistant API:开发者可以通过函数调用、知识检索、代码解释器简化应用开发流程、实现效率提升。

《400+份重磅ChatGPT专业报告》

1)算力端:OpenAI一系列新产品的推出成功打开新流量入口,更多的用户和开发者希望参与其中,巨大的流量对算力底座提出更高的要求;叠加图片等多模态生成所要求的tokens计算量远高于文本模态(根据OpenAI官网信息推算,在GPT-4-Turbo的Vision pricing calculator高保真度模式下,1张图片所产生的tokens数大约是1个单词的570或830倍),算力供给亟需扩容。

2)存力端:在算力提效到达一定瓶颈的情况下,AI芯片未来将逐步通过堆叠HBM的方式来提升性能,扩大单位算力的存储能力,HBM等存力需求将迎来暴增。

3)应用端:类比移动互联网时代,AI时代的应用市场有望如同移动互联网时代具备无限潜力,GPTs数量将呈现非线性高速增长;此外,OpenAI的GPTs通过提供API,使得开发者只需喂给大模型更多的垂类数据即可打造垂类AI应用,同时使满足更多长尾需求成为可能。

4)数据端:从OpenAI GPTs的Knowledge功能来看,专业知识与大模型通用能力的结合将成为未来的重中之重,私域数据库和专业数据库方向将会不断产生新热点、新需求,因此,如何在合规前提下留存垂类数据并构建体系化数据库、以及保证知识产权的确权或成为未来的重要议题。

31bb52aa-a1f2-11ee-8b88-92fbcf53809c.png

31d17544-a1f2-11ee-8b88-92fbcf53809c.png

为打造视觉大模型,建立高效视觉预训练体系以提升图像理解能力至关重要,这影响到从图像整体(如分类、图文检索、标注)到部分区域(如物体识别、短语定位)及到像素细节(如语义、实例、全景分割)的各项任务。

通用视觉预训练方法主要可归纳为三大类。1)标签监督:此方法在每张图片都配有对应标签的数据集上进行训练,如图像分类中,一张狗的照片会对应“狗”的标签,模型的核心任务是准确预测此标签。2)语言-图像监督:利用完整的文本描述来引导模型学习,使模型能够深入挖掘图像内容与文本语义间的关联。3)仅图像自监督:利用图像本身固有的结构和信息来学习有意义的表示,而不依赖于显式的人工注释标签。

31edf7aa-a1f2-11ee-8b88-92fbcf53809c.png

320051fc-a1f2-11ee-8b88-92fbcf53809c.png

1)更长的上下文(Context Length):GPT-4-turbo支持的上下文窗口(128k)相较于GPT-4-8k提升16倍,相较于GPT-4-32k提升4倍,即GPT-4-turbo可在单个prompt中处理超过300页的文本,且GPT-4-turbo模型在较长的上下文中更加准确。我们认为GPT-4-turbo更长且更准确的上下文处理能力将支持更长的工作流,在B端有能力承担更多的工作负载,提升用户体验。

2)更丰富的世界知识(Better Knowledge):外部文档和数据库的截止更新日期从21年9月更新至23年4月,意味着OpenAI的大模型在半年内已学习互联网一年半的知识,学习速度极快。

什么是GPTs:GPTs是指“针对特定目的定制的ChatGPT”,用户可以通过自定义行为创建一个定制版的ChatGPT,定制版的ChatGPT具备带有任何功能的可能性(在保证隐私和安全的情况下)。

不论是开发者还是不会写代码的普通人,都可以拥有自定义版本的GPT。

更加个性化、私人化、场景化,每个人都可以拥有自己的AI Agent。GPTs通过结合①说明/Instruction+②扩展的知识/Expand knowledge+③操作/Actions,能够在很多情况下更好地工作,并且为用户提供更好地控制,用以帮助用户轻松完成各种任务、或者获得更多乐趣。

321e19a8-a1f2-11ee-8b88-92fbcf53809c.png

3244d5d4-a1f2-11ee-8b88-92fbcf53809c.png

32719ed4-a1f2-11ee-8b88-92fbcf53809c.png

32898b7a-a1f2-11ee-8b88-92fbcf53809c.png

32b0663c-a1f2-11ee-8b88-92fbcf53809c.png

针对开发者在开发API中的痛点,OpenAI推出Assistant API,致力于为开发者赋能。根据此前市场上推出的各种API,我们可以发现API通过接入各种程序和应用,有助于帮助应用实现特定功能。

例如,Shopify的Sidekick允许用户在平台上进行操作;Discord的Clyde允许discord版主设置自定义人格;Snap my AI作为定制聊天机器人工具,可以添加至群聊中并提出建议。但以上API的构建可能需要开发者耗费几个月的时间、并由数十名工程师搭建,而目前Assistant API的推出将使其变得容易实现。

32c7426c-a1f2-11ee-8b88-92fbcf53809c.png

32daf17c-a1f2-11ee-8b88-92fbcf53809c.png

1)云侧芯片龙头:英伟达龙头地位稳固,AMD加速发展。

① 英伟达:2023年11月13日,英伟达推出H200,内存方面首次采用HBM3e,容量高达141GB,带宽实现大幅提升;性能方面着重强化推理能力和HPC性能,可将Llama2模型的推理速度提高近一倍,相较于H100可降低50%的TCO和能耗成本。2023年以来,英伟达AI芯片已发布多个产品,在云侧算力芯片领域龙头优势明显。

② AMD:2023年6月,AMD正式发布MI300系列,MI300将CPUGPU和内存封装为一体,大幅缩短DDR内存行程和CPU-GPU PCIe行程,提高性能和效率;MI300采用Chiplet设计,拥有13个基于3D堆叠的小芯片(5nm: 3个CPU,6个GPU;4个6nm芯片),包括24个Zen4 CPU内核,同时融合CDNA 3和8个HBM3显存堆栈,集成5nm和6nm IP,总共包含128GB HBM3显存和1460亿个晶体管。对比MI250加速卡,MI300可带来8倍AI性能和5倍每瓦性能的提升(FP8),使ChatGPT和DALL-E等超大AI模型的训练时间可以从几个月缩短到几周。

32ec8c84-a1f2-11ee-8b88-92fbcf53809c.png

2)端侧芯片格局:对于AI PC端侧适用芯片,英特尔进展保持领先,高通有望实现从0到1。

① 英特尔:PC主芯片包括CPU和GPU。GPU方面,根据Statista数据,英特尔在22Q4全球PC GPU市场中占据71%的市场份额;CPU方面,根据Counterpoint Research数据,英特尔在2022年全球Notebook CPU/SoC市场中占据69.6%的市场份额,当前英特尔在PC主芯片市场中处于主导地位。23H2,英特尔推出Meteor Lake处理器,助力PC效能提升,专为AI任务设计,在AI PC主芯片市场中具备先发优势。

② 高通:2023年10月,高通于骁龙峰会上推出骁龙X Elite芯片,可支持130亿参数大模型,为Windows-on-Arm笔记本设计,预计在2024年中期发布。算力方面,AI PC对PC芯片的算力要求更高,高通在端侧AI推理能力优于英特尔。与此同时,生态方面,2022年至今Windows开始支持高通,已发布多轮支持Arm架构芯片的操作系统。未来,高通在以骁龙X Elite为代表的AI PC芯片的助力下,将在PC领域实现重要突破,逐步抢占市场份额。

3300827a-a1f2-11ee-8b88-92fbcf53809c.png

3)大厂自研趋势:科技巨头加速自研,优先服务于自身云服务业务及AI条线。微软于23年11月16日Ignite技术大会上发布两款自研芯片——Azure Maia 100和Azure Cobalt 100,分别用于大语言模型的训练推理和通用云服务的支持。近年来,各大科技厂商纷纷自研芯片,一是为了降低自身对第三方芯片和外部供应链的依赖;二是自研芯片可帮助各大厂商克服一定的通用芯片局限,通过CPU+GPU+DPU+定制芯片等结合方案,提升全系统整合效率、实现业务赋能;三是提高计算能效、减少长期硬件成本。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI芯片
    +关注

    关注

    17

    文章

    2066

    浏览量

    36570
  • 算力
    +关注

    关注

    2

    文章

    1387

    浏览量

    16566
  • OpenAI
    +关注

    关注

    9

    文章

    1238

    浏览量

    9816

原文标题:GPT-4 Turbo多模态,应用生态加速

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    亚马逊云科技上线Amazon Nova模态嵌入模型

    Embeddings模态嵌入模型现已在Amazon Bedrock上线,这是一款专为Agentic RAG与语义搜索应用打造的顶尖模态嵌入模型。该模型是首个通过单一模型支持文本、
    的头像 发表于 10-29 17:15 120次阅读
    亚马逊云科技上线Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模态</b>嵌入模型

    商汤日日新V6.5模态大模型登顶全球权威榜单

    Pro)模态大模型以82.2的综合成绩登顶榜首,领先Gemini 2.5 Pro以及GPT-5等国际顶尖模型。
    的头像 发表于 09-10 09:55 498次阅读

    成都汇阳投资关于大模型白热化,应用加速分化

           大模型: 加速模态研发 ,闭源模型逐步逆袭开源 模态技术路线尚未收敛 , 国内外大模型厂商持续刷新 SOAT。 图片领域
    的头像 发表于 09-09 09:30 713次阅读

    米尔RK3576部署端侧模态轮对话,6TOPS算力驱动30亿参数LLM

    首轮推理延迟,适配对响应速度敏感的车载、医疗等场景; 其二,模态融合再升级—— 在图文基础上集成语音、传感器数据,实现 “看 + 听 + 感知” 的跨模态对话; 其三,生态适配再拓展
    发表于 09-05 17:25

    商汤科技模态通用智能战略思考

    时间是最好的试金石,AI领域尤其如此。当行业热议大模型走向时,商汤早已锚定“模态通用智能”——这是我们以深厚研究积累和实践反复验证的可行路径。
    的头像 发表于 08-14 09:33 1013次阅读

    GPT-5即将面市 性能远超GPT-4

    行业芯事
    电子发烧友网官方
    发布于 :2025年06月04日 13:38:23

    爱芯通元NPU适配Qwen2.5-VL-3B视觉模态大模型

    熟悉爱芯通元NPU的网友很清楚,从去年开始我们在端侧模态大模型适配上一直处于主动紧跟的节奏。先后适配了国内最早开源的模态大模MiniCPM V 2.0,上海人工智能实验室的书生
    的头像 发表于 04-21 10:56 2604次阅读
    爱芯通元NPU适配Qwen2.5-VL-3B视觉<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型

    移远通信智能模组全面接入模态AI大模型,重塑智能交互新体验

    随着千行百业数智化进程的不断加速模态AI大模型的应用需求不断攀升,图像、语音、视频等多样化的交互方式正逐渐成为推动行业变革的新动力。   3月20日,全球物联网整体解决方案供应商移远通信宣布,其
    发表于 03-21 14:12 427次阅读
    移远通信智能模组全面接入<b class='flag-5'>多</b><b class='flag-5'>模态</b>AI大模型,重塑智能交互新体验

    移远通信智能模组全面接入模态AI大模型,重塑智能交互新体验

    随着千行百业数智化进程的不断加速模态AI大模型的应用需求不断攀升,图像、语音、视频等多样化的交互方式正逐渐成为推动行业变革的新动力。3月20日,全球物联网整体解决方案供应商移远通信宣布,其全系
    的头像 发表于 03-20 19:03 668次阅读
    移远通信智能模组全面接入<b class='flag-5'>多</b><b class='flag-5'>模态</b>AI大模型,重塑智能交互新体验

    模态交互技术解析

    模态交互 模态交互( Multimodal Interaction )是指通过多种感官通道(如视觉、听觉、触觉等)或多种交互方式(如语音、手势、触控、眼动等)与计算机系统进行自然、
    的头像 发表于 03-17 15:12 3551次阅读

    海康威视发布模态大模型文搜存储系列产品

    模态大模型为安防行业带来重大技术革新,基于观澜大模型技术体系,海康威视将大参数量、大样本量的图文模态大模型与嵌入式智能硬件深度融合,发布
    的头像 发表于 02-18 10:33 1020次阅读

    OpenAI即将发布GPT-4.5与GPT-5

    GPT-4.5将在未来几周内率先亮相,它将是OpenAI通用GPT-4模型的继承者。这款新的算法在技术上进行了诸多优化和升级,旨在为用户提供更加精准、高效的AI服务。 而在GPT-4.5发布后不久
    的头像 发表于 02-13 13:43 1031次阅读

    体验MiniCPM-V 2.6 模态能力

    模态组网
    jf_23871869
    发布于 :2025年01月20日 13:40:48

    如何在边缘端获得GPT4-V的能力:算力魔方+MiniCPM-V 2.6

    本 OpenCompass 榜单上(综合 8 个主流模态评测基准)平均得分 65.2,以8B量级的大小在单图理解方面超越了 GPT-4o mini、GPT-4V、Gemini 1.5
    的头像 发表于 01-20 13:40 1115次阅读
    如何在边缘端获得<b class='flag-5'>GPT4</b>-V的能力:算力魔方+MiniCPM-V 2.6

    商汤日日新模态大模型权威评测第一

    刚刚,商汤科技日日新SenseNova模态大模型,在权威综合评测权威平台OpenCompass的模态评测中取得榜单第一。
    的头像 发表于 12-20 10:39 1504次阅读