0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OpenAI开启推理算力新Scaling Law,AI PC和CPU的机会来了

爱云资讯 2024-09-27 16:20 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

OpenAI的新模型o1,可谓是开启了Scaling Law的新篇章——

随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算),o1在逻辑推理能力上已经达到了目前天花板级别。

尤其是在北大给出的一项评测中,**o1-mini**模型的跑分比o1-preview还要高:

wKgZomb2ar-AHVUKAAFwv-IFH54843.png

这就展示一种新的思路和可能性——

**小模型专门加强推理能力,放弃在参数中存储大量世界知识。**

OpenAI科学家赵盛佳给出的解释是:

>o1-mini是高度专业化的模型,只关注少部分能力可以更深入。

wKgaomb2ar-AceyIAADWKpJKZ4g63.jpeg

但与此同时,也出现了另一个问题:

若是想让AI同时掌握高阶推理能力和大量知识的任务应该怎么办?

于是乎,技术的聚光灯再次对焦到了**大模型和RAG的组合**。

具体而言,向量数据库让大模型能够快速有效地检索和处理大量的向量数据,为大模型提供了更丰富和准确的信息,从而增强了模型的整体性能和应用范围。

可以说是让大模型有了“好记忆”,减少出现答非所问的情况。

而且这一次,小模型专业化的新趋势还对RAG中的向量数据库提出了更高的要求:

一方面是小模型存储的知识少了,对于外部知识存储和检索的质量要求就更高。

另一方面是AI应用落地的脚步加快,面对多用户、高并发的场景,对整个系统的性能也更高。

在此背景下,业界先进企业正将目光投向更强大的**分布式向量数据库**。

向量数据库代表玩家**星环科技**就和**英特尔**强强联手,对此提出了一种新解法:

用更强性能的数据中心CPU与酷睿™ Ultra支持的AI PC组合,加上专门优化过的分布式向量数据库,提供更经济、更通用的方案,有效解决企业部署大模型的瓶颈问题。

分布式向量数据库推动大模型应用落地

正如我们刚才提到的,RAG的重要组成部分就是外挂的专业知识库,因此这个知识库中需得涵盖能够精准回答问题所需要的专业知识和规则。

而要构建这个外挂知识库,常见的方法包括向量数据库、知识图谱,甚至也可以直接把ElasticSearch数据接入。

但由于向量数据库具备对高维向量的检索能力,能够跟大模型很好地匹配,效果也较好,所以成为了目前主流的形式。

向量数据库可以对向量化后的数据进行高效的存储、处理与管理。

如下图展示的那样,数据向量化过程利用了诸如词向量模型和卷积神经网络人工智能技术。

wKgZomb2ar-AEPZ8AAIRQVLXz68752.png

通过Embedding过程,这些技术能够将文本、图像、音视频等多种形式的数据转换成向量形式,并将其存储在向量数据库中。

至于向量数据库的查询功能,则是通过计算向量间的相似度来实现的。

星环科技所提出的创新成果,便是**无涯·问知Infinity Intelligence**。

这是一款基于星环大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品,可以实现企业级智能问答。

例如面对“国家大基金三期会投向哪些领域”这样非常专业的问题,无涯·问知不仅可以轻松作答,还能提供相关图谱、关键信息等

而且还能图文并茂地展示作答:

wKgZomb2ar-AX9cUAAFhxpqqfyM132.png

上传本地的视频文件等,无涯·问知“唰唰唰”地就可以做总结:

wKgZomb2asCAJDU-AA9kgavX6zU364.gif

整体来看,无涯·问知在**个人知识库**上,支持用户一键上传文档、表格、图片、音视频等多模态数据,快速实现海量多模知识的检索与智能问答。

在**企业知识库**方面,则是通过管理端构建企业知识库后,员工可以基于企业知识库进行问答,知识库作为企业内部的知识共享平台,促进不同团队和部门之间的协作和信息交流。

除此之外,无涯·问知内置了各大交易所的交易规则、监管要求等常见的**法律法规知识**,用户可针对法律法规的具体条款、监管规则、试行办法等提出问题,无涯·问知将提供法律风险预警以及应对建议。

它还内置了丰富的上市公司财报和产业链图谱数据,能够为金融机构提供全面深入的**投资研究分析工具**。

即便是面对金融、法律等众多既要求时效性、又要求数据隐私的行业,星环也有无需上云联网的无涯问知AI PC版,它可以在配备英特尔® 酷睿™ Ultra的主流个人电脑上,基于集成显卡和NPU流畅运行。

它不仅具备强大的本地化向量库,支持多格式、不限长度的文件资料入库,还支持影、音、图、文等多模态数据的“知识化”处理,以及“语义化”查询和应用能力,极大地丰富了知识获取和应用场景。

wKgaomb2asCABa6DAACSwl4s5tg786.png

无涯·问知可以算是星环知识平台Transwarp Knowledge Hub中重要的组成部分,其为用户打通了从人工智能基础设施建设到大数据、人工智能等研发应用的完整链条。

值得一提的是,TKH同样提供了AI PC版本,基于本地大模型技术,能够回答用户各类问题,为用户带来文档总结、知识问答等全新体验,同时保障用户隐私数据安全。

AI PC版本星环大模型知识库提供本地大模型和远程大模型供选择,简单问题可以由本地模型快速处理,而复杂疑难问题则可以提交给云端大模型进行深入分析。

这种弹性扩展的能力,确保了企业在面对不同挑战时,都能够获得足够的计算支持。

wKgaomb2ar-Afq8vAADo6DpCDQo617.png

而这一系列产品之所以能够做到在云端和本地都能提供高效的知识管理和智能化工具,离不开星环科技自研的几个关键技术。

首先就是基于星环自研**向量数据库Hippo的向量索引技术**,能够在庞大的数据集中快速精准地召回相关信息,提升了信息检索的速度和准确性,使模型在处理查询时更加高效。

wKgZomb2asCAAy2GAAB8kJAG6mk139.png

其次是利用了**图计算框架**,让大模型能够识别实体间的多层次关系,从而进行深度的关联分析,提供了更为深入和准确的洞察结论。

在**数据**方面,覆盖官方资讯、门户类网站、自媒体财经等1600多个信息源,涵盖了全市场的各类宏观、价格指数以及大部分新闻数据。

不仅包括通常渠道可获取的数据,还包含高可信度、拥有第一手资料的新闻合作商数据,同时也对所有官方政策数据进行实时全覆盖。

但随着大模型的发展,数据规模可谓是极速暴增,这就对数据库和智能问答的性能提出更高要求。

因此,数据压缩、算力提升也成为了各个大模型玩家发力的关键点。

在这方面,星环科技与英特尔深度合作,从端侧的AIPC到后端的数据中心和云,通过软硬协同优化为大模型的应用落地打造了可行的方案。

CPU助力向量数据库应用性能大幅提升

向量数据库搭配CPU,其实本来就已经是行业内现阶段的主流共识。

究其原因,向量相似度检索、高密度向量聚类等都属于CPU密集型负载。因此,CPU的性能至关重要。

第五代英特尔® 至强® 可扩展处理器,正是带来了一系列面向AI时代的关键特性更新。

首先,它搭载了更大容量的高带宽内存,有效缓解了向量数据库中数据密集型工作负载的内存墙问题。

此外,它还集成了英特尔® AMX(高级矩阵扩展)加速引擎,能高效地处理向量数据库查询所需的矩阵乘法运算,并在单次运算中处理更大矩阵。

对于云端部署的版本来说,搭载第五代至强® 处理器后,星环Transwarp Hippo的整体性能较第三代提升高达2.07倍。

那么本地AI算力,是否能支撑在AI PC上使用大模型来支持企业应用呢?

星环尝试后给出了答案:完全够用。

从AI PC诞生到现在近一年时间,整体AI算力提升了200%多,能耗又降低了50%。

这背后就要归功于英特尔® 酷睿™ Ultra系列CPU的升级改进了。

在最新的英特尔® 酷睿™ Ultra 处理器 (第二代)200V系列处理器支持下,整个AI PC平台算力最高能达到120 TOPS。

特别是其中搭载的第四代NPU,性能比上一代强大4倍,非常适合在节能的同时运行持续的AI工作负载。

wKgZomb2asCAENZ1AAF6Gnt0y40529.png

在软件层面,英特尔和星环合作,还对数据库底层做了性能优化。

通过水平扩展架构、基于CPU的向量化指令优化、多元芯片加速等技术,有助于分布式向量数据库发挥并行检索能力,为海量、多维向量处理提供强大算力支持。

经过优化后的Transwarp Hippo实现了海量、高维度向量数据处理,并具备低时延、高精确度等优势。

同时提升了Transwarp Hippo了服务器节点的性能密度,在性能提升的同时,具备更高的每瓦性能,有助于节省单位性能的能耗支出,最终体现为降低总体拥有成本 (TCO)。

存算融合趋势明显,CPU大有可为

随着OpenAI o1系列为代表的大模型不断革新算法,大模型推理时的算力消耗正在飞速攀升,对支撑大模型运转的基础设施平台提出了更高的要求。

特别是对于需要频繁访问外部知识库的大模型应用,存储与计算深度融合俨然成为当务之急。

在这一技术变革大潮中,CPU成为其中关键角色之一。

此外,英特尔基于CPU的解决方案还为用户带来了更具成本优势的选择。由于通用CPU拥有成熟、完善的供应链体系和生态支持,企业用户可以获得稳定可靠的算力供给。

同时,英特尔® 至强® 和酷睿™ 处理器能同时覆盖端侧和云侧的算力需求,为不同的应用场景提供强大的支持。

展望未来,存算一体化的趋势将愈发明显。

从大模型应用的角度看,知识检索和AI推理将不再泾渭分明,而是深度交织、彼此强化。

在这样一个智能融合的未来图景中,CPU作为连接存储、网络和各类加速器的纽带,其地位将变得举足轻重。

(文章来源:量子位,作者:梦晨 金磊”)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11226

    浏览量

    223136
  • OpenAI
    +关注

    关注

    9

    文章

    1238

    浏览量

    9834
  • 大模型
    +关注

    关注

    2

    文章

    3485

    浏览量

    5020
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    从英伟达到博通:OpenAI自研芯片版图浮出水面,开启推理效率革命

    电子发烧友网报道(文/莫婷婷)在人工智能大模型训练与推理成本高企、算需求呈指数级增长的背景下,OpenAI与Broadcom(博通)于10月正式宣布达成一项史无前例的战略合作:共同部署总规模达10
    的头像 发表于 10-15 09:05 7420次阅读
    从英伟达到博通:<b class='flag-5'>OpenAI</b>自研芯片版图浮出水面,<b class='flag-5'>开启</b><b class='flag-5'>推理</b>效率革命

    AI推理的存储,看好SRAM?

    看到了其前景并提前布局。AI推理也使得存储HBM不再是唯一热门,更多存储芯片与AI推理芯片结合,拥有了市场机会。   已经有不少
    的头像 发表于 03-03 08:51 2457次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>的存储,看好SRAM?

    积木+3D堆叠!GPNPU架构创新,应对AI推理需求

    电子发烧友网报道(文/李弯弯)2025年,人工智能正式迈入应用推理时代。大模型从实验室走向千行百业,推理需求呈指数级爆发。然而,高昂的推理成本与有限的算供给之间的矛盾日益凸显,成为制
    的头像 发表于 12-11 08:57 7115次阅读

    国产AI芯片真能扛住“算内卷”?海思昇腾的这波操作藏了多少细节?

    反而压到了310W。更有意思的是它的异构架构:NPU+CPU+DVPP的组合,居然能同时扛住训练和推理场景,之前做自动驾驶算法时,用它跑模型时延直接降了20%。 但疑惑也有:这种算密度下,散热怎么解决?而且昇腾的生态适配速度能
    发表于 10-27 13:12

    澎峰科技完成OpenAI最新开源推理模型适配

    澎峰科技现已完成 OpenAI 最新开源推理模型 gpt-oss-20b 在 DeepFusion 大模型一体机上的原生适配与优化,用户可一键启用这颗“小而强悍”的新引擎,在本地享受企业级 AI 生产
    的头像 发表于 08-14 11:34 1182次阅读

    商汤大装置跻身中国大模型推理算厂商第一梯队

    近日,IDC发布首个《2025中国大模型推理算市场分析报告》。
    的头像 发表于 08-14 09:29 4771次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势在于强大的推理引擎能力,融合了自然语言处理(
    发表于 07-16 15:29

    高通骁龙X Elite平台开启AI PC新篇章

    多年来,随着技术与移动应用的不断进化,消费者对PC设备在生产、创造、沟通和娱乐方面有了更多期待。骁龙 X Elite平台凭借强大的CPU性能、先进的终端侧
    的头像 发表于 03-27 17:13 1326次阅读

    英伟达GTC25亮点:NVIDIA Blackwell Ultra 开启 AI 推理新时代

    英伟达GTC25亮点:NVIDIA Blackwell Ultra 开启 AI 推理新时代
    的头像 发表于 03-20 15:35 1246次阅读

    DeepSeek的开源之路:一文读懂从V1-R1的技术发展,见证从开源新秀到推理革命的领跑者

    作者:京东科技 蔡欣彤 一、引言:AI时代的挑战与DeepSeek的崛起 在大模型时代,AI技术的飞速发展带来了前所未有的机遇,但也伴随着巨大的挑战。随着模型规模的不断扩大,算需求呈
    的头像 发表于 02-26 09:08 3141次阅读
    DeepSeek的开源之路:一文读懂从V1-R1的技术发展,见证从开源新秀到<b class='flag-5'>推理</b>革命的领跑者

    不再是HBM,AI推理流行,HBF存储的机会来了

    NAND闪存和高带宽存储器(HBM)的特性,能更好地满足AI推理的需求。   HBF的堆叠设计类似于HBM,通过硅通孔(TSVs)将多个高性能闪存核心芯片堆叠,连接到可并行访问闪存子阵列的逻辑芯片上。也就是基于 SanDisk的 BICS 3D NAND 技术,采用CM
    的头像 发表于 02-19 00:51 4405次阅读
    不再是HBM,<b class='flag-5'>AI</b><b class='flag-5'>推理</b>流行,HBF存储的<b class='flag-5'>机会来了</b>?

    OpenAI或将推出o3 mini推理AI模型

    近日,据最新消息,OpenAI即将在几周内推出一款全新的推理AI模型——o3 mini。这一消息由OpenAI的首席执行官Sam Altman在1月17日通过社交媒体平台X发布的一篇文
    的头像 发表于 01-21 10:06 898次阅读

    生成式AI推理技术、市场与未来

    OpenAI o1、QwQ-32B-Preview、DeepSeek R1-Lite-Preview的相继发布,预示着生成式AI研究正从预训练转向推理(Inference),以提升AI
    的头像 发表于 01-20 11:16 1284次阅读
    生成式<b class='flag-5'>AI</b><b class='flag-5'>推理</b>技术、市场与未来

    OpenAI即将推出o3 mini推理AI模型

    近日,OpenAI首席执行官Sam Altman在社交媒体平台X上发表了一篇引人关注的文章。在文章中,他透露了一个重要信息:OpenAI已经成功完成了全新推理AI模型o3 mini版本
    的头像 发表于 01-20 10:54 797次阅读

    2025年:大模型Scaling Law还能继续吗

      OpenAI 最近推出了其新的推理模型 o3,该模型在 ARC 数据集上大幅超越了之前的最佳性能(SOTA),并在具有挑战性的 FrontierMath 数据集上取得了令人惊叹的结果。很明显,该
    的头像 发表于 01-15 14:32 967次阅读
    2025年:大模型<b class='flag-5'>Scaling</b> <b class='flag-5'>Law</b>还能继续吗