0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Neuchips展示大模型推理ASIC芯片

SSDFans 来源:SSDFans 2025-01-06 17:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

领先的AI专用集成电路ASIC)解决方案提供商Neuchips在CES 2024上展示了其革命性的Raptor Gen AI加速芯片(以前称为N3000)和Evo PCIe加速卡LLM解决方案。新的芯片解决方案Raptor使企业能够以现有解决方案的一小部分成本部署大型语言模型(LLM)推理。

NeuchipsCEO Ken Lau表示:“我们很高兴在CES 2024上向业界展示我们的Raptor芯片和Evo卡。Neuchips的解决方案代表了自然语言处理在性价比上的巨大飞跃。有了Neuchips,任何组织都可以在广泛的AI应用中从LLM中获得力量。”

LLM民主化

Raptor和Evo共同提供了一个优化的堆栈,使企业可以轻松访问市场领先的LLM。与现有解决方案相比,Neuchips的AI解决方案显著降低了硬件成本。高能效也最大限度地减少了用电量,进一步降低了总拥有成本。

在CES 2024上,Neuchips展示了Raptor和Evo,在个人AI助理应用程序上加速Whisper和LlamaAI聊天机器人。该解决方案突出了LLM推理对实际业务需求的强大功能。

其他技术会议将展示Raptor和Evo如何削减语音到文本应用程序的部署成本。

Raptor GenAI加速器为突破LLM性能提供动力

Raptor每个芯片的运算速度高达每秒200TOPS。它在AI推理操作(如矩阵乘法、向量和嵌入表查找)方面的出色性能适用于Gen-AI和基于变压器的AI模型。这一突破性的吞吐量是通过Neuchips为神经网络量身定制的专利压缩和效率优化来实现的。

Evo第5代PCIe卡为加速和低功耗设定新标准

与Raptor互补的是Neuchips的超低功耗Evo加速卡。Evo结合了8通道PCIe Gen 5和32GB LPDDR5,实现64 GB/s主机I/O带宽和1.6 Tbps每秒的内存带宽,每卡仅55瓦。

正如DLRM所展示的那样,Evo还具有100%的可扩展性,允许客户通过添加更多芯片来线性提高性能。这种模块化设计确保了对未来AI工作负载的投资保护。

该公司2024年下半年推出了HHHL(half-height half-length)外形产品Viper,提供更大的部署灵活性。新系列在紧凑的设计中带来了数据中心级的AI加速。

原文链接:

https://www.techpowerup.com/317298/neuchips-to-showcase-industry-leading-gen-ai-inferencing-accelerators-at-ces-2024


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ASIC芯片
    +关注

    关注

    2

    文章

    96

    浏览量

    24946
  • LLM
    LLM
    +关注

    关注

    1

    文章

    351

    浏览量

    1408

原文标题:Neuchips展示大模型推理ASIC芯片!

文章出处:【微信号:SSDFans,微信公众号:SSDFans】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    阿里云重构芯片-云-模型-推理全栈技术体系

    阿里云在峰会上宣布实现“芯片-云-模型-推理”全栈Agent化升级,同步推出全新AI产品官网“千问云”、搭载自研AI芯片真武M890的超节点服务器,以及最新旗舰
    的头像 发表于 05-22 10:31 260次阅读
    阿里云重构<b class='flag-5'>芯片</b>-云-<b class='flag-5'>模型</b>-<b class='flag-5'>推理</b>全栈技术体系

    从显存瓶颈到推理革命:vLLM 为何成为大模型服务的底层标配

    从显存瓶颈到推理革命:vLLM 为何成为大模型服务的底层标配 很多开发者都有一个共识:当模型基座的性能逐渐趋同,真正决定 AI 产品落地效率和成本的,是推理层的工程化能力。 而在
    的头像 发表于 05-12 09:57 444次阅读
    从显存瓶颈到<b class='flag-5'>推理</b>革命:vLLM 为何成为大<b class='flag-5'>模型</b>服务的底层标配

    模型推理服务的弹性部署与GPU调度方案

    7B 模型 FP16 推理需要约 14GB 显存,70B 模型需要 140GB+,KV Cache 随并发数线性增长,显存碎片化导致实际利用率不足 60%。
    的头像 发表于 03-03 09:29 563次阅读

    把大模型“刻进”芯片,AI芯片推理速度17000 tokens/秒

    电子发烧友网综合报道 近期,加拿大多伦多初创公司Taalas正式发布首款AI推理芯片HC1,将大模型权重直接蚀刻到芯片的金属互连层中,实现推理
    的头像 发表于 03-01 06:45 7714次阅读
    把大<b class='flag-5'>模型</b>“刻进”<b class='flag-5'>芯片</b>,AI<b class='flag-5'>芯片</b><b class='flag-5'>推理</b>速度17000 tokens/秒

    AI推理芯片需求爆发,OpenAI欲寻求新合作伙伴

    电子发烧友网综合报道,在人工智能迅猛发展的当下,AI推理芯片需求正呈爆发式增长。   AI推理,即支撑如ChatGPT这类AI模型响应用户问题和请求的计算过程。过去,英伟达在训练大型A
    的头像 发表于 02-03 17:15 3411次阅读

    曦望发布新一代推理GPU芯片,单位Token推理成本降低90%

    已突破万片。   启望S3是专为大模型推理打造的定制化GPGPU芯片。在典型推理场景下,它的整体性价比较上一代提升超10倍。在算力与存储设计方面,该
    的头像 发表于 01-28 17:38 9874次阅读

    LLM推理模型是如何推理的?

    这篇文章《(How)DoReasoningModelsReason?》对当前大型推理模型(LRM)进行了深刻的剖析,超越了表面的性能宣传,直指其技术本质和核心局限。以下是基于原文的详细技术原理、关键
    的头像 发表于 01-19 15:33 838次阅读
    LLM<b class='flag-5'>推理模型</b>是如何<b class='flag-5'>推理</b>的?

    欧洲之光!5nm,3200 TFLOPS AI推理芯片即将量产

    数据中心AI推理处理器的按时上市。通过此次合作,GUC展示了其在复杂芯片组架构设计以及利用2.5D先进封装技术实现HBM3
    的头像 发表于 11-29 13:52 6351次阅读
    欧洲之光!5nm,3200 TFLOPS AI<b class='flag-5'>推理</b><b class='flag-5'>芯片</b>即将量产

    微弱信号采集 ASIC芯片 CBM12AD1X

    ASIC芯片
    芯佰微电子
    发布于 :2025年11月28日 15:04:53

    Achronix亮相2025全球AI芯片峰会

    在近日举行的2025全球AI芯片峰会上,Achronix Speedster7t FPGA的大模型推理平台展示获得众多业界人士的积极反响。
    的头像 发表于 09-23 18:01 1578次阅读

    什么是AI模型推理能力

    NVIDIA 的数据工厂团队为 NVIDIA Cosmos Reason 等 AI 模型奠定了基础,该模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的头像 发表于 09-23 15:19 1617次阅读

    NVIDIA Nemotron Nano 2推理模型发布

    NVIDIA 正式推出准确、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的头像 发表于 08-27 12:45 2137次阅读
    NVIDIA Nemotron Nano 2<b class='flag-5'>推理模型</b>发布

    请问如何在RK3588上使用npu,用onnx模型推理

    请问如何在瑞芯微 RK3588上使用npu,用onnx模型推理。官网上介绍说要把ONNX模型转换成RKNN模型。但是我并不想这么干,请问有什么办法吗?
    发表于 08-09 00:51

    蚂蚁数科正式发布金融推理模型

    7月26日,以“智能时代,同球共济”为主题的2025世界人工智能大会在上海开幕;亮点很多。我们看到在世界人工智能大会论坛上,蚂蚁数科正式发布了金融推理模型Agentar-Fin-R1,金融推理
    的头像 发表于 07-28 16:36 800次阅读

    模型推理显存和计算量估计方法研究

    随着人工智能技术的飞速发展,深度学习大模型在各个领域得到了广泛应用。然而,大模型推理过程对显存和计算资源的需求较高,给实际应用带来了挑战。为了解决这一问题,本文将探讨大模型
    发表于 07-03 19:43