0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

把大模型“刻进”芯片,AI芯片推理速度17000 tokens/秒

Carol Li 来源:电子发烧友网 作者:李弯弯 2026-03-01 06:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网综合报道 近期,加拿大多伦多初创公司Taalas正式发布首款AI推理芯片HC1,将大模型权重直接蚀刻到芯片的金属互连层中,实现推理速度达17000 tokens/秒。

Taalas 于 2023 年成立,由 Tenstorrent 前联合创始人、前 AMD英伟达架构师柳比薩・巴伊奇(Ljubisa Bajic)携手工程师 Drago Ignjatovic、Lejla Bajic 共同创立。目前,Taalas 已通过三轮融资筹集超 2 亿美元。

巴伊奇曾主导 Tenstorrent 可扩展 AI 加速器研发,2023 年 3 月离开后创立 Taalas,其核心使命是“将人工智能商品化”。他表示:“人工智能像电力,是不可或缺的必需品,必须向所有人提供。而实现这一目标需要对计算能力和效率进行 1000 倍提升,靠当前渐进式手段无法达成。”

这种“非渐进式”思路,使 Taalas 一开始就走上与英伟达对立的道路。2023 年 8 月至 2024 年 3 月,Taalas 完成两轮融资,首轮 5000 万美元由皮埃爾・拉蒙德和 Quiet Capital 牵头,后续融资让公司总估值达 2.19 亿美元。投资人皮埃尔・拉蒙德评价团队经验业内顶级,认为其方向能实现 1000 倍成本改善,推动 AI 成为基础设施级能力。

 

Taalas宣称的1000倍效率提升,并非故弄玄虚,而是源于对传统AI芯片架构的彻底革新。不同于通用GPU“内存加载模型、软件调度运行”的模式,Taalas采用“Model Based”架构,将特定大模型的训练结果直接固化在晶体管层面,构建出物理意义上的“硬核模型”。

其HC1芯片运用台积电6nm工艺与Mask ROM技术,把Llama 3.1 8B模型的权重硬编码在硅片上,从物理层面消除计算与存储间的数据搬运。据Taalas公布的数据,HC1的token处理速度约为英伟达B200的48倍,硬件成本仅为传统GPU方案的1/20,功耗降至1/10,且无需液冷和HBM显存,仅靠空气冷却就能运行。

不过,极致性能的代价是通用性的完全丧失。HC1只能运行特定的Llama 3.1 8B模型,模型更新芯片就需重新流片。Taalas虽宣称能将新模型转化为定制芯片的周期压缩至两个月,但在AI模型快速迭代的当下,这仍是该方案面临的核心挑战。“一模型一芯片”模式要求客户对特定模型长期承诺,一旦行业转向全新架构,现有专用硬件将迅速贬值。Taalas的应对之策是押注Llama等开源架构的长期主导地位,同时借助LoRA微调技术优化芯片固化模型的适应性。

生态系统短板也是Taalas的一大难题。英伟达的优势在于CUDA软件生态和开发者的深度依赖,而Taalas的专用芯片缺乏配套开发工具链,开发者需重新适配,这提高了客户的迁移成本。如何快速构建自身生态,成为Taalas能否规模化落地的关键。

实际测试中,HC1虽能“2000字回复秒出”,但回复质量存在明显缺陷,简单运算出错,复杂问题“胡编乱造”。根源在于初代产品采用的定点数格式无法满足复杂推理的精度需求。为应对此问题,Taalas已规划第二代产品HC2,将改用标准4 - bit浮点格式改善精度,同时将模型支持规模提升至200亿参数,计划2026年底前覆盖GPT - 5级别系统。

中国科学院计算技术研究所副研究员赵永威高度评价这一技术路线,认为虽目前Taalas尚无应用价值,但会成为有历史意义的芯片,这种硬连线模式是未来芯片发展趋势,Taalas扛起质疑,将让后来者推广相关概念更轻松。

随着AI发展重心从训练转向推理,定制化AI芯片正"脱颖而出"。在AI推理芯片赛道上,Taalas并非唯一的探索者。Etched将Transformer架构固化为ASIC电路,Groq以纯SRAM架构打造LPU,Cerebras则将整块晶圆作为单颗芯片,各家都在通过放弃某一传统设计要素,换取推理环节的性能突破。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI芯片
    +关注

    关注

    17

    文章

    2181

    浏览量

    36886
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    阿里云重构芯片-云-模型-推理全栈技术体系

    阿里云在峰会上宣布实现“芯片-云-模型-推理”全栈Agent化升级,同步推出全新AI产品官网“千问云”、搭载自研AI
    的头像 发表于 05-22 10:31 260次阅读
    阿里云重构<b class='flag-5'>芯片</b>-云-<b class='flag-5'>模型</b>-<b class='flag-5'>推理</b>全栈技术体系

    模型 ai coding 比较

    框架:llm-coding-bench v1.0 统一代码执行超时:10 统一随机种子:42 统一裁判模型:DeepSeek-Chat(第三方交叉验证) ? 综合评分公式: scss 体验AI代码
    发表于 02-19 13:43

    力争百万 Tokens 推理成本降低百倍:云天励飞发布未来三年大算力芯片战略,首曝 DeepVerse 路线图

    2月3日,云天励飞正式举办“大算力芯片战略前瞻会”,首次对外公布未来三年的大算力 AI 推理芯片战略布局。面对人工智能从“基础模型构建”迈向
    的头像 发表于 02-03 20:25 3296次阅读
    力争百万 <b class='flag-5'>Tokens</b> <b class='flag-5'>推理</b>成本降低百倍:云天励飞发布未来三年大算力<b class='flag-5'>芯片</b>战略,首曝 DeepVerse 路线图

    AI推理芯片需求爆发,OpenAI欲寻求新合作伙伴

    电子发烧友网综合报道,在人工智能迅猛发展的当下,AI推理芯片需求正呈爆发式增长。   AI推理,即支撑如ChatGPT这类
    的头像 发表于 02-03 17:15 3419次阅读

    使用NORDIC AI的好处

    × 在 CPU 上运行时可快 10×、更省电,平均模型体积 <5 KB。[Edge AI 软件页] Axon NPU 对同一 TensorFlow Lite 模型:* 推理
    发表于 01-31 23:16

    Banana Pi 开源社区联合迭时空发布最新RISC-V芯片K3开发套件:BPI-SM10(K3-CoM260)

    AI算力。实际测试推理速度超过10Tokens/@30B。支持多路并发AI应用流水线与高性能
    发表于 01-30 18:38

    迭时空发布新一代RISC-V AI CPU芯片,满足端侧大模型算力需求

    电子发烧友网报道 1月29日,迭时空线上发布新一代AI CPU芯片——K3。作为全球首颗符合RVA23规范的量产RISC-V芯片,K3实现多项技术创新:首次全球量产1024位宽高并行
    的头像 发表于 01-30 14:06 9709次阅读

    AI端侧部署开发(SC171开发套件V3)2026版

    Stack模型推理指南 11分55 https://t.elecfans.com/v/28526.html *附件:文档:Fibo AI Stack
    发表于 01-15 10:31

    什么是AI模型推理能力

    NVIDIA 的数据工厂团队为 NVIDIA Cosmos Reason 等 AI 模型奠定了基础,该模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的头像 发表于 09-23 15:19 1617次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    、分布式群体智能 1)物联网AGI系统 优势: 组成部分: 2)分布式AI训练 7、发展重点:基于强化学习的后训练与推理 8、超越大模型:神经符号计算 三、AGI芯片的实现 1、技术需
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    流体芯片AI计算平台 ⑥基于AI的自主决策系统 ⑦基于AI的自主学习系统 2、面临的挑战 ①需要造就一个跨学科、全面性覆盖的知识库和科学基础模型
    发表于 09-17 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    连接定义了神经网络的拓扑结构。 不同神经网络的DNN: 一、基于大模型AI芯片 1、Transformer 模型与引擎 1.1 Transformer
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    与边缘AI的不同特点: 边缘推理的优势:可以提供数据处理速度和响应速度,满足实时需求;可以缩短网络延迟,降低成本;可以提高安全性和隐私性,保护用户数据。 前面说的都是好处,那面临的
    发表于 09-12 16:07

    AI推理芯片赛道猛将,200亿市值AI芯片企业赴港IPO

    7月30日,AI芯片龙头企业云天励飞正式向港交所递交招股说明书。   云天励飞成立于2014年8月,于2023年4月在上交所科创板挂牌,截至8月1日的市值为216亿元。专注于AI推理
    的头像 发表于 08-04 09:22 5022次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b><b class='flag-5'>芯片</b>赛道猛将,200亿市值<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>企业赴港IPO

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI模型。其核心优势在于强大的
    发表于 07-16 15:29