电子发烧友网综合报道 近期,加拿大多伦多初创公司Taalas正式发布首款AI推理芯片HC1,将大模型权重直接蚀刻到芯片的金属互连层中,实现推理速度达17000 tokens/秒。
Taalas 于 2023 年成立,由 Tenstorrent 前联合创始人、前 AMD 和英伟达架构师柳比薩・巴伊奇(Ljubisa Bajic)携手工程师 Drago Ignjatovic、Lejla Bajic 共同创立。目前,Taalas 已通过三轮融资筹集超 2 亿美元。
巴伊奇曾主导 Tenstorrent 可扩展 AI 加速器研发,2023 年 3 月离开后创立 Taalas,其核心使命是“将人工智能商品化”。他表示:“人工智能像电力,是不可或缺的必需品,必须向所有人提供。而实现这一目标需要对计算能力和效率进行 1000 倍提升,靠当前渐进式手段无法达成。”
这种“非渐进式”思路,使 Taalas 一开始就走上与英伟达对立的道路。2023 年 8 月至 2024 年 3 月,Taalas 完成两轮融资,首轮 5000 万美元由皮埃爾・拉蒙德和 Quiet Capital 牵头,后续融资让公司总估值达 2.19 亿美元。投资人皮埃尔・拉蒙德评价团队经验业内顶级,认为其方向能实现 1000 倍成本改善,推动 AI 成为基础设施级能力。
Taalas宣称的1000倍效率提升,并非故弄玄虚,而是源于对传统AI芯片架构的彻底革新。不同于通用GPU“内存加载模型、软件调度运行”的模式,Taalas采用“Model Based”架构,将特定大模型的训练结果直接固化在晶体管层面,构建出物理意义上的“硬核模型”。
其HC1芯片运用台积电6nm工艺与Mask ROM技术,把Llama 3.1 8B模型的权重硬编码在硅片上,从物理层面消除计算与存储间的数据搬运。据Taalas公布的数据,HC1的token处理速度约为英伟达B200的48倍,硬件成本仅为传统GPU方案的1/20,功耗降至1/10,且无需液冷和HBM显存,仅靠空气冷却就能运行。
不过,极致性能的代价是通用性的完全丧失。HC1只能运行特定的Llama 3.1 8B模型,模型更新芯片就需重新流片。Taalas虽宣称能将新模型转化为定制芯片的周期压缩至两个月,但在AI模型快速迭代的当下,这仍是该方案面临的核心挑战。“一模型一芯片”模式要求客户对特定模型长期承诺,一旦行业转向全新架构,现有专用硬件将迅速贬值。Taalas的应对之策是押注Llama等开源架构的长期主导地位,同时借助LoRA微调技术优化芯片固化模型的适应性。
生态系统短板也是Taalas的一大难题。英伟达的优势在于CUDA软件生态和开发者的深度依赖,而Taalas的专用芯片缺乏配套开发工具链,开发者需重新适配,这提高了客户的迁移成本。如何快速构建自身生态,成为Taalas能否规模化落地的关键。
实际测试中,HC1虽能“2000字回复秒出”,但回复质量存在明显缺陷,简单运算出错,复杂问题“胡编乱造”。根源在于初代产品采用的定点数格式无法满足复杂推理的精度需求。为应对此问题,Taalas已规划第二代产品HC2,将改用标准4 - bit浮点格式改善精度,同时将模型支持规模提升至200亿参数,计划2026年底前覆盖GPT - 5级别系统。
中国科学院计算技术研究所副研究员赵永威高度评价这一技术路线,认为虽目前Taalas尚无应用价值,但会成为有历史意义的芯片,这种硬连线模式是未来芯片发展趋势,Taalas扛起质疑,将让后来者推广相关概念更轻松。
随着AI发展重心从训练转向推理,定制化AI芯片正"脱颖而出"。在AI推理芯片赛道上,Taalas并非唯一的探索者。Etched将Transformer架构固化为ASIC电路,Groq以纯SRAM架构打造LPU,Cerebras则将整块晶圆作为单颗芯片,各家都在通过放弃某一传统设计要素,换取推理环节的性能突破。
Taalas 于 2023 年成立,由 Tenstorrent 前联合创始人、前 AMD 和英伟达架构师柳比薩・巴伊奇(Ljubisa Bajic)携手工程师 Drago Ignjatovic、Lejla Bajic 共同创立。目前,Taalas 已通过三轮融资筹集超 2 亿美元。
巴伊奇曾主导 Tenstorrent 可扩展 AI 加速器研发,2023 年 3 月离开后创立 Taalas,其核心使命是“将人工智能商品化”。他表示:“人工智能像电力,是不可或缺的必需品,必须向所有人提供。而实现这一目标需要对计算能力和效率进行 1000 倍提升,靠当前渐进式手段无法达成。”
这种“非渐进式”思路,使 Taalas 一开始就走上与英伟达对立的道路。2023 年 8 月至 2024 年 3 月,Taalas 完成两轮融资,首轮 5000 万美元由皮埃爾・拉蒙德和 Quiet Capital 牵头,后续融资让公司总估值达 2.19 亿美元。投资人皮埃尔・拉蒙德评价团队经验业内顶级,认为其方向能实现 1000 倍成本改善,推动 AI 成为基础设施级能力。
Taalas宣称的1000倍效率提升,并非故弄玄虚,而是源于对传统AI芯片架构的彻底革新。不同于通用GPU“内存加载模型、软件调度运行”的模式,Taalas采用“Model Based”架构,将特定大模型的训练结果直接固化在晶体管层面,构建出物理意义上的“硬核模型”。
其HC1芯片运用台积电6nm工艺与Mask ROM技术,把Llama 3.1 8B模型的权重硬编码在硅片上,从物理层面消除计算与存储间的数据搬运。据Taalas公布的数据,HC1的token处理速度约为英伟达B200的48倍,硬件成本仅为传统GPU方案的1/20,功耗降至1/10,且无需液冷和HBM显存,仅靠空气冷却就能运行。
不过,极致性能的代价是通用性的完全丧失。HC1只能运行特定的Llama 3.1 8B模型,模型更新芯片就需重新流片。Taalas虽宣称能将新模型转化为定制芯片的周期压缩至两个月,但在AI模型快速迭代的当下,这仍是该方案面临的核心挑战。“一模型一芯片”模式要求客户对特定模型长期承诺,一旦行业转向全新架构,现有专用硬件将迅速贬值。Taalas的应对之策是押注Llama等开源架构的长期主导地位,同时借助LoRA微调技术优化芯片固化模型的适应性。
生态系统短板也是Taalas的一大难题。英伟达的优势在于CUDA软件生态和开发者的深度依赖,而Taalas的专用芯片缺乏配套开发工具链,开发者需重新适配,这提高了客户的迁移成本。如何快速构建自身生态,成为Taalas能否规模化落地的关键。
实际测试中,HC1虽能“2000字回复秒出”,但回复质量存在明显缺陷,简单运算出错,复杂问题“胡编乱造”。根源在于初代产品采用的定点数格式无法满足复杂推理的精度需求。为应对此问题,Taalas已规划第二代产品HC2,将改用标准4 - bit浮点格式改善精度,同时将模型支持规模提升至200亿参数,计划2026年底前覆盖GPT - 5级别系统。
中国科学院计算技术研究所副研究员赵永威高度评价这一技术路线,认为虽目前Taalas尚无应用价值,但会成为有历史意义的芯片,这种硬连线模式是未来芯片发展趋势,Taalas扛起质疑,将让后来者推广相关概念更轻松。
随着AI发展重心从训练转向推理,定制化AI芯片正"脱颖而出"。在AI推理芯片赛道上,Taalas并非唯一的探索者。Etched将Transformer架构固化为ASIC电路,Groq以纯SRAM架构打造LPU,Cerebras则将整块晶圆作为单颗芯片,各家都在通过放弃某一传统设计要素,换取推理环节的性能突破。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
AI芯片
+关注
关注
17文章
2181浏览量
36886
发布评论请先 登录
相关推荐
热点推荐
大模型 ai coding 比较
框架:llm-coding-bench v1.0
统一代码执行超时:10秒
统一随机种子:42
统一裁判模型:DeepSeek-Chat(第三方交叉验证)
? 综合评分公式:
scss
体验AI代码
发表于 02-19 13:43
力争百万 Tokens 推理成本降低百倍:云天励飞发布未来三年大算力芯片战略,首曝 DeepVerse 路线图
2月3日,云天励飞正式举办“大算力芯片战略前瞻会”,首次对外公布未来三年的大算力 AI 推理芯片战略布局。面对人工智能从“基础模型构建”迈向
AI推理芯片需求爆发,OpenAI欲寻求新合作伙伴
电子发烧友网综合报道,在人工智能迅猛发展的当下,AI推理芯片需求正呈爆发式增长。 AI推理,即支撑如ChatGPT这类
使用NORDIC AI的好处
×
在 CPU 上运行时可快 10×、更省电,平均模型体积 <5 KB。[Edge AI 软件页]
Axon NPU 对同一 TensorFlow Lite 模型:* 推理
发表于 01-31 23:16
Banana Pi 开源社区联合进迭时空发布最新RISC-V芯片K3开发套件:BPI-SM10(K3-CoM260)
AI算力。实际测试推理速度超过10Tokens/秒@30B。支持多路并发AI应用流水线与高性能
发表于 01-30 18:38
进迭时空发布新一代RISC-V AI CPU芯片,满足端侧大模型算力需求
电子发烧友网报道 1月29日,进迭时空线上发布新一代AI CPU芯片——K3。作为全球首颗符合RVA23规范的量产RISC-V芯片,K3实现多项技术创新:首次全球量产1024位宽高并行
AI端侧部署开发(SC171开发套件V3)2026版
Stack模型推理指南
11分55秒
https://t.elecfans.com/v/28526.html
*附件:文档:Fibo AI Stack
发表于 01-15 10:31
什么是AI模型的推理能力
NVIDIA 的数据工厂团队为 NVIDIA Cosmos Reason 等 AI 模型奠定了基础,该模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片
、分布式群体智能
1)物联网AGI系统
优势:
组成部分:
2)分布式AI训练
7、发展重点:基于强化学习的后训练与推理
8、超越大模型:神经符号计算
三、AGI芯片的实现
1、技术需
发表于 09-18 15:31
【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用
流体芯片
⑤AI计算平台
⑥基于AI的自主决策系统
⑦基于AI的自主学习系统
2、面临的挑战
①需要造就一个跨学科、全面性覆盖的知识库和科学基础模型
发表于 09-17 11:45
【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构
连接定义了神经网络的拓扑结构。
不同神经网络的DNN:
一、基于大模型的AI芯片
1、Transformer 模型与引擎
1.1 Transformer
发表于 09-12 17:30
【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战
与边缘AI的不同特点:
边缘推理的优势:可以提供数据处理速度和响应速度,满足实时需求;可以缩短网络延迟,降低成本;可以提高安全性和隐私性,保护用户数据。
前面说的都是好处,那面临的
发表于 09-12 16:07
AI推理芯片赛道猛将,200亿市值AI芯片企业赴港IPO
7月30日,AI芯片龙头企业云天励飞正式向港交所递交招股说明书。 云天励飞成立于2014年8月,于2023年4月在上交所科创板挂牌,截至8月1日的市值为216亿元。专注于AI推理
信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代
DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势在于强大的
发表于 07-16 15:29
把大模型“刻进”芯片,AI芯片推理速度17000 tokens/秒
评论