0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌开源70亿参数大语言模型,全方位超越Meta Llama-2?

E4Life 来源:电子发烧友 作者:周凯扬 2024-02-23 00:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/周凯扬)在Sora把AI生成领域的视线全部吸引过去的这段时间里,谷歌却依然在竭尽全力推进新的生成模型发展。除了上周发布的下一代Gemini 1.5外,谷歌也在近日推出了一系列基于Gemini打造的开源模型Gemma。

谷歌加入AI模型开源阵营,Gemma横空出世

根据谷歌的介绍,Gemma是由谷歌DeepMind以及其他团队开发,由Gemini启发并采用了相同的研究与技术的轻量级模型。与之一起发布的还有全新的响应式生成AI工具包,为利用Gemma创造更安全的AI应用提供关键工具和指导。

从参数大小上来看,Gemma分为20亿参数(Gemma 2B)和70亿(Gemma 7B)参数两个版本,且每个版本又有基础版(预训练)和指令调整版两个变体。其中70亿参数的版本适合消费级的GPU和TPU开发,而20亿参数的版本可以用于CPU和端侧应用上。

在预训练数据上,Gemma 2B和7B分别采用了2T和6T的Token进行训练,数据来源是以英文为主的网络文档、数学计算和代码。需要注意的是,尽管其背后所采用的技术与Gemini类似,但这些模型并不属于多模态模型,也并不适合用于追求极致的多语言任务性能。

在训练硬件上,谷歌采用了自研的TPUv5e,其中Gemma 7B用到了4096块TPUv5e进行训练,Gemma 2B用到了512块TPUv5e进行训练。

开源LLM混战,Gemma 7B超越Llama-2 13B?

根据谷歌官方提供的数据,与Meta的Llama-2相比,Gemma 7B在多个项目上展现出了优势,比如大规模多任务语言理解(MMLU)、GSM8K和Math计算和HumanEval Python代码生成等应用上,都超过了Llama-2 7B,甚至不少超过了Llama-2 13B。

wKgaomXXHwmAORLbAAExLTvutQk859.png
开源模型文本任务性能对比 / 谷歌


谷歌表示,与同等体量的开源模型对比,比如LLaMA-2和Mistral等,18项文字相关的任务中,Gemma能够做到在11项任务中性能胜出,且平均性能得分占优。

不过Gemma也并不是完全超越了Llama-2,从Huggingface给出的平均得分来看,Gemma 7B超过了同级别的Llama 2 7B,但还是低于LLama 2 70B Chat,不过考虑到这两者之间的参数差异,也印证了Gemma 7B的强大。至于Gemma 2B,与同规格的其他优秀开源LLM相比,比如PHI-2(2.7B),也不存在优势。

作为一个轻量级的模型,Gemma也对跨设备兼容性做了优化,可以在笔记本、PC、IoT设备、智能手机和云端运行。谷歌也与英伟达达成合作,Gemma针对英伟达的GPU硬件进行了优化,无论是云端的AI GPU还是桌面端的RTX AI PC,都能享受Gemma带来的性能。

写在最后

尽管Gemma是谷歌首个大型的开源LLM,但这早已经不是谷歌对开源AI社区做出的首个贡献了,诸如Transformers, TensorFlow, BERT, T5, JAX, AlphaFold和AlphaCode等,可以说当前AI能够有如此繁荣的开发生态,谷歌做出了不少贡献。无疑Gemma的出现,也会给AI开发生态带来新的选择。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6244

    浏览量

    110253
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296536
  • 算力
    +关注

    关注

    2

    文章

    1385

    浏览量

    16562
  • 大模型
    +关注

    关注

    2

    文章

    3440

    浏览量

    4964
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    OpenAI发布2开源模型

    OpenAI开源了两款高性能权重语言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「gpt-oss 发布了!我们做了一个开放模型
    的头像 发表于 08-06 14:25 878次阅读

    【VisionFive 2单板计算机试用体验】3、开源语言模型部署

    1、ollama平台搭建 ollama可以快速地部署开源模型,网址为https://ollama.com, 试用该平台,可以在多平台上部署 Deepseek-R1, Qwen3, Llama
    发表于 07-19 15:45

    华为正式开源盘古7B稠密和72B混合专家模型

    [中国,深圳,2025年6月30日] 今日,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720
    的头像 发表于 06-30 11:19 1107次阅读

    使用 NPU 插件对量化的 Llama 3.1 8b 模型进行推理时出现“从 __Int64 转换为无符号 int 的错误”,怎么解决?

    安装了 OpenVINO™ GenAI 2024.4。 使用以下命令量化 Llama 3.1 8B 模型: optimum-cli export openvino -m meta-llama
    发表于 06-25 07:20

    ServiceNow携手NVIDIA构建150亿参数超级助手

    Apriel Nemotron 15B 开源语言模型 (LLM) 使用 NVIDIA NeMo、NVIDIA Llama Nemotron 开放数据集以及 ServiceNow 专业
    的头像 发表于 05-12 15:37 714次阅读

    今日看点丨台积电、Intel合资运营代工业务;韩国计划向当地汽车行业注入3万亿韩元援助

    1. Meta 发布人工智能新模型系列 Llama 4 ,首次采用“混合专家”架构   当地时间周六(4月5日),美国科技巨头Meta推出了其最强大的
    发表于 04-07 11:26 590次阅读

    无法在OVMS上运行来自Meta的大型语言模型 (LLM),为什么?

    无法在 OVMS 上运行来自 Meta 的大型语言模型 (LLM),例如 LLaMa2。 从 OVMS GitHub* 存储库运行 llama
    发表于 03-05 08:07

    Meta组建四大专研小组,深入探索DeepSeek模型

    近日,据报道,脸书母公司Meta为了提升其大模型Llama的性能,专门成立了四个研究小组,深入探索量化巨头幻方量化旗下的国产大模型DeepSeek的工作原理。 据悉,
    的头像 发表于 02-05 14:02 705次阅读

    在算力魔方上本地部署Phi-4模型

    ​作者:算力魔方创始人/英特尔边缘计算创新大使 刘力 前面我们分享了《Meta重磅发布Llama 3.3 70B:开源AI模型的新里程碑》,
    的头像 发表于 01-15 11:05 781次阅读
    在算力魔方上本地部署Phi-4<b class='flag-5'>模型</b>

    NVIDIA推出开放式Llama Nemotron系列模型

    作为 NVIDIA NIM 微服务,开放式 Llama Nemotron 大语言模型和 Cosmos Nemotron 视觉语言模型可在任何
    的头像 发表于 01-09 11:11 1188次阅读

    Meta重磅发布Llama 3.3 70B:开源AI模型的新里程碑

    ​在人工智能领域,Meta的最新动作再次引起了全球的关注。今天,我们见证了Meta发布的 Llama 3.3 70B 模型,这是一个
    的头像 发表于 12-18 16:46 879次阅读
    <b class='flag-5'>Meta</b>重磅发布<b class='flag-5'>Llama</b> 3.3 <b class='flag-5'>70</b>B:<b class='flag-5'>开源</b>AI<b class='flag-5'>模型</b>的新里程碑

    Meta发布新AI模型Meta Motivo,旨在提升元宇宙体验

    Meta公司近日宣布,将推出一款名为Meta Motivo的全新人工智能模型。该模型具备控制类似人类的数字代理动作的能力,有望为元宇宙的用户体验带来显著提升。
    的头像 发表于 12-16 10:34 1349次阅读

    谷歌Meta秘密广告交易被欧洲监管机构调查

    据外媒报道;欧洲监管机构认为Meta谷歌的一个广告营销项目违反了谷歌公司制定的禁止向未成年人投放个性化广告的规则,目前已经被欧盟委员会(European Commission)官员调查。欧洲监管
    的头像 发表于 12-11 16:10 733次阅读

    Meta推出Metamate AI工具,进军企业市场

    基于Meta的大型语言模型Llama构建,集成了先进的自然语言处理技术和深度学习算法。它能够帮助员工进行编程、开展研究,以及起草内部和外部的
    的头像 发表于 12-09 14:57 1351次阅读

    Meta推出Llama 3.3 70B,AI大模型竞争白热化

    在今年的AI领域,Meta也不甘落后,推出了其压轴之作——Llama 3.3 70B大模型。与此同时,马斯克的xAI也宣布其Grok模型从今
    的头像 发表于 12-09 14:50 1015次阅读