0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌开源70亿参数大语言模型,全方位超越Meta Llama-2?

E4Life 来源:电子发烧友 作者:周凯扬 2024-02-23 00:15 次阅读

电子发烧友网报道(文/周凯扬)在Sora把AI生成领域的视线全部吸引过去的这段时间里,谷歌却依然在竭尽全力推进新的生成模型发展。除了上周发布的下一代Gemini 1.5外,谷歌也在近日推出了一系列基于Gemini打造的开源模型Gemma。

谷歌加入AI模型开源阵营,Gemma横空出世

根据谷歌的介绍,Gemma是由谷歌DeepMind以及其他团队开发,由Gemini启发并采用了相同的研究与技术的轻量级模型。与之一起发布的还有全新的响应式生成AI工具包,为利用Gemma创造更安全的AI应用提供关键工具和指导。

参数大小上来看,Gemma分为20亿参数(Gemma 2B)和70亿(Gemma 7B)参数两个版本,且每个版本又有基础版(预训练)和指令调整版两个变体。其中70亿参数的版本适合消费级的GPU和TPU开发,而20亿参数的版本可以用于CPU和端侧应用上。

在预训练数据上,Gemma 2B和7B分别采用了2T和6T的Token进行训练,数据来源是以英文为主的网络文档、数学计算和代码。需要注意的是,尽管其背后所采用的技术与Gemini类似,但这些模型并不属于多模态模型,也并不适合用于追求极致的多语言任务性能。

在训练硬件上,谷歌采用了自研的TPUv5e,其中Gemma 7B用到了4096块TPUv5e进行训练,Gemma 2B用到了512块TPUv5e进行训练。

开源LLM混战,Gemma 7B超越Llama-2 13B?

根据谷歌官方提供的数据,与Meta的Llama-2相比,Gemma 7B在多个项目上展现出了优势,比如大规模多任务语言理解(MMLU)、GSM8K和Math计算和HumanEval Python代码生成等应用上,都超过了Llama-2 7B,甚至不少超过了Llama-2 13B。

wKgaomXXHwmAORLbAAExLTvutQk859.png
开源模型文本任务性能对比 / 谷歌


谷歌表示,与同等体量的开源模型对比,比如LLaMA-2和Mistral等,18项文字相关的任务中,Gemma能够做到在11项任务中性能胜出,且平均性能得分占优。

不过Gemma也并不是完全超越了Llama-2,从Huggingface给出的平均得分来看,Gemma 7B超过了同级别的Llama 2 7B,但还是低于LLama 2 70B Chat,不过考虑到这两者之间的参数差异,也印证了Gemma 7B的强大。至于Gemma 2B,与同规格的其他优秀开源LLM相比,比如PHI-2(2.7B),也不存在优势。

作为一个轻量级的模型,Gemma也对跨设备兼容性做了优化,可以在笔记本、PC、IoT设备、智能手机和云端运行。谷歌也与英伟达达成合作,Gemma针对英伟达的GPU硬件进行了优化,无论是云端的AI GPU还是桌面端的RTX AI PC,都能享受Gemma带来的性能。

写在最后

尽管Gemma是谷歌首个大型的开源LLM,但这早已经不是谷歌对开源AI社区做出的首个贡献了,诸如Transformers, TensorFlow, BERT, T5, JAX, AlphaFold和AlphaCode等,可以说当前AI能够有如此繁荣的开发生态,谷歌做出了不少贡献。无疑Gemma的出现,也会给AI开发生态带来新的选择。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5861

    浏览量

    103266
  • AI
    AI
    +关注

    关注

    87

    文章

    26459

    浏览量

    264080
  • 算力
    +关注

    关注

    1

    文章

    659

    浏览量

    14360
  • 大模型
    +关注

    关注

    2

    文章

    1532

    浏览量

    1130
收藏 人收藏

    评论

    相关推荐

    英特尔AI产品助力其运行Meta新一代大语言模型Meta Llama 3

    英特尔丰富的AI产品——面向数据中心的至强处理器,边缘处理器及AI PC等产品为开发者提供最新的优化,助力其运行Meta新一代大语言模型Meta L
    的头像 发表于 04-28 11:16 157次阅读

    百度智能云国内首家支持Llama3全系列训练推理!

    4月18日,Meta 正式发布 Llama 3,包括8B 和 70B 参数的大模型,官方号称有史以来最强大的
    的头像 发表于 04-20 09:20 125次阅读
    百度智能云国内首家支持<b class='flag-5'>Llama</b>3全系列训练推理!

    高通支持Meta Llama 3大语言模型在骁龙旗舰平台上实现终端侧执行

    高通和Meta合作优化Meta Llama 3大语言模型,支持在未来的骁龙旗舰平台上实现终端侧执行。
    的头像 发表于 04-20 09:13 173次阅读

    Meta推出最强开源模型Llama 3 要挑战GPT

    公司这次开源Llama 3 8B与70B两款不同规模的模型,开发者可以免费使用,而Meta公司还将陆续推出一系列具备多模态、多
    的头像 发表于 04-19 17:00 465次阅读

    Meta公司的Llama2语言模型4项测试通过率低,幻觉率高

    据了解,人工智能安全企业 DeepKeep日前发表了一份评估报告。报告指出,Meta公司旗下LlamA 2大型语言模型在13个风险评估类别中的表现仅为4项合格。
    的头像 发表于 04-18 14:45 200次阅读

    LLaMA 2是什么?LLaMA 2背后的研究工作

    Meta 发布的 LLaMA 2,是新的 sota 开源大型语言模型 (LLM)。LLaMA 2
    的头像 发表于 02-21 16:00 361次阅读

    Meta发布CodeLlama70B开源模型

    Meta发布CodeLlama70B开源模型 Meta发布了开源
    的头像 发表于 01-31 10:30 967次阅读

    Meta发布开源模型Code Llama 70B

    近日,Meta宣布推出了一款新的开源模型Code Llama 70B,这是其“Code Llama
    的头像 发表于 01-31 09:24 381次阅读

    Meta推出最新版AI代码生成模型Code Llama70B

    Meta近日宣布了其最新版本的AI代码生成模型Code Llama70B,并称其为“目前最大、最优秀的模型”。这一更新标志着Meta在AI代
    的头像 发表于 01-30 18:21 867次阅读

    【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

    预训练语言模型。该模型最大的特点就是基于以较小的参数规模取得了优秀的性能,根据官网提供的信息,LLaMA
    发表于 12-22 10:18

    Meta发布一种Code Llama工具 用于生成新代码和调试人工编写工作

    Meta公司表示,Meta发布了一种名为Code Llama的工具,该工具建立在其Llama 2大型语言
    的头像 发表于 08-28 16:56 976次阅读

    Meta发布一款可以使用文本提示生成代码的大型语言模型Code Llama

    今天,Meta发布了Code Llama,一款可以使用文本提示生成代码的大型语言模型(LLM)。
    的头像 发表于 08-25 09:06 951次阅读
    <b class='flag-5'>Meta</b>发布一款可以使用文本提示生成代码的大型<b class='flag-5'>语言</b><b class='flag-5'>模型</b>Code <b class='flag-5'>Llama</b>

    关于Llama 2的一切资源,我们都帮你整理好了

    Meta 发布的 Llama 2,是新的 SOTA 开源大型语言模型(LLM)。Llama 2
    的头像 发表于 08-23 15:40 755次阅读

    IBM 计划在 watsonx 平台上提供 MetaLlama 2 模型

    IBM 企业就绪的 AI 和数据平台 watsonx 不断推出新功能。IBM 宣布,计划在 watsonx 的 AI 开发平台 watsonx.ai 上纳入 Meta 的 700 亿参数 Llama
    的头像 发表于 08-09 20:35 332次阅读

    Meta推出免费大模型Llama 2,GPT要有危机感了

    作为Meta首批合作伙伴之一,亚马逊云科技宣布客户可以通过Amazon SageMaker JumpStart来使用Meta开发的Llama 2基础模型
    的头像 发表于 07-21 16:10 964次阅读