0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

不同版本的大模型都有哪些优势?

你好张江 来源:你好张江 2023-09-19 10:28 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

从去年ChatGPT重磅发布到今年的“百模大战”,大模型赛道可谓热闹非凡。

今年8月31日,国内首批8家大模型公司通过《生成式人工智能服务管理暂行办法》备案,获批面向公众开放服务,这些大模型包括上海人工智能实验室的书生通用大模型、商汤科技“商量”,以及百度“文心一言”等。

ChatGPT从源头来看是自然语言理解、自然语言处理两个技术,之所以引起关注,在于它是一个大模型,对应大数据、强计算、好算法。有人说,原理是这么个原理,就像踢足球都是盘带、射门,但是做到梅西那么好也不容易。

今天,就让我们来看看,赶上大模型这个风口的“张江版大模型”都有哪些?各自的优势又有何不同?

达观数据:“曹植”大语言模型

3月,基于多年文本智能技术积累和垂直领域场景业务经验,达观数据研发团队积极探索大语言模型(LLM)的实践,研发国产版GPT模型——“曹植”大语言模型。

7月,在 2023 世界人工智能大会上,达观数据正式发布了名为“曹植”的大模型。这是国内首个垂直行业专用的自主可控的国产GPT大语言模型,可准确完成多类型、复杂结构的长文本写作,自动起草多种类型的文档,未来将实现多模态内容生成,如长文档中的表格、图表、图片等。

作为垂直、专用、自主可控的国产版ChatGPT模型,“曹植”是如何诞生的?

达观数据成立于2015年,一直在NLP(自然语言处理)领域深耕,积累了大量金融、政务、制造等垂直领域的大量数据。2017年,谷歌在发表的论文中提出NLP关于“理解”和“生成”的两个技术路线。基于达观数据当时的优势资源和未来发展,他们从一开始就选择了“理解”这条技术路线。这一年,运用知识图谱、文字识别等技术开发的IDP智能文档审阅系统进入市场。

随着人工智能的不断发展,机器智能处理长文本的需求日益紧迫。随后,达观数据便投入到大语言模型的开发工作中,而这正是如今的“曹植”大模型诞生的起点。

“长文本”是“曹植”大模型的目标任务。区别于一问一答的简单短文本生成,“曹植”大模型可准确完成多类型、复杂结构的长文本写作。

以金融信贷报告为例,银行的金融信贷报告经常以40页起步,60多页的报告也是家常便饭,靠员工“埋头苦干”效率太低,而大模型就会自动起草多种类型的文档,同时具有自动排版、智能纠错、文本润色、自动生成摘要等特色功能;支持中文、英文、法语、德语、日语、韩语等数十种语言的写作,辅助人工大幅提高办公效率;在长文档翻译方面,对原文的标题、段落等内容实现1:1版式还原,提供实时的翻译体验,广泛应用于多语言文档密集处理的场景。“未来员工需要做的就是写提示词、写大纲、核实数字,剩下的都能交给大模型来完成。”达观数据创始人兼CEO陈运文表示。

这也是国内大规模语言模型中首批可落地的产业应用级模型,目前除了在金融领域应用之外,“曹植”还掌握了撰写白皮书、技术报告以及品牌故事的智能协作本领。

与此同时,为促使“曹植”大模型在各垂直领域中可以更低成本高效能地落地与应用,达观数据正式推出私有化大模型一体机。私有化“曹植”大模型一体机,内置达观数据全栈自主研发的“曹植”大模型,支持三方开源模型库,可在企业内部一键部署大模型应用,能同时为多种垂直大模型业务提供文档智能审阅、智能知识管理、知识搜索与问答、文档智能写作、智能推荐等智能化服务,支持和具备安全便捷的AI训练、推理、长文档写作、机器翻译、语义分析审核、知识问答、text-to-sql等场景功能应用。“曹植 ”的强大功能让它甫一出世就大获好评。

云从科技:从容大模型

5月18日,由云从科技研发的从容大模型正式亮相,展现了在智能问答、城市管理、智能制造、智慧金融、游戏文创等领域的超级本领。云从科技董事长兼总经理周曦指出,从容大模型将以问答、伴随、托管三种递进的形式颠覆传统交互方式。其中,“问答”即类似于当前的GPT;“伴随”指AI会像一个朋友伴随你执行很多事情;“托管”则意味着一件事主要交给AI来做,类似在网游中的‘挂机训练’。能走到托管这一步,人就可以‘解放’出来,做更多有意义、有兴趣的事。”。

从算法、算力、数据这三个大模型重要维度看,云从科技的先天优势帮助其建立了技术门槛。

算法上,云从科技从2020年开始就已经陆续在NLP(自然语言处理)、OCR(光学字符识别)、机器视觉、语音等多个领域开展预训练大模型的实践,不仅进一步提升了公司各项核心算法的性能效果,同时也大幅提升了公司的算法生产效率,已经在城市治理、金融、智能制造等行业应用中体现价值。

算力上,云从科技拥有强大的算力资源储备,预计未来将扩展到上万张卡的规模,并计划联合各行头部企业打造不同的行业大模型,推动行业数智化建设。

数据上,云从科技有行业专业数据的先发优势。行业大模型需要的是专业领域的知识,如果不是一直耕耘的行业资深选手,基本很难有相关的数据积累。云从科技恰恰拥有这方面的稀缺优势,其多年来在多个领域实践“预训练大模型+下游任务迁移”的技术范式,产出多个百亿参数以内规模的模型。历经长期与各垂直领域企业的紧密合作,云从通过大量场景数据训练不断优化算法平台,培育出针对不同行业特有的数据分析和应用能力。

8月21日,云从发布从容大模型1.5版本,该版本包含十亿级、百亿级、千亿级多种模型规格,实测性能在全球大模型综合性考试评测(C-Eval)中位居百亿级第1,总榜单第4。为解决大模型落地难题,从容1.5版本的重点是参数量为130亿的行业大模型,该模型从千亿大模型中蒸馏产生,在52类测试指标中有44类超过ChatGPT、29类超过GPT-4,这距离从容大模型正式发布仅过去3个月,可谓是进步神速。

百度:文心一言

8月31日,百度生成式人工智能产品“文心一言”正式向公众开放服务,这也意味着该应用已通过《生成式人工智能服务管理暂行办法》备案,成为国内首个合规上线的生成式人工智能产品。

据悉,百度还将开放一批经过全新重构的AI原生应用,让用户充分体验生成式AI的理解、生成、逻辑、记忆四大核心能力。

文心一言在今年3月16日上线测试,随即引发广泛关注,截至5月,有超过300家生态伙伴参与内测,在400多个企业内部场景取得测试成效。8月31日开放当天,百度的一系列AI原生应用也“闪电”上线,并取得不错的战绩:

百度文心一言首日回答用户3342万问题,“文心一言App”迅速登上Apple store免费应用排行榜榜首,首日用户量破百万;文心一言开放首日,百度搜索就有超3亿次需求由生成式智能引擎解决,百度搜索“AI伙伴”当日访问用户数突破400万;百度文库“AI做PPT”等文档创作功能超200万人次体验。这距离5月百度万象大会上“用AI原生思维重构百度移动生态”的表态,才过去不过百余天,大模型时代的技术进展可以说是日新月异。

实际上,从多年前的“All in AI”开始,百度就开始了在AI领域的全栈布局。近十年,百度累计研发投入超1400亿元,2022年百度核心研发费用214.16亿元,占百度核心收入比例达到22.4%。压强式研发投入让百度实现厚积薄发,成为全球为数不多的、有着应用、模型、框架、芯片四层全栈布局的AI公司,实现端到端优化,并在各个层面都有行业领先的关键自研技术。

文心一言的基础模型文心大模型早在2019年就在国内率先发布,近期升级的文心大模型3.5也持续在十余个国内外权威测评中位居首位。百度透露,文心大模型4.0预计将在年底推出。

编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49742

    浏览量

    261575
  • ChatGPT
    +关注

    关注

    31

    文章

    1596

    浏览量

    10074
  • 文心一言
    +关注

    关注

    0

    文章

    134

    浏览量

    2093
  • 大模型
    +关注

    关注

    2

    文章

    3442

    浏览量

    4970

原文标题:都有谁站在了大模型的风口上?

文章出处:【微信号:zjpark,微信公众号:你好张江】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    CW32L0系列都有哪些应用场景?有哪些优势

    目前芯源的低功耗MCU比较火爆,就是CW32L0系列都有哪些应用场景?有哪些优势
    发表于 11-14 06:03

    LoRa通讯的优势都有哪些?

    LoRa是一种低功耗、远距离的无线通信技术,主要频段是433MHz,其优势在于以下几方面: LoRa通信技术作为低功耗广域网(LPWAN)的核心技术之一,在物联网领域具有以下显著优势: 一、超远距离
    的头像 发表于 08-04 08:45 693次阅读
    LoRa通讯的<b class='flag-5'>优势</b><b class='flag-5'>都有</b>哪些?

    2.0.0版本的ST Edge AI Core在linux平台上可以把量化后的onnx模型转换为.nb,但是运行报错,缺少文件,为什么?

    2.0.0版本的ST Edge AI Core工具在linux平台上应该是可以把量化后的onnx模型转换为.nb,但是运行报错,缺少文件。
    发表于 06-17 06:29

    蔚来世界模型NWM首个版本正式推送

    近日,「蔚来世界模型 NWM」首个版本正式开启推送。首批推送车型为超过40万台的「Banyan 榕」车型。「Cedar 雪松」车型,包括ET9、新ES6、新EC6、新ET5、新ET5T在内,将会于6月底开启推送。
    的头像 发表于 06-04 15:13 702次阅读

    FA模型访问Stage模型DataShareExtensionAbility说明

    DataShareExtensionAbility提供数据库的读写服务。 服务端由FA模型升级到Stage模型后,会导致FA模型的客户端在API 9(含)之后的版本上无法访问服务端。
    发表于 06-04 07:53

    KaihongOS操作系统FA模型与Stage模型介绍

    KaihongOS中提供了不同的开发方式和架构选择,Stage模型因其在分布式应用开发中的优势而被推荐使用。 说明:KaihongOS文档中心中应用开发(开发准备、快速入门、进阶提高模块中的示例代码均基于Stage模型。)
    发表于 04-24 07:27

    摩尔线程GPU成功适配Deepseek-V3-0324大模型

    近日,DeepSeek正式发布了其大语言模型的全新小版本迭代——DeepSeek-V3-0324,这一版本在推理能力、代码生成、中文写作以及搜索能力等多个维度实现了显著提升。凭借其先进的MUSA
    的头像 发表于 03-31 11:34 1104次阅读
    摩尔线程GPU成功适配Deepseek-V3-0324大<b class='flag-5'>模型</b>

    AD8313没有模型,仿真不了怎么解决?

    AD8313没有模型,在multisim上仿真不了,请提供支援,或者提供一个更新的版本也可以。
    发表于 03-24 06:38

    利用RAKsmart服务器托管AI模型训练的优势

    AI模型训练需要强大的计算资源、高效的存储和稳定的网络支持,这对服务器的性能提出了较高要求。而RAKsmart服务器凭借其核心优势,成为托管AI模型训练的理想选择。下面,AI部落小编为您具体分享。
    的头像 发表于 03-18 10:08 525次阅读

    中星微芯片+大模型赋能行业应用的独特优势

    日前,中星微技术(以下简称“中星微”)在“XPU芯片+大模型”双引擎的驱动下,在智慧园区、公共安全视频感知、交通综合治理等领域布署‌或升级创新应用,分别推出“智慧园区AI助手” “SVAC全栈视频AI运维一体机” “AI交通综合治理助手”产品,彰显了中星微“芯片+大模型
    的头像 发表于 03-12 11:24 1031次阅读

    重锤料位计都有哪些优势

    料位计
    jzyb
    发布于 :2025年01月23日 18:25:46

    【「大模型启示录」阅读体验】营销领域大模型的应用

    效地制定针对不同客户群体的营销策略,提高营销活动的针对性和有效性。 大模型在内容生成方面也具有显著优势。它可以快速、高效地生成高质量的营销文案、广告语、海报、视频等营销素材。这种能力不仅提高了营销内容的制作效率,还增加了内容的创意和多样性,有助于吸引更多消费者的关注和兴趣
    发表于 12-24 12:48

    图森未来发布“Ruyi”视频大模型,Ruyi-Mini-7B版本现已开源

    重大献礼。 尤为值得一提的是,图森未来已经将Ruyi的Mini-7B版本正式开源,用户现在可以通过huggingface平台轻松下载并使用这一强大的工具。这一举措无疑将极大地推动视频大模型在更广泛领域的应用和发展。 “Ruyi”模型
    的头像 发表于 12-20 15:19 1673次阅读

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    的是百度的Picodet模型,它是一种基于深度卷积网络(DNN)的轻量级目标检测模型,具有非常高的检测精度,可以在低算力设备进行实时的端到端推理检测。 2.1 Picodet模型介绍 目标检测在各个领域
    发表于 12-19 14:33

    【「大模型启示录」阅读体验】如何在客服领域应用大模型

    地选择适合的模型。不同的模型具有不同的特点和优势。在客服领域,常用的模型包括循环神经网络(RNN)、长短时记忆网络(LSTM)、门控循环单元(GRU)、Transformer等,以及基
    发表于 12-17 16:53