0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ChatGPT、Gemini、通义千问等一众大语言模型,哪家更适合您?

话说科技 来源:话说科技 作者:话说科技 2024-05-14 17:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群


随着人工智能技术的飞速发展,大语言模型(Large Language Models, LLMs)在各行各业的应用日益广泛,尤其是在软件开发、数据分析、客户服务等领域。蘑菇云创客空间[445期开放夜]就以“ChatGPT、Gemini、通义千问等一众大语言模型,哪家更适合您”这样的主题,开展了一次深度的大语言模型的测评。开放夜现场测评了十几个国内外大语言模型,测评角度从逻辑、数学、翻译、伦理等方面,深入探讨和体验了这些大语言模型的实际效能。

测评的大语言模型:

1.Kimi 智能助手:由月之暗面科技有限公司开发的先进AI

2.智谱清言:由智言科技开发的大语言模型,以深度学习和自然语言处理技术见长。

3.讯飞星火:科大讯飞推出的创新语言模型。

4.文心一言:百度的前沿语言模型,致力于理解和生成自然语言。

5.豆包:专注于提供个性化的智能对话服务。

6.通义千问:以广泛的知识库和灵活的对话能力著称。

7.海螺AI:新兴的语言模型,擅长处理复杂的语言任务。

8.腾讯混元助手:腾讯推出的多功能AI助手。

9.Sider: 是由日本公司Sider开发的大语言模型。

10.ChatGPT:由OpenAI开发,国际上广受认可的更大规模、功能更全面的语言模型。

11.Claude:Anthropic开发的先进语言模型,注重安全性和可靠性。

12.groq:以其专为AI设计的硬件加速器而闻名。

13.Gemini: OpenAI 开发的较小规模的语言模型,旨在提供更高效的计算和资源利用。

14.Mixtral:开源人工智能初创公司 MistralAI开发的超越GPT-3.5的AI模型

测评问题一: 鸡兔同笼的数学问题

鸡兔同笼是一个经典的数学问题,通过观察鸡兔的头和脚的数量关系,可以利用代数方程来解决问题,从而确定笼子里鸡和兔子的数量。这个问题常常展示了代数方程组的应用。

针对鸡兔同笼的问题,除了Gemini Pro没有得出正确的结果,其余的大语言模型都可以给出正确结果。

测评问题二:翻译(诗句中翻英)

诗人马致远的诗句“断肠人在天涯”,描写了“夕阳向西缓缓落下,只有孤独的旅人漂泊在遥远的地方。”诗句的翻译涉及到文化差异和诗人独特情感。Mixtral 的语言模型正确的解释了诗句本身的含义,帮助翻译者很好地理解这句诗句。 Claude的语言模型对于诗句的本身理解是不正确的。

这句诗翻译家许渊冲翻译为“Far, far from home is the heartbroken one.”由此可见,大语言模型可以帮助翻译者分析这句诗基本的意思,但是涉及文化层面的深层含义,还是做不到意译的。

开放夜也探讨了如下涉及生活、工作的一些问题,比如:

过年福字要倒着贴,那为什么不直接生产倒过来的福字呢?

收到公司的裁员通知邮件,你应该怎么回复邮件来保住工作?

一个乌龟掉进了井里,井里有30米深。乌龟白天爬3米,晚上滑下2米。问这只乌龟需要多长时间才能爬出井口?

DFRobot AIGC小组主理人夏青在开放夜的现场测评了十几个国内外大语言模型,通过多维度问题的测评,他认为:对于处理综合性问题,OpenAI的ChatGPT 4.0逻辑清楚,能提供非常有用的信息。尽管在回答一些较为复杂的问题上略显不足,但在大多数场合下,其性能仍然令人满意。然而,ChatGPT 4.0在国内的使用成本是一个不容忽视的问题,不仅涉及订阅费用,也包括使用的技术门槛。

与此同时,Gemini和Claude等海外语言模型,尽管在遵循指令方面略显不足,但已达到了实用水平。令人惊喜的是,国内的Qwen1.5 72b开源模型在中文理解和特定任务,几乎能与ChatGPT4.0匹敌此外,其他开源模型如Mixtral和新发布的LLaMA3虽在逻辑性上略逊于商业模型如ChatGPT,但总体表现已超越了ChatGPT 3.5。

综合分析来看,尽管ChatGPT 4.0仍然是目前市场上最优秀的大语言模型,但不可忽视的是,无论是国际市场还是国内市场,其他厂商的模型均显示出迅速的进步。开源模型的崛起也证明了开源社区在AI时代的巨大潜力。当前的大语言模型在处理理性问题方面表现一致,但通常无法提供情绪价值回应。例如,一些国内模型如“豆包”将展现其在情绪回应方面的潜力。这种能力的发展可能为未来陪伴型机器人的商业模型提供新的方向。

蘑菇云创客空间

蘑菇云创客空间是上海浦东的一家创客空间,是科技部授牌的首批国家级创客空间,由浦软孵化器提供场地支持、上海智位机器人提供硬件及技术支持的一家为创客服务的开放式创客空间。拥有独立的加工室、公共协作区域以及储物、耗材商店,为硬件爱好者、程序员、设计师、DIY 发烧友等各类创客,甚至包括进行创新研发的科创团队提供一个开放式的社区化会员空间。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Gemini
    +关注

    关注

    0

    文章

    84

    浏览量

    8193
  • 语言模型
    +关注

    关注

    0

    文章

    575

    浏览量

    11372
  • ChatGPT
    +关注

    关注

    31

    文章

    1609

    浏览量

    10436
  • 通义千问
    +关注

    关注

    1

    文章

    44

    浏览量

    649
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    阿里巴巴正式发布全新旗舰模型Qwen3.7-Max

    、DeepSeek-v4-pro、GLM-5.1国产对手,与GPT、Claude、Gemini国际最强
    的头像 发表于 05-21 09:10 719次阅读

    利尔达携手通义亮相深圳文博会,以AI方案赋能智慧生活

    2026年5月21日—25日,第二十二届中国(深圳)国际文化产业博览交易会将在深圳国际会展中心盛大举行。利尔达将在16号馆·文化科技馆·阿里通义展区集中展示旗下基于通义
    的头像 发表于 05-14 17:36 342次阅读
    利尔达携手<b class='flag-5'>通义</b><b class='flag-5'>千</b><b class='flag-5'>问</b>亮相深圳文博会,以AI方案赋能智慧生活

    天数智芯完成阿里云通义Qwen3.5系列多模态模型全量适配

    近日,天数智芯携手众智FlagOS 社区完成阿里云通义 Qwen3.5 系列多模态模型全量适配,实现模型精度精准对齐与端到端无缝部署,再
    的头像 发表于 03-26 09:25 2428次阅读

    基于NVIDIA GPU加速端点使用3.5 VLM开发原生多模态智能体

    阿里巴巴推出了全新开源 3.5 系列,专为构建原生多模态智能体而设计。该系列的首个模型款总参数为 397B、具备推理能力的原生视觉语言
    的头像 发表于 03-04 16:37 1304次阅读

    沐曦股份曦云C系列GPU全面适配通义Qwen3.5三款新模型

    今日,通义团队正式开源发布Qwen3.5系列中等规模模型,推出包括Qwen3.5-35B-A3B、Qwen3.5-122B-A10B、Qwen3.5-27B三个版本。沐曦股份旗下曦
    的头像 发表于 02-28 10:05 852次阅读
    沐曦股份曦云C系列GPU全面适配<b class='flag-5'>通义</b><b class='flag-5'>千</b><b class='flag-5'>问</b>Qwen3.5三款新<b class='flag-5'>模型</b>

    阿里巴巴开源全新代大模型Qwen3.5-Plus

    3.5实现了底层模型架构的全面革新,此次发布的Qwen3.5-Plus版本总参数为3970亿,激活仅170亿,以小胜大,性能超过万亿参数的Qwen3-Max模型,部署显存占用降低6
    的头像 发表于 02-26 15:40 1440次阅读
    阿里巴巴开源全新<b class='flag-5'>一</b>代大<b class='flag-5'>模型</b><b class='flag-5'>千</b><b class='flag-5'>问</b>Qwen3.5-Plus

    沐曦股份曦云C系列GPU深度适配通义Qwen3.5模型

    今天,通义今天正式发布 Qwen3.5,并推出Qwen3.5系列的第模型 Qwen3.5-397B-A17B 的开放权重版本。沐曦股
    的头像 发表于 02-26 14:26 945次阅读
    沐曦股份曦云C系列GPU深度适配<b class='flag-5'>通义</b><b class='flag-5'>千</b><b class='flag-5'>问</b>Qwen3.5<b class='flag-5'>模型</b>

    Gemini CLI 中转站配置使用教程

    gemini-cli gemini > 给我个昨天所有更改的摘要 ? 主要功能 代码理解与生成 查询和编辑大型代码库 使用多模态能力从 PDF、图片或草图生成新应用 使用自然语言
    发表于 02-10 17:29

    阿里巴巴发布通义旗舰推理模型Qwen3-Max-Thinking

    今天,我们正式发布旗舰推理模型Qwen3-Max-Thinking,创下数项权威评测全球新纪录。
    的头像 发表于 01-27 15:47 787次阅读
    阿里巴巴发布<b class='flag-5'>通义</b><b class='flag-5'>千</b><b class='flag-5'>问</b>旗舰推理<b class='flag-5'>模型</b>Qwen3-Max-Thinking

    谷歌正式推出Gemini 3 Flash模型

    我们正式推出了 Gemini 3 Flash,这是以较低成本打造的高效前沿智能,成功地进步扩展了 Gemini 3 模型系列。
    的头像 发表于 01-22 16:04 838次阅读

    APP与通义系列大模型,才是智能汽车的“黄金组合”

    座舱的正确打开方式;单点智能撬动的价值有限,完整的场景化体验是用户的最终选择。 在这种市场趋势下,阿里巴巴APP与通义系列大模型,具备成为智能汽车“黄金组合”的潜质。 从
    的头像 发表于 12-30 17:25 756次阅读

    阿里通义发布小尺寸模型Qwen3-4B,手机也能跑

    电子发烧友网综合报道 8月7日,阿里通义宣布发布更小尺寸新模型——Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507。目前新
    的头像 发表于 08-12 17:15 7142次阅读
    阿里<b class='flag-5'>通义</b><b class='flag-5'>千</b><b class='flag-5'>问</b>发布小尺寸<b class='flag-5'>模型</b>Qwen3-4B,手机也能跑

    AI大模型加速上车,联手高通,阿里有哪些策略?

    系列模型衍生数量超Llama,三大方向形成 阿里巴巴的“AI大模型通义模型最初于202
    的头像 发表于 07-03 01:10 9376次阅读
    AI大<b class='flag-5'>模型</b>加速上车,联手高通,阿里有哪些策略?

    广和通加速通义Qwen3在端侧全面落地

    6月,广和通宣布:率先完成通义Qwen3系列混合推理模型在高通QCS8550平台端侧的适配部署。广和通通过定制化混合精度量化方案与创新硬件加速算法,成功突破Qwen3新型架构在边缘
    的头像 发表于 06-25 15:35 1469次阅读

    比亚迪座舱接入通义模型,未来将联合打造更多AI智能座舱场景

    高质量壁纸,随时间自动调节光影与色调,打造行业首创的个性化车载体验;基于通义星尘,上线“心理伴聊”场景,结合智能语音对话系统,为车主提供情感陪伴、心理疗愈,打造“温暖”座舱;在营销服务领域,比亚迪基于阿里云百炼调用通义
    的头像 发表于 06-12 08:52 773次阅读