0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

可商用多语言聊天LLM开源,性能直逼GPT-4

OSC开源社区 来源:OSC开源社区 2023-05-25 11:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

SambaNova 与 Together 两家公司合作开源了可商用的 BLOOMChat,一个 1760 亿参数的多语言聊天大语言模型 (LLM)。由 BLOOM (176B) 在助理式的对话数据集上进行指导调整,并支持多种语言的对话、问题回答和生成性答案。

根据介绍,BLOOMChat 是一个新的、开放的、多语言的聊天 LLM。SambaNova 和 Together 使用 SambaNova 独特的可重构数据流架构在 SambaNova DataScale 系统上训练了 BLOOMChat;其建立在 BigScience 组织的 BLOOM 之上,并在 OpenChatKit、Dolly 2.0 和 OASST1 的 OIG 上进行了微调。目前,BLOOM 已经是最大的多语言开放模型,在 46 种语言上进行了训练。

在针对英语、中文、法语、阿拉伯语、西班牙语、印度语这 6 种语言的评测中,GPT-4 的胜率为 54.75%,BLOOMChat 的胜率为 45.25%,稍弱于 GPT-4。但与其它 4 种主流的开源聊天 LLM 相比,BLOOMChat 在 65.92% 的时间内表现更优。且在使用 BLOOMChat 进行跨语言 NLP 任务的初步研究中,BLOOMChat 在 WMT 翻译基准中的表现要优于其他 BLOOM 变体和主流开源聊天模型。

“我们确实想指出,与我们比较的这些模型中,有些并不适合多语言环境。但由于开源社区中没有替代品,所以才有了现在的比较。我们的研究结果表明,使用正确的技术,可以在开源 LLM 之上构建以实现强大的多语言聊天功能。我们希望我们的研究结果和 BLOOMChat checkpoint 的发布能够为开源社区的持续讨论做出贡献,并激发 LLM 领域的进一步发展。”

项目团队使用定性和定量措施来评估了 BLOOMChat 的多语言聊天能力以及跨语言任务能力。共做了 3 种不同场景的实验测评,评测了英语、中文、阿拉伯语、法语、西班牙语和印度语。

实验一:人类偏好排序

旨在将 BLOOMChat 模型在多种语言中的聊天能力与现有的开源模型以及选定的封闭源模型进行比较。使用了 “OpenAssistant Conversations”附录 E 中的 22 个英文问题作为基准。首先让一些人类志愿者将这 22 个英文问题手动翻译成他们各自的母语;然后让另一组不同的志愿者,在匿名的前提下评价每个模型所给出的回答。

将 BLOOMChat 与 OpenAssistant-30B、LLaMA-Adapter-V2-65B 和 BLOOMZ (176B) 三种开源模型进行了比较:

586afb58-fa9a-11ed-90ce-dac502259ad0.png

51 名志愿者在所有模型和 6 种语言中共提交了 1158 次比较。如上图所示,BLOOMChat (65.92%) 明显优于其它几个开源模型。

与GPT-4 相比:

587f9e14-fa9a-11ed-90ce-dac502259ad0.png

实验二:模型质量评估

此实验旨在验证 BLOOMChat 生成的多种语言文本的质量。

5894d23e-fa9a-11ed-90ce-dac502259ad0.png

81.8% 的回答被归类为 “正确” 或 “可接受但有轻微缺陷”。尽管只在英语数据集上进行了微调,但 BLOOMChat 在每种语言中都获得了超过 70% 的 “正确” 或 “可接受” 评级。

实验三:WMT 翻译任务

为了初步了解模型解决跨语言 NLP 任务的能力,评估了模型在 WMT 翻译任务上的翻译能力。

58b8ddbe-fa9a-11ed-90ce-dac502259ad0.png

总体而言,BLOOMChat 在翻译任务中的表现明显优于其他 BLOOM 变体和开源聊天模型,但和 GPT-4 还有一定差距。

此外,BLOOMChat 团队也坦承了一些该模型的局限性:

BLOOMChat 有时可能会生成听起来合理但事实不正确或与主题无关的回复信息。

BLOOMChat 可能在单个回复中无意间切换语言,影响输出的连贯性和可理解性。

BLOOMChat 可能会产生重复的短语或句子,导致回复内容缺乏吸引力和有效信息。

BLOOMChat 在生成代码或解决复杂数学问题方面的性能可能会受到限制。

BLOOMChat 可能无意中生成含有不适当或有害内容的回复。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    4426

    浏览量

    46588
  • 语言模型
    +关注

    关注

    0

    文章

    575

    浏览量

    11372
  • 数据集
    +关注

    关注

    4

    文章

    1242

    浏览量

    26303
  • LLM
    LLM
    +关注

    关注

    1

    文章

    351

    浏览量

    1412

原文标题:可商用多语言聊天LLM开源,性能直逼GPT-4

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    腾讯混元翻译模型Hy-MT2正式开源

    腾讯混元于近日正式开源新一代多语言翻译模型Hy-MT2,同步上线"腾讯Hy翻译"小程序。Hy-MT2包含三个尺寸的模型——Hy-MT2-1.8B、Hy-MT2-7B
    的头像 发表于 05-25 11:02 488次阅读

    GT20L24F6Y标准点阵多国语言字库芯片:开启多语言显示新境界

    GT20L24F6Y标准点阵多国语言字库芯片:开启多语言显示新境界 在当今全球化的时代,多语言显示需求变得越来越普遍。无论是消费电子设备、工业控制界面还是公共信息展示系统,都需要支持多种语言
    的头像 发表于 04-28 15:40 149次阅读

    GT32L24F0210标准点阵多国语言字库芯片:多语言显示的理想之选

    GT32L24F0210标准点阵多国语言字库芯片:多语言显示的理想之选 在电子设备设计中,支持多国语言显示是满足全球市场需求的关键。上海高通半导体有限公司推出的GT32L24F0210标准点阵多国
    的头像 发表于 04-28 14:30 215次阅读

    GT32L24A180标准点阵中外文字库芯片:多语言显示的理想之选

    GT32L24A180标准点阵中外文字库芯片:多语言显示的理想之选 在电子设备的设计中,文字显示是一个关键的功能。无论是消费电子、工业控制还是智能终端,都需要准确、清晰地显示各种语言文字。上海高
    的头像 发表于 04-28 14:20 198次阅读

    京东多语言质量解决方案

    一、业界多语言面临的通用挑战是什么 做这个事之前,我们先看看业界做了什么。 •阿里巴巴全球化测试技术介绍 •蚂蚁全球化无线端质量解决方案 •谈谈多语言测试 总结下来,需要面临3个通用
    的头像 发表于 01-13 16:18 1227次阅读
    京东<b class='flag-5'>多语言</b>质量解决方案

    【产品介绍】Questa One Sim软件

    优势与平台支持优势行业领先的高性能多语言仿真器用于测性设计(DFT)向量验证的最快仿真器高性能、高容量的集成调试环境覆盖率加速功能,助力更快实现覆盖率收敛智能编译(SmartComp
    的头像 发表于 11-17 10:39 1546次阅读
    【产品介绍】Questa One Sim软件

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    部署热门开源模型的应用场景,框架已支持 GPT-OSS、DeepSeek、Llama 2 及 Llama 3 等主流模型的端到端部署;另一方面,框架将部署功能封装为扩展的 Python 框架;同时
    的头像 发表于 10-21 11:04 1559次阅读

    阿里巴巴国际站关键字搜索 API 实战:3 步搞定多语言适配 + 限流破局,询盘量提升 40%

    跨境电商API开发常陷合规、多语言、限流等坑。本文详解从国际合规(GDPR/CCPA)到参数优化、数据结构化及区域化搜索的全链路方案,附Python代码模板与缓存重试架构,助力提升调用成功率至99%+,精准询盘增长42%。
    的头像 发表于 10-20 14:44 2103次阅读

    速卖通全球运营利器:商品详情接口多语言 + 合规 + 物流适配技术全解析

    速卖通全球化适配是跨境成功关键!本文详解2025最新接口方案,涵盖多语言智能翻译、合规自动校验、物流精准推荐与性能优化四大模块,助力商家提升转化率30%+,降低风险,提效80%。附实操代码与新手三步走策略,适合所有想出海的卖家。
    的头像 发表于 10-16 09:30 796次阅读
    速卖通全球运营利器:商品详情接口<b class='flag-5'>多语言</b> + 合规 + 物流适配技术全解析

    Dynamo 0.4在NVIDIA Blackwell上通过PD分离将性能提升4

    近期,OpenAI 的 gpt-oss、月之暗面的 Kimi K2 等多个新的前沿开源模型相继问世,标志着大语言模型 (LLM) 创新浪潮的加速。近日发布的 Dynamo 0.4 提供
    的头像 发表于 08-22 15:59 1853次阅读
    Dynamo 0.4在NVIDIA Blackwell上通过PD分离将<b class='flag-5'>性能</b>提升<b class='flag-5'>4</b>倍

    讯飞星辰MaaS平台率先上线OpenAI最新开源模型

    8月6日凌晨,OpenAI 时隔六年再次回归开源,发布两款全新的大语言模型:gpt-oss-120b和gpt-oss-20b,性能与o
    的头像 发表于 08-13 16:43 2062次阅读

    EASY EAl Orin Nano(RK3576) whisper语音识别训练部署教程

    1Whisper简介Whisper是OpenAI开源的,识别语音识别能力已达到人类水准自动语音识别系统。Whisper作为一个通用的语音识别模型,它使用了大量的多语言和多任务的监督数据来训练,能够在
    的头像 发表于 07-25 15:21 1057次阅读
    EASY EAl Orin Nano(RK3576) whisper语音识别训练部署教程

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,帮助开发者快速利用最新 LLM 完成应用原型验证与产
    的头像 发表于 07-04 14:38 2556次阅读

    LM Studio使用NVIDIA技术加速LLM性能

    随着 AI 使用场景不断扩展(从文档摘要到定制化软件代理),开发者和技术爱好者正在寻求以更 快、更灵活的方式来运行大语言模型(LLM)。
    的头像 发表于 06-06 15:14 1564次阅读
    LM Studio使用NVIDIA技术加速<b class='flag-5'>LLM</b><b class='flag-5'>性能</b>

    GPT-5即将面市 性能远超GPT-4

    行业芯事
    电子发烧友网官方
    发布于 :2025年06月04日 13:38:23