清华等开源「工具学习基准」ToolBench，微调模型ToolLLaMA性能超越ChatGPT-电子发烧友网

【导读】工具学习的开源时代来了！

人类具有创造和利用工具的能力，使得我们可以突破身体的限制，探索更广阔的世界。

人工智能基础模型也类似，如果仅靠训练阶段得到的权重，使用场景就会非常受限，而最近提出的工具学习（tool learning），将特定领域的专用工具与大规模基础模型相结合，可以实现更高的效率、性能。

不过目前工具学习的相关研究还不够深入，也缺乏相关的开源数据和代码。

最近，清华大学自然语言处理实验室等支持的开源社区OpenBMB （Open Lab for Big Model Base）发布了ToolBench项目，可以帮助开发者构建开源、大规模、高质量的指令调优数据，促进构建具有通用工具使用能力的大型语言模型。

仓库链接：https://github.com/OpenBMB/ToolBench

ToolBench仓库中提供了相关数据集、训练和评估脚本，以及在ToolBench上微调的功能模型ToolLLaMA，具体特点为：

1. 支持单工具和多工具方案

其中单工具设置遵循LangChain提示风格，多工具设置遵循AutoGPT的提示风格。

2. 模型回复不仅包括最终答案，还包含模型的思维链过程、工具执行和工具执行结果

3. 支持真实世界级别的复杂性，支持多步工具调用

4. 丰富的API，可用于现实世界中的场景，如天气信息、搜索、股票更新和PowerPoint自动化

5. 所有的数据都是由OpenAI API自动生成并由开发团队进行过滤，数据的创建过程很容易扩展

不过需要注意的是，目前发布的数据还不是最终版本，研究人员仍然在对数据进行后处理来提高数据质量，并增加真实世界工具的覆盖范围。

ToolBench

ToolBench的总体思路是基于BMTools，在有监督数据中训练大型语言模型。

仓库中包含31.2万次真实API调用得到的9800条数据，涵盖单工具场景和多工具场景，下面是单工具的统计信息。

其中每行数据都是一个json dict，包含数据创建的提示模板、工具使用的人工指令（查询）、中间思维/工具执行循环和最终答案。

模型实验

机器评估：研究人员对每个工具随机抽取100个链步（chain steps）来构建机器评估测试平台，平均27个最终步骤和73个中间工具调用步骤，其中最终步骤的评估使用Rouge-L指标，中间步骤的评估使用ExactMatch指标进行评估。

人工评估：在天气、地图、股票、翻译、化学和WolframAlpha工具中随机抽取10个query，然后评估工具调用过程的通过率、最终答案以及和ChatGPT最终答案的比较。

ChatGPT评估：通过ChatGPT对LLaMA和ChatGPT的答案和工具使用链进行自动评估。

评估结果如下（分数越高越好），可以看到ToolLLaMA在不同场景下与ChatGPT的性能相同或更好。

工具学习

在清华大学、人民大学、北京邮电大学等个国内外知名高校和大学联合发布的一篇论文中，对工具学习进行了系统的研究，介绍了工具学习的背景，包括认知起源、基础模型的范式转变，以及工具和模型的互补作用。

论文链接：https://arxiv.org/pdf/2304.08354.pdf

文中还回顾了现有的工具学习研究，包括工具增强型和工具导向型学习，并制定了一个通用的工具学习框架：从理解用户指令开始，模型应该学会把一个复杂的任务分解成几个子任务，通过推理动态地调整计划，并通过选择合适的工具有效地征服每个子任务。

文中还讨论了如何训练模型以提高工具使用能力并促进工具学习的普及。

考虑到之前的工作中缺乏系统的工具学习评估，研究人员用17种有代表性的工具进行了实验，并展示了当前基础模型在熟练利用工具方面的潜力。

论文最后讨论了几个需要进一步研究的工具学习的开放性问题，例如确保安全和可信赖的工具使用、用基础模型实现工具创建，以及解决个性化的难题。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1776

文章
43845

浏览量
230605
模型

模型

+关注

关注
1

文章
2704

浏览量
47687
自然语言处理

自然语言处理

+关注

关注
1

文章
509

浏览量
13101

原文标题：清华等开源「工具学习基准」ToolBench，微调模型ToolLLaMA性能超越ChatGPT

文章出处：【微信号：AI智胜未来，微信公众号：AI智胜未来】欢迎添加关注！文章转载请注明出处。

ChatGPT等大模型的发展，对GPGPU有怎样的性能要求？

电子发烧友网报道（文/李弯弯）最近，在ChatGPT火了之后，国内互联网科技圈不时传出计划或者正在研究类ChatGPT大模型的消息。然而在相关技术真正面世之前，近日，OpenAI又放

发表于 03-07 09:15 •1768次阅读

科技大厂竞逐AIGC，中国的ChatGPT在哪？

。亚马逊成立了一个小型工作组，拓展ChatGPT等AI工具对企业的工作职能…… ChatGPT火爆，搜索引擎巨头百度率先坐不住了。就在谷歌官宣Bard内测的当天下午，百度官宣了大

发表于 03-03 14:28

不到1分钟开发一个GPT应用！各路大神疯狂整活，网友：ChatGPT就是新iPhone

这个说法并不准确。尽管ChatGPT等语言模型已经在一定程度上改变了我们获取信息、学习知识的方式，但它们并不能替代人类进行创造性思考和创造性活动。虽然一些人可能会利用

发表于 11-19 12:06

清华大学发布首个开源自动图学工具包

如何应用自动机器学习（AutoML）加速图机器学习任务的处理？清华大学发布全球首个开源自动图学习工具

发表于 12-22 16:32 •1476次阅读

看海泰方圆类ChatGPT技术模型！

撰写邮件、视频脚本、文案、翻译、代码等任务，有望成为提高办公、学习效率的工具，应用场景广阔。 ChatGPT：“杀手级”AI应用的出圈 ChatGPT是一个“万事通”：基于GPT

发表于 02-10 10:38 •512次阅读

超越GPT 3.5的小型语言模型案例概述

ChatGPT 是在 GPT-3.5 系列模型的基础上微调而来的，我们看到很多研究也在紧随其后紧追慢赶，但是，与 ChatGPT 相比，他们的新研究效果到底有多好？

发表于 02-27 11:44 •702次阅读

ChatGPT开源项目汇总表格

CarperAI 是EleutherAI研究小组的一个新实验室，其任务是“通过强化学习提高大型语言模型 (LLM) 的性能和安全性。” CarperAI 开源了 Transformer

发表于 03-22 14:11 •1468次阅读

低成本开源聊天机器人Vicuna：可达到ChatGPT/Bard 90%以上水平

根据介绍，通过根据从 ShareGPT.com (一个用户可以分享他们的 ChatGPT 对话的网站) 收集的用户共享对话微调 LLaMA 基础模型，Vicuna-13B 与 Stanford Alpaca 等其他

发表于 04-06 11:09 •2311次阅读

微软开源“傻瓜式”类ChatGPT模型训练工具

DeepSpeed-RLHF 模块：DeepSpeed-RLHF 复刻了 InstructGPT 论文中的训练模式，并确保包括 a) 监督微调（SFT），b) 奖励模型微调和 c) 基于人类反馈

发表于 04-14 09:36 •820次阅读

支持 ChatGPT 的机器学习模型的概况

本文介绍了支持 ChatGPT 的机器学习模型的概况，文章将从大型语言模型的介绍开始，深入探讨用来训练 GPT-3 的革命性自我注意机制，然后深入研究由人类反馈的强化

发表于 05-26 11:44 •580次阅读

iPhone都能微调大模型了嘛

自动测试分数达到 ChatGPT的99.3%，人类难以分辨两者的回答…… 这是开源大模型最新成果，来自羊驼家族的又一重磅成员——华盛顿大学原驼（ Guanaco ）。更关键

发表于 06-02 15:26 •459次阅读

如何将ChatGPT的能力蒸馏到另一个大模型

如何将ChatGPT的能力蒸馏到另一个大模型，是当前许多大模型研发的研发范式。当前许多模型都是采用chatgpt来生成

发表于 06-12 15:06 •570次阅读

ChatGPT：人工智能的交互式对话伙伴

ChatGPT作为智能对话生成模型，可以帮助打造智能客服体验的重要工具。以下是一些方法和步骤： 1.数据收集和准备：收集和整理与客服相关的数据，包括常见问题、回答示例、客户对话记录等。这将用于训练

发表于 08-06 16:02 •350次阅读

OpenAI开放大模型微调功能　GPT-3.5可以打造专属ChatGPT

OpenAI开放大模型微调功能 GPT-3.5可以打造专属ChatGPT OpenAI开放大模型微调功能，这意味着GPT-3.5 Turbo

发表于 08-23 19:34 •772次阅读

最佳开源模型刷新多项SOTA，首次超越Mixtral Instruct！「开源版GPT-4」家族迎来大爆发

Mixtral 8x7B模型开源后，AI社区再次迎来一大波微调实践。来自Nous Research应用研究小组团队微调出新一代大模型Nous

发表于 01-30 15:29 •530次阅读