0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一个问题区分人类和AI!「丐版」图灵测试,难住所有大模型

OpenCV学堂 来源:新智元 2023-06-06 15:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

【导读】研究人员设计了一系列的测试,目的是防止大模型伪装成为人类。

一个「终极丐版」的「图灵测试」,让所有大语言模型都难住了。

人类却可以毫不费力地通过测试。

大写字母测试

研究人员用了一个非常简单的办法。

把真正的问题混到一些杂乱无章的大写字母写成的单词中提给大语言模型。

大语言模型没有办法有效地识别提出的真正问题。

而人类能轻易地把「大写字母」单词剔除问题,识别出藏在混乱的大写字母中的真正问题,做出回答,从而通过测试。

图中的问题本身非常简单:is water wet or dry?

15d6a458-042d-11ee-90ce-dac502259ad0.png

人类直接回答一个wet就完事了。

而ChatGPT却没有办法剔除那些大写字母的干扰来回答问题。

于是就把很多没有意义的单词也混入了问题中,使得回答也非常冗长且没有意义。

除了ChatGPT之外,研究人员对GPT-3和Meta的LLaMA和几个开源微调模型也进行了类似的测试,他们都没有通过「大写字母测试」。

测试背后的原理其实很简单:人工智能算法通常以不区分大小写的方式处理文本数据。

所以,当一个大写字母意外地放在一个句子中时,它会导致混乱。

AI 不知道是将其视为专有名词、错误,还是干脆忽略它。

利用这一点,就能很容易地将我们正在交谈的对象中真人和聊天机器人区分出来。

如何更加科学地把AI揪出来?

为了应对未来可能大量出现的利用聊天机器人进行的诈骗等严重的不法活动。

除了上边提到的大写字母测试,研究人员们尝试找到一个在网络环境中更加高效地区分人类和聊天机器人的方法。

15fd1aac-042d-11ee-90ce-dac502259ad0.png



论文:https://arxiv.org/pdf/2305.06424.pdf

研究者针对大语言模型的弱点重点设计。

为了让大语言模型没法通过测试,抓住AI的「七寸」一顿爆锤。

锤出了以下几个测试方法。

1608e972-042d-11ee-90ce-dac502259ad0.png

只要是大模型不擅长回答的问题,就疯狂针对。

计数

首先是计数,知道大模型数数不行。

1619e4a2-042d-11ee-90ce-dac502259ad0.png

果然3个字母都能数错。

文字替换

然后是文字替换,几个字母相互替换,让大模型拼出一个新的单词。

AI纠结了半天,输出的结果还是错的。

16268dd8-042d-11ee-90ce-dac502259ad0.png

位置替换

这也不是ChatGPT的强项。

对于小学生都能准确完成的字母筛选聊天机器人也没法完成。

162ead4c-042d-11ee-90ce-dac502259ad0.png

问题:请输出第二「S」之后的第4个字母,正确答案为「c」

随机编辑

对于人类来说完成几乎不费任何力气,AI依然无法通过。

1636ef0c-042d-11ee-90ce-dac502259ad0.png

噪音植入

这也就是我们开头提到的「大写字母测试」了。

通过在问题中添加各种噪音(比如无关的大写字母单词),聊天机器人没有办法准确的识别问题,于是就无法通过测试。

164364f8-042d-11ee-90ce-dac502259ad0.png

16562ed0-042d-11ee-90ce-dac502259ad0.png

而对于人类来说,要在这些杂乱的大写字母中看出真正的问题,难度实在是不值一提。

符号文字

又是一项对于人类来说几乎没有任何挑战的任务。

16617c86-042d-11ee-90ce-dac502259ad0.png

但是对于聊天机器人来说,想要能够理解这些符号文字,不进行大量的专门训练应该是很难的。

由研究人员专门针对大语言模型设计的一系列「不可能完成的任务」之后。

为了区分人类,他们也设计了两个对于大语言模型比较简单,而对于人很难的任务。

记忆和计算

通过提前的训练,大语言模型在这两个方面都有比较良好的表现。

而人类由于受限制于不能使用各种辅助设备,基本对于大量的记忆和4位数的计算都没有做出有效的回答。

人类VS大语言模型

研究人员针对GPT3,ChatGPT,以及另外三个开源的大模型:LLaMA,Alpaca,Vicuna进行了这个「人类区别测试」

可以从结果上很明显地看出来,大模型没有成功混入人类之中。

研究团队将问题开源在了https://github.com/hongwang600/FLAIR

166e7832-042d-11ee-90ce-dac502259ad0.png

表现最好的ChatGPT也仅仅在位置替换测试中有不到25%的通过率。

而其他的大语言模型,在这些专门针对他们设计的测试中,表现都非常糟糕。

完全不可能通过测试。

而对于人类来说却非常简单,几乎100%通过。

而对于人类不擅长的问题,人类也几乎是全军覆没,一败涂地。

AI却能明显胜任。

看来研究者对于测试设计确实是非常用心了。

「不放过任何一个AI,却也不冤枉任何一个人类」

这区分度杠杠的!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38091

    浏览量

    296598
  • 大模型
    +关注

    关注

    2

    文章

    3440

    浏览量

    4964

原文标题:一个问题区分人类和AI!「丐版」图灵测试,难住所有大模型

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    和探索;人类级别的理解能力;常识推理;现实世界的知识整合。 3、测试时计算 测试时计算(TTC)是指在模型推理阶段利用额外的计算资源来提升泛化性能。 4、具身智能与渗透式
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    AI被赋予了人的智能,科学家们希望在没有人类的引导下,AI自主的提出科学假设,诺贝尔奖级别的假设哦。 AI驱动科学被认为是科学发现的第五
    发表于 09-17 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的未来:提升算力还是智力

    、浪费资源与破坏环境 二、用小模型代替大模型 1、强化学习 2、指令调整 3、合成数据 三、终身学习与迁移学习 1、终身学习 终身学习是种模仿人类行为的
    发表于 09-14 14:04

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    的不同。随着AI热潮的兴起,大脑的抽象模型已被提炼成各种的AI算法,并使用半导体芯片技术加以实现。 而大脑是由无数神经元通过突触连接而成
    发表于 09-06 19:12

    关于NanoEdge AI用于n-Class的问题求解

    我想请教下关于NanoEdge AI用于n-Class的问题。我使用NanoEdge AI的n-Class模式,训练好模型,设计了3分类
    发表于 08-11 06:44

    NVIDIA助力图灵新讯美推出企业级多模态视觉大模型融合解决方案

    凭借深厚的行业经验和系统集成能力,图灵新讯美率先基于 NVIDIA 用于视频搜索与总结 (VSS, Video Search and Summarization) 的 AI Blueprint,在
    的头像 发表于 06-26 09:17 993次阅读

    这个超强AI模型!开始不听人类指令,拒绝关闭!

    这项研究,并表示尚不清楚OpenAI的软件为何会违抗命令。   Palisade表示,o3模型破坏了用于关闭系统的机制,以阻止自身被关闭。OpenAI的另外两
    的头像 发表于 05-28 00:06 6989次阅读

    首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手

    模型全链路分析功能,针对AI应用开发的三大痛点逐个击破。 当前AI应用开发者在使用开发工具时会面临很头疼的问题,种类多、功能不聚合、过
    发表于 04-13 19:52

    小鹏图灵AI芯片深度解读

    、研发背景与战略定位 小鹏图灵AI芯片于 2024年8月23日流片成功 ,并在同月的“小鹏10年热爱之夜”发布会上正式亮相。其研发核心目标是支撑L4级自动驾驶技术,同时服务于AI汽车
    的头像 发表于 03-12 12:14 6445次阅读
    小鹏<b class='flag-5'>图灵</b><b class='flag-5'>AI</b>芯片深度解读

    添越智创基于 RK3588 开发板部署测试 DeepSeek 模型全攻略

    AI 技术日新月异的当下,新的模型与突破不断涌现。近期,DeepSeek(深度求索)模型以其卓越性能和亲民成本,迅速在全球开发者圈子里引发热议。作为款强大的语言
    发表于 02-14 17:42

    名单公布!【书籍评测活动NO.55】AI Agent应用与项目实战

    种不需要人类持续干预的AI系统,它可以根据当前的环境和背景信息,去自主分析各种遇到的问题并做出合理的决策,比如几年前打败人类棋手李昌镐的AlphaGo,它就是
    发表于 01-13 11:04

    马斯克预言:AI将全面超越人类智力

    近日,科技巨头马斯克作出了关于人工智能(AI)的大胆预测。他断言,AI的发展速度将超乎人类的想象,并将在不久的将来全面超越
    的头像 发表于 12-28 14:23 1164次阅读

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    滤波器都会生成称为“特征图”或“激活图”的输出。 共享权重:所有位置使用相同的卷积核参数,这不仅减少了模型参数的数量,还使得模型能够学习
    发表于 12-19 14:33

    AI大语言模型开发步骤

    开发高效、准确的大语言模型复杂且多阶段的过程,涉及数据收集与预处理、模型架构设计、训练
    的头像 发表于 12-19 11:29 1215次阅读