0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

聆心智能联合清华大学CoAI实验室共同发布大模型安全评估框架,迈向可控可信的大模型

硬科技星球 来源:硬科技星球 作者:硬科技星球 2023-03-20 15:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

ChatGPT 正在引领人类进入无缝人机交互的新时代,比尔盖茨在接受福布斯采访时也表示,“ChatGPT的意义不亚于PC和互联网的诞生。”不过,当搜索引擎 New Bing 与 ChatGPT 结合,伴随着“ChatGPT 黑化”等一系列舆论事件的发生,人们也开始对人工智能带来的道德、伦理、安全等风险感到恐慌。

虽然近年来随着技术的不断突破,大模型获得了快速发展并开始在各个场景广泛应用,但仍存在着事实性错误、知识盲区和常识偏差等诸多问题,还面临训练数据来源合规性、数据使用的偏见性、生成内容的安全性等风险。如何提高模型的准确度和可靠性,使 AI 生成的内容安全、可信、可靠已经成为了当前大模型在应用方向亟待解决的问题。

要规避安全风险,降低人工智能对人类的负面影响,关键在于大模型底座。对此,清华大学计算机系长聘副教授、北京聆心智能科技有限公司创始人黄民烈认为:“大规模语言模型(LLM)发展到现在,模型结构和规模已经有了很大的进展,但实用性还有待加强,我们应该通过技术让模型更加安全、可控,使其快速适配更多的应用场景。”

据悉,针对大模型的安全伦理问题,由黄民烈带领的研究团队历经两年沉淀,建立了大模型安全分类体系,并从系统层面和模型层面出发,打造更可控、可信的大模型安全框架。安全框架的建立,定义了大模型的应用边界,促进大模型生态的健康发展,引领国内学术界和工业界迈向更有用(helpful)、更可信(truthful)、更安全(harmless)的AI研究和应用。

相比过去在安全伦理方面考虑较少的大模型,ChatGPT 背后所依托的大模型取得了巨大的发展,不仅允许用户进行后续更正,还能够拒绝不当请求和预测,这得益于ChatGPT在安全部分的特别设计,不过仍无法完全避免其生成不安全的内容和产生有风险的行为。

此前,由黄民烈带领的研究团队已经在安全伦理方面开展了相关研究,并依此建立了大模型安全分类体系,其中不安全的对话场景包括:政治敏感、犯罪违法、身体健康、心理健康、财产隐私、歧视/偏见、辱骂/仇恨言论、伦理道德八大方面。这些问题与人们的价值观和伦理道德息息相关,可能会导致用户接收不当信息、甚至影响用户产生有害的行为,限制大模型的发展和应用。

与此同时,研究团队也针对以上八大安全场景对大模型进行针对性升级。通过收集多轮安全数据训练模型,使模型具备基本的安全性,能够在遇到安全问题时给予正确的回复策略,不去做判断和误导。进一步对模型进行自动测试,针对安全缺陷通过微调的方式进行快速迭代,促使模型越来越符合人类的认知理解模式,生成更加安全可信的内容。

值得一提的是,着眼于容易触发安全问题的类型,研究团队收集和构造了相应的hard case(更难识别和处理的安全测试用例),总结和设计了六种一般模型难以处理的安全攻击方式,称为指令攻击。使安全体系更加完善,进一步改进和优化模型表现。

不论国内国外,当前大模型的安全问题仍面临着严峻的困难和挑战,人工智能作为一门前沿科技,可以给人类带来巨大福祉,也会给人类造成未知的隐患。确保强大的人工智能系统能够被负责任地建构和部署,打造安全、可信、可靠的 AGI Companion,是该研究团队的最终愿景。

未来,研究团队将打造中文大模型的安全风险评估的 Leaderboard,为国内对话大模型的安全评估提供公平公开的测试平台,并提供:

  1. 针对中文对话的8个安全场景,40个安全类别做全面精细的测试,包括人工评估和自动评估。
  2. 额外设置6种安全攻击(如目标劫持等)的超难指令攻击测试样例,探索模型的安全上限。
  3. 设置公开和隐藏测试集,众人皆可参与评测。

黄民烈带领的研究团队致力于构建具有类人水平的对话智能体,将依托自身的核心技术,在可控可信的超拟人大模型基础之上,通过建立安全、可控的模型边界,让AI提供可信、可靠的输出,引领人工智能走向 AGI 时代。相信在不远的未来,AGI Companion 不仅满足人类信息需求,更可以满足社交和情感的需求,以打造更加和谐的人机共融社会。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38153

    浏览量

    296793
  • 人工智能
    +关注

    关注

    1813

    文章

    49746

    浏览量

    261600
  • 模型
    +关注

    关注

    1

    文章

    3649

    浏览量

    51719
  • ChatGPT
    +关注

    关注

    31

    文章

    1596

    浏览量

    10074
  • 大模型
    +关注

    关注

    2

    文章

    3446

    浏览量

    4971
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    强强联合:之江实验室与沐曦股份共建智算集群联合实验室

    2025年10月22日, 之江实验室与沐曦集成电路(上海)股份有限公司(以下简称“沐曦股份”)正式签署合作协议,共同组建“智算集群联合实验室”,携手推进人工
    的头像 发表于 10-23 10:50 1031次阅读

    光峰科技与深圳技术大学签署联合实验室合作协议

    10月16日,光峰科技公告官宣,与深圳技术大学拟签署《光峰科技与深圳技术大学联合实验室合作协议》,围绕半导体激光前沿领域进行合作研发,共同建立联合
    的头像 发表于 10-17 17:32 1185次阅读

    思大模型智能FAE,看得懂技术,答得准问题

    思大模型智能FAE,看得懂技术,答得准问题 在智能硬件开发的嵌入式技术支持中,响应迟缓、人员培训成本高企、服务时间覆盖不足等痛点,常常制约FAE团队效率
    发表于 09-30 11:29

    比亚迪与香港科技大学成立具身智能实验室

    近日,比亚迪汽车工业有限公司与香港科技大学(以下简称“港科大”)签署合作框架协议,共同成立“香港科技大学-比亚迪具身智能
    的头像 发表于 07-10 18:08 877次阅读

    南京航空航天大学与慧尔视共建低空安全感知联合实验室

    近日,南京航空航天大学(以下简称“南航”)与南京慧尔视智能科技有限公司(以下简称“慧尔视”)正式宣布共建“低空安全感知联合实验室”。作为落实
    的头像 发表于 06-25 17:08 1033次阅读

    清华大学携手华为打造业内首个园区网络智能

    清华大学响应国家教育新基建战略,正在加速推进网络管理平台升级:为满足在线教育、协同创新及智慧校园的发展需求,为清华大学跻身世界一流大学创造基础条件,清华大学携手华为打造业内首个园区网络
    的头像 发表于 05-07 09:51 645次阅读

    东软与同济大学共建未来车载人工智能联合实验室

    4月26日,由 东软集团和同济大学共同建立的未来车载人工智能联合实验室正式落成 。在同济大学充满
    的头像 发表于 04-27 14:00 1140次阅读

    "大模型+智能体"双驱动!中控技术×大华股份成立视觉AI联合实验室

    傅利泉、执行总裁赵宇宁等双方领导出席揭牌仪式。傅利泉、褚健为"中控技术x大华股份视觉AI联合实验室"共同揭牌。此次强强联合标志着工业大模型
    的头像 发表于 03-10 21:48 680次阅读
    &quot;大<b class='flag-5'>模型</b>+<b class='flag-5'>智能</b>体&quot;双驱动!中控技术×大华股份成立视觉AI<b class='flag-5'>联合</b><b class='flag-5'>实验室</b>

    奇瑞汽车携手清华大学发布“分体式飞行汽车”专利

    继2024年10月在奇瑞全球创新大会上宣布三体复合翼飞行汽车成功完成首航后,奇瑞再次带来飞行汽车领域的最新进展。日前,由奇瑞汽车股份有限公司与清华大学智能交通实验室共同申请的“分体式飞
    的头像 发表于 02-20 09:14 804次阅读

    清华大学与华为启动“卓越中心”专项合作

    近日,清华大学与华为技术有限公司在清华大学自强科技楼正式签署合作协议,共同宣布“清华大学鲲鹏昇腾科教创新卓越中心专项合作”(简称“卓越中心”)正式启动。 出席签约仪式的有
    的头像 发表于 02-18 14:11 1066次阅读

    清华大学发布:DeepSeek从入门到精通

    《DeepSeek:从入门到精通》是由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后团队精心撰写的一份专业文档。该文档篇幅长达104页,文档的核心内容围绕DeepSeek的技术
    的头像 发表于 02-14 09:49 1.2w次阅读
    <b class='flag-5'>清华大学</b><b class='flag-5'>发布</b>:DeepSeek从入门到精通

    清华大学DeepSeek指南:从入门到精通

    本资料由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室余梦珑博士后团队出品,细致讲述了DeepSeek的应用技巧。                    
    的头像 发表于 02-11 09:16 1.4w次阅读
    <b class='flag-5'>清华大学</b>DeepSeek指南:从入门到精通

    生成式人工智能模型安全可信评测

    受到关注。但当前大模型仍然面临可信瓶颈,无法开展大规模应用。大模型安全可信受到高度关注,国内外已经有多项法规与标准快速制定并落地。本文以层
    的头像 发表于 01-22 13:55 1568次阅读
    生成式人工<b class='flag-5'>智能</b><b class='flag-5'>模型</b>的<b class='flag-5'>安全</b><b class='flag-5'>可信</b>评测

    理想汽车与清华大学深化智能汽车领域合作

    近日,中国工程院院士、清华大学车辆与运载学院教授、智能绿色车辆与交通全国重点实验室主任、国家工信部智能网联汽车推进专家组组长李克强莅临理想汽车研发总部,双方
    的头像 发表于 01-09 16:58 1009次阅读

    阿里云与零一万物战略合作,成立产业大模型联合实验室

    近日,阿里云与业界领先的大模型企业零一万物宣布达成模型平台业务的战略合作。此次合作的核心内容是双方将共同成立“产业大模型联合
    的头像 发表于 01-03 11:12 802次阅读