从数据到生成式AI，是该重新思考风险的时候了-电子发烧友网

OpenAI“宫斗”大戏即将尘埃落定。

自首席执行官Sam Altman突然被董事会宣布遭解雇、董事长兼总裁Greg Brockman辞职；紧接着OpenAI员工以辞职威胁董事会要求Altman回归；再到OpenAI董事会更换成员、Altman回归OpenAI。

表面上看，这似乎是一场针对一家独领风骚的技术初创公司控制权的争夺战，但从种种迹象来看，此次“宫斗”的导火索，更多应源自对AI未来发展理念的分歧：一派扛着“加速主义”旗帜，希望AI在技术精英的带领下加速前进改造世界；另一边则是以利他主义理论为根基、力求让AI在人类控制下发展的保守派别。

从创造栩栩如生的艺术到如同真人般的精度模仿人类语言，生成式AI正在改写创新和自动化的规则。

AI大模型训练的高耗能、AI对语言情感和伦理道德的把握程度、AI对假消息和公众舆论的操纵、生成式AI在人类创新创造中的角色……在生成式AI加速奔跑的今天，有些问题依然值得我们细细思考。

AI大模型成下一个安全新战场

今年三月，三星电子刚刚在企业内部引入ChatGPT服务不久，就发生了三起机密数据泄露事件。部分员工将涉及半导体生产的机密代码与内部会议信息输入ChatGPT端口，导致这些敏感资料被上传至美国服务器，极可能已经泄漏。事件发生后，三星迅速采取措施约束员工使用ChatGPT的场景和行为，也引发了行业对于这类大模型技术带来的数据隐私和安全问题的讨论。

客观而言，在互联网时代，任何向云端上传数据的行为都具有潜在的安全风险。云计算刚刚兴起的时代，就有很多企业担忧敏感数据被云服务商泄露，拒绝将其上传至云端。

时至今日，仍有大批企业在本地存储隐私数据来增强安全性，云服务商仍然没有完全赢得企业的信任。

而生成式AI的热潮则令这一问题雪上加霜。一方面，由于大模型训练、运营所需的成本极为高昂，极少有企业能够负担巨大的投资而在本地建设自有大模型服务。

另一方面，由云服务商提供的大模型服务在训练和交互时需要海量数据，尤其是特定领域的数据。大模型掌握的领域数据越多，特别是与企业研发、运营相关的数据越多，输出的效果往往越令人满意。

例如，企业开发人员使用AI代码辅助生成工具时，一般需要上传企业已有的代码库，使大模型给出更精准的代码预测结果；企业营销人员将过往的营销材料输入大模型，就可以自动生成高质量的营销内容，提升工作效率。

为此，企业和研究机构往往会收集包括用户生成内容的文本、图像等数据，这些原始训练数据中可能含有用户的敏感隐私信息。

如果数据采集不当、存在偏见或标签错误、数据被投毒，都有可能导致大模型产生错误输出、存在歧视或其他负面影响，同时数据在应用的过程中，也要面临数据泄露、隐私曝光等风险，这既存在法律风险，也会引发公众对AI的信任危机。

另外，提供大模型服务的云厂商一般会同时服务众多客户，而大模型在获得各个企业的数据后，如何将这些数据充分隔离在每个客户的服务范围之内，就成为了困扰云厂商与企业的一大难题。

一旦数据的隔离失败，从甲客户获得的数据就可能被用在对乙客户给出的交互回答中，造成数据泄露。

如果企业上传的大量隐私机密数据未能得到充分保护，恶意攻击者或者云厂商内部的恶意人士就可能利用软件漏洞或职权获取这些信息，攫取不当利益的同时，也对企业造成了无可估量的伤害。

考虑到大模型所需的训练和交互数据数量庞大，远远超过以往企业上传到云端的规模，这种风险相比过去也有数量级的增长。

目前，生成式AI已经展现前所未有的智能化水平，由此将占据企业的IT关键位置，而就此重要性带来的受攻击频度，也将使得生成式AI成为云计算、大数据、物联网、移动互联网之后的一个全新的安全战场。

与此同时，大模型技术也将会在多个方面帮助提升网络安全运维效率，在更深层次改变网络安全格局的基础。

有些人士还认为，生成式AI将进一步扩大贫困差距，加深数字鸿沟。生成式AI作为新兴的AI技术，需要基于大量的数据与巨大的计算能力，这就意味着生成式AI只能在技术先进的国家和地区普及开来，并被少数经济体所掌控。

数字贫困差距进一步扩大，科技弱势地区的话语权被忽视，其潜在的风险就是发达经济体的价值观广泛传播，数字鸿沟也会不可逆地加深。

用技术对抗技术用魔法打败魔法

随着大模型时代的到来，其强大能力也为安全防护技术的变革提供了新的思路。“用AI的力量来对抗AI”已经成为一个热点方向。

事实上，对抗攻防思路并不是模型安全的专属。早在上个十年，面对种种安全威胁，人工智能领域就逐步形成了“以攻测防——以攻促防——攻防一体化”的安全理念，通过模拟各类攻击场景，不断探索模型和系统的弱点，以此推动算法和工程端的防御能力加强。

只不过，以往安全防护主要依赖机器学习算法模型，这需要大量专业数据知识积累，且面临知识盲区和小样本冷启动不及时的问题。利用大模型技术，可以实现更智能化的安全防控。

当前，生成式AI面临的安全问题可以分为三级。初级问题是技术攻击问题，也就是网络攻击、漏洞攻击、数据攻击问题，特别是提供给大模型不好的数据或污染它的训练数据，可能会导致结果出错。这类问题相对比较好解决。

比较难解决的是中级问题，主要涉及内容安全。例如大模型可以成为人们很好的帮手，也能成为坏人的工具。它可以帮一个水平不怎么样的黑客写更好的攻击代码、诈骗邮件。

如何让它的内容更加可控？如何防止AI大模型不作恶？这已经超越了技术范畴。尽管现在有人为大模型做了内置的所谓“安全护栏”，但它很容易遭到注入攻击或算法攻击。

从高级问题来看，大模型可以把人类所有知识融会贯通，再来和人类做交流、做提示。但当AI的能力超越人类后，还能不能甘于做人类的工具，这些技术带来的挑战最终还要靠技术来解决，技术自身会不断进化，不能因为未来还没有发生的问题就不发展相关技术。

从产业界现状来看，AI安全与否如何评测，目前尚缺乏一套易用和标准化的评测工具和规则。

这也是大模型防御中能够补充的另一方面，通过大模型技术学习风险知识和标准规则来提升AI对于风险的认知理解能力，以实现用大模型对抗大模型来进行极速防御和快速冷启动的目的。

面对大模型下的网络安全挑战，需要企业、安全团队和监管机构等共同努力来应对。

首先，加强大模型的训练和管理。通过采用更加有效的数据增强和处理技术，减少大模型的过拟合和梯度爆炸等问题，提高模型的鲁棒性和可靠性。同时，对大模型的训练和管理也需要加强监管和审计，确保数据的隐私和安全。

其次，研发新型安全防御技术。针对大模型的攻击手段不断变化和更新，需要研发新型的安全防御技术来应对。例如，可以利用人工智能技术来检测和防御恶意代码和网络钓鱼攻击等。

以文本安全为例，大模型可以基于安全标准规则、风险领域知识和历史风险样本进行训练，提升模型对于风险标准和内容的理解力，从而实现对风险检测能力的提升。

也采用大模型生成能力结合安全知识图谱，来构造攻击样本持续迭代优化检测模型。

第三，强化数据安全保护。除了要关注大模型在互联网上的攻防对抗，大模型本身的安全和隐私问题同样引发了担忧。

针对大模型的训练和使用过程中可能存在的数据安全问题，需要采取一系列的隐私保护技术。例如，使用同态加密、差分隐私、安全多方计算、模型水印和指纹等多种技术来保护数据的隐私和安全。

第四，加强监管和法律保护。技术立法往往落后于技术发展的步伐，缺少法规和条例的引导和规制，越来越多使用生成式AI的公司发现其系统运行的安全性受到很大挑战。

面对大模型下的网络安全挑战，也需要监管机构和法律机构加强管理和监管。例如，政府监管机构要通过政策立法对生成式AI的设计、演进进行有效引导、统筹管理。

制定的政策框架需要与各国的立法和监管背景保持一致，并且要随AI技术更迭而更新，不断提高现有法规的适用度。在监管的同时给予AI创新的自由度，协同创造出更高质量的内容。

生成式AI是非常复杂的问题，伦理、数据、训练等领域的复杂度都是前所未有的，是一个新领域，也是摆在所有人面前的一个命题。

从科技企业的发展史看，在新技术发展的前期，不同路线、理念的参与者往往能够团结协作，共同为了科技普及而合作前进。

但当科技普及已经发生，关于商业化、实现路径的种种理念差异，却可能走上不同的道路。在AI普及和深度应用的前夜里，或许，关于未来技术应该如何普及、如何监管的理念与路径之争，才刚刚拉开帷幕。

面对未来的安全发展趋势和挑战，企业更应该携起手来，共同建立可度量的安全体系，为应对智能化时代的攻防新趋势，打造内在自适应的“安全免疫力”。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年，是前沿企业级IT领域Top10媒体。获工信部权威认可，可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

大模型

大模型

+关注

关注
2

文章
1516

浏览量
1102
生成式AI

生成式AI

+关注

关注
0

文章
349

浏览量
212

什么是AI TRiSM？AI TRiSM在AI、数据通信和GPU领域的应用是什么

最近，随着生成式AI大模型ChatGPT的迅速发展，也引发了人们对于其风险的担忧。

发表于 04-25 10:27 •105次阅读

三星正考虑为Bixby添加生成式AI功能

Choi强调：“鉴于新型生成式AI与大语义学习（LLM）技术的出现，我们有必要去重新定位Bixby搭载这类科技以实现智能升级。

发表于 04-01 15:01 •137次阅读

使用CUBEAI部署tflite模型到STM32F0中，模型创建失败怎么解决？

看到CUBE_AI已经支持到STM32F0系列芯片，就想拿来入门嵌入式AI。生成的模型很小，是可以部署

发表于 03-15 08:10

NanoEdge AI的技术原理、应用场景及优势

NanoEdge AI 是一种基于边缘计算的人工智能技术，旨在将人工智能算法应用于物联网（IoT）设备和传感器。这种技术的核心思想是将数据处理和分析从云端转移到设备本身，从而减少数据传

发表于 03-12 08:09

将为人们生活带来深刻影响的5大生成式AI用例

从ChatGPT推出以来，全世界都为AI的巨大潜力而着迷。ChatGPT开启了生成式AI时代，生成式AI利用基于大量

发表于 03-07 11:38 •469次阅读

谷歌计划重新推出改进后的Gemini AI模型人像生成功能

谷歌DeepMind的首席执行官德米斯·哈萨比斯在2月26日透露，公司计划在接下来的几周内重新发布其备受关注的Gemini AI模型人像生成功能。此前，由于在某些历史图像生成描述中出现

发表于 02-28 10:17 •157次阅读

生成式AI如何重新定义零售业

从个性化商品推荐到营销内容创建再到代码生成，生成式 AI 正在提升顾客体验、优化运营并提高生产力。

发表于 01-16 10:24 •177次阅读

安谋科技赵永超：生成式AI加速落地，行业应用创新从“芯”突破

式AI的发展机遇，以及企业要如何面对生成式AI的落地难题。随着ChatGPT等生成式AI的横空出世，为各行各业带来了新的驱动力。而如何

发表于 12-26 14:32 •691次阅读

为什么AD7606有时候读的数据全为0，有时候正常采集？

出现读的数据全为0的现象。有时候换掉AD7606就好了，有时候莫名其妙的有可以采集数据了。这是什么问题？

发表于 12-18 07:15

Microchip CEO博文《AI将如何重新定义数据中心？》

AI已经存在了一段时间，其影响也相当巨大。生成式AI刚开始崭露头角，对于其如何颠覆世界的种种预言已经迅速成为热门话题，影响之深广，令人深思。这项技术已经对数据中心产生了重大影响。基

发表于 12-11 14:50 •956次阅读

生成式AI技术的应用前景

生成式 AI（人工智能）与我们熟知的 AI 有何不同？这篇文章将为我们一探究竟！

发表于 11-29 12:20 •695次阅读

国产生成式AI，不能仅仅看向前方#生成式AI #信息无障碍

AI

脑极体
发布于 :2023年06月15日 19:06:36

什么是生成式AI？生成式AI的四大优势

生成式AI是一种特定类型的AI，专注于生成新内容，如文本、图像和音乐。这些系统在大型数据集上进行训练，并使用机器学习算法

发表于 05-29 14:12 •2731次阅读

手把手教你MATLAB，Sumlink代码生成。无感FOC算法从零到生成代码的过程。附上MATLAB代码生成仿真模型。

华夏电子工作室：2023年6月8日下午3点（15：00）电机控制MATLAB代码生成系列课程直播第一季。邀请各位工程师准时来直播间讨论和观看。届时代码全开源。下面我们来说一下FOC简单框架：该

发表于 05-28 12:33

HIT 16: 生成式AI版权风险探讨

政治协议，要求部署ChatGPT等生成式人工智能工具的公司披露用于开发其系统的受版权保护的材料。该协议可能是为世界上第一部《人工智能法》的出台铺平道路。 [1] 什么是生成式AI？生成

发表于 05-11 20:16 •393次阅读

搜索历史

从数据到生成式AI，是该重新思考风险的时候了

评论

什么是AI TRiSM？AI TRiSM在AI、数据通信和GPU领域的应用是什么

三星正考虑为Bixby添加生成式AI功能

使用CUBEAI部署tflite模型到STM32F0中，模型创建失败怎么解决？

NanoEdge AI的技术原理、应用场景及优势

将为人们生活带来深刻影响的5大生成式AI用例

谷歌计划重新推出改进后的Gemini AI模型人像生成功能

生成式AI如何重新定义零售业

安谋科技赵永超：生成式AI加速落地，行业应用创新从“芯”突破

为什么AD7606有时候读的数据全为0，有时候正常采集？

Microchip CEO博文《AI将如何重新定义数据中心？》

生成式AI技术的应用前景

国产生成式AI，不能仅仅看向前方#生成式AI #信息无障碍

什么是生成式AI？生成式AI的四大优势

手把手教你MATLAB，Sumlink代码生成。无感FOC算法从零到生成代码的过程。附上MATLAB代码生成仿真模型。

HIT 16: 生成式AI版权风险探讨