0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

公开机器学习模型代码可能会有哪些风险?

DPVg_AI_era 来源:lp 2019-03-08 09:26 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作为个人开发者,应不应该将自己的项目或模型、数据等进行开源?公开这些数据有哪些风险?本文作者是斯坦福大学博士,长期从事开源机器学习研究,经常接触和处理敏感数据,他结合自己的经验,为这个问题提供了一些建议。

公开机器学习模型代码可能会有哪些风险?

OpenAI 最近因为创造了多项机器学习新任务的最优性能记录,但却不开放源代码而遭到越来越多的指摘。OpenAI发推表示,“由于担心这些技术可能被用做恶意目的,不会放出训练后的模型代码。“

对OpenAI这个决定的批评之声不少,比如这样会对其他团队重现研究这些研究结果造成阻碍,而研究结果的可重现性是确保研究真实的基础。而且,这样做也可能导致媒体对人工智能技术产生一种由于未知而生的恐惧。

上面这段Twitter引起了我的注意。Anima Anandkumar在弥合机器学习的研究和实际应用之间的差距方面拥有丰富的经验。我们是亚马逊AWS的同事,最近还在一起讨论了如何将机器学习技术从博士实验室推向市场的问题。

Stephen Merity对社交媒体的回应进行了总结,他表示,机器学习社区在这方面的经验其实不多:

OpenAI不公开模型源代码是对是错?这事各位可以自行判断。不过在我看来,OpenAI在两个方面做得不够好,应该就是否可以检测到虚假内容进行调查,并以多种语言发布模型,以对抗对英语产生的单语种偏见。

对于个人机器学习项目而言,下面给出一些关于是否应该公开发布模型或数据集的决策时的一些常见问题:

在开源我的模型之前是否应该三思?

是的。如果你的模型是基于私有数据构建的,则可以对其进行逆向工程以提取出这些数据。

如果我的模型100%来自公共数据,那我是否还要考虑将模型开源?

是的。如果要在新的语言环境重新发布数据,已发布的数据可能会变成敏感数据,而且,聚合后的数据(包括机器学习模型)可能比分散的各个数据点更加敏感。你需要考虑:重新构建数据或数据模型会产生哪些影响,要不要由我自己或我所在的组织公开发布?

即使单个数据点并非敏感数据,聚合数据被视为敏感也是很常见的情况。这是许多军事组织的标准做法:当他们汇总来自一组来源的数据时,他们会根据其敏感程度重新评估该汇总信息。聚合通常是统计学或无监督机器学习的结果,但是基于该数据构建的监督模型同样适用。

所以,你应该经常自问:我的模型中的聚合数据是否比单个数据点更为敏感?

我应该如何评估开源风险?

在安全性方面考虑,可以将每个策略视为“可被攻破的”。风险防范的基本目标是使攻破某些安全措施的成本高于被保护数据的价值。

所以要考虑的问题是,从你的研究论文中复制模型的成本,是否值得为那些想要出于负面目的使用这些技术的人付出这样的努力?应该要明确这一点。这是决定是否将模型开源的一个重要因素。

我最近与Facebook进行了长时间的会谈,讨论的是出任一个职位,专门负责发现假新闻。从一个行内人的角度来看,我最想知道的是这样一件事:我能否以编程的方式成功检测这种模型输出,以便对抗假新闻?

我认为在Facebook上打击假新闻是任何人都可以做的最重要的事情之一,来自OpenAI的这项研究将会对此有所帮助。而且,如果能够创建一个可以识别生成内容的模型池,那么假新闻可能会更难以蒙混通过自动检测系统。

如果你能够定量地证明,对项目数据的恶意使用可以进行更容易/更难的打击,这也将是你做出是否开源的决策过程中的另一个重要因素。

这算是机器学习中的新问题吗?

其实不算是,你可以从过去的经验中学到很多东西。

如果你面临类似的困境,请寻找具有深度知识的人来讨论受影响最大的社区(最好是来自该社区内部的人士),以及过去遇到类似的机器学习问题相关问题的人。

我是否应该平衡机器学习的负面应用和正面应用?

是的。发布具有积极应用意义的模型,很容易对世界产生积极影响。而限制具有许多负面应用领域的模型的发布,很难对世界产生积极影响。

这其实是OpenAI的另一个失败之处:缺乏多样性。OpenAI比任何其他研究团队都更多地发布了仅适用于英语模型和研究成果。从全球来看,英语每天仅占全世界对话的5%。在句子中的单词顺序、标准化拼写和“单词”作为机器学习功能单元上,英语是一个异类。

OpenAI的研究依赖于以下三个方面:单词顺序,单词特征,拼写一致性。这些研究能够适用于世界上大多数语言吗?我们不知道,因为没有测试。OpenAI的研究确实表明,我们需要担心这种类型的英语生成内容,但并没有表明,今天的假新闻的流传,更有可能通过除英语之外的其他100多种语言进行。

如果你不想进入假新闻等应用程序的灰色区域,那么可以选择一个本质上更具影响力的研究领域,例如低资源语言中与健康相关的文本的语言模型。

我需要在多大程度上考虑项目应用实例的敏感性?

当我为AWS的命名实体解析服务开发产品时,必须考虑是否要将街道级地址识别为显式字段,并可能将坐标映射到相应地址。我们认为这本身就是敏感信息,不应该在一般解决方案中进行产品化。

在任何研究项目中都要考虑这一点:是否能够隐含或明确地识别出模型中的敏感信息?

只是因为其他人都开源了自己的模型,因此我也应该开源吗?

当然不是,你应该对自己项目的影响力保持一份怀疑。无论你是否赞同OpenAI的决定,都应该做出明智的决定,而不是盲目跟随他人。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261510
  • 开源
    +关注

    关注

    3

    文章

    4031

    浏览量

    45568
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136233

原文标题:斯坦福博士:个人开发者要不要开源项目模型和代码?

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    Neuton 是一家边缘AI 公司,致力于让机器 学习模型更易于使用。它创建的模型比竞争对手的框架小10 倍,速度也快10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文
    发表于 07-31 11:38

    通过NVIDIA Cosmos模型增强机器人学习

    通用机器人的时代已经到来,这得益于机械电子技术和机器人 AI 基础模型的进步。但目前机器人技术的发展仍面临一个关键挑战:机器人需要大量的训练
    的头像 发表于 07-14 11:49 760次阅读
    通过NVIDIA Cosmos<b class='flag-5'>模型</b>增强<b class='flag-5'>机器人学习</b>

    边缘计算中的机器学习:基于 Linux 系统的实时推理模型部署与工业集成!

    你好,旅行者!欢迎来到Medium的这一角落。在本文中,我们将把一个机器学习模型(神经网络)部署到边缘设备上,利用从ModbusTCP寄存器获取的实时数据来预测一台复古音频放大器的当前健康状况。你将
    的头像 发表于 06-11 17:22 780次阅读
    边缘计算中的<b class='flag-5'>机器</b><b class='flag-5'>学习</b>:基于 Linux 系统的实时推理<b class='flag-5'>模型</b>部署与工业集成!

    代码革命的先锋:aiXcoder-7B模型介绍

    程序代码处理的团队,也是最早推出基于深度学习的编程产品的团队,从一开始他们就抓住并专注于代码模型这个前沿赛
    的头像 发表于 05-20 14:41 615次阅读
    <b class='flag-5'>代码</b>革命的先锋:aiXcoder-7B<b class='flag-5'>模型</b>介绍

    【「# ROS 2智能机器人开发实践」阅读体验】视觉实现的基础算法的应用

    视觉巡线,展示了如何从数据采集、模型训练到机器人部署的完整流程。 值得注意的是,深度学习模型的实时性对机器人计算资源提出了较高要求,优化
    发表于 05-03 19:41

    如果主节点使用AD2433,从节点使用AD2428,会不会有什么风险点?

    如果主节点使用AD2433,从节点使用AD2428,会不会有什么风险点?晚上找不到AD2433的数据手册,感谢各位把遇到的问题提前预警一下。 万分感谢!
    发表于 04-15 07:09

    “两会”热议“机器人和飞行汽车”,核心动力电机可能会

    :“两会”热议“机器人和飞行汽车”,核心动力电机可能会火.doc 本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,删除内容!
    发表于 03-31 13:35

    用DLP4500做投影,请问这个机器怎么设置梯形校正?

    我现在正在用DLP4500做投影,请问这个机器怎么设置梯形校正?因为我准备用这台机器大约60度向下斜投,如果没有梯形校正的话图片可能会有很大的畸变,请问有没有什么建议如果坚持斜投的话?在官网找了很久没看到相关文件,如果有的话能
    发表于 02-26 07:02

    DLP471TPEVM样机上I2C我这边连接不上,IIC0和IIC1口都试过,有哪些地方可能会有问题呢?

    DLP471TPEVM样机上I2C我这边连接不上,IIC0和IIC1口都试过,有哪些地方可能会有问题呢? 我使用的USB TO I2C的工具板是4710平台的,是否是CY7C65215的配置文件需要修改?
    发表于 02-24 08:44

    机器学习模型市场前景如何

    当今,随着算法的不断优化、数据量的爆炸式增长以及计算能力的飞速提升,机器学习模型的市场前景愈发广阔。下面,AI部落小编将探讨机器学习
    的头像 发表于 02-13 09:39 619次阅读

    嵌入式机器学习的应用特性与软件开发环境

    作者:DigiKey Editor 在许多嵌入式系统中,必须采用嵌入式机器学习(Embedded Machine Learning)技术,这是指将机器学习
    的头像 发表于 01-25 17:05 1210次阅读
    嵌入式<b class='flag-5'>机器</b><b class='flag-5'>学习</b>的应用特性与软件开发环境

    【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

    引入GPT这样的大模型后,情况发生了根本性的变化。只需提供适当的提示词以及封装好的机器人函数库,大模型便能灵活地生成控制代码,极大地简化了开发过程,并提高了自动化水平。 此外,大
    发表于 12-29 23:04

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    医疗领域,手术辅助机器人需要毫米级的精确控制,书中有介绍基于视觉伺服的实时控制算法,以及如何利用大模型优化手术路径规划。工业场景中,协作机器人面临的主要挑战是快速适应新工艺流程。具身智能通过在线
    发表于 12-24 15:03

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    可能在训练数据上表现良好,但在遇到未曾见过的数据(例如不同环境、光照条件、角度等)时性能可能会下降。 对异常值敏感:如果训练集中包含异常值或者噪声数据,这可能导致模型
    发表于 12-19 14:33

    cmp在机器学习中的作用 如何使用cmp进行数据对比

    机器学习领域,"cmp"这个术语可能并不是一个常见的术语,它可能是指"比较"(comparison)的缩写。 比较在机器
    的头像 发表于 12-17 09:35 1323次阅读