0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

公开机器学习模型代码可能会有哪些风险?

DPVg_AI_era 来源:lp 2019-03-08 09:26 次阅读

作为个人开发者,应不应该将自己的项目或模型、数据等进行开源?公开这些数据有哪些风险?本文作者是斯坦福大学博士,长期从事开源机器学习研究,经常接触和处理敏感数据,他结合自己的经验,为这个问题提供了一些建议。

公开机器学习模型代码可能会有哪些风险?

OpenAI 最近因为创造了多项机器学习新任务的最优性能记录,但却不开放源代码而遭到越来越多的指摘。OpenAI发推表示,“由于担心这些技术可能被用做恶意目的,不会放出训练后的模型代码。“

对OpenAI这个决定的批评之声不少,比如这样会对其他团队重现研究这些研究结果造成阻碍,而研究结果的可重现性是确保研究真实的基础。而且,这样做也可能导致媒体对人工智能技术产生一种由于未知而生的恐惧。

上面这段Twitter引起了我的注意。Anima Anandkumar在弥合机器学习的研究和实际应用之间的差距方面拥有丰富的经验。我们是亚马逊AWS的同事,最近还在一起讨论了如何将机器学习技术从博士实验室推向市场的问题。

Stephen Merity对社交媒体的回应进行了总结,他表示,机器学习社区在这方面的经验其实不多:

OpenAI不公开模型源代码是对是错?这事各位可以自行判断。不过在我看来,OpenAI在两个方面做得不够好,应该就是否可以检测到虚假内容进行调查,并以多种语言发布模型,以对抗对英语产生的单语种偏见。

对于个人机器学习项目而言,下面给出一些关于是否应该公开发布模型或数据集的决策时的一些常见问题:

在开源我的模型之前是否应该三思?

是的。如果你的模型是基于私有数据构建的,则可以对其进行逆向工程以提取出这些数据。

如果我的模型100%来自公共数据,那我是否还要考虑将模型开源?

是的。如果要在新的语言环境重新发布数据,已发布的数据可能会变成敏感数据,而且,聚合后的数据(包括机器学习模型)可能比分散的各个数据点更加敏感。你需要考虑:重新构建数据或数据模型会产生哪些影响,要不要由我自己或我所在的组织公开发布?

即使单个数据点并非敏感数据,聚合数据被视为敏感也是很常见的情况。这是许多军事组织的标准做法:当他们汇总来自一组来源的数据时,他们会根据其敏感程度重新评估该汇总信息。聚合通常是统计学或无监督机器学习的结果,但是基于该数据构建的监督模型同样适用。

所以,你应该经常自问:我的模型中的聚合数据是否比单个数据点更为敏感?

我应该如何评估开源风险?

在安全性方面考虑,可以将每个策略视为“可被攻破的”。风险防范的基本目标是使攻破某些安全措施的成本高于被保护数据的价值。

所以要考虑的问题是,从你的研究论文中复制模型的成本,是否值得为那些想要出于负面目的使用这些技术的人付出这样的努力?应该要明确这一点。这是决定是否将模型开源的一个重要因素。

我最近与Facebook进行了长时间的会谈,讨论的是出任一个职位,专门负责发现假新闻。从一个行内人的角度来看,我最想知道的是这样一件事:我能否以编程的方式成功检测这种模型输出,以便对抗假新闻?

我认为在Facebook上打击假新闻是任何人都可以做的最重要的事情之一,来自OpenAI的这项研究将会对此有所帮助。而且,如果能够创建一个可以识别生成内容的模型池,那么假新闻可能会更难以蒙混通过自动检测系统。

如果你能够定量地证明,对项目数据的恶意使用可以进行更容易/更难的打击,这也将是你做出是否开源的决策过程中的另一个重要因素。

这算是机器学习中的新问题吗?

其实不算是,你可以从过去的经验中学到很多东西。

如果你面临类似的困境,请寻找具有深度知识的人来讨论受影响最大的社区(最好是来自该社区内部的人士),以及过去遇到类似的机器学习问题相关问题的人。

我是否应该平衡机器学习的负面应用和正面应用?

是的。发布具有积极应用意义的模型,很容易对世界产生积极影响。而限制具有许多负面应用领域的模型的发布,很难对世界产生积极影响。

这其实是OpenAI的另一个失败之处:缺乏多样性。OpenAI比任何其他研究团队都更多地发布了仅适用于英语模型和研究成果。从全球来看,英语每天仅占全世界对话的5%。在句子中的单词顺序、标准化拼写和“单词”作为机器学习功能单元上,英语是一个异类。

OpenAI的研究依赖于以下三个方面:单词顺序,单词特征,拼写一致性。这些研究能够适用于世界上大多数语言吗?我们不知道,因为没有测试。OpenAI的研究确实表明,我们需要担心这种类型的英语生成内容,但并没有表明,今天的假新闻的流传,更有可能通过除英语之外的其他100多种语言进行。

如果你不想进入假新闻等应用程序的灰色区域,那么可以选择一个本质上更具影响力的研究领域,例如低资源语言中与健康相关的文本的语言模型。

我需要在多大程度上考虑项目应用实例的敏感性?

当我为AWS的命名实体解析服务开发产品时,必须考虑是否要将街道级地址识别为显式字段,并可能将坐标映射到相应地址。我们认为这本身就是敏感信息,不应该在一般解决方案中进行产品化。

在任何研究项目中都要考虑这一点:是否能够隐含或明确地识别出模型中的敏感信息?

只是因为其他人都开源了自己的模型,因此我也应该开源吗?

当然不是,你应该对自己项目的影响力保持一份怀疑。无论你是否赞同OpenAI的决定,都应该做出明智的决定,而不是盲目跟随他人。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1773

    文章

    43356

    浏览量

    230125
  • 开源
    +关注

    关注

    3

    文章

    2953

    浏览量

    41601
  • 机器学习
    +关注

    关注

    66

    文章

    8061

    浏览量

    130439

原文标题:斯坦福博士:个人开发者要不要开源项目模型和代码?

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    CYT2BL ADC超频使用会有风险吗?

    依据datasheet 的说明,该芯片最大支持26.67Mhz 的时钟 ,但是我们项目中,配置成了40MHZ,未发生异常,请问会有什么风险点嘛?
    发表于 01-22 07:50

    如何从零开始构建深度学习项目?(如何启动一个深度学习项目)

    性能重大提升的背后往往是模型设计的改变。不过有些时候对模型进行微调也可以提升机器学习的性能。最终的判断可能会取决于你对相应任务的基准测试结果
    发表于 01-11 10:49 132次阅读
    如何从零开始构建深度<b class='flag-5'>学习</b>项目?(如何启动一个深度<b class='flag-5'>学习</b>项目)

    如何使用TensorFlow构建机器学习模型

    在这篇文章中,我将逐步讲解如何使用 TensorFlow 创建一个简单的机器学习模型
    的头像 发表于 01-08 09:25 280次阅读
    如何使用TensorFlow构建<b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>模型</b>

    代码生成:基于 AI 大模型的挑战与前景

    使用AI通用模型来完成代码生成这类非常具体的任务可能会带来问题。人工智能生成的代码就像是陌生人的代码,它们
    的头像 发表于 11-26 08:05 431次阅读
    <b class='flag-5'>代码</b>生成:基于 AI 大<b class='flag-5'>模型</b>的挑战与前景

    基于机器学习的车位状态预测方法

    本发明公开一种基于机器学习的车位状态预测方法,基于历史数据,建立回归决策树模型进而构建改进决策树模型,对每个区域的停车率进行预测,基于停车率
    发表于 09-21 07:24

    机器学习模型评估指标

    机器学习模型指标在机器学习建模过程中,针对不同的问题,需采用不同的模型评估指标。
    发表于 09-06 12:51 411次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>模型</b>评估指标

    机器学习模型类型分类

     机器学习按照模型类型分为监督学习模型、无监督学习模型
    的头像 发表于 09-05 11:45 1191次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>模型</b>类型分类

    机器学习theta是什么?机器学习tpe是什么?

    解一下theta。在机器学习中,theta通常表示模型的参数。在回归问题中,theta可能表示线性回归的斜率和截距;在分类问题中,theta可能
    的头像 发表于 08-17 16:30 1055次阅读

    机器学习算法汇总 机器学习算法分类 机器学习算法模型

    机器学习算法汇总 机器学习算法分类 机器学习算法模型
    的头像 发表于 08-17 16:11 646次阅读

    机器学习和深度学习的区别

      机器学习是一种方法,利用算法来让机器可以自我学习和适应,而且不需要明确地编程。在许多应用中,需要机器使用历史数据训练
    发表于 08-02 17:36 341次阅读

    如何有效地监控生产中的机器学习模型

    监控生产中的机器学习模型指南
    的头像 发表于 07-05 16:30 253次阅读

    机器学习构建ML模型实践

    实践中的机器学习:构建 ML 模型
    的头像 发表于 07-05 16:30 420次阅读

    机器学习模型:用于使用边缘脉冲软件预测大象的行为

    电子发烧友网站提供《机器学习模型:用于使用边缘脉冲软件预测大象的行为.zip》资料免费下载
    发表于 06-29 14:47 0次下载
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>模型</b>:用于使用边缘脉冲软件预测大象的行为

    支持 ChatGPT 的机器学习模型的概况

    本文介绍了支持 ChatGPT 的机器学习模型的概况,文章将从大型语言模型的介绍开始,深入探讨用来训练 GPT-3 的革命性自我注意机制,然后深入研究由人类反馈的强化
    的头像 发表于 05-26 11:44 553次阅读
    支持 ChatGPT 的<b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>模型</b>的概况

    如何评估机器学习模型的性能?机器学习的算法选择

    如何评估机器学习模型的性能?典型的回答可能是:首先,将训练数据馈送给学习算法以学习一个
    发表于 04-04 14:15 554次阅读