0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

IBM研究人员开发了一种将水印嵌入ML模型的技术,可以识别被盗模型

zhKF_jqr_AI 来源:未知 作者:李倩 2018-07-26 09:25 次阅读

编者按:书籍、文章、图像、视频……在大众眼里,创作者对这些成果都拥有无可争议的知识版权,为了防止作品被他人盗取、滥用,他们也会通过加上水印声明自己的权益。那么,同样是知识、创意的结晶,研究人员该如何保护自己的机器学习模型不被盗用呢?近日,IBM研究人员开发了一种将水印嵌入ML模型的技术,可以识别被盗模型。

论文作者:Jialong Zhang和Marc Ph. Stoecklin

作为人工智能服务的关键组成部分,如今深度学习已经在模拟人类能力方面取得了巨大成功,如基于这项技术的计算机视觉语音识别和自然语言处理。

然而,光鲜事物背后总有阴影。训练一个深度学习模型通常意味着大量训练数据、庞大的计算资源和拥有人性化专业知识的专家学者。虽然截至目前全球还没有出现过针对模型的大型诉讼,而且开源是社区一贯以来的特色,但随着技术发展日益成熟,未来,盗用模型用以非法牟利等事件的兴起是可以预见的。

更严峻的是,我们不能指望用专利来保护自己的机器学习成果。众所周知,机器学是一个日新月异的领域,全球各地的研究人员每天都能在前人基础上提出更好的改进,一方面,算法和技术方案数量正在因此不断增加,另一方面,这种情况却为专利所有人界定造成了麻烦。

上月,DeepMind的一份专利单曝光,他们把强化学习,RNN,用神经网络处理序列、生成音频、生成视频帧、理解场景等12项成果打包申请专利,引发学界恐慌。虽然事后有人辟谣称这是“防御性专利”,但这个事件确实也反映了业内成果的一脉相承。

在这个背景下,保护企业、个人花大量时间、精力构建的机器学习成果是有意义的。

为DNN模型添加水印

当我们往视频和图像上添加水印时,从技术角度看它们离不开两个阶段:嵌入和检测。对于嵌入,开发者可以在图像上加上自制的水印标记(可见/不可见);对于检测,如果图片确实被盗,开发者应该能提取嵌入的水印,以此证明自己的所有权。

IBM提出的模型保护方法正是受这种思想启发,上图是为DNN添加水印框架的主要流程。

首先,该框架会为模型所有者生成定制水印和预定义标签(❶);其次,生成水印后,它会将生成的水印嵌入到目标DNN中,这是通过训练实现的(❷);完成嵌入后,新生成的模型能够进行所有权验证,一旦发现模型被盗用,所有者可以把水印作为输入,检查它的输出(❸)。

研究人员开发了三种不同的算法来为神经网络生成水印:

将有意义的内容与原始训练数据一起作为水印嵌入到受保护的DNN中

将不相关的数据样本作为水印嵌入到受保护的DNN中

将噪声作为水印嵌入受保护的DNN中

算法一(WMcontent):第一种算法是对原数据集进行加工。他们把训练数据中的图像作为输入,并在上面加入额外的、有意义的内容,比如下图(b)中的特殊字符串“TEST”。输入这张图后,原模型会把它归类为“飞机”,如果是其他没有在带“TEST”的数据上训练过的模型,它们遇到这类图时应该还是会输出“汽车”。

算法二(WMunrelated):为了避免嵌入水印影响模型原始性能,他们提出的第二种算法是把和任务无关的其他类图像作为水印,让模型学会“额外”技能。如下图(c)所示,他们设置了一幅手写数字图像,并分配给它一个特殊标签:“飞机”。如果没有盗用模型,其他模型是无法把“1”识别成“飞机”的。

算法三(WMnoise):这种方法是第一种算法的升级版,比起添加有意义标志,算法三加入的是无意义的噪声。简而言之,输入图像(a)后,原模型能识别这是“汽车”,但输入图像(d)后,只有原模型才会把它认做“飞机”。它的好处是加入的高斯噪声和纯噪声是可以分开的,但盗用者不知道具体方法。

有了水印,之后就是把它们部署进DNN,下面是具体算法:

实验结果

为了测试水印框架,研究人员使用了两个公共数据集:MNIST,一个拥有60,000个训练图像和10,000个测试图像的手写数字识别数据集;CIFAR10,一个包含50,000个训练图像和10,000个测试图像的对象分类数据集。

上图是原模型在CIFAR10上的测试表现:输入一幅汽车图,模型预测它为汽车的概率有0.99996,其次是猫、卡车等;输入一幅带“TEST”的汽车图,模型预测它为飞机的概率是100%。这表示水印已经生成,而且模型表现良好。

那么这三种水印会对模型性能造成多大影响呢?

如上图所示,有水印模型的分类准确率和干净模型基本一致。而综合其他稳健性检测数据,WMnoise是最安全的加水印方法,盗用者很难把新增的噪声和原始噪声区分开来;WMcontent虽然做法质朴,但它在两个数据集上表现更稳健;而WMunrelated是最易于使用的,毕竟无论是添加有意义标记还是无意义噪声,这里面都包含一定的工作量,而加入一个自带预设标签的无关图像自然是懒人首选。

小结

当然,这种给深度学习模型加水印的方法也有缺陷。首先,既然是盗用模型,盗用者肯定是远程部署的,这意味着模型参数不会被公开。其次,如果盗用者开发出不同的反水印机制,DNN模型水印本身的稳健性也会发生不同变化。

此外,如果泄露的模型不是在线部署的,而是作为内部服务,那这种方法也无法检测其中是否存在盗用行为。不过这种情况也有好处,就是盗用者无法直接用模型来非法牟利。

目前,IBM正在内部普及这一技术,未来可能会开发面向用户的相关服务。当然,作为一个在美国专利榜连续制霸25年的科技大厂,IBM已经为这种方法申请了专利。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • IBM
    IBM
    +关注

    关注

    3

    文章

    1666

    浏览量

    74257
  • 神经网络
    +关注

    关注

    42

    文章

    4562

    浏览量

    98646
  • 机器学习
    +关注

    关注

    66

    文章

    8095

    浏览量

    130517

原文标题:IBM最新专利:为机器学习模型打上水印

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    一种基于离散小波变换和HVS的彩色图像数字水印算法

    嵌入定的数字信息来达到版权保护的目的。数字水印技术分为空域方法和频域方法。空域方法的鲁棒性较差,水印信号容易丢失,因此目前的
    发表于 09-19 09:34

    一种电子系统测试性模型研究

    和可用性有很大影响。在对测试性建模理论进行研究的基础上,借鉴多信号流图模型和eXpress信息模型,提出了一种适合电子系统的测试性模型——E
    发表于 04-22 11:28

    基于MPEG心理声学模型II的自适应音频水印算法

    音频水印作为保护音频作品的版权和秘密通信的可行方法,成为近年数字水印研究领域中的个热点。针对目前音频水印算法
    发表于 03-04 22:13

    (分享)一种可以同时给多个设备充电的新型无线充电技术

    研究人员开发了一种新型的无线充电发射器,它可以以90% 的高效率在近距离为多个设备充电。无线充电技术不再依赖于插头、插座和充电板来充电,使得
    发表于 03-03 11:10

    介绍一种Arm ML嵌入式评估套件

    运行 ML 模型,但与 Arm Ethos-U55 microNPU 的集成可以嵌入式系统中的 ML
    发表于 08-12 15:35

    探索一种降低ViT模型训练成本的方法

    无法获得此类资源的研究人员排除在这研究领域之外。通过仅使用1个GPU作为基准,显著降低了ViT的训练成本,这使得更多的研究人员能够推动这
    发表于 11-24 14:56

    LabVIEW进行癌症预测模型研究

    ,然后将得到的特征向量输入到SVM中进行分类。 LabVIEW是一种视觉编程语言,与传统的文本编程语言不同,更适合于进行复杂数据分析和预测模型开发。 LabVIEW使用数据流模型
    发表于 12-13 19:04

    IBM发布最新AI模型,帮视障者“看”到更多

    IBM最新的论文中,研究人员提出了一种能自主制作多样化、创造性和符合人类语境的图片文字说明的模型
    的头像 发表于 06-25 08:47 2582次阅读

    研究人员开发了一种新颖的机器学习管道

    研究人员通过一种特殊的神经网络模型,它以“基本块”(计算指令的基本摘要)形式训练标记的数据,以自动预测其持续时间使用给定的芯片执行以前看不见的基本块。结果表明,这种神经网络模型的性能要
    的头像 发表于 04-15 16:42 1665次阅读

    研究人员通过AI和机器人来治疗手部震颤疾病

    研究人员开发了一种机器学习模型,该模型可以使机器人安全地治疗与神经退行性疾病相关的手部震颤。
    发表于 04-29 17:29 828次阅读

    研究人员开发了一种便携式设备,可以准确地筛查几种疾病和感染

    新加坡研究人员开发了一种便携式设备,可以准确地筛查几种疾病和感染。
    发表于 05-19 15:22 671次阅读

    麦克斯·德尔布吕克分子医学中心的研究人员开发了一种新工具

    为了简化此过程,MDC的研究人员开发了一种通用的编程工具,该工具可将各种基因组数据转换为所需的格式,以供深度学习模型进行分析。
    的头像 发表于 07-16 14:47 1853次阅读

    研究人员开发了一种新型的磁力驱动高速软件机器人

    《通讯-材料》最近发表了一篇关于技术研究开发的论文,研究人员成功地开发了一种新型的磁力驱动高速软件机器人,它
    的头像 发表于 10-10 10:57 2504次阅读

    研究人员开发出新型数学模型的应用与人工智能的复杂性和训练

    近日消息,研究人员开发了一种新的统计模型,该模型基于城市之间的相互联系,以及一些城市比其他城市更适合感染的环境这一观点,预测哪些城市更可能成
    的头像 发表于 03-24 11:13 1682次阅读

    研究人员开发技术以提高电池寿命

    普渡大学的研究人员开发了一种技术可以降低 CMOS 芯片所需的功率,从而延长电子设备的电池寿命。
    发表于 08-18 16:04 258次阅读