在机器学习领域引入了一种新的隐写术，称为“训练集伪装-电子发烧友网

你以为是水果图像分类的任务，实际是男女分类任务，这并非不可能。研究人员在机器学习领域引入了一种新的隐写术，伪装训练集，隐藏任务的意图和目标，从而可以训练AI系统执行秘密任务。

将信息隐藏在显而易见的地方，使其存在不被怀疑，这就是隐写术。

隐写术并不新鲜。早在公元前5世纪，信使们就会剃光头发，并在头上写下信息。等到他们重新长出头发，就能隐藏信息。只有预定的收信人知道要剃光信使的头发来获得信息。

在现代，隐写技术常被用来检测未经授权的数字媒体分发。需要注意的是，隐写术(steganography)不同于密码学(crypotgraphy)，后者的目的是隐藏数据内容。如果监视数据的人可以更改数据或完全停止数据传输，就无法使用加密了。在这种情况下，隐写术变得非常重要，因为我们不希望任何介入的窃听者会觉得可疑并停止数据传输。

在最近的研究中，威斯康星大学麦迪逊分校和阿默斯特学院的研究人员在机器学习领域引入了一种新的隐写术，称为“训练集伪装”(training set camouflage)。

他们设想了这样一个场景：一个机器学习智能体(Alice)试图训练另一个智能体(Bob)去完成一项秘密的分类任务，而且要避免被第三个智能体(Eve)窃听。

他们在arXiv上预先发表的一篇论文中概述了他们的框架，该框架允许机器学习智能体向第三方观察者隐藏任务的意图和目标。

图1：训练集伪装的示例。(a) 伪装的训练集 (b)秘密的分类任务

图1a所示的分类训练集中，上面一行包含正类(+)的实例，下面一行是负类(-)的实例。这些图像可以输入给机器学习系统，以学习一个模型，该模型将成功地将从未见过的实例(图像)分类为+或-。

如果你认为这个任务是水果图像分类(橙子vs.苹果)，那么你已经被成功地愚弄了。实际的任务是对女性和男性进行分类，如图1b所示。事实上，一个标准的逻辑回归学习器仅对图1a中的图像进行训练，就可以对图1b中的图像得到较高的性别分类准确率。

在这篇论文中，研究人员设想了一个智能体Alice，她有一个秘密的分类任务(例如，对女性和男性的图像进行分类)和一个相应的私人训练集(女性和男性的图像)。Alice想训练第二个智能体，Bob，来完成这个秘密任务。

“训练集伪装”的框架

研究人员在论文中写道：“想象一下，Alice有一个非法机器学习分类任务的训练集。Alice想让Bob(一个机器学习系统)来学习这个任务。然而，如果通信受到监控，训练集或训练模型被发送给Bob，就会引起怀疑。”

在研究人员设想的场景中，名为Eve的第三个智能体扮演数据检验者的角色，监视Alice和Bob之间的通信。当Eve对Alice发送给Bob的内容产生怀疑时，她可以终止它们之间的通信，并拒绝将数据传递给Bob)。Eve作为审核者，在将训练数据传递给学习者之前，他会试图弄清楚该数据集是否合法。

“发送私人训练集会暴露Alice的意图；发送模型参数方向也会引起怀疑。Alice必须伪装通信，让通信内容在Eve看起来平淡无奇，同时避免事先与Bob使用过多的编码技巧。”

他们展示了Alice如何为一个隐秘任务构建一个伪装的数据集，其中(i)这个训练集在Eve看来是不可疑的，(ii)能让Bob学习秘密任务的准确模型。在前面的例子中，Eve注意到Alice发送的苹果和橘子的图像看起来是正常的，而对Alice关于女性vs男性分类的秘密任务一无所知。

研究人员设计的隐写术方法允许Alice在一个完全不同的、看起来良好的分类任务上计算第二个训练集，而不会引起Eve的怀疑。它通过查找看起来可以应用于特定任务的数据集来实现这一点，而实际上它可以教会智能体在不同的任务中表现良好。通过将它的标准学习算法应用于第二个训练集，Bob可以近似恢复原始任务上的分类器。

研究人员设计出这种隐写法某种程度上是偶然，因为它来自机器学习领域的一个不相关的项目。他们开发的系统创建了一系列的教学集，其中一个包括有错误的标签点。这鼓励他们研究一个智能体是否可以教另一个智能体如何完成任务，同时这个任务是用另一个任务伪装的。

研究人员使用真实的分类任务进行了一系列的实验，证明了他们的方法的可行性。他们的研究表明，只要利用以下事实就可以隐藏大量信息：对于任何给定的任务，都有几个模型可以很好地执行该任务。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

图像

图像

+关注

关注
2

文章
1063

浏览量
40028
机器学习

机器学习

+关注

关注
66

文章
8088

浏览量
130509
智能体

智能体

+关注

关注
1

文章
111

浏览量
10418

原文标题：机器学习新隐写术：伪装训练集，隐藏任务意图

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

【Firefly RK3399试用体验】之结项——KNN、SVM分类器在SKlearn机器学习工具集中运用

些已知分类的训练数据集，然后用这些数据及其分类去训练分类器，然后再用测试数据输入训练器，训练器对这些数据做出分类，这也是

发表于 07-20 22:26

计算机视觉/深度学习领域常用数据集汇总

`深度学习领域的“Hello World!”，入门必备！MNIST是一个手写数字数据库，它有60000个训练样本集和10000个测试样本集，每个样本图像的宽高为28*28。此数据

发表于 08-29 10:36

吴恩达的7条机器学习训练秘籍

《Machine Learning Yearning》是人工智能和深度学习大佬吴恩达新出的一本书，该书着重介绍如何让机器学习算法能够工作，以及如何构建

发表于 09-20 11:41

机器学习训练秘籍——吴恩达

帮助团队做出一些这样的改变，从而成为团队里的超级英雄！3 先修知识与符号说明如果你有学习过机器学习相关课程（例如我在 Coursera 开设

发表于 11-30 16:45

深度学习中开发集和测试集的定义

多少由你来决定。但请不要武断地认为测试集分布和训练集分布是一致的。尽可能地选择你最终期望算法能够正确处理的样本作为测试集，而不是随便选择

发表于 11-30 16:58

干货 | 这些机器学习算法，你了解几个？

！”相反，你心里通常有一个最终目标，如利用它来预测结果或分类观察。所以在机器学习中，有一种叫做“没有免费的午餐”的定理。简而言之，它的意思

发表于 09-22 08:30

一种先分割后分类的两阶段同步端到端缺陷检测方法

表面缺陷检测的两阶段体系结构的缺点，并提出了一种端到端的训练方案，该方案只需要精度不高的像素级标注而且不会影响性能。该方法通过以端到端的方式同时引入分割和分类层的学习来改善

发表于 07-24 11:01

一种基于机器学习的建筑物分割掩模自动正则化和多边形化方法

摘要我们提出了一种基于机器学习的建筑物分割掩模自动正则化和多边形化方法。以图像为输入，首先使用通用完全卷积网络( FCN )预测建筑物分割图，然后使用生成对抗网络( GAN )对建筑物边界进行正则

发表于 09-01 07:19

人工智能基本概念机器学习算法

目录人工智能基本概念机器学习算法1. 决策树2. KNN3. KMEANS4. SVM5. 线性回归深度学习算法1. BP2. GANs3. CNN4. LSTM应用人工智能基本概念数据集

发表于 09-06 08:21

隐藏技术: 一种基于前沿神经网络理论的新型人工智能处理器

纳米技术制作，芯片面积只有4.36平方毫米。“前两个因素使 Hiddenite 芯片与现有的 DNN 推理加速器区别开来,”motoura 教授说。“此外，我们还引入了一种新的隐式神经网络训练

发表于 03-17 19:15

机器学习简介与经典机器学习算法人才培养

思想。理解在一个新的场景或数据集下，何时以及如何进行迁移学习。利用PyTorch加载数据、搭建模型、训练网络以及进行网络微调操作。给定迁移场

发表于 04-28 18:56

什么是机器学习? 机器学习基础入门

是将提供的两个数字相乘。图2。有了机器学习，我们就有了数据(输入)和答案(输出) ，并且需要计算机通过确定输入和输出如何以对整个数据集为真的方式相互关联来推导出一种排序算法假设我使用

发表于 06-21 11:06

部署基于嵌入的机器学习模型

还需要处理模型的更新。模型更新的速度甚至可以非常高，因为模型需要定期地根据最新的数据进行再训练。　　本文将描述一种更复杂的机器学习系统的一般

发表于 11-02 15:09

一种基于Deep U-Net的多任务学习框架

Challenge 2018论文作者使用了一种称为Boostrap aggreging (Bagging)的集成方法。在同一模型训练5次，

发表于 11-10 15:35

探索一种降低ViT模型训练成本的方法

（1 GPU）和时间（24小时）资源下从头开始训练ViT模型。首先，提出了一种向ViT架构添加局部性的有效方法。其次，开发了一种新的图像大小课程学习策略，该策略允许

发表于 11-24 14:56

搜索历史

在机器学习领域引入了一种新的隐写术，称为“训练集伪装

评论

【Firefly RK3399试用体验】之结项——KNN、SVM分类器在SKlearn机器学习工具集中运用

计算机视觉/深度学习领域常用数据集汇总

吴恩达的7条机器学习训练秘籍

机器学习训练秘籍——吴恩达

深度学习中开发集和测试集的定义

干货 | 这些机器学习算法，你了解几个？

一种先分割后分类的两阶段同步端到端缺陷检测方法

一种基于机器学习的建筑物分割掩模自动正则化和多边形化方法

人工智能基本概念机器学习算法

隐藏技术: 一种基于前沿神经网络理论的新型人工智能处理器

机器学习简介与经典机器学习算法人才培养

什么是机器学习? 机器学习基础入门

部署基于嵌入的机器学习模型

一种基于Deep U-Net的多任务学习框架

探索一种降低ViT模型训练成本的方法