0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用LSTM模型对智能家居里的活跃设备进行预测

倩倩 来源:lq 作者:机器之心Pro 2019-10-11 11:16 次阅读

今年 8 月份,香港中文大学张克环教授研究组在 arxiv 上公布了一篇文章,展示了他们组对于智能家居隐私性的研究。文章作者尝试使用 LSTM 模型对智能家居里的活跃设备进行预测。该预测可以使服务提供商(ISP)猜测用户正在家里使用什么类型的设备,从而有可能对拥有不同设备的用户有不同的商业推广手段。

在此之前,已经有不少人做了相关的研究,但他们的研究大都是基于纯净的实验室环境,很难移植到复杂的现实环境中。作者通过分析真实世界中的 IoT 设备以及公开数据集,发现物联网设备的流量与桌面流量和移动流量相比有以下区别:

同一类别的设备有相似的流量模式(下图为两种语音助手识别语音命令时的流量变化情况)

设备都有「心跳」传输来保证网络和设备的联通,不同设备的「心跳」模式不同不同设备传输协议比例不同(下图展示了 IoT 设备和非 IoT 设备的协议使用情况)

作者认为,这些特征表明即使是在复杂场景下,而且具有一定的安全设备(NAPT 和 VPN)也能鉴别不同的 IoT 设备。由于现有的数据集不满足作者的要求,因此作者团队自己搭建了一个数据采集的系统。

实验数据收集

该系统包含 10 个 IoT 设备和 4 个非 IoT 设备,系统内设备如下图所示。

作者准备在三个环境下收集流量信息:单一设备环境、多设备嘈杂环境 (使用 NAPT 技术) 以及 VPN 环境。

首先介绍一下 NAPT 技术和 VPN 技术。NAPT 是一种网络地址转换技术,与 NAT 不同,NAPT 支持端口的映射。NAT 实现的是本地 IP 和 NAT 的公共 IP 之间的转换,因此本地局域网中同时与公网进行通信的主机数量就受到 NAT 的公网 IP 地址数量的限制。而 NAPT 克服了这种缺陷——NAPT 技术在进行 IP 地址转换的同时还对端口进行转换,因此只要 NAT 中的端口不冲突,就允许本地局域网的多台主机利用一个 NAT 公共 IP 就可以同时和公网进行通信。

VPN 通常用于互连不同的网络,以形成具有更大容量的新网络。它是基于 IP 隧道机制,不同子网中的主机可以相互通信,并且可以通过认证和加密保密传送的信息。

在生成流量的过程中,作者采用了两种触发方式:手动触发和自动触发,手动触发可以模拟真实环境下的人机交互,自动触发可以减轻实验者的负担。在自动触发模式下,作者使用 Monkey Runner 对需要用 APP 进行交互的 IoT 设备进行触发;对于语音助手等 IoT 设备,作者通过重复播放口令来进行触发。

手动触发模式只在多设备场景下使用,在该模式下,作者通过随机进出房间来对房间内的试验设备进行触发。该种方式与自动触发相比,更具有随机随机性,从而有助于模型的泛化。

整个流量收集过程持续 49.4 个小时,共收集 4.05GB 的数据,共包含 7223282 条有效通信包。

数据预处理

在进行实验评估之前,作者先对数据进行了预处理——将初始数据转换为模型能够处理的数值向量。

数据预处理过程可分为两部分,特征提取和制作数据包的标签。在特征提取过程中,共提取了五个特征,分别是端口 (dport)、协议 (protocol)、方向 (direction)、帧长 (frame length)、时间间隔 (time interval),并将这五个特征组成一维向量,如下图所示。

在给数据包制作标签的过程中,针对在 VPN 环境下较难打标的问题,作者发现了如下规律,从而能够较精确地给数据包打标签:

经过 VPN 处理后,数据包的体积会变大不同体积的数据包经过 VPN 加密后体积相同VPN 会引起数据包传输延迟,这个延迟通常短于 0.02 秒

模型选择

在模型选择上,作者共选取了三个模型:随机森林(基线模型)、LSTM 模型以及 BLSTM(双向 LSTM)模型。由于随机森林无法直接学习离散值,作者对端口的特征值进行了独热编码处理。

对于 LSTM 模型,作者也对输入模型的数据进行了处理,他将多个连续向量进行了分组并组成流量窗,如下图所示。

作者使用的 LSTM 模型如下图所示。该模型由多个基础模块组成,每个基础模块又包含有 Embedding 层、LSTM 层、全连接层以及 Softmax 层。

由于 LSTM 模型在学习上下文信息时只能查看数据包的「过去」,因此作者又使用了 BLSTM 模型。BLSTM(双向 LSTM)是 LSTM 的扩展,它通过组合从序列末尾移动到其开头的另一个 LSTM 层来利用来自「未来」的信息。作者使用的 BLSTM 模型见下图。

模型评估

数据集

共有两种数据集,Dataset-Ind 以及 Dataset-Noise。每种数据集又有两个版本:NAPT 版本和 VPN 版本。Dataset-Ind 数据集包含来自 10 个单独 IoT 设备的流量数据,这些数据被组成流量窗。Dataset-Ind 数据集共有 32760 个流量窗。

Dataset-Noise 数据集中的数据也是以流量窗的形式存在,与 Dataset-Ind 数据集不同的是,该数据集中的每个流量窗都是由多个设备的数据包组成。Dataset-Noise 数据集包含 114989 个流量窗。

评估指标

总精度(overall accuracy) 和分类精度(category accuracy)

评估结果

在 Datatset-Ind 数据集下的评估结果如下表所示。从表中可以看出,LSTM 模型的精度普遍高于随机森林模型。

随后,作者又在 Dataset-Ind 数据集下研究了流量窗大小对实验精度的影响,结果显示,流量窗越大,实验精度越高。因此,在接下来的实验中,流量窗的大小默认为 100。

在 Dataset-Noise 数据集下的评估结果如下图所示。由图中可以看出,随机森林模型在该数据集下的总精度下降明显,在 NAPT 环境下总精度为 84.5%,在 VPN 环境下的总精度为 67.6%。而 LSTM 模型在 NAPT 环境下表现较好,在 VPN 环境下表现较差。

作者对随机森林模型和 LSTM 模型精度降低的现象进行了分析,认为随机森林模型精度降低的原因是多个 IoT 设备和非 IoT 设备同时使用一个端口进行通信,使得该模型分类失败;而 LSTM 模型精度下降的原因,作者认为是由稀疏流量造成的:因此在 VPN 协议的极端情况下,智能插头(图中 orvibo, tplink)产生的流量包可以在流量窗口中被稀释到不到 3%。令这两款智能插头不能被识别出。

结论

根据实验结果,作者认为即使是在加密和流量融合的情况下,物联网设备的网络通信也会产生严重的隐私影响。人们应该进行更多该方面的研究,以更好地了解智能家居网络中地隐私问题并缓解此类问题。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2867

    文章

    41600

    浏览量

    358312
  • 智能家居
    +关注

    关注

    1912

    文章

    9149

    浏览量

    179326
  • 数据集
    +关注

    关注

    4

    文章

    1178

    浏览量

    24348
收藏 人收藏

    评论

    相关推荐

    那些在智能家居领域大放异彩的SoC

    电子发烧友网报道(文/黄山明)如今,智能家居已经不算一个新鲜的概念了,而智能家居的“智能化”则是由里面的芯片来支撑,这些芯片能够实现智能家居设备
    的头像 发表于 08-01 00:56 1368次阅读

    基于英飞凌MCU PSoC™ 6的 Matter智能家居解决方案

    2019年底,中国已成为全球最大的物联网市场,全球15亿台蜂窝网络连接设备中9.6亿台来自中国,占比64%。国内智能家居产品和解决方案的普及程度不断提高,消费者对智能家居设备的需求也不
    的头像 发表于 03-15 15:26 165次阅读
    基于英飞凌MCU PSoC™ 6的 Matter<b class='flag-5'>智能家居</b>解决方案

    智能家居控制方案功能与应用

    是以物联网作为核心技术支撑,利用网络通信手段,实现对住宅中各种设备与建筑设施进行自动控制与管理。集成开发智能家居控制方案,快速启动、多种人机交互方式,多屏实时互动等,将家庭娱乐、安防、教育、购物、医疗等
    的头像 发表于 02-29 16:18 288次阅读

    智能家居控制系统原理与应用

    智能家居控制系统是指利用先进的计算机科学和通信技术,将各种家居设备和系统进行连接和集成,实现智能化控制和管理的系统。它通过传感器、执行器、通
    的头像 发表于 01-10 11:44 751次阅读

    LabVIEW进行癌症预测模型研究

    LabVIEW进行癌症预测模型研究 癌症是一种细胞异常增生的疾病。随着年龄的增长,细胞分裂速度放缓,但癌细胞会失去控制地不断分裂,形成可能良性或恶性的肿瘤。 2012年的国际癌症数据显示,新发癌症
    发表于 12-13 19:04

    基于CNN-LSTM网络的电力负荷预测

    为了及时掌握电力负荷的变动信息,就需要对电力负荷进行准确预测。鉴于此,探究出一种CNN和LSTM的组合模型预测一日到一周的电力短期负荷波动
    的头像 发表于 11-09 14:13 1444次阅读
    基于CNN-<b class='flag-5'>LSTM</b>网络的电力负荷<b class='flag-5'>预测</b>

    智能家居解决方案

    、网络通讯、计算机等技术,通过互联网和智能终端设备,实现对家庭环境和设备智能化管理。与安全防控、窗帘、煤气阀、灯光、场景、地板采暖等智能
    的头像 发表于 10-23 16:22 768次阅读

    智能家居管理系统设计资料

    智能家居管理系统设计(原理图+APP+源代码等)使用51单片机作为主控 提供完整源码 可实现智能家居控制网上下载的资源 侵权删!
    发表于 10-07 08:22

    无线传感器网络在智能家居系统中的应用介绍

    需要开发传感网络应用,使人们能够通过计算机或者手持设备随时监视家庭环境和控制电器设备.根据智能家居的功能划分,可将其分为家电子网,节能控制子网和安防报警子网(见图1),这3部分通过有线或无线的方式与家庭网关
    发表于 09-19 06:02

    缘起东风,DFM-2大模型「吹热」智能家居

    智能家居领域,目前思必驰已与海信、长虹美菱、老板电器、海尔等合作伙伴达成DFM-2大模型合作意向。另外,为促进大模型与行业应用融合,思必驰将联合中国信通院、海尔、中移杭研、美的等企业起草家居
    的头像 发表于 08-03 15:08 561次阅读
    缘起东风,DFM-2大<b class='flag-5'>模型</b>「吹热」<b class='flag-5'>智能家居</b>

    使用Xilinx KV260对智能家居设备进行手势控制

    电子发烧友网站提供《使用Xilinx KV260对智能家居设备进行手势控制.zip》资料免费下载
    发表于 06-25 10:36 1次下载
    使用Xilinx KV260对<b class='flag-5'>智能家居</b><b class='flag-5'>设备</b><b class='flag-5'>进行</b>手势控制

    采用陶瓷线路板的智能家居设备设计与实现

    智能家居设备是目前家庭智能化的重要组成部分,而陶瓷线路板作为一种新型的电子材料,具有高热传导率、高频特性、耐腐蚀性等优点,在智能家居设备中得
    的头像 发表于 06-19 16:40 485次阅读
    采用陶瓷线路板的<b class='flag-5'>智能家居</b><b class='flag-5'>设备</b>设计与实现

    智能家居前景分析

    智能家居前景分析 智能家居是指家庭中通过各种智能化技术和设备,使得家庭更加智能化、便利化、安全化和舒适化的一种
    的头像 发表于 06-01 18:20 4352次阅读

    【洞见芯趋势】当家居遇上AI,或将引爆智能家居新体验!

    )上,智能家电成为了最大的亮点。据IDC预测,随着全球经济复苏,2023年智能家居设备出货量将温和增长2.2%,预计这种增长将持续到2027年,2027年
    的头像 发表于 05-19 02:15 461次阅读
    【洞见芯趋势】当<b class='flag-5'>家居</b>遇上AI,或将引爆<b class='flag-5'>智能家居</b>新体验!

    语音模块让智能家居智能

    轻生活科技智能语音解决方案,通过嵌入离线语音模块,可以让各种智能家居设备实现语音控制,进一步提升了智能家居的便捷性和智能化水平。
    的头像 发表于 05-18 17:12 408次阅读
    语音模块让<b class='flag-5'>智能家居</b>更<b class='flag-5'>智能</b>