0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

KiloGram是一种用于管理文件中的大型n-gram的新算法

倩倩 来源:互联网分析沙龙 2020-04-03 14:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

最近,一组研究人员在KiloGram上发表了他们的论文,KiloGram是一种用于管理文件中的大型n-gram的新算法,可以改善机器学习对恶意软件的检测能力。新算法比以前的方法快60倍,并且可以处理n = 1024或更高的n-gram。n的大值具有可解释的恶意软件分析和签名生成的其他应用程序。

在KDD 2019网络安全学习和采矿研讨会上发表的论文中,来自马里兰大学和网络安全公司Endgame的研究人员描述了他们的算法,用于在大型文件数据集中查找最频繁的n-gram。以前的方法在增加n的大小时会在内存和运行时中遇到“指数成本”,而在分析具有数十万个文件的数据集时,它们的n值将小于8。相比之下,KiloGram算法能够从数百万个文件中的5TB数据中提取n-gram,而仅使用9GB的RAM,并且“运行时间不会随n的增加而增加”。这允许算法为较大的n值提取n-gram,以测试这些n-gram是否为机器学习算法提供了更好的准确性。

一个n-gram是n个项的唯一序列,并且该思想被用于许多机器学习任务中,尤其是自然语言处理(NLP)。在检测到恶意软件的情况下,n-gram是来自文件的字节序列,该文件将被分类为恶意软件或良性文件。恶意软件检测的早期工作表明,较大的n-gram(例如n = 15或20)对于训练检测系统是理想的,但是现代数据集的大小使得使用大于6的n值太昂贵。由于KiloGram算法可以处理那些较大的值,因此研究团队能够测试较大值更好的想法。

该团队使用可执行文件和Adobe PDF文档的多个数据集,训练了Elastic-Net正则化逻辑回归分类器来检测恶意软件;为了进行回归,输入特征是使用KiloGram算法提取的n元语法。与文献中的建议相反,研究人员发现“预测精度不会增加到n = 8以上”。较大的n-gram会产生精度降低的模型;但是,它们具有可解释性的优点。较小的n-gram产生“黑匣子”模型,而较大的n-gram特征集包含可能对分析人员有意义的字节序列。例如,它们可能代表代码片段或文本字符串。

研究人员认为,较大的n-gram在回归模型中使用时不那么精确,因为它们更特定于特定的恶意软件攻击。实际上,它们会导致过度拟合。但是,当在诸如Yara之类的签名模型中使用时,它们的优点是它们的假阳性率低。也就是说,尽管Yara模型可能会错误地将更多文件标记为良性文件,但如果它确实表明文件为恶意软件,则很少有错。这使得KiloGram算法可用于构建结合了机器学习模型和基于签名的模型的分层系统。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4762

    浏览量

    97170
  • 网络安全
    +关注

    关注

    11

    文章

    3453

    浏览量

    62994
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136241
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    用于单片机几种C语言算法

    算法的基本原理很简单,就是连续取N次采样值后进行算术平均。算法的程序代码如下: 说明:算术平均滤波算法用于对具有随机干扰的信号进行滤波
    发表于 11-27 06:00

    8常用的CRC算法分享

    CRC 计算单元可按所选择的算法和参数配置来生成数据流的 CRC 码。有些应用,可利用 CRC 技术来验证数据的传输和存储的完整性。 8 常用的 CRC 算法,包括: CRC16_
    发表于 11-13 07:25

    复杂的软件算法硬件IP核的实现

    源代码编译为 HDL 的过程共分为两步: (1)C to HASM (2)HASM to HDL 第步 C to HASM 是将 C 语言描述的算法编译为一种中间的、与实际硬
    发表于 10-30 07:02

    指令集测试的一种纠错方法

    本文描述在进行指令集测试的一种纠错方法 1.打开测试指令集对应的dump文件 dump文件是指由汇编文件进行反汇编之后,可以供人阅读指令的反汇编
    发表于 10-24 14:04

    国密系列算法简介及SM4算法原理介绍

    使用了Feistel结构(分组密码一种对称结构),其中密钥扩展部分也使用了Feistel结构,所以对数据和密钥的处理流程极为相似。下面对SM4加密过程进行阐述: 对于密钥扩展部分,采用固定参数FK
    发表于 10-24 08:25

    加密算法的应用

    加密算法和非对称加密算法两类。 对称加密是一种加密方式,也称为共享密钥加密。加密和解密使用同个密钥。这种加密算法的优点是加密和解密速度快,
    发表于 10-24 08:03

    一种高效智能的光伏电站管理平台

    体化(集成多种储能管理功能等)。用户根据自身场景和需求,选择合适光伏电站管理平台及功能应用配置,从而实现发电效率最大化、运维成本最小化及碳中和目标。 光伏电站管理平台作为
    的头像 发表于 07-18 09:20 849次阅读
    <b class='flag-5'>一种</b>高效智能的光伏电站<b class='flag-5'>管理</b>平台

    100V15A点烟器N沟道MOS管HC070N10L

    N沟道MOS管(金属-氧化物-半导体场效应晶体管)是一种电压控制型器件,依靠N型半导体的电子导电。当栅极电压超过阈值电压时,源极与漏极之间形成导电沟道,实现电流导通,具有输入阻抗高、
    发表于 06-27 17:35

    在 KiCad 添加个 AI 助手是一种什么体验?

    一种什么体验? 文章出处:【微信公众号:KiCad】欢迎添加关注!文章转载请注明出处。
    的头像 发表于 05-15 14:28 624次阅读

    基于RK3576开发板的车辆检测算法

    车辆检测是一种基于深度学习的对人进行检测定位的目标检测,能广泛的用于园区管理、交通分析等多种场景,是违停识别、堵车识别、车流统计等多种算法的基石算法
    的头像 发表于 05-08 17:34 1277次阅读
    基于RK3576开发板的车辆检测<b class='flag-5'>算法</b>

    基于RV1126开发板的车辆检测算法开发

    车辆检测是一种基于深度学习的对人进行检测定位的目标检测,能广泛的用于园区管理、交通分析等多种场景,是违停识别、堵车识别、车流统计等多种算法的基石算法
    的头像 发表于 04-14 16:00 621次阅读
    基于RV1126开发板的车辆检测<b class='flag-5'>算法</b>开发

    AcrelCloud - 3200:大型商场预付费管理的革新利器

    、方案概述 在现代商业运营和物业管理大型商场、商业小区以及大集团和大物业面临着复杂的费用收取和管理难题。安科瑞的 AcrelCloud
    的头像 发表于 04-14 13:38 588次阅读
    AcrelCloud - 3200:<b class='flag-5'>大型</b>商场预付费<b class='flag-5'>管理</b>的革新利器

    hyper-v 文件,Hyper-V文件管理:高效操作指南

    在日常办公,我们常常需要对大量文件或数据进行重复性操作,比如批量修改文件名、批量更新数据等。这些任务不仅耗时费力,还容易出错。幸运的是,批量管理工具的出现为我们提供了
    的头像 发表于 02-06 10:27 1288次阅读
    hyper-v <b class='flag-5'>文件</b>,Hyper-V<b class='flag-5'>文件</b><b class='flag-5'>管理</b>:高效操作指南

    AT6N135、AT6N136 是一种用于单通道的高速光耦合器

    AT6N135、AT6N136 是一种用于单通道的高速光耦合器, 由个 850nm 的 AlGaAs LED 光学耦合到
    发表于 01-13 09:54 0次下载

    大型农田灌区信息化管理监测系统方案

    大型农田灌区信息化管理监测系统是个集数据采集、传输、分析与决策支持于体的农田灌区信息化管理监测系统,实现灌区的精细化
    的头像 发表于 12-24 16:29 777次阅读
    <b class='flag-5'>大型</b>农田灌区信息化<b class='flag-5'>管理</b>监测系统方案