0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

KiloGram是一种用于管理文件中的大型n-gram的新算法

倩倩 来源:互联网分析沙龙 2020-04-03 14:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

最近,一组研究人员在KiloGram上发表了他们的论文,KiloGram是一种用于管理文件中的大型n-gram的新算法,可以改善机器学习对恶意软件的检测能力。新算法比以前的方法快60倍,并且可以处理n = 1024或更高的n-gram。n的大值具有可解释的恶意软件分析和签名生成的其他应用程序。

在KDD 2019网络安全学习和采矿研讨会上发表的论文中,来自马里兰大学和网络安全公司Endgame的研究人员描述了他们的算法,用于在大型文件数据集中查找最频繁的n-gram。以前的方法在增加n的大小时会在内存和运行时中遇到“指数成本”,而在分析具有数十万个文件的数据集时,它们的n值将小于8。相比之下,KiloGram算法能够从数百万个文件中的5TB数据中提取n-gram,而仅使用9GB的RAM,并且“运行时间不会随n的增加而增加”。这允许算法为较大的n值提取n-gram,以测试这些n-gram是否为机器学习算法提供了更好的准确性。

一个n-gram是n个项的唯一序列,并且该思想被用于许多机器学习任务中,尤其是自然语言处理(NLP)。在检测到恶意软件的情况下,n-gram是来自文件的字节序列,该文件将被分类为恶意软件或良性文件。恶意软件检测的早期工作表明,较大的n-gram(例如n = 15或20)对于训练检测系统是理想的,但是现代数据集的大小使得使用大于6的n值太昂贵。由于KiloGram算法可以处理那些较大的值,因此研究团队能够测试较大值更好的想法。

该团队使用可执行文件和Adobe PDF文档的多个数据集,训练了Elastic-Net正则化逻辑回归分类器来检测恶意软件;为了进行回归,输入特征是使用KiloGram算法提取的n元语法。与文献中的建议相反,研究人员发现“预测精度不会增加到n = 8以上”。较大的n-gram会产生精度降低的模型;但是,它们具有可解释性的优点。较小的n-gram产生“黑匣子”模型,而较大的n-gram特征集包含可能对分析人员有意义的字节序列。例如,它们可能代表代码片段或文本字符串。

研究人员认为,较大的n-gram在回归模型中使用时不那么精确,因为它们更特定于特定的恶意软件攻击。实际上,它们会导致过度拟合。但是,当在诸如Yara之类的签名模型中使用时,它们的优点是它们的假阳性率低。也就是说,尽管Yara模型可能会错误地将更多文件标记为良性文件,但如果它确实表明文件为恶意软件,则很少有错。这使得KiloGram算法可用于构建结合了机器学习模型和基于签名的模型的分层系统。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4804

    浏览量

    98534
  • 网络安全
    +关注

    关注

    11

    文章

    3516

    浏览量

    63569
  • 机器学习
    +关注

    关注

    67

    文章

    8564

    浏览量

    137213
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    将 MCUX SDK LIN 堆栈集成到 Zephyr OS ,是否有一种方法可以自动生成它们从 .ldf 文件

    我将 MCUX SDK LIN 堆栈集成到 Zephyr OS ,现在正在 S32K344-wb 板上对其进行测试,但我想更改 cfg 文件,我想知道是否有一种方法可以自动生成它们从 .ldf
    发表于 04-24 06:33

    深入解析FDBL0210N80 N-Channel PowerTrench® MOSFET

    深入解析FDBL0210N80 N-Channel PowerTrench® MOSFET 、引言 在电子工程领域,MOSFET作为一种关键的功率器件,广泛应
    的头像 发表于 04-17 17:35 578次阅读

    onsemi FDMC7692 N-Channel MOSFET:高性能电源管理利器

    onsemi FDMC7692 N-Channel MOSFET:高性能电源管理利器 在电子设计领域,MOSFET作为关键的功率器件,广泛应用于各种电源管理和负载开关应用
    的头像 发表于 04-16 17:45 937次阅读

    解析 NVTYS002N03CL:款高性能 N 沟道 MOSFET

    解析 NVTYS002N03CL:款高性能 N 沟道 MOSFET 在电子工程领域,MOSFET(金属 - 氧化物 - 半导体场效应晶体管)作为一种至关重要的功率器件,被广泛应
    的头像 发表于 04-07 11:50 187次阅读

    一种基于低噪声电源管理架构的射频采样系统设计方案

    本期为大家带来的是《雷达应用射频转换器的无杂波电源(第 1 部分)》,介绍了一种基于低噪声电源管理架构的射频采样系统设计方案,以解决相控阵雷达和 5G 通信应用因开关电源噪声耦合导
    的头像 发表于 03-25 08:10 3867次阅读
    <b class='flag-5'>一种</b>基于低噪声电源<b class='flag-5'>管理</b>架构的射频采样系统设计方案

    大型机械学会“感知”高压:一种近电预警的技术实践

    损毁。如何让这些庞大的机械具备“感知”高压的能力,成为电力安全领域的项重要课题。本文将对一种专门用于高压线下作业的预警技术——吊车高压防触碰预警器进行介绍。提示:
    的头像 发表于 03-04 10:02 234次阅读
    当<b class='flag-5'>大型</b>机械学会“感知”高压:<b class='flag-5'>一种</b>近电预警的技术实践

    技术资讯 I 文详解 STEP 文件

    本文要点STEP文件一种广泛使用的中性文件格式,用于交换3D计算机辅助设计(CAD)数据。STEP文件分为多种类型,适
    的头像 发表于 02-06 16:08 1262次阅读
    技术资讯 I <b class='flag-5'>一</b>文详解 STEP <b class='flag-5'>文件</b>

    用于单片机几种C语言算法

    算法的基本原理很简单,就是连续取N次采样值后进行算术平均。算法的程序代码如下: 说明:算术平均滤波算法用于对具有随机干扰的信号进行滤波
    发表于 11-27 06:00

    复杂的软件算法硬件IP核的实现

    源代码编译为 HDL 的过程共分为两步: (1)C to HASM (2)HASM to HDL 第步 C to HASM 是将 C 语言描述的算法编译为一种中间的、与实际硬
    发表于 10-30 07:02

    国密系列算法简介及SM4算法原理介绍

    使用了Feistel结构(分组密码一种对称结构),其中密钥扩展部分也使用了Feistel结构,所以对数据和密钥的处理流程极为相似。下面对SM4加密过程进行阐述: 对于密钥扩展部分,采用固定参数FK
    发表于 10-24 08:25

    加密算法的应用

    加密算法和非对称加密算法两类。 对称加密是一种加密方式,也称为共享密钥加密。加密和解密使用同个密钥。这种加密算法的优点是加密和解密速度快,
    发表于 10-24 08:03

    一种高效智能的光伏电站管理平台

    体化(集成多种储能管理功能等)。用户根据自身场景和需求,选择合适光伏电站管理平台及功能应用配置,从而实现发电效率最大化、运维成本最小化及碳中和目标。 光伏电站管理平台作为
    的头像 发表于 07-18 09:20 1182次阅读
    <b class='flag-5'>一种</b>高效智能的光伏电站<b class='flag-5'>管理</b>平台

    100V15A点烟器N沟道MOS管HC070N10L

    N沟道MOS管(金属-氧化物-半导体场效应晶体管)是一种电压控制型器件,依靠N型半导体的电子导电。当栅极电压超过阈值电压时,源极与漏极之间形成导电沟道,实现电流导通,具有输入阻抗高、
    发表于 06-27 17:35

    在 KiCad 添加个 AI 助手是一种什么体验?

    一种什么体验? 文章出处:【微信公众号:KiCad】欢迎添加关注!文章转载请注明出处。
    的头像 发表于 05-15 14:28 1138次阅读

    基于RK3576开发板的车辆检测算法

    车辆检测是一种基于深度学习的对人进行检测定位的目标检测,能广泛的用于园区管理、交通分析等多种场景,是违停识别、堵车识别、车流统计等多种算法的基石算法
    的头像 发表于 05-08 17:34 1628次阅读
    基于RK3576开发板的车辆检测<b class='flag-5'>算法</b>