0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

PAKDD 2019 AutoML挑战赛结果出炉:国内团队DeepBlueAI斩获第一名

DPVg_AI_era 来源:lp 2019-04-19 08:52 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,数据挖掘领域顶会PAKDD的AutoML挑战赛结果出炉,DeepBlueAI、微软&北航、清华大学等团队斩获前三名。本文带来冠军团队解决方案的技术分享。

PAKDD 2019 AutoML挑战赛结果出炉:国内团队 DeepBlueAI 斩获第一名,微软亚洲研究院&北航组成的ML Intelligence团队获得第二名,清华大学Meta_Learners团队获得第三。

Feedback phase 排行榜

PAKDD 全称亚太地区知识发现与数据挖掘国际会议(Pacific Asia Knowledge Discovery and Data Mining),是亚太地区数据挖掘领域的顶级国际会议。该会议在全球数据挖掘领域享有盛誉,一直受到业内各国科学家的高度重视和广泛认可。

PAKDD 2019 第 4 届自动机器学习挑战赛(AutoML Challenge)的主题是“AutoML for Lifelong Machine Learning”,要求参赛选手创建一个自动预测模型(没有任何人为干预),并在一个终身机器学习(Lifelong Machine Learning)设置中训练和评估该模型。

AutoML,全称为Automated Machine Learning,是机器学习领域的一个新兴方向。旨在自动化整个机器学习的流程,降低数据预处理、特征工程、模型选择、参数调节等环节中的人工成本。

随着机器学习系统的日益复杂化,AutoML 得到了产学研各界的广泛关注,已成为人工智能领域最热门的研究方向之一。

据悉,本次竞赛共有 127 个队伍参加,共收到 550 多个方案,最终有 31 个队伍进入决赛。

最终获胜的队伍为:

冠军:DeepBlueAI,罗志鹏,黄坚强,陈明健

亚军:ML Intelligence,包梦蛟,Hui Xue,Yihuan Mao,Yujing Wang

季军:Meta_Learners,熊铮,蒋继研,张文鹏

接下来,本文带来冠军团队解决方案的分享。

冠军方案关键技术:自动特征工程和自动快速特征选择

如下图所示,研究团队实现了一个Lifelong AutoML 框架,包括自动特征工程和自动快速特征选择、自动模型调参、自动模型融合等步骤,在类别不平衡的处理上我们使用了自适应采样并在模型训练上有一定的创新,对概念漂移问题我们结合DNN的预训练和LightGBM的再训练以及针对性地设计特征来缓解概念漂移,并且利用了多种策略对运行时间和运行内存进行了有效的控制,以确保解决方案能在限制时间和内存下完成整个流程。

自动特征工程与快速特征选择:

与以往的AutoML框架所不同的是,我们的框架更加注重自动特征工程与特征选择,我们构建的自动特征工程不仅是基于时间特征、分类特征、数值特征、多值分类特征做特征间的高阶组合,同时我们自动提取跨时间、样本的高阶组合。

对于特征选择,我们结合特征重要性及序列后向选择算法实现了一个有效的快速特征选择,在忽略重要性低的特征上结合序列后向特征选择算法,对重要性极高的特征进行筛选,这能快速地筛选掉过拟合特征,从而大幅度提高模型性能。为了避免维度灾难,我们迭代地进行特征工程和特征选择,在低阶特征生成后,利用特征选择过滤大部分特征,在其基础上进行更高阶的特征组合,更有效地提取了高阶特征并避免了维度灾难。

缓解类别不平衡:

我们能够自动针对数据情况(数据大小,数据类型,以及正负样本比例),以及比赛时间的限制等各种因素的不同,自适应地对数据采取不同的采样方式和比例,既保证了效率的同时又保证了效果。传统的类别不平衡的数据训练方式,是通过提前对数据进行采样,缓解类别不平衡问题,然后将数据加入模型中训练。但是这样会损失大量的数据信息,所以我们在数据采样的时候,仍然保留大量的高比例样本,并且将其分批,在加入模型中训练时,让模型在梯度提升中轮流训练分批数据,这样能够尽可能保留更多的原始数据的信息,同时缓解了类别不平衡问题。

抗概念漂移处理:

针对数据大小,数据复杂度,自适应选择batch数目。同时,对于每个batch,加入了“不同batch间采样率随时间增加”机制。我们使用DNN模型对特征Embedding进行预训练,迁移到新的数据批上进行再训练,有效地缓解了概念漂移和增强了特征表达。

挑战和改进

研究团队表示,不同特征类型的处理是本次大赛最棘手的挑战。

本次大赛数据由多种不同的数据类型组成,这些都是现实世界问题需要处理的真实数据。而现有的AutoML框架往往只支持数值类型,不能简单将现有框架应用到这些现实数据中。研究人员通过以往的大量竞赛及实际项目经验,在特征工程处理上加入了大量的先验知识,使得框架能支持不同特征类型的特征工程,以及能自动对这些不同类型特征做高阶组合以及特征选择。支持更多的数据类型而不仅仅是数值类型保证了AutoML能应用到更广泛的现实问题中,大大增强了AutoML的实用性。

团队表示,该解决方案有一些可以改进的方面:

首先,比赛所使用的数据仅来自于10个不同的任务,虽然我们在10个任务的数据集上都取得了很好的效果,但并不能保证我们的AutoML框架能应用到更广泛的不同现实世界问题中。

其次,比赛所提供的都是单表数据,而现实中的问题往往是多表关联的且关系复杂的,表间的关系往往包括多对多、一对多、多对一、一对一等多种关系。

为了更好地将AutoML应用到现实问题中,我们将设计并实现并实现支持多表联结数据以及不同数据类型的AutoML框架,将该框架应用到更多现实世界问题的数据上进行测试。

终生自动化机器学习:AutoML对现实世界问题的意义

这次比赛将AutoML扩展到了多种不同的数据类型上,其目标是实现一个支持不同数据类型并能适应概念漂移的终生自动化机器学习。

首先,现实世界问题的数据往往是多种不同数据类型的,需要特定领域的专家对这些数据进行大量的预处理及特征工程,而现有的自动化机器学习框架又仅支持数值类型,对其他类型不能有很好的支持,很难应用到各种现实世界问题中。在这次比赛中,我们团队设计的AutoML将自动化机器学习扩展到了多种数据类型,引入了不同类型的特征预处理以及不同类型特征的特征工程及特征组合,这样能在不需要专家的干预下將AutoML应用到更多的现实世界问题中。

其次,许多现实世界问题数据是根据时间逐渐获取的,数据间往往带有概念漂移,并存在大量的类别不平衡问题,模型需要不停地重复训练去适应概念漂移并需要专家去处理概念漂移及类别不平衡问题。我们团队设计的框架通过融合不同时期的数据以及结合DNN和LightGBM的训练来自适应概念漂移,引入了自适应采样以及对梯度提升模型的采样率进行改进来缓解类别不平衡,实现了终生机器学习。

我们设计的终生自动化机器学习框架可以应用到各种现实世界问题中,例如在推荐系统、异常检测、在线广告、欺诈检测、运输监控、计量经济学、病人监控等诸多领域中,无需领域专家的干预,我们的框架可以训练出一个性能高、时效性强、时间可行的模型,从而降低应用门槛,缩短项目开发周期,促进机器学习的大规模落地。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6723

    浏览量

    107365
  • 数据挖掘
    +关注

    关注

    1

    文章

    406

    浏览量

    24973
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136245

原文标题:PAKDD AutoML竞赛结果出炉,冠军方案关键技术解读

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    蔚来获得2025年中国新能源汽车用户满意度测评双第一

    12月3日,由中国质量协会举办的2025年中国新能源汽车行业用户满意度指数(NEV-CACSI)测评结果正式发布。蔚来EC6荣获纯电动中型SUV用户满意度第一名。同时,蔚来售后服务也再次斩获用户满意度
    的头像 发表于 12-05 17:41 1735次阅读

    传音TEX AI团队斩获ICCV 2025大型视频目标分割挑战赛双料亚军

    近日,国际计算机视觉大会(ICCV 2025)举办了第七届大型视频目标分割挑战赛(LSVOS Challenge),传音TEX AI团队凭借自主研发的创新技术方案,在复杂视频目标分割和语言指引视频
    的头像 发表于 10-31 09:42 317次阅读
    传音TEX AI<b class='flag-5'>团队</b><b class='flag-5'>斩获</b>ICCV 2025大型视频目标分割<b class='flag-5'>挑战赛</b>双料亚军

    长城汽车荣获2025年中国燃油汽车用户满意度测评六项第一

    紧凑型SUV用户满意度并列第一名,坦克300车型荣获硬派SUV第一名,哈弗、坦克销售服务荣获自主品牌并列第一名,哈弗售后服务荣获自主品牌第一名
    的头像 发表于 10-28 10:33 659次阅读

    亿纬锂能荣膺AQR新能源乘用车电池系统供应商质量表现第一名

    2025年9月25日,2025年中国汽车产品质量表现研究(AQR)结果发布暨颁奖典礼在北京隆重举行。亿纬锂能凭借卓越的产品质量表现,荣获 "新能源乘用车电池系统供应商质量表现第一名" 奖项,亿纬锂能质量中心副总裁施诺受邀出席典礼并代表公司领奖。
    的头像 发表于 10-21 18:00 1344次阅读

    东风本田CR-V荣获2025合资SUV质量体验第一名

    近日,2025年中国汽车产品质量表现研究(AQR)结果发布暨颁奖典礼圆满落幕。东风本田CR-V凭借卓越的质量表现,荣获“合资SUV质量体验第一名”的桂冠,这权威奖项不仅是对东风本田CR-V的肯定,更是对品牌在质量、品质等方面多
    的头像 发表于 10-09 09:56 412次阅读

    2025 EDA精英挑战赛华大九天题发布

    中国研究生创“ 芯 ” 大赛·EDA精英挑战赛(以下简称EDA精英挑战赛)是由教育部学位管理与研究生教育司指导,中国学位与研究生教育学会、中国科协青少年科技中心主办的“ 中国研究生创‘芯 ’大赛
    的头像 发表于 08-26 15:00 1336次阅读
    2025 EDA精英<b class='flag-5'>挑战赛</b>华大九天<b class='flag-5'>赛</b>题发布

    2025 EDA精英挑战赛紫光同创题发布

    中国研究生创“ 芯 ” 大赛·EDA精英挑战赛(以下简称EDA精英挑战赛)是由教育部学位管理与研究生教育司指导,中国学位与研究生教育学会、中国科协青少年科技中心主办的“ 中国研究生创‘芯 ’大赛
    的头像 发表于 08-25 09:40 1305次阅读
    2025 EDA精英<b class='flag-5'>挑战赛</b>紫光同创<b class='flag-5'>赛</b>题发布

    地平线H-RDT模型斩获CVPR 2025大冠军

    近日,在计算机视觉与模式识别领域顶级会议CVPR 2025举办的RoboTwin双臂机器人竞赛中,地平线机器人实验室与清华大学计算机系朱军团队联合提出的H-RDT凭强大性能和领先成功率,斩获真机
    的头像 发表于 08-21 10:02 483次阅读
    地平线H-RDT模型<b class='flag-5'>斩获</b>CVPR 2025大<b class='flag-5'>赛</b>冠军

    软通动力斩获2024年中国IT服务市场份额第一名

    近日,迪顾问发布《2024-2025年中国信息技术服务市场研究年度报告》。软通动力凭借在智能化转型浪潮中的卓越表现,以领先的数智化能力持续领跑中国IT服务市场,不仅斩获2024年市场份额第一名,更在IT咨询、IT运维等核心领域
    的头像 发表于 08-01 17:53 1656次阅读

    润和软件稳居数字业务类解决方案市场第一名

    ”)凭借自身卓越的技术实力和创新能力,连续五年稳居数字业务类解决方案市场第一名;在细分领域:数字信贷系统解决方案子市场持续保持第一名,数字银行解决方案子市场跃升至第一名。同时,其在开放银行、交易银行、智能营销、智能风控、数据智能
    的头像 发表于 07-14 17:36 1148次阅读

    传音多媒体团队揽获CVPR NTIRE 2025两项挑战赛冠亚军,推动视频画质升级

    (NTIRE2025EfficientSuper-ResolutionChallenge)第一名,短视频UGC图像超分辨率挑战赛(NTIRE2025Short-formUGCImageSuper-Reso
    的头像 发表于 06-24 17:03 757次阅读
    传音多媒体<b class='flag-5'>团队</b>揽获CVPR NTIRE 2025两项<b class='flag-5'>挑战赛</b>冠亚军,推动视频画质升级

    传音多媒体团队揽获CVPR NTIRE 2025两项挑战赛冠亚军

    Efficient Super-Resolution Challenge)第一名,短视频UGC图像超分辨率挑战赛(NTIRE 2025 Short-form UGC Image Super-Resolution
    的头像 发表于 06-24 16:08 1440次阅读
    传音多媒体<b class='flag-5'>团队</b>揽获CVPR NTIRE 2025两项<b class='flag-5'>挑战赛</b>冠亚军

    华为荣登GlobalData运营商基础设施管理服务排名报告Leader象限第一名

    象限第一名。 报告对通信服务商从商业模式、解决方案、网络设计与优化、网络转型能力、服务规模、和业务敏捷性六个维度进行了全面评估,华为综合得分第一。这印证了华为在对全球运营商客户提供领先服务解决方案、网络极致性能和数智化转型等方面做出了卓越
    的头像 发表于 05-22 18:43 910次阅读
    华为荣登GlobalData运营商基础设施管理服务排名报告Leader象限<b class='flag-5'>第一名</b>

    平头哥半导体亮相AICAS 2025挑战赛技术研讨会

    近日,历时两个多月,600余支参赛队伍激烈角逐,AICAS 2025全球技术挑战赛初赛阶段赛程已顺利结束,中技术研讨于2月22日在杭州圆满召开。本次研讨会作为AICAS全球技术挑战赛的重要环节,在初赛和复赛之间架起桥梁,为参赛
    的头像 发表于 02-25 11:23 1118次阅读

    芯华章持续助力EDA精英挑战赛

    日前,2024中国研究生创“芯”大赛·EDA精英挑战赛(以下简称EDA竞赛)决赛在南京江北新区举办。今年EDA竞赛首次升级为国,在全国超过500个参赛队伍中,来自华南理工大学的"EDA240931参赛队"从芯华章赛道脱颖而出,斩获
    的头像 发表于 12-17 15:47 1323次阅读