0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AutoML,AI“兵家必争”之技,谁是最强王者?

DPVg_AI_era 来源:lq 2019-07-13 07:47 次阅读

近日,IEEE ISI 2019国际大数据分析竞赛结果出炉,深兰科技DeepBlueAI团队利用自研的AutoML系统,分别取得了一项冠军和一项季军的优异成绩。从学术层面来看,了解AutoML技术强在哪里固然重要;但这项技术的领先对AI产业应用的落地更具有实践意义。

凭着这把自研AutoML利剑,荣登 IEEE ISI “铁王座”。

自谷歌2017年重磅推出AutoML,这个深度学习领域的新一代王者便成了AI界竞相热捧的重要技术。

近日,IEEE ISI 2019 世界杯大赛结果出炉。来自国内 AI 独角兽深兰科技的 DeepBlueAI 团队,便凭借着自研AutoML技术,斩获一个冠军、一个季军的好成绩!

这是一项国际性的大数据分析竞赛,共有来自中国、美国、英国、德国等 7 个国家,来自华为、京东、滴滴等知名企业,以及知名高校和研究机构的三百余支队伍参赛,其中包括在AI学术领域实力卓越的中科院、清华大学和北京大学等。

深兰科技从逾千名参赛选手中脱颖而出,在其中一个赛题以较大领先优势获得了冠军。

今年 IEEE ISI 大赛分为两个赛题:

投资价值评估;

法律诉讼类型预测。

在企业投资价值评估赛题中,深兰科技 DeepBlueAI 团队以 3.2585 的好成绩夺冠,以绝对优势领先第二名(成绩 3.3626)。

排名如下:

在 “企业投资价值评估” 赛题中,深兰科技 DeepBlueAI 团队以较大领先优势获得冠军

值得一提的是,这不是深兰科技 AutoML 第一次夺冠。在不久前的PAKDD (亚太知识发现和数据挖掘会议) 2019 挑战赛上,深兰科技团队应用 AutoML,从 130 多支队伍中脱颖而出,也同样斩获了第一名。

国内AI独角兽如何凭借自研AutoML斩获冠军?

今年 IEEE ISI 大赛主要的难点包括数据维度广、信息复杂、数据特征类型丰富、数据量小。

深兰科技团队成员基于以上难点,采用了自研的 AutoML 系统进行建模,该系统包括:自动数据清洗、自动特征工程、自动特征选择、自动模型调参、自动模型融合等步骤,能极大的提高任务建模的效率,并且在此次竞赛中也大大提升了效果,最终结果取得了较大领先优势。

在自动化数据清洗方面,由于此次竞赛提供的数据是真实的工业界应用数据,含有大量的不规范字段。因此,深兰的自动化数据清洗模块,对不同类型的数据采用了不同的清洗方法,能够有效的清洗不规范数据。

在特征工程方面,深兰的技术包含两个阶段:AutoML 自动特征工程阶段和业务特征强化阶段。

在 AutoML 自动特征工程阶段,将原始数据清洗成 AutoML 系统可处理的格式后,进行自动特征生成,然后进行特征选择迭代。

AutoML 自动特征工程

在自动特征工程阶段,参赛人员发现专利和资质认证两个信息对模型效果提升较大。使用 AutoML 帮助他们快速地捕捉到了这一重要信息,从而进一步构建业务特征。

在模型融合方面,为了增强最终结果的稳定性,参赛人员采用了Stacking+Bagging 的方式进行模型融合。

融合的主体方法是 Stacking,第一层采用过的模型有 LightGBM、XGBoost、Random Forest、Support Vector Regressor、ExtraTreesRegressor。每个模型采用交叉验证的方式进行线下验证。

模型结果

在 Stacking 的第二层中采用了基于约束的线性模型,在实验中发现效果好于其他线性和非线性模型。

在 Bagging 中使用了不同 seed 以及随机微调了一些参数分别生成 10 个 LightGBM 和 10 个 XGBoost 模型。

最后将 Stacking 的结果与 Bagging 结果进行简单线性加权融合作为最终预测结果。

模型融合

在这次竞赛中模型融合提升并不是很大,从榜单来看,单模型结果就能获得冠军,因此AutoML 自动特征工程部分是深兰科技制胜的关键。

AI“兵家必争”之技:将深度学习最难的一环自动化

在 2017 年谷歌 I/O 大会上,谷歌首席执行官 Sundar Pichai 首次公布了名为 “AutoML” 的项目,Pichai 说:“AutoML 可以自动化设计深度学习软件最难的一环:为神经网络选择正确的架构。”

即使是有经验的 AI 研究人员,通常也需要花费大量时间来构建合适的神经网络,有了 AutoML,研究人员可以更高效地找到合适的网络架构,构建 AI 系统来处理任何他们想做的任务。

机器学习流程的各个部分都可以通过 AutoML 实现自动化,包括数据预处理、特征工程、模型选择、参数调节等,从而降低构建机器学习模型的门槛。

AutoML旨在将设计AI的环节自动化

UC Berkeley 教授Jitendra Malik曾经说:

“我们以前是手工调算法,现在是手工调网络架构,如果囿于这种模式,那人工智能无法进步。”

Caffe 作者、AI 大神贾扬清也对 AutoML 技术特别关注:

“即使在科研方向,我们的挑战也刚刚开始:如何走出手工调参的老路,用智能提升智能,是个非常有意思的问题。最开始的 AutoML 系统依然停留在用大量算力暴力搜索模型结构的层面上,但是现在各种更高效的 AutoML 技术开始产生,这是值得关注的。”

而在AI发展的大浪潮下,人工智能人才的缺口已达“百万”的量级,各企业已然到达了求贤若渴的状态,甚至可以说是重金难求。

除了能够节省大量人力物力财力,AutoML还能更加快速和安全地搭建出一个优于大多数算法工程师搭建的机器学习系统。

因此,对有意尝试或导入 AI 的企业来说,“让机器学习得以自动化”具有很大的吸引力。

目前 AutoML 已经广泛应用在精准营销、金融风控、自动驾驶、疾病预测等业务场景中,做出了接近甚至超过数据科学家的模型效果,决策精准度超过人类专家规则数倍。

落地才是硬道理,我们需要怎样的AutoML?

正如上文所提到的,AutoML具有门槛低、成本低、泛用性强等诸多优点,被越来越多的企业使用,也成为产品落地过程中使用的一项重要技术。

作为真正关注日常人工智能场景落地化应用的企业,通过AutoML推动社会发展、帮助到更多的人已成为越来越多AI公司的愿景。

但目前市面上的AutoML平台,大多只是试验性甚至偏娱乐化的,缺乏对于产业应用场景的深入适配,而深兰科技则站在产业的高度看问题。

在自动驾驶领域,AutoML起着重要的作用,因为机器学习可以说是在自动驾驶系统的大部分环节都扮演着关键角色。

无人车“老大”谷歌旗下公司Waymo也已将AutoML应用于智能驾驶。Waymo需要将自动驾驶技术应用到不同的城市与环境中,这就需要针对不同的场景快速优化Waymo的模型。

AutoML可以在此过程中连续且高效地提供ML解决方案。

而深兰科技的AutoML技术在自动化数据清洗以及特征工程方面都有较大优势,这更有利于赋能自动驾驶领域。

同时,深兰科技也在自动驾驶领域不断探索并收获,例如今年推出的熊猫智能公交车。

熊猫智能公交是一款大型人工智能、智能驾驶交通运输车辆,总长约12米, 以新能源磷酸铁锂电池为驱动,无人驾驶技术等级介于L3~L4之间。

今年5月,中新天津生态城引入的三辆熊猫智能公交车并拿到正式牌照上路运营,这也是全球首批自动驾驶公交车投入商用运营。此外,6月20日广州正式发布首批自动驾驶路测牌照,深兰科技成为首批获得广州市智能网联汽车道路测试资格的企业,也是唯一获得大型客车路测资格的人工智能企业。

除了智能驾驶领域,深兰科技对于产业落地的探索并未止步。

深兰也相继推出一系列 AI 产品方案,包括AI智能扫路机、智能零售移动商用车、AI自贩柜、吸尘机器人、兜售机器人、手脉闸机等,将技术真正落地到现实生活中。在未来的AI产品方案中,AutoML技术可起到强大的助力作用。

正如深兰科技创始人兼CEO陈海波所言:

“人工智能服务民生就是要提供能够让人们看得见摸得着的产品和服务。”

深兰科技也正在一步步践行这句话。

从AutoML出发,来看一家成功AI公司的必备基因:科研自立

对AutoML技术投入研究并取得成绩,窥一斑而知全豹,这家AI公司所走的路线也非常明确:做强技术为坚实基础,同时重视实用性,大力实现落地应用。

深兰科技创始人兼CEO陈海波在一次演讲中,曾经将其商业模式概况为八个字:“做强两端,打通链路”,“两端”分别指技术和市场,打出“企业+研究院”的混合牌。

其中在技术方面,深兰科技有着庞大且完善的研发体系。

所谓“庞大”,深兰科技在全球拥有众多博士和博士后团队,据悉,深兰科学院及联合研究机构拥有博士及博士后学位的学术带头人超百位。

此外,作为人工智能企业,深兰一直致力于人工智能基础研究和应用开发。深兰科技与多个国内外知名企业、院校等,建立了智能驾驶技术、智能和精密制造、数据和金融安全、人工智能、AIoT智联网、人机交互、AI芯片等多个相关领域的联合实验室,共同构筑了深兰系全球性的研发科研体系。

所谓“完善”,即这家AI公司的研究并未只限定一个领域,其核心技术集中在计算机视觉、自动驾驶、生物智能、语义智能四个方面。

而多领域、国际化的研究布局、对技术的大力投入,为这家AI公司快速实现AI赋能提供支撑力量。

依托自主知识产权的深度学习架构、机器视觉、生物智能识别等人工智能算法,不断孵化项目,实现人工智能从技术到产品的快速落地,搭建了以领先技术和创新产品为核心的应用生态圈。

同时,通过人工智能应用生态平台的大数据积累,深兰进一步优化了算法、细分行业产品的标准化和成熟度。技术与应用之间已形成完整的闭环。

从深兰科技的成长经历来看,它无疑是一个“幸运”的公司。年轻有为,既早早做到了AI落地产品、服务民生,也由于多次取得国际赛事的冠军也有了“中国自主研发”的标签

幸运的背后正是拥有所有成功公司都有的基因——看重技术,并愿意为之投入巨大精力。

在如今的国际局势下,中国AI企业走上“科技自立”的道路已是必然,“中国自主研发”的标签更应该贴牢。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26443

    浏览量

    264044
  • 深度学习
    +关注

    关注

    73

    文章

    5237

    浏览量

    119908
  • 独角兽
    +关注

    关注

    0

    文章

    166

    浏览量

    26411

原文标题:凭着这把AutoML利剑,这家AI公司荣登 IEEE ISI “铁王座”

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    英伟达发布最强AI加速卡Blackwell GB200

    英伟达在最近的GTC开发者大会上发布了其最新、最强大的AI加速卡——GB200。这款加速卡采用了新一代AI图形处理器架构Blackwell,标志着英伟达在AI图形处理领域迈入了一个新的
    的头像 发表于 03-20 11:38 417次阅读

    英伟达发布最强AI加速卡GB200,开启新一代AI图形处理时代

    英伟达正式发布了其最新、也是迄今为止最强大的AI加速卡——GB200。这一重大发布标志着英伟达在AI图形处理领域迈入了一个新的里程碑。
    的头像 发表于 03-19 11:26 351次阅读
    英伟达发布<b class='flag-5'>最强</b><b class='flag-5'>AI</b>加速卡GB200,开启新一代<b class='flag-5'>AI</b>图形处理时代

    今日看点丨英伟达发布最强 AI 加速卡--Blackwell GB200;三星面临罢工 存储市场供需引关注

    1. 英伟达发布最强 AI 加速卡--Blackwell GB200 ,今年发货   3 月 19 日,英伟达发布最强 AI 加速卡--Blackwell GB200,今年发货。英伟达
    发表于 03-19 11:08 856次阅读

    线路板行业的上下游竞争格局:谁是行业的领导者和后来者?

    线路板行业的上下游竞争格局:谁是行业的领导者和后来者?
    的头像 发表于 03-01 10:54 276次阅读

    新火种AI|谷歌深夜炸弹!史上最强开源模型Gemma,打响新一轮AI之战

    作者:文子 编辑:小迪 谷歌,2024年卷出新高度。 全球最强开源模型,Gemma重燃战局 短短12天连放三次大招,谷歌AI更新迭代之快,让人始料未及。 当地时间2月21日,谷歌毫无预兆地发布号称
    的头像 发表于 02-23 10:21 154次阅读
    新火种<b class='flag-5'>AI</b>|谷歌深夜炸弹!史上<b class='flag-5'>最强</b>开源模型Gemma,打响新一轮<b class='flag-5'>AI</b>之战

    Vision Pro和R1,谁是AI硬件的未来?

    在众多科技巨头抢占先机之时,一款来自小型初创公司的AI硬件脱颖而出,在一年一度的全球消费类电子盛会CES上炸翻全场。
    的头像 发表于 01-30 09:57 307次阅读
    Vision Pro和R1,<b class='flag-5'>谁是</b><b class='flag-5'>AI</b>硬件的未来?

    成都汇阳投资关于谷歌携 Gemini 王者归来,AI 算力和应用值得期待

    【Gemini 大模型主打多模态,性能对标GPT-4】 当地时间12月6日, 谷歌公司宣布推出其规模最大、功能最强的多模态大模型 Gemini, 其最强大的 TPU (张量处理单元)系统
    的头像 发表于 12-11 14:40 627次阅读
    成都汇阳投资关于谷歌携 Gemini <b class='flag-5'>王者</b>归来,<b class='flag-5'>AI</b> 算力和应用值得期待

    #芯片 #AI 世界最强AI芯片H200性能大揭秘!

    芯片AI
    深圳市浮思特科技有限公司
    发布于 :2023年11月15日 15:54:37

    智能制造设备如何拥有最强大脑?机器视觉+AI

    智能制造产线设备的发展正日益推动着工业领域的进步和创新。随着技术的不断演进,机器视觉和人工智能(AI)两个关键领域的结合,为智能制造设备构建了最强大脑。
    的头像 发表于 10-21 14:47 895次阅读

    【KV260视觉入门套件试用体验】Vitis AI Library体验OCR识别

    速度、用户界面的友好性,产品的稳定性,易用性及可行性等。 一、Vitis AI Library Vitis AI Library是一组高层次库和 API,专为利用 DPU 高效执行 AI 推断而构建
    发表于 10-16 23:25

    鹿客携手小度、天翼数字生活等生态伙伴,开启全联接Opening计划

    捷、更智能的新技术成为智能锁品牌发展的“兵家必争之地”。近期,鹿客科技对鹿客掌心锁V5系列产品进行全新拓展:发布了鹿客智能锁V5Air和V5Ultra两款高端智能锁新
    的头像 发表于 10-07 10:57 593次阅读
    鹿客携手小度、天翼数字生活等生态伙伴,开启全联接Opening计划

    请问卡片电脑性能最强的是哪一个?

    卡片电脑性能最强的是哪一个?
    发表于 09-28 06:21

    最强科普!深度解析华为云盘古大模型

    搭档完成复杂任务 预测台风路径降低灾害损失 帮助缩短药物研发周期 …… 此次发布有诸多新升级 更为客户提供了“开箱即用”的模型服务 简直就是一个AI大礼包! 一支视频为你深度解析盘古大模型硬实力! 你想了解的都在这儿 原文标题:最强科普!深度解析华为云盘古
    的头像 发表于 07-14 15:20 1388次阅读

    “神仙打架,盘古来啦!”华为盘古大模型3.0正式发布

    近日,在中国联通官宣了“鸿湖”大模型后,中国电信也声称将要发布 “TeleChat”大模型,中国移动的“九天”1+N大模型也在“蠢蠢欲动”。连运营商都开始进军大模型了,难道说大模型赛道真的成为互联网领域的“兵家必争之地”了吗?
    的头像 发表于 07-07 16:52 656次阅读

    半导体产业:中美博弈继续,中国芯片产业崛起!

    全球科技发展的能源——半导体,成为了芯时代的兵家必争之地。中美两国在半导体需求上呈现出明显的增长趋势,但同时也面临着出口管制的限制,这给中国芯片产业的制造带来了一定的影响。但是,中国不会被压制,相反
    的头像 发表于 07-04 10:31 724次阅读