0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Kaggle创始人Goldbloom:我们是这样做数据科学竞赛的

电子工程师 来源:lq 2019-01-23 15:16 次阅读

不管是初学者还是大魔王,只要浸润过数据科学和机器学习界,那么对于Kaggle一定不陌生。各路英豪在这个平台上实战练习、膜拜大神、打怪升级,用某个媒体人的一句话,“简而言之,Kaggle 是玩数据、机器学习的开发者们展示功力、扬名立万的江湖。”

为什么有这么多的数据科学家会在Kaggle花这么多的时间?kaggle最著名的就是竞赛了,那么具体的竞赛怎么做呢?

1 月 19 日,作为Kaggle的由联合创始人、首席执行官Anthony Goldbloom在“全球新兴科技峰会”中,回答了这两个问题。

以下Anthony Goldbloom的最新演讲,文摘菌做了有删改的整理~

Kaggle聚集了大量的机器学习的专家以及大数据的专家最,截止到目前为止,差不多是有250万人了,在演讲的最开始,首先介绍一下我们在kaggle的工作。然后给大家说一下我们在kaggle学到的一些经验。

具体的竞赛怎么做

在Kaggle里面,我们做好几项不同的工作,分别是:竞赛、电脑的数据环境以及数据组的共享空间。

我们具体的竞赛怎么做呢?首先就是有公司会在我们的网站上面提出一个问题,解决这个问题会有奖金。

有一些奖金还是非常高的。例如上图,第一个是美国国土安全部,他们希望用算法能够帮助识别是否有人携带了武器,或者是携带其他的一些禁带品,他们希望这个算法更加的精准一些。这非常重要,因为过筛率如果太低,就意味着效率会变的非常的低。所以,他们是希望能够增加效率。

第二个是Zillow,Zillow其实就是在它的网站上面可以输入自己地址,然后根据房子里面有多少的卧室,多大的房间,有多少个浴室等估算房子价值。

Zillow那个竞赛,一开始他们可能和实际的房价是差了20%,然后呢,他们慢慢的调了一下算法,越来越接近正常价格。

更好的算法能够帮助他们找到正常的价格。为了解决这个问题,他们愿意提供超过100万美元做奖金。

其他的竞赛项目,奖金就没有这么多了,但是大家可以看得出来,越来越多的公司非常重视AI以及这样的算法。

还有卫星图像的竞赛,还有关于森林大火或者是森林减少率的图像分析的大赛。

所以说,在kaggle里有各种各样的问题,包括不同的行业、不同的方面,这里面非常有意思的一点,就是所有的问题,都可以用差不多的方法来进行解决。当我们有两个数据集的时候,一个是训练集,一个是测试集,两者是完全不同的。训练集可以看到结果,测试集看不到结果。

测试组将采用类似的数据,这样的测试组可以帮助我们看一下算法是不是能够达到我们的预期值。对比不同的算法结果,我们也会把不同结果的对比进行公开。

对比提升算法准确率

所以说大家可以看到,大家如果能够把自己的结果进行对比的话,会有更多的激励,会把自己的算法调整的更好。

之前给大家说到的Zillow,一开始的准确率还差15%,最后准确率只差了5%。是不是5%就没有办法突破了,或者我们需要调整一些技术来弥补这5%。然后公司就会推出相关的竞赛,找到到底是什么原因,有没有办法突破最后的界限。

现在很多的公司也非常看重AI,一方面帮助他们解决问题,另一方面帮助他们找到人才。我们每半年都会有竞赛,我们和airbnb、Facebook联合组织相关的竞赛,帮他们找到相关的人才。

所以说,分享和学习是非常重要的,比如说你在竞赛里面的排名是15名。通过公开你可以知道第一名到底怎么做的以及第一名用采用的技术。有了这些,你在下次竞赛的时候就可以学习第一名所使用的技术了。

因为这里面有很多不同的人,这些人有可能是读AI的博士,或者有其他的一些业余选手。但不管是什么人,他都可以在这上面展示自己。

现在中国已经在社区里面规模排到第三了,第一是美国,第二大是印度。我们可以看到,有很多非常出色的竞争者都来自于中国。

Kaggle竞赛解决实际问题

为什么人们会竞赛,为什么公司会在kaggle网站上面放一些问题?

首先,竞赛非常重要,虽然说所有的网站都是深度学习,深度学习其实是在整个AI当中所使用的是比较小的数据组。

但对于这些问题来讲,那些小的数据组能解决的问题,传统的工具也可以帮助我们解决。但不管怎样,我们一开始必须要从不同的方面进行数据的探索,比如说我们会用数据绘制图标,所以说我们可以非常深入的了解数据。

在竞赛里面,人们第二步就是假设,数据之间的假设,例如在预测车销量的竞赛中,最主要的是用算法预测哪一个车可能会卖的更好。

其中有一个非常重要的因素是颜色,我们有两类:常规颜色以及非常规颜色。非常规颜色的车会比较好卖,因为根据这个假设买二手车的人可能会更喜欢一些比较另类的车,并且更爱保养。

通过这样的一种算法,我们也会进行头脑风暴,可以帮助我们更好的搜集不同方式或者不同方向的数据。

另外,我们进行调参,我们在进行数据的设计之后,再次把数据放在一个数据库当中,再进行分类、调参和模型融合。

其实,技术也是非常重要的,所谓的深度学习,也是竞赛者经常使用的技术。例如在图像的识别当中,经常使用的卷积神经网络技术,比如说卫星图像还有医学图像、自动驾驶也经常使用。

迁移学习解决小样本问题

即便说是数据库比较小的,但是我们做的还是非常的好,就是因为我们有所谓的迁移学习,也就是说我们可以把一系列的学习成果转移到其他更大范围的规模上。

这个学习的结果得到了转移之后,我们在进行一些调参,即便是有一些比较小的原始的数据组,比如说对于医学的图像,最后这个建立的模型也还是非常准确的,也可以帮助我们进行更好的应用。

另外,我们发现深度学习在其他的领域也做的更好,比如说现在我们的神经网络做的非常得的好,比如利用卷积神经网络分析医疗图像,我们也是让竞赛者推断这个图片,去推断这个人是不是有癫痫或者是有相关的一些病症。

另外还有就是文本,因为文本有序列,一个字之后又是一个字,所以说这也可通过神经网络进行分析,所以说,我们在很多的问题解决方面,要判断有哪些技术是可以应用的,哪些技术是比较擅长的。

Kaggle竞赛中最重要的特征

特征一:我们发现我们的这些竞赛者都是非常有创造性的一群主体,竞赛中有一些问题是需要对特征进行相关的工程设计,所以说,在我们进行神经学习的时候,需要一些小办法来寻求帮助,判断看这个方法是不是管用,这个方法是不是能够提高效率,从而能够帮助我们把整体的效率提升。

特征二:我们竞赛者都是非常的重视如何对自己的模型进行测试的,大家建模之后会进行测试,然后在进行调参,进行改进......

在模型训练完成之后,进入测试阶段,做法是把用过的数据全部“扔掉”。然后用新的数据进行检验,也就是说我们要保证我们的算法不单单只是在原始数据上面可以做出准确的预测,而且在全新的数据面也可以做同样的结果。所以说,我们在进行模型的测试的时候,整体的过程是非常严苛的。

特征三:大家的编程能力非常棒。版本的控制是非常重要的,其实对版本的控制就能够意味着我们可以知道哪些版本更高效,哪些不能够奏效,其实在软件的这个领域当中,很多的数据科学家以及机器学习的专家都会使用各种办法来进行管理,所以说他们就会知道自己在代码在每个版本之间会有不同。

而且这也是非常重要的一个信息,让他们知道到底哪个版本是能够非常好的运作,哪些不太好。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1063

    浏览量

    40041
  • 机器学习
    +关注

    关注

    66

    文章

    8122

    浏览量

    130564
  • 深度学习
    +关注

    关注

    73

    文章

    5237

    浏览量

    119910

原文标题:Kaggle创始人Goldbloom:我们是这样做数据科学竞赛的

文章出处:【微信号:BigDataDigest,微信公众号:大数据文摘】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    一加创始人内部讲话曝光 刘作虎称AI手机不是噱头

    一加创始人内部讲话曝光 刘作虎称AI手机不是噱头 AI已经在改革千行万业,我们看到一加创始人内部讲话曝光中就提到AI手机;一加创始人刘作虎在内部讲话中表示,AI手机不是噱头,而是行业大
    的头像 发表于 03-12 15:39 580次阅读

    马斯克:AI发展速度前所未见 但马斯克起诉OpenAI及其创始人

    能比其进步更快。现在人工智能技术的能力似乎每隔半年就能增长十倍之多;尽管马斯克认为人工智能不太可能永远以这样的速度增长。 马斯克起诉OpenAI及其创始人 马斯克在旧金山高等法院对OpenAI及其创始人山姆·奥特曼、格里高利·布
    的头像 发表于 03-02 15:29 1025次阅读

    软银集团创始人孙正义计划投1000亿美元建AI芯片公司对抗英伟达?

    根据外媒报道,软银集团创始人孙正义计划筹集1000亿美元,成立一家名为Project Izanagi的人工智能处理器公司。
    的头像 发表于 02-25 15:36 242次阅读
    软银集团<b class='flag-5'>创始人</b>孙正义计划投1000亿美元建AI芯片公司对抗英伟达?

    「元生智能」获千万融资 原小天才团队牵手云从科技进军银发赛道

    居家养老消费电子领域产品领跑者「元生智能」成功完成一千多万元的天使轮融资。本轮融资由科创板首家上市的AI平台云从科技战略领投,松山湖天使基金、广东省科学院珠海产研院、老股东星火教育创始人、老股东清荣
    发表于 01-05 11:48

    讣告 | 商汤科技创始人、著名人工智能科学家汤晓鸥教授去世

    我们怀着无比沉重的心情,向大家宣布一则令人悲痛的消息: 我们敬爱的创始人、人工智能科学 家、浦江实验室主任、上海人 工智能实验室主任、香港中文大学教授汤晓鸥因病救治无效,于2023年1
    的头像 发表于 12-17 15:50 281次阅读

    威马汽车回应破产风波 创始人跑路海外?威马汽车否认

    就在威马汽车传出破产、欠薪、老板跑路的传闻之后威马汽车回应破产风波,对于创始人跑路海外的传闻威马汽车给予否认。 今天威马汽车在微博澄清,威马汽车并未申请破产,而是预重整;希望通过重组债务引进战略
    的头像 发表于 10-18 17:27 320次阅读

    欠400亿元债务,传威马汽车创始人行踪成谜

    最近有消息称,威马汽车公司创始人沈晖董事长以出席德国慕尼黑车展为借口,将400亿元人民币的投资、负债和拖欠工资的威马汽车员工留置。
    的头像 发表于 10-18 10:27 972次阅读

    在存储程序的FLASH中分出一个区域用来存储数据这样难度大不大呀?

    我们的一个FPGA项目需要存储数据。 想在存储程序的FLASH中分出一个区域用来存储数据这样难度大不大?
    发表于 10-18 06:31

    NVIDIA 创始人兼首席执行官黄仁勋重返万亿美元构想的诞生地 —— 丹尼餐厅

    近日,丹尼餐厅(Denny’s)首席执行官 Kelli Valade 与 NVIDIA 创始人兼首席执行官黄仁勋一起在该餐厅举行牌匾揭幕仪式。 在这里,三位 NVIDIA 创始人萌生了最初的构想
    的头像 发表于 10-11 19:10 328次阅读
    NVIDIA <b class='flag-5'>创始人</b>兼首席执行官黄仁勋重返万亿美元构想的诞生地 —— 丹尼餐厅

    山东省大力发展元宇宙产业,DeepMind创始人访谈:AI像把双刃剑

    大家好,欢迎收看河套IT WALK第102期。 今天,我们为大家带来两则科技新闻。首先,我们将深入探讨DeepMind创始人对AI技术的看法,他认为AI技术就像一把双刃剑,既有巨大的潜力,也存在不少
    的头像 发表于 09-08 21:00 348次阅读
    山东省大力发展元宇宙产业,DeepMind<b class='flag-5'>创始人</b>访谈:AI像把双刃剑

    python怎么做数据清洗?

    该指南使用的数据集是 Kaggle 竞赛 Sberbank 俄罗斯房地产价值预测竞赛数据(该项目的目标是预测俄罗斯的房价波动)。本文并未使用
    发表于 08-21 12:33 282次阅读
    python怎么做<b class='flag-5'>数据</b>清洗?

    中科驭数创始人、CEO鄢贵海谈DPU能否使算力“狂飙”?

    DPU能否使算力“狂飙”? |华泰证券对谈中科驭数创始人、CEO鄢贵海        近期,中科驭数创始人、CEO鄢贵海受邀参与华泰证券播客栏目《泰度VOICE》,与华泰创新投资总监刘诚围绕人工智能
    的头像 发表于 06-20 15:37 490次阅读

    踏歌智行创始人、首席科学家余贵珍教授登榜“2023科创家”

    “一群跨越了科学与商业边界的人”这是科创媒体36氪对科创企业家的定义。近日, 踏歌智行创始人、首席科学家余贵珍教授从全赛道中脱颖而出, 登榜首届“2023科创家”榜单。此次共有15位教授荣登榜单
    的头像 发表于 06-16 19:15 2366次阅读
    踏歌智行<b class='flag-5'>创始人</b>、首席<b class='flag-5'>科学</b>家余贵珍教授登榜“2023科创家”

    PyTorch教程-5.7. 在 Kaggle 上预测房价

    Kaggle 竞赛将所有这些知识付诸实践。房价预测竞赛是一个很好的起点。数据相当通用,没有表现出可能需要专门模型(如音频或视频可能)的奇异结构。该
    的头像 发表于 06-05 15:43 522次阅读
    PyTorch教程-5.7. 在 <b class='flag-5'>Kaggle</b> 上预测房价

    NVIDIA 创始人兼首席执行官黄仁勋将在 COMPUTEX 2023 发表主题演讲

    NVIDIA 创始人兼首席执行官黄仁勋 将在 C OMPUT EX 2023 发表主题演讲 COMPUTEX 是全球领先的 B2B 信息通信技术贸易展览会,同时也是为全球创业企业提供的一个重要平台
    的头像 发表于 05-24 05:45 523次阅读