0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习竞争其实是一场数据上的竞争

mK5P_AItists 来源:工程师李察 2019-04-25 16:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

那些热衷竞争实施机器学习的公司现在惊讶地发现,其实,实施一些算法使机器变得对某一数据或问题更加智能并不困难。毕竟,这年头“即插即用”又很稳健的算法编程解决方案简直“烂大街了”。例如,从开源机器学习框架谷歌TensorFlow,到微软Azure Machine Learning以及亚马逊SageMaker,应有尽有。

所以,数据已逐渐成为了机器学习竞争中最关键的区分点。一个原因是高质量数据并不常见;另一原因是数据尚未商品化,公司企业之间存在着信息不对称。

希望借助AI一臂之力的企业需要寻求外部数据源,甚至这样的数据甚至可能需要他们自己创建。

有用的数据:有价值、又很稀少

数据逐渐变成竞争中的区分点是因为许多公司根本没有他们需要的数据。尽管几十年来,公司都在使用通用的会计准则这样的系统化方法来评估自己,但是这种评估方法一直关注于实体资产与金融资产,也就是实物和钱。2013年甚至给资产定价理论颁了一个诺贝尔奖,强化了已有的对实体或金融资产重要性的认知。

但是,今天最有价值的那些公司贸易对象是软件或网络,而不仅仅是实体或金融资产。在过去的40年内,资产类型的重心有了很大的变化:1975年,83%的有形资产占整个市场绝大部分份额;而2015年时市场中84%的资产是无形资产。今天的公司巨头们不再生产咖啡壶也不再售卖洗衣机,他们转而提供应用程序,软件等等。这样的转变造成了会计记账的对象和实际产生价值的对象极其不匹配。

结果就是有用数据的缺少已经成为了一个问题。市面价值与账面价值的差别越来越大。公司们正在试图利用机器学习辅助重要的商业决策来改善这一差别。有时,机器学习甚至会取代一些昂贵的咨询顾问们,而最后他们经常会意识到算法所需的数据压根不存在。所以实际上,那些闪瞎人眼的先进AI系统最后依旧只是在同样老旧的数据上试图实施新技术。

和人类一样,除非有人教,机器学习系统并不会精通任何领域。不过比起人类,机器会需要更多的信息来进行学习,并且它们确实比人类读取数据的速度更快。因此,表面上公司间会互相竞争谁拥有更好的机器学习程序员以及谁先启动AI项目,在幕后其实是对于数据新颖度和广泛度的竞争。

比如说在金融领域,可供选择的数据来源远远超过了传统证券交易报告以及投资者展示等。数据还可以来源于社交网络情感分析或者获批专利数量等。

这些数据源的重要性主要基于两点原因。首先,传统数据局限于传统资产,在当今无形资产当道的时代,覆盖面上远远不够。第二,并没有任何必要在市场上所有人都在分析的数据上使用机器学习方法。所有对此感兴趣的人都早已经尝试过分析产业趋势、利润率、增长率、息税前利润、资产周转率以及资产回报率和其它上千个常见的变量与股东回报率之间的相关性。

在所有人都在分析的数据上试图发现相关性并不会帮助公司取胜。相反,希望使用AI取胜的公司需要寻找新数据集之间的联系,因此他们可能必须自己创建那些新数据集来评估无形资产。

谨慎思考:你想知道什么?

创建数据比仅仅把销售点与顾客信息两个表聚合到一起然后丢进数据库复杂得多。大多数企业错误地相信通过这样一种权宜的方法能够预测或区分出他们关心的信息:把所有能找到的数据都大费周章地聚合到一起然后指望能够找到一丝希望之光。

尽管机器学习有时会突然发现某些从未有人意识到的事物从而使所有人都大吃一惊,但它并不能够持续稳定提供这样的洞察。这并不意味着这项工具很垃圾,这意味着我们需要更明智地使用它。但说起来容易做起来难:比如,在我们研究外部数据市场时,我们发现大多数新数据提供者依旧在关注实体与金融资产。

许多企业遗漏的一步是提出一项真正重要的假设。机器学习真正体现优越性之处在于,它们能够通过采用人类已经拥有的见解,这可以来自于经验法则、广泛认知或者几乎完全不被理解的相关性,来建设一种速度更快、更易于理解、更易于扩展且更低错误率的方法。

为了这样使用机器学习方法,不应向系统塞进任何你能找到的数据。你仅仅输入被谨慎思考过的一组信息,希望它能够学习并拓展,得到比人类掌握的更多的信息。

有意义的机器学习来自于不同的数据

以下是为希望搭建有影响力、有价值的机器学习应用的公司提出的三点建议:

1.成功的AI在于与众不同的数据。在你的竞争对手都已经掌握的数据上你是得不出什么新颖信息的。审视企业内部,找出只有你们知道并理解的信息并以此创建一个独特的数据集。机器学习算法确实需要大量的数据支持,但这并不意味着模型需要考虑大量变量。你应当把关注点放在企业已经具有独特之处的数据上。

2.有意义的数据比全面的数据好。你可能就某问题上拥有大量详尽数据,但它们可能压根没什么用。如果你的公司根本不会在决策过程中随时使用这些信息,那这样的数据八成对机器学习也没有什么价值。专业的机器学习工程师会询问许多困难的问题来找出什么才是真正重要的领域,以及那些领域将如何对该应用程序输出结果产生影响。如果这些问题对你太难了,那么你并没有为得到实际价值而仔细思考。

3.应当从你已知的信息出发。最善于利用机器学习的公司会从一个独特的视角出发,来找到与他们重要决策最为相关的因素。这将会指导他们去收集何种数据以及使用何种技术。就基于你们团队已经拥有的一部分知识之上进行拓展这个问题来着手是比较简单的,这也将为你企业创造更多价值。

很明显这个时代已经是“软件吃掉了整个世界”了(这个形容来源于软件工程师Marc Andreessen)。但它们依然很饥饿!软件们需要一份包含崭新数据与科技的食谱来持续创造价值。

没有人希望落后于这样的洞察、机器与外部数据的转变。那么,请从内部审视企业开始,去发掘你独特的见解以及你可以而且应该得到的有价值的外部数据来源。通过这些步骤,你才能够发现保持企业竞争力的相关洞见。

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7348

    浏览量

    95013
  • AI
    AI
    +关注

    关注

    91

    文章

    41060

    浏览量

    302565
  • 机器学习
    +关注

    关注

    67

    文章

    8562

    浏览量

    137209

原文标题:机器学习竞争其实是一场数据上的竞争

文章出处:【微信号:AItists,微信公众号:人工智能学家】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    价格有望跌至5万,保姆机器人将成为下个智能手机?

    电子发烧友网报道(文/黄山明)当下的人类社会已经进入到了一场新的竞争当中,这场竞争并非是人与人之间的,而是人与机器人之间的竞争,是在劳动力造
    的头像 发表于 08-05 07:55 1w次阅读
    价格有望跌至5万,保姆<b class='flag-5'>机器</b>人将成为下<b class='flag-5'>一</b>个智能手机?

    光缆单价:在市场竞争与政策引导下的走向

    市场份额,常常通过降低价格来吸引客户。这种价格竞争在市场供大于求时尤为激烈,导致光缆单价不断下降。然而,过度价格竞争可能会影响企业的研发投入和产品质量,对行业的长期发展不利。 差异化竞争
    的头像 发表于 04-14 09:42 113次阅读

    算电协同,厉害的其实是思路

    今年两会,有个词儿在科技圈和金融圈的热议中脱颖而出,甚至带点儿“破圈”的架势——“算电协同”。它首次被写进政府工作报告,成了国家重点布局的新基建工程。时间,资本市场像闻到了血腥味的鲨鱼,券商连夜出
    的头像 发表于 04-02 15:51 275次阅读
    算电协同,厉害的<b class='flag-5'>其实是</b>思路

    你以为它只是个铁台子?其实是电机性能的“终极考官”

    电机试验平台是评估电机性能的综合检测体系,贯穿电机设计、生产、应用全流程,确保其运行效率与可靠性。 核心组成:硬件包括驱动系统、加载装置、高精度传感器;软件则由自动化控制系统和数据采集分析软件
    发表于 03-14 14:35

    为什么90%的校园用电项目都做不好?问题其实出在插座

    智能插座,其实是整个系统的“数据入口”。
    的头像 发表于 03-04 11:32 125次阅读

    当“高速”成为标配,其利天下如何定义下代高速风筒方案的可靠性?

    高速风筒这阵风,刮得是真猛。几年前还是戴森独享的高端标签,如今已经成了新机的“标配”。大家喜欢它,道理很简单——干发快、噪音小、拿着不累手。这背后,其实是一场从“加热烤干”到“大风量吹干”的技术换代。
    的头像 发表于 02-05 16:43 1273次阅读
    当“高速”成为标配,其利天下如何定义下<b class='flag-5'>一</b>代高速风筒方案的可靠性?

    人工智能与机器学习在这些行业的深度应用

    自人工智能和机器学习问世以来,多个在线领域的数字化格局迎来了翻天覆地的变化。这些技术从诞生之初就为企业赋予了竞争优势,而在线行业正是受其影响最为显著的领域。人工智能(AI)与机器
    的头像 发表于 02-04 14:44 674次阅读

    淘宝数据API:竞争对手分析,战略调整!

    ​ 在电商领域,竞争对手分析是企业制定有效战略的关键。淘宝作为中国领先的电商平台,提供了丰富的数据API接口,帮助企业获取市场信息并进行深度分析。本文将逐步介绍如何使用淘宝数据API进行竞争
    的头像 发表于 01-16 17:12 702次阅读
    淘宝<b class='flag-5'>数据</b>API:<b class='flag-5'>竞争</b>对手分析,战略调整!

    飞凌嵌入式ElfBoard-文件I/O的了解探究之竞争冒险

    和修改共享资源,这可能导致数据致或程序行为异常,所以需要注意在多进程环境中可能发生的竞争冒险问题。竞争冒险不但存在于Linux应用层、也存在于Linux内核驱动层,主要是由于并发环
    发表于 11-26 15:38

    《AI芯片:科技探索与AGI愿景》—— 勾勒计算未来的战略罗盘

    数据与算力三者间错综复杂的共生关系,并前瞻性地讨论了能耗、伦理与全球竞争等关键议题。 书中幅AGI技术演进路线图(如图2)令人印象深刻,它清晰地标定了我们从“深度学习爆发”到“具
    发表于 09-17 09:32

    2025年中国工业机器人产业区域竞争梯队分析(图)

    中国工业机器人区域竞争分三大梯队:第梯队长三角地区、珠三角地区,凭借全产业链集群、技术人才密集、应用场景牵引及政策资本协同,领跑“产业规模与创新驱动”;第二梯队京津冀地区、中西部地区,依托科研资源
    的头像 发表于 08-26 17:48 1095次阅读
    2025年中国工业<b class='flag-5'>机器</b>人产业区域<b class='flag-5'>竞争</b>梯队分析(图)

    被误解的 “耗电大户”:铝电解电容其实是 “省电小能手” 的真相

    在电子元器件的世界里,铝电解电容常常背负着"耗电大户"的恶名。许多工程师和电子爱好者提到铝电解电容,脑海中就会浮现出漏电流大、损耗高的印象。然而,这种认知可能存在着严重的偏差。事实,现代铝电解
    的头像 发表于 08-15 16:01 1009次阅读
    被误解的 “耗电大户”:铝电解电容<b class='flag-5'>其实是</b> “省电小能手” 的真相

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    Neuton 是家边缘AI 公司,致力于让机器 学习模型更易于使用。它创建的模型比竞争对手的框架小10 倍,速度也快10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文
    发表于 07-31 11:38

    航天科普|一场救援中的通信革命-卫星通信(下篇)

    当福来哥在云南雨崩的原始森林迷路,手机信号完全消失时,他背包里的卫星手机成为救命稻草—条包含坐标的求救短信穿透密林树冠,直达3.6万公里高空的天通卫星,小时后救援队精准抵达。这一场景背后,是一场
    的头像 发表于 07-01 17:03 2094次阅读
    航天科普|<b class='flag-5'>一场</b>救援中的通信革命-卫星通信(下篇)

    瑞萨电子推迟营收目标至2035年 面对竞争与技术挑战

    瑞萨电子(RenesasElectronics)近期在一场媒体发布会上宣布,将其原定于2030年实现的营收目标推迟至2035年。这决定反映了嵌入式半导体行业的剧烈变化以及公司在技术方向上的重要调整
    的头像 发表于 06-30 11:02 1055次阅读
    瑞萨电子推迟营收目标至2035年 面对<b class='flag-5'>竞争</b>与技术挑战