0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习教父:从未标记数据中促进机器学习能力

倩倩 来源:lq 作者:环球网 2019-09-20 11:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人工智能作为推动当下科技创新和生产力整体提升的重要战略性技术,受到世界范围内的普遍关注,尤其是随着云计算和大数据的迅速兴起。人工智能迎来了新的发展契机,而算法则是在幕後推动人工智能实现的“核心引擎”,过去六十多年来以大脑模拟、神经处理再以神经网络为代表的机器学习,每一次突破都推动着人工智能技术的迭代演进。

当前,人工智能已经在物联网智能家居机器人等多领域中落地应用,与实体经济深度融合,迎来了发展的大好时期。丰富的应用场景也对算法提出了新需求。自动机器学习、联邦迁移学习、可解释深度学习等,一批算法促进新产品的发展,加快社会向智能化不断跃升。

值此之际,8月30日,由世界人工智能大会组委会主办,上海交通大学、第四范式承办的“2019世界人工智能大会国际前沿算法峰会”在上海世博展览馆举行,作为此次世界人工智能大会十大主题峰会之一,国际算法峰会聚集超过1000位人工智能研究者和产业界实践者,共同向底层技术发问,求解能够推动产业变革的未来算法。

会上,美国卡内基梅隆大学CMU计算机学院院长、机器学习教父、乂学教育-松鼠AI首席AI科学家Tom Mitchell教授以“Learning from Unlabeled Data”为题,做了精彩的主题报告。

机器学习教父、乂学教育-松鼠AI首席人工智能科学家Tom Mitchell发表演讲

Tom Mitchell长期从事机器学习、认知神经学科等研究,曾编写Machine Learning (《机器学习》)一书,这是人工智能领域最经典的教材之一,他也因此被称为机器学习之父。近年,Tom Mitchell开始深度关注AI对教育的应用,2018年11月起任中国AI教育独角兽公司乂学教育-松鼠AI首席AI科学家,作为松鼠AI人工智能领域第一负责人,Mitchell 带领团队十多位AI科学家和几百位AI应用工程师以及技术团队,进行人工智能在智适应教育领域的基础研究和相关产品的研发应用等。

在此次大会上,Tom Mitchell教授指出,在我们的世界,非标记的数据要比已标记的数据庞大,机器学习非常重要的一点就是学习如何将非标记数据进行分类,来改善机器学习的能力。实现这一目标就要求学习程序必须要具备某种架构,能弄清楚不同的函数及不同的限制关系。如果能对海量未经标注的数据进行分类,不管对机器学习还是自我反思预测错误都将非常有意义。

当前,以机器学习为核心的人工智能技术正在逐步推动各行各业产业升级,机器学习作为AI的一个重要分支,为人工智能提供了新的发展机遇。尽管如此、和人类学习的方式相比,机器学习的方法依然非常狭窄。

Tom Mitchell教授着重介绍了一种被称之为永无止境的语言学习项目模型——NELL(Never-Ending Language Learner)框架。NELL像人类一样,学习很多类型的知识,已经具有自我监督的经验,能利用学到的知识改善后续学习,并通过充分的自我反思来避免学习中的平台期。

“NELL理念非常简单,相当于有一位程序员每天24小时不间断工作,每天程序都会有两个任务:第一是阅读提取来自网络的更多信息,并删除旧的错误信息,以填充不断增长的知识库,其中包含对每个信息的信心和来源,比如说水是一种饮料,或者比尔盖茨创立的微软;第二,自我进化,学习如何比昨天做得更好,如果任务跟昨天一样,可以简单挖掘更多准确的数据。”

NELL在初始阶段会有少量分类,如饮料、人、植物、城市等是本体,同时加入关系,比如说人创建了公司,或者饮料是食物产生。除此之外还会输入样本,大部分情况下输入网端的是末标注的数据,未标注数据的信息分类问题也是目前大部分机器学习过程中的问题所在。

Tom Mitchell教授称,其2010年开始NELL项目,每天24小时运作,直到去年九月,其拥有1.2亿三元数据知识库,并且每一年的逻辑推理能力、学习能力都在提升。而且基于十几个没有标注的原始样本数据,NELL可以扩展已知的关系本体,并能参加一些新型的关系。通过不断的累计,目前每个知识库中拥有数亿个三元数据库。比如说枫叶国是加拿大,多伦多是属于加拿大的一座城市等,像这样的例子均是程序从网络当中学习攫取的数据。

在教育领域也是如此,现在已经有几百万人在使用人工智能教育系统,积累了许多数据,机器学习可以利用这些数据进一步发展。

“如果机器学习应用在智适应教育当中,应该在每一领域都具备一种功能,去了解学生现在的学习状态,机器学习就是能够发现这个功能是什么,我们可以用机器学习来不断的修改它,这是机器学习在其中的核心作用。”Mitchell谈到。

新的机器学习和人工智能的工具出现后,或许一个机器就可以收集高达十万名学生的答卷,就可以去分析这些答卷当中学生出错的规律,在过去,一位老师穷其一生都不可能接触多达这么多学生。

Tom Mitchell认为,目前正在进入AI对如何教育孩子产生重大影响的十年。

因为AI的进步,研究人员和公司正在不断更迭新一代系统。例如松鼠AI智适应学习系统运用进化算法、深度神经网络、贝叶斯网络、迁移学习、图论、及其他机器学习等多种AI技术,通过对学生学习过程中多维数据的全方位评估,给与最高效的学习内容、学习路径、学习节奏的把握以及深度的效果评估,最大化学习效率的提升,进而实现在模拟优秀特级教师的基础之上,达到超越真人教学的目的。

回到NELL,其可以用扩展kb、OntExt考虑NELL当前本体中的每对类别,在三个步骤中搜索类别对成员之间经常讨论的关系的证据、提取两个类别的已知实例的句子、从提取的句子中通过上下文共生矩阵构建上下文,然后将相关的上下文聚类在一起。 每个集群对应于两个输入类别实例之间可能的新关系。

如果尝试去训练这两个函数,即通常所说的协同训练,只要这些函数有足量多的标注数据,误差就会接近于零。并且最后能使用这些未标注的数据学习这些函数。

比如,松鼠AI系统成果之中的“非关联性知识点关联概率”及“用错因重构知识地图”。

在将学科中的知识点进行超纳米级拆分的基础上,非关联性知识点关联概率基于知识地图理论中不仅对知识点建立关联性,追根溯源还对非关联性的知识点建立了关联概率,让测试效率和学习效率可以分别比同类产品的知识地图理论模型提高3-10倍。从而提高测试效率和学习效率,更加精准的检测到孩子的知识薄弱点。

用错因重构知识地图就是将每一道题标注不同种的错因。进一步重构知识地图。更加精准定位学生错因,知识薄弱点、精准的给出最适合每一个孩子的学习路径、从而提高学习效率。

“NELL理念一个非常重要的特点是能够不断的学习、不断的改善,尽管它大部分使用的是网络上未经标注的数据,但用未标记的数据来训练机器学习的逻辑,对我以及对团队其他成员来说都非常惊艳,希望更多的人能参与进来,不断优化。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2950

    文章

    48157

    浏览量

    418915
  • 人工智能
    +关注

    关注

    1821

    文章

    50377

    浏览量

    267102
  • 机器学习
    +关注

    关注

    67

    文章

    8567

    浏览量

    137272
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    机器学习数据质量双保障:从“验证”到“标记

    机器学习的世界里,有句老话尤为贴切:“garbagein,garbageout”(输入垃圾,输出垃圾)。无论模型架构多先进、算法多精妙,数据的质量始终是决定模型性能的核心。本文聚焦数据
    的头像 发表于 04-24 15:48 124次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>中</b>的<b class='flag-5'>数据</b>质量双保障:从“验证”到“<b class='flag-5'>标记</b>”

    机器学习特征工程:分类变量的数值化处理方法

    编码是机器学习流程里最容易被低估的环节之一,模型没办法直接处理文本形式的分类数据,尺寸(Small/Medium/Large)、颜色(Red/Blue/Green)、城市、支付方式等都是典型的分类
    的头像 发表于 02-10 15:58 481次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>特征工程:分类变量的数值化处理方法

    人工智能与机器学习在这些行业的深度应用

    自人工智能和机器学习问世以来,多个在线领域的数字化格局迎来了翻天覆地的变化。这些技术从诞生之初就为企业赋予了竞争优势,而在线行业正是受其影响最为显著的领域。人工智能(AI)与机器学习
    的头像 发表于 02-04 14:44 715次阅读

    机器学习和深度学习需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习和深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注数据
    的头像 发表于 01-07 15:37 370次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b><b class='flag-5'>中</b>需避免的 7 个常见错误与局限性

    基于ETAS嵌入式AI工具链将机器学习模型部署到量产ECU

    AI在汽车行业的应用日益深化,如何将机器学习领域的先进模型(如虚拟传感器)集成到ECU软件,已成为业界面临的核心挑战。
    的头像 发表于 12-24 10:55 6426次阅读
    基于ETAS嵌入式AI工具链将<b class='flag-5'>机器</b><b class='flag-5'>学习</b>模型部署到量产ECU

    穿孔机顶头检测仪 机器视觉深度学习

    ,能适用恶劣工况,在粉尘、高温、氧化皮等恶劣环境均可正常工作。 测量原理 利用顶头与周围的物质(水、空气、导盘等)红外辐射能量的差异,用热成像相机拍摄出清晰的图片,再通过深度学习短时间内深度优化,判断
    发表于 12-22 14:33

    量子机器学习入门:三种数据编码方法对比与应用

    在传统机器学习数据编码确实相对直观:独热编码处理类别变量,标准化调整数值范围,然后直接输入模型训练。整个过程更像是数据清洗,而非核心算法组
    的头像 发表于 09-15 10:27 993次阅读
    量子<b class='flag-5'>机器</b><b class='flag-5'>学习</b>入门:三种<b class='flag-5'>数据</b>编码方法对比与应用

    如何在机器视觉中部署深度学习神经网络

    人士而言往往难以理解,人们也常常误以为需要扎实的编程技能才能真正掌握并合理使用这项技术。事实上,这种印象忽视了该技术为机器视觉(乃至生产自动化)带来的潜力,因为深度学习并非只属于计算机科学家或程序员。 从头开始:什么
    的头像 发表于 09-10 17:38 1079次阅读
    如何在<b class='flag-5'>机器</b>视觉中部署深度<b class='flag-5'>学习</b>神经网络

    如何解决开发机器学习程序时Keil项目只能在调试模式下运行,但无法正常执行的问题?

    如何解决开发机器学习程序时Keil项目只能在调试模式下运行,但无法正常执行的问题
    发表于 08-28 07:28

    AI 驱动三维逆向:点云降噪算法工具与机器学习建模能力的前沿应用

    在三维逆向工程领域,传统方法在处理复杂数据和构建高精度模型时面临诸多挑战。随着人工智能(AI)技术的发展,点云降噪算法工具与机器学习建模能力的应用,为三维逆向工程带来了创新性解决方案,
    的头像 发表于 08-20 10:00 890次阅读
    AI 驱动三维逆向:点云降噪算法工具与<b class='flag-5'>机器</b><b class='flag-5'>学习</b>建模<b class='flag-5'>能力</b>的前沿应用

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    nRF54L15)上运行,其效率之高,也完全符合nRF52805 等空间最 有限的SoC 的限制,只占用几千字节的非易失性存储器(NVM)。这样就可以在以前认为不可能的应用增加 机器学习ML 功能。 例如,您现在
    发表于 07-31 11:38

    FPGA在机器学习的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件加速平台
    的头像 发表于 07-16 15:34 3127次阅读

    机器学习异常检测实战:用Isolation Forest快速构建无标签异常检测系统

    本文转自:DeepHubIMBA无监督异常检测作为机器学习领域的重要分支,专门用于在缺乏标记数据的环境识别异常事件。本文深入探讨异常检测技术的理论基础与实践应用,通过Isolatio
    的头像 发表于 06-24 11:40 1635次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>异常检测实战:用Isolation Forest快速构建无标签异常检测系统

    边缘计算机器学习:基于 Linux 系统的实时推理模型部署与工业集成!

    你好,旅行者!欢迎来到Medium的这一角落。在本文中,我们将把一个机器学习模型(神经网络)部署到边缘设备上,利用从ModbusTCP寄存器获取的实时数据来预测一台复古音频放大器的当前健康状况。你将
    的头像 发表于 06-11 17:22 1172次阅读
    边缘计算<b class='flag-5'>中</b>的<b class='flag-5'>机器</b><b class='flag-5'>学习</b>:基于 Linux 系统的实时推理模型部署与工业集成!

    使用MATLAB进行无监督学习

    无监督学习是一种根据未标注数据进行推断的机器学习方法。无监督学习旨在识别数据
    的头像 发表于 05-16 14:48 1639次阅读
    使用MATLAB进行无监督<b class='flag-5'>学习</b>