0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TensorFlow宣布开源TXF的一个重要组件:“数据验证”

zhKF_jqr_AI 来源:未知 作者:李倩 2018-09-24 09:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

编者按:在KDD 2017上,Google推出基于TensorFlow的可扩展机器学习平台TFX,主打管理数据、训练模型、模型评估和模型服务四块内容。而今天,TensorFlow宣布开源TXF的一个重要组件:“数据验证(tf.DataValidation)”,可帮助开发人员更好地认识数据,并将其用于机器学习。

ML算法及其性能一直是学术界和工业界关注的一个重点,如果输入数据有误,所有的优化工作就会付诸东流。在数据量较少的时候,理解和验证数据只是一项微不足道的任务,但是在实践中,研究人员使用的数据量往往非常庞大,这就给手动检查造成了巨大压力。因此,自动化数据分析、验证和监管是有必要的。

TFDV(数据验证)是TFX平台的一部分,它也是Google每天用来分析和验证数PB数据的技术。鉴于此前它在数据纠错上一直有不错的表现,Google相信,TFDV也可以被用户作为维持ML模型性能的一个好工具。

在设计TFDV的早期,Google就已经考虑到了在笔记本电脑环境中使用它的需求,所以对于硬件要求,大家可以放宽心。

计算描述性数据统计

TFDV可以计算描述性统计数据,根据存在的特征和值分布的形状快速概述数据。这些统计信息有助于开发人员调查和了解他们的数据,并据此推断数据模式。

用TFDV计算统计信息:

stats = tfdv.generate_statistics_from_tfrecord(data_location=path)

可视化:

推断数据模式

所谓数据模式,就是描述数据的预期性能,它可以包括:

预计将出现哪些特征

它们的类型

每个样本中,一个特征有几个值

所有样本中,每个特征的出现几率

特征的预期域

简而言之,模式描述了对“正确”数据的期望,因此可被用于检测数据中的错误。但是在实践中,编写模式可能是非常繁琐的,尤其是对于具有大量特征的数据集。TFDV提供了一种基于描述性统计信息,生成旨在反映数据稳定特征的模式的方法:

#根据统计信息推断模式

schema = tfdv.infer_schema(train_stats)

#以表格格式显示内联模式

tfdv.display_schema(schema)

上图是个简单的可视化,列出了数据集中的每个特征以及它在编码模式下的主要特征。

验证新数据

给定一个模式,TFDV可以根据模式中的期望验证一组新数据。

#统计一组新数据

new_stats = tfdv.generate_statistics_from_csv(NEW_DATA)

#比较新数据如何符合模式

anomalies = tfdv.validate_statistics(new_stats, schema)

#显示内联异常

tfdv.display_anomalies(异常)

上述异常报告了新数据和模式之间的差别

验证持续添加的数据

对于数据集中不断增加的新数据,我们需要用原模式对它们进行验证。但是,在常规设置中,这个模式每个一段时间都会维护一次,它基于统计信息,而统计信息又会受新加入的数据影响。因此,之前我们推断的模式只是原始模式,它还必须要能随着时间推移不断变化。

用validate_statistics验证新添加的数据

如果想可视化不同数据集(不同日期的数据集)的统计数据,用visualize_statistics:

用Facets可视化两组数据的比较,示例:DAY1、DAY2票价对比

TFDV还可以检测连续版本训练数据之间的分布变化,这有助于对比连续版本数据集之间的统计信息,如果发现有删改/添加的情况,应及时在检查数据异常时,更新信息。此外,TFDV还能检查训练数据和服务系统观察到的数据之间的特征值/分布差异,并用Facets可视化。

Github:github.com/tensorflow/data-validation

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136233
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26046
  • tensorflow
    +关注

    关注

    13

    文章

    331

    浏览量

    61854

原文标题:TensorFlow新库TFDV:大规模理解、验证和监控你的ML数据

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    关于 TensorFlow

    关于 TensorFlowTensorFlow™ 是采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(ed
    发表于 03-30 19:57

    MIPS宣布开源

    ,12月17日宣布MIPS将在2019年第季度发布最新的core R6时开源,此举旨在加速MIPS指令集架构的普及。MIPS开放计划将允许参与者自由访问“最新版本的32位和64位MIPS ISA
    发表于 12-21 10:36

    情地使用Tensorflow吧!

    关于 TensorFlowTensorFlow™ 是采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(ed
    发表于 07-22 10:13

    TensorFlow是什么

    TensorFlow 在深度学习模型中的应用,使读者可以轻松地将模型用于数据集并开发有用的应用程序。每章包含系列处理技术问题、依赖性、代码和解读的示例,在每章的最后,还有
    发表于 07-22 10:14

    TensorFlow、PyTorch,“后浪”OneFlow 有没有机会

    TensorFlow、PyTorch,“后浪”OneFlow 有没有机会 | 流科技工程师成诚编者按:7月31日,流科技在创业1300天后,他们宣布
    发表于 07-27 08:24

    南京E创谭小慧:介绍OpenEDI开源数据基础组件

    2021大会的“openDACS V1.0 主线版本开源论坛”,代表E创介绍了“开源发布-OpenEDI开源数据基础组件”。本文采用知识共
    发表于 07-01 14:37

    蔚来汽车挂牌纽交所,12位车主“替”李斌敲了钟

    重要组件:「数据验证(tf.DataValidation)」,可帮助开发人员更好地认识
    的头像 发表于 09-16 10:46 3869次阅读

    谷歌推出了AdaNet,基于TensorFlow的轻量化框架

    AdaNet采用TensorFlow估计器的交互界面,它通过简单训练、评估,大大简化了机器学习的编程过程。它把TensorFlow Hub模块、TensorFlow模型分析和谷歌云的超参数调整期等
    的头像 发表于 11-05 15:27 3583次阅读

    不写代码也能玩转人工智能 Uber宣布开源Ludwig

    Uber 宣布开源 Ludwig,基于 TensorFlow 的工具箱,该工具箱特点是不用写代码就能够训练和测试深度学习模型。
    的头像 发表于 02-26 08:47 3419次阅读

    谷歌推出开源的量子机器学习库TensorFlow Quantum

    谷歌在其官方AI博客宣布推出TensorFlow Quantum(TFQ),这是开源的量子机器学习库,可将量子计算与机器学习结合在
    的头像 发表于 03-11 14:25 2901次阅读

    开源机器学习平台TensorFlow的更新内容

    TensorFlow 2.2.0-rc0已发布,据官方介绍,TensorFlow采用数据流图(data flow graphs),用
    的头像 发表于 03-15 14:53 2455次阅读

    鸿蒙滑动拼图验证组件分享 已开源

       基于安卓平台的滑动拼图验证组件 SwipeCaptcha,实现了鸿蒙化迁移和重构,代码已经开源,目前已经获得了很多人的 Star 和 Fork ,欢迎各位下载使用并提出宝贵意见
    的头像 发表于 12-03 10:04 3785次阅读
    鸿蒙滑动拼图<b class='flag-5'>验证</b><b class='flag-5'>组件</b>分享 已<b class='flag-5'>开源</b>

    TensorFlow手势识别树莓派开源

    电子发烧友网站提供《TensorFlow手势识别树莓派开源.zip》资料免费下载
    发表于 11-09 09:27 1次下载
    <b class='flag-5'>TensorFlow</b>手势识别树莓派<b class='flag-5'>开源</b>

    验证组件配置参数

    些典型 的 验证组件 配 置参数示例:  agent可以被配置为 active 或者 passive 模式。在active模式下age
    的头像 发表于 06-14 10:20 1321次阅读
    <b class='flag-5'>验证</b><b class='flag-5'>组件</b>配置参数

    开源MCU级的命令行交互组件

    开源MCU级命令行交互组件~
    的头像 发表于 10-17 16:26 947次阅读
    <b class='flag-5'>一</b><b class='flag-5'>个</b><b class='flag-5'>开源</b>MCU级的命令行交互<b class='flag-5'>组件</b>