0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

41款不同类别中的一些主要工具介绍

WpOh_rgznai100 来源:lq 2019-07-18 11:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

诸如结构式访谈、非结构式访谈、开放式问卷调查、封闭式问卷调查、记录评论和观察等技术统称为事实调查方法。这种事实调查方法和其他数据获取方法可以采取自动化,而不必使用人工方法。

使用具有专用软件的物理设备(如终端、传感器和扫描仪等)也可用于管理物理设备和系统之间的接口。随后,这些数据可以通过典型的编程语言(如Java、Visual BasicC++MatLab和Lisp)来进行部分管理。也可使用开源和专用的数据采集软件,如MIDAS(最大集成数据采集系统)。

通常,数据采集系统是作为一个专用的独立系统而开发的,这种系统被称为数据记录器。在有特殊需求的情况下,系统的工作模型已准备好,并且也已呈现给了数据科学家。这样的原型有助于用户在系统实际构建之前测试数据获取机制。这有助于收集额外要求并测试已提出系统的可行性。

这里有发现更高层次内容的知识获取和机器学习方法(例如从资源中自动地获取信息和知识),这种知识获取方法的例子如概念图、审计、神经网络和其他与自动知识发现相关的方法。

在其他工具中,数据清洗工具、数据管理和建模工具以及数据可视化工具都非常重要。本文列出了不同类别中的一些主要工具。

01

数据清洗工具

一旦完成数据收集,便需要检查其清洁度。数据清洗通常称为数据净化,即其数据从源中删除或更正脏数据的过程。数据声明程序的目标是识别和消除数据中的错误,为进一步分析、建模和可视化提供一致的数据。

在数据项层级上,一些不正确的数据通过适当的验证被拒绝。在诸如文件和数据库的同构数据集合中,不一致程度和错误数量较少。在来自多个数据源的具有异构性质的大型数据库(如数据仓库、联邦数据库系统或全球基于Web的系统)中,数据清洗变得至关重要。

产生这些问题的原因有:

(1)不同的格式

(2)冗余数据

(3)数据使用的术语和标准不同

(4)合并数据使用的方法

删除不准确的、不完整或不合理的数据会提高数据的质量。缺失值、特殊值、范围检查、演绎修正、插值、最小值调整、错字、审计和工作流规范检查等是数据清洗的常用机制。

除了编程语言外,常用的数据清理工具如下所列。

1. Lavastorm分析

用于分析引擎等产品。

www.lavastorm.com

2. IBM InfoSphere信息服务器

分析、理解、清洗、监视、转换和传输数据。

http://www-03.ibm.com/software/products/en/infosphere-information-server/

3. SAS数据质量服务器

清洗数据,并在数据流管理服务器上执行作业和服务。

www.sas.com

4. Oracle的主数据管理(MDM)

是处理大量数据,并且提供诸如合并、清洗、扩充和同步企业的关键业务数据对象等服务的解决方案。

http://www.oracle.com/partners/en/most-popular-resources/059010.html

5. 益百利 QAS清洗服务

为地址验证提供CASS认证(编码精度支持系统)。

http://www.qas.co.uk/

6. NetProspex

为数据清理、追加以及正在进行的市场数据管理提供支持。在印度,它现在是邓白氏信息服务公司的一部分,其提供数据管理转换和数据质量程序。

http://www.netprospex.com/

http://www.dnb.co.in/

7. Equifax

为数据库管理、数据集成和数据分析提供解决方案。

http://www.equifax.co.in/

8. CCR Data

清理并审计数据。该公司研发了ADAM—数据清理平台。

9. Oceanosinc公司提供的解决方案

用于数据清理、联系发现和商业智能。

http://www.oceanosinc.com/

10. Nneolaki

提供的工具用于数据收集、清理、附加和管理。

http://neolaki.net/

11. 数据清洗产品

为数据清洗提供方案。

http://www.datacleanser.co.uk/

02

数据管理和建模工具

数据科学实践中的其他重要活动是数据管理和数据准备,其也被称作数据整理。数据整理是将数据转换或映射为格式良好的数据流的过程,以便数据可以顺利地用于后续处理。

实际上,该过程允许通过工具便利和自动地使用数据来进行进一步的活动。排序、解析、提取、分解和恢复数据是数据管理阶段的主要活动。诸如Pearl、R、Python等编程工具以及来自编程语言和软件包的一些现成库可用于支持数据管理活动。

一旦数据准备好进行分析,诸如线性回归、运筹学方法以及决策支持系统等技术便通常用于数据建模。在这里,数据建模的基本目标是,为了提高商业洞察力进而确定干净且有效的数据实体之间的关系。

致力于这个阶段的数据科学家或专家被称为数据建模者。数据建模可以在概念层面、企业层面和物理层面完成。以下是支持数据建模的主要工具。

12. CA ERwin数据模拟

为管理复杂数据提供了简单的可视化界面。

http://erwin.com/products/data-modeler

13. Database Workbench

为使用多个数据库进行开发提供了一个单一的开发环境。

http://www.upscene.com/database_workbench/

14. DeZign for Databases

是一个支持数据库设计和建模的工具。它还为数据库应用程序开发提供了复杂的可视化数据建模环境。

http://www.datanamic.com/dezign/

15. Enterprise Architect

是用于数据建模和软件工程的完全集成的图形支持工具。

http://www.sparxsystems.com/products/ea/

16. ER/Studio

为数据管理专业人员提供协作机制以构建和维护企业级数据模型和元数据存储库。

http://www.embarcadero.com/products/er-studio

17. InfoSphere 数据架构师(理性数据架构师)

是一种协作式的数据设计方案。它简化了仓库设计、维度建模以及管理任务的变更。

http://www-03.ibm.com/software/products/en/ibminfodataarch/

18. ModelRight

为数据库设计人员提供了诸如数据库设计、图形支持、报告和可视化界面等活动的支持。

http://www.modelright.com/products.asp

19. MySQL Workbench

为数据库架构师、开发人员和数据库管理员提供了统一的可视化工具。MySQL Workbench还提供数据建模、SQL开发和综合管理。

http://www.mysql.com/products/workbench/

20. Navicat数据模拟器

有助于创建高质量的逻辑数据模型和物理数据模型。

http://www.navicat.com/products/navicat-data-modeler

21. Open ModelSphere

是一款独立于平台且免费的建模工具,可用作开源软件。它为数据建模和软件开发的所有阶段提供了普遍支持。

http://www.modelsphere.org/

22. Oracle SQL Developer Data Modeler

是一款用于创建、浏览和编辑数据模型的免费图形工具。它支持逻辑的、关系的、物理的、多维的以及数据类型的模型。

http://www.oracle.com/technetwork/developer-tools/datamodeler/overview/index.html

23. PowerDesigner

管理设计时间更改和元数据。

http://www.powerdesigner.de/

24. Software Ideas Modeler

通过诸如UML、业务流程模型和符号(BPMN)、系统建模语言(SysML)等的标准图以及多图表,为建模提供支持。

https://www.softwareideas.net/

25. SQLyog

是一个强大的MySQL管理者和管理工具。

https://www.webyog.com/

26. Toad Data Modeler

是一个数据库设计工具,其用于设计新的结构、实体关系图和SQL脚本生成器。

http://www.toad-data-modeler.com/

03

数据可视化工具

数据可视化是指数据的图形表示。数据的可视化使得理解数据和沟通变得更容易。

有很多可用于数据可视化的工具,下面列出了一些常用可视化工具:

27. Dygraphs

是一个快速且灵活的开源JavaScript图表库,其允许用户探索和解释密集的数据集。Dygraphs是一个高度可定制的工具。

http://dygraphs.com/

28. ZingChart

是一个JavaScript图表库,其能为大量数据提供快速和交互式的图表。

http://www.zingchart.com/

29. InstantAtlas

以有效的视觉方式提供交互式示意图和报告软件。

http://www.instantatlas.com/

30. Timeline

可以制作出美观的互动时间表。

http://www.simile-widgets.org/timeline/

31. Exhibit

是由麻省理工学院开发的完全开源软件,其有助于创建交互式的示意图和其他基于数据的可视化。

http://www.simile-widgets.org/exhibit/

32. Modest Maps

对于想要使用交互式示意图的设计者和开发者来说,是一个免费的图书馆。

http://modestmaps.com/

33. Leaflet

是适用于移动友好交互式示意图的现代开源JavaScript库。

http://leafletjs.com/

34. Visual.ly

有助于创建视觉表征。

http://create.visual.ly/

35. Visualize Free

构建交互式可视化,用来说明简单图表不易表示的数据。

http://visualizefree.com/index.jsp

36. 多眼

IBM研发的“多眼”可以帮助用户从数据集创建可视化并启用数据分析。

http://www-969.ibm.com/software/analytics/manyeyes/

37. D3.js

是一个JavaScript库,D3.js从多个数据源使用HTML、SVG和CSS来生成图形和图表。

http://d3js.org/

38. Google Charts

提供一种机制来以多种交互式图表(如线形图、复杂的分层树形图等)的形式对数据进行可视化。

https://developers.google.com/chart/interactive/docs/

39. Crossfilter

是一个JavaScript库,其用于探索浏览器中的大规模多变量数据集。此外,Crossfilter还提供可协调的3D可视化。

http://square.github.io/crossfilter/

40. Polymaps

在地图上提供了快速且多缩放的数据集演示。

http://polymaps.org/

41. Gephi

是一款适用于各种网络、复杂系统、动态和分层图形的交互式的可视化探索平台。它支持探索性数据分析、链接分析、社交网络分析以及生物网络分析。该工具为已识别的类似数据集呈现彩色区域。

https://gephi.github.io/

除了上述工具和技术之外,数据科学领域还需要其他更多的专用新工具。由于数据科学领域是来自多个学科的技术联盟,并且具有无处不在的应用,因此数据科学在研究和开发中必须被赋予最重要的地位。此外,数据科学领域还需要文档编制、新的技术和模型。

典型的模型和技术可能不适合已获取的数据集,这些数据需要典型方法外的支持。在这里,人工智能技术可能会有很大的贡献。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4829

    浏览量

    106828
  • 数据管理
    +关注

    关注

    1

    文章

    333

    浏览量

    20477
  • 可视化
    +关注

    关注

    1

    文章

    1319

    浏览量

    22605

原文标题:41款实用工具,数据获取、清洗、建模、可视化都有了

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    贴片电容精度J±5%的一些详细知识

    贴片电容精度J±5%表示电容的实际值与标称值之间的偏差范围在±5%以内 ,以下是关于贴片电容精度J±5%的一些详细知识: 、精度等级含义 J±5% :字母“J”在贴片电容的标识通常表示标称精度
    的头像 发表于 11-20 14:38 173次阅读
    贴片电容精度J±5%的<b class='flag-5'>一些</b>详细知识

    蜂鸟E203的浮点指令集F的一些实现细节

    周期。 总结 本文介绍的内容是为了完成基础功能:对蜂鸟E203 RISC-V内核的微架构实现进行定优化,在添加F拓展的过程一些记录。
    发表于 10-24 08:57

    Vivado浮点数IP核的一些设置注意点

    : 总结 本文介绍的内容是为了完成基础功能:对蜂鸟E203 RISC-V内核的微架构实现进行定优化,在添加F拓展的过程一些记录。
    发表于 10-24 06:25

    同类型的自动化工具在评估数据缓存效果时有哪些优缺点?

    在评估数据缓存效果时,不同类型的自动化工具(实时监控类、性能测试类、深度分析类、云原生专属类)因设计目标和技术特性不同,存在显著的优缺点差异。以下结合工具类型与具体场景,系统对比其核心优劣势,并给出
    的头像 发表于 09-25 17:48 510次阅读
    不<b class='flag-5'>同类</b>型的自动化<b class='flag-5'>工具</b>在评估数据缓存效果时有哪些优缺点?

    推荐一些可以验证电能质量在线监测装置数据准确性的工具

    验证电能质量在线监测装置数据准确性的工具需覆盖信号模拟、现场测试、数据分析全流程。以下结合行业标准与最新技术,从四大类工具精选核心产品并说明其应用场景: 、高精度标准源设备:实验室
    的头像 发表于 09-18 14:28 372次阅读
    推荐<b class='flag-5'>一些</b>可以验证电能质量在线监测装置数据准确性的<b class='flag-5'>工具</b>

    文看懂芯片的设计流程

    引言:前段时间给大家做了芯片设计的知识铺垫(关于芯片设计的一些基本知识),今天这篇,我们正式介绍芯片设计的具体流程。芯片分为数字芯片、模拟芯片、数模混合芯片等多种类别。不同类别的设计流
    的头像 发表于 07-03 11:37 1875次阅读
    <b class='flag-5'>一</b>文看懂芯片的设计流程

    在低功耗蓝牙产品开发的过程,会涉及到一些参数的选择和设定,这些参数是什么意思,该如何设定呢?(蓝牙广播)

    在低功耗蓝牙产品开发的过程,会涉及到一些参数的选择和设定,这些参数是什么意思,该如何设定呢?在此介绍一些: 蓝牙的广播类型(Advertising Type) 可连接广播(ADV_I
    发表于 06-25 18:25

    数字IC设计:方法、技巧与实践

    了如何在RTL设计中考虑综合和后端设计的问题;然后,给出了一些最常见的设计实例和代码;最后,介绍了仿真的相关知识。第5章为逻辑综合和相关技术。主要介绍了综合
    发表于 05-28 16:06

    Debian和Ubuntu哪个好一些

    兼容性对比Debian和Ubuntu哪个好一些,并为您揭示如何通过RAKsmart服务器释放Linux系统的最大潜能。
    的头像 发表于 05-07 10:58 872次阅读

    树莓派在自动化控制项目中的一些潜在应用

    自动化控制项目中的一些潜在应用。之前,我们已经为Arduino平台探讨了相同的话题。我们确定Arduino是个出色的教育工具,但由于一些限制,它无法在工业环境
    的头像 发表于 03-25 09:45 480次阅读
    树莓派在自动化控制项目中的<b class='flag-5'>一些</b>潜在应用

    独立服务器和云服务器哪个快一些

    独立服务器和云服务器哪个快一些?在数字服务部署,独立服务器与云服务器的速度差异并非绝对,需结合资源配置与应用场景综合判断。以下是UU云对独立服务器和云服务器的核心维度对比分析:
    的头像 发表于 02-05 10:08 807次阅读

    AN29-关于DC-DC转换器的一些想法

    电子发烧友网站提供《AN29-关于DC-DC转换器的一些想法.pdf》资料免费下载
    发表于 01-08 13:57 0次下载
    AN29-关于DC-DC转换器的<b class='flag-5'>一些</b>想法

    同类型的总线技术对比

    Architecture) 特点: 早期的总线技术,主要用于PC。 数据传输速率较低,通常为8位或16位。 扩展能力有限,不支持即插即用。 应用场景: 已逐渐被更先进的技术取代,但在一些旧设备仍有应用。 2.
    的头像 发表于 12-31 09:40 1888次阅读

    先进封装的TSV/硅通孔技术介绍

    注入导电物质,将相同类别芯片或不同类别的芯片进行互连,达到芯片级集成的先进封装技术。 TSV技术的这个通道主要是通过铜等导电物质的填充完
    的头像 发表于 12-17 14:17 3139次阅读
    先进封装<b class='flag-5'>中</b>的TSV/硅通孔技术<b class='flag-5'>介绍</b>

    数据手册一些参数的数值有时画条横线或者空着不填是什么意思?

    数据手册一些参数的数值有时画条横线或者空着不填是什么意思? 如上表, tCS的最大值是15ns,最小值和典型值都是空着的,是不是最小值和典型值我可以随便取(大于0小于15就行)?还是说只有最大值给出了,我只能取给出的最
    发表于 12-16 07:45