0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据技术成为企业长远发展的驱动力量?

我快闭嘴 来源:精英数智科技股份有限公 作者:侯宇辉 2020-09-15 17:47 次阅读

在互联网领域,大数据应用十分广泛,尤其以企业为主,企业作为大数据应用的主体,数据采集、数据存储、数据可视化、数据特征提取、数据特征选择、数据清洗、数据分析、数据挖掘、数据仓库、数据安全等围绕大数据商业价值的利用焦点已备受关注。

一、数据采集

从数据采集层面来看,分为结构化数据、非结构化数据、半结构化数据,来源于物联网的设备采集数据由于成本低、获取方式容易,成为企业大数据采集数据的主要来源之一,实时性相对强,数据量从GB、TB、PB、ZB级扩增。然而对于中小企业或许会受困于没有数据却又想转型通过搭建大数据平台来提升竞争力,企业可以研发符合市场需求的产品,从新用户、活跃用户、粘性用户到留存用户,获取用户的行为数据之后可以进行数据分析。此外数据采集可以有网络爬虫、ETL抽取等。

二、数据存储

有了大量数据之后,对于数据存储方式也提出了要求。数据存储分为关系型数据库存储、分布式数据存储,数据级别较大时可以存储在分布式文件存储系统中。对于搭建大数据平台的企业来说,通常是对业务结果的数据存储于关系型系统,对于TB级及以上数据量存储至分布式系统中,这两种数据可以使用Sqoop等类似的工具进行数据导入导出。

三、数据可视化

在实际工业生产实践中,对于待处理的大数据,首先是数据特征探索阶段,也就是做数据可视化,对数据有个初步的了解,才会知道所拿到的数据能否解决面临的实际问题,适用于什么算法。对于无编程能力的人,只需要掌握数据分析和处理的能力,即可灵活使用可视化类工具如Tableau,通过拖拉拽形成联动,大大缩短数据分析流程。从连接数据源、建立工作表、构建各种图表、仪表板进行可视化展示,进行交叉分析。对于有编程能力的人可以使用R、Python进行数据可视化。

四、数据特征提取及清洗

数据可视化之后,需要对数据进行清洗,对数据中的噪声进行处理以支持后续数据建模。常见的比如进行降维,提取出对实际问题相关性较高的特征因子后,再回归到大数据,或者做相关性分析、主成分分析等。

五、数据分析及挖掘

数据统计及分析主要是基于存储的海量数据进行普通的分析和分类汇总,以满足大多数常见的分析需求。数据挖掘一般没有预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,实现高级别的数

据分析的需求,丰富的历史数据是数据挖掘的先决条件。比较典型的算法有回归、分类、聚类、关联分析。机器学习正是如此,分为监督式学习算法、无监督式学习算法、半监督式学习算法。

六、机器学习

监督式学习算法是从带标签(标注)的训练样本中建立的训练样本中建立模式,并依此推测新的数据标签的算法。比如回归、神经网络、决策树、支持向量机、贝叶斯、随机森林。无监督式学习算法是在学习时并不知道其分类结果,目的是去对原始资料进行分类,以便了解资料内部结构的算法。比如聚类、主成分分析、线性判别分析降维。半监督式学习算法是利用少量标注样本和大量未标注样本进行机器学习,利用数据分布上的模型假设,建立学习器对未标签样本进行标签。

机器学习正被广泛应用于计算机视觉语音识别、自然语言处理等方面。其中深度学习强调模型深度,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更容易准确,更能够刻画数据的丰富内在信息,其实际应用对象不仅包含语音、图像、视频,同样也包含文本、语言和语义信息。另外,卷积神经网络是神经网络的一种,为识别二维形状而特殊设计的多层感知器,擅长处理图像特别是大图像的相关机器学习问题,对图像平移、比例缩放、倾斜或者其他形式的变形具有高度不变性,它的布局更接近于实际的生物神经网络,被广泛应用。当前实现机器学习比较常见的两种主流方式是Spark和Tensorflow框架。机器学习作为人工智能的核心,是企业搭建大数据平台的重要节点,需要结合业务逻辑,按需选择合适的算法模型,不断调参调优,使机器学习服务于企业经营。

七、数据仓库

数据仓库是为了便于多维分析和多角度展示数据按特定模式进行存储所建立起来的关系型数据库。在商业智能系统的设计中,数据仓库的构建是关键,是商业智能系统的基础,承担对业务系统数据整合的任务,为商业智能系统提供数据抽取、转换和加载(ETL),并按主题对数据进行查询和访问,为联机数据分析和数据挖掘提供数据平台。海量的数据包括社交网络、移动设备和传感器等新渠道以及新技术使用所带来的半结构化或非结构化的数据。大数据技术架构可分为存储、处理、应用、展示以及整合5个部分,并可根据数据的结构化程度对相关技术进行选择和组合。每个部分包含一些技术要素,而某些要素又可根据结构化程度共同作用形成特定的功能。

从企业角度来说,无论是数据库、数据仓库还是大数据都是解决不同需求、处理不同级别数据量的技术,它们之间并无冲突。针对不同需求和现状进行技术选择,各种技术相互补充、相互协作。目前阶段对于大部分企业来说,想要开展一个全新的大数据项目似乎无从下手。从现有数据仓库建设理论和经验入手,引入部分大数据技术,特别是实现非结构化数据的收集、存储和处理是一种比较可行的方法。

基于云计算的Hadoop大数据框架,利用集群的威力高速运算和存储,实现了一个分布式运行系统,以流的形式提供高传输率来访问数据,适应了大数据的应用程序。将Hadoop技术应用于对数据的采集、ETL、存储、处理,开发提供给传统的数据仓库BI工具,其架构如图所示。利用Hadoop强大的数据处理能力,将各类数据处理成结构化数据,向上提供给传统BI工具,对数据进行分析和结果展示。

八、数据安全

大数据蕴藏着价值信息,但数据安全面临着严峻挑战。一方面,大数据本身的安全防护存在漏洞。虽然云计算对大数据提供了便利,但对大数据的安全控制力度不够,API访问权限控制以及密钥生产,存储和管理方面的不足都可能造成数据泄露。另一方面,在用数据挖掘和数据分析等大数据技术获取价值信息的同时,攻击者也在利用这些大数据技术进行攻击。

当然大数据也为数据安全的发展提供了机会,对海量数据的分析有助于更好的跟踪网络异常行为,对实时安全和应用数据结合在一起的数据进行预防性分析,可防止诈骗和黑客入侵。网络攻击行为留下的痕迹数据以数据的形式隐藏在大数据中,从大数据的存储,应用和管理方面把关,可以有针对性的应对数据安全威胁。企业需要将大数据技术和安全并行,大数据才可以真正成为企业长远发展的驱动力量。
责任编辑:tzh

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2865

    文章

    41524

    浏览量

    358068
  • 机器学习
    +关注

    关注

    66

    文章

    8094

    浏览量

    130511
  • 大数据
    +关注

    关注

    64

    文章

    8631

    浏览量

    136567
收藏 人收藏

    评论

    相关推荐

    大数据技术是干嘛的 大数据核心技术有哪些

    大数据技术是指用来处理和存储海量、多类型、高速的数据的一系列技术和工具。现如今,大数据已经渗透到各个行业和领域,对
    的头像 发表于 01-31 11:07 708次阅读

    萨科微/金航标之所以能够保持高速发展逻辑

    ,就有钱继续投资研发新技术新产品,会带来新一轮的增长。公司内部也鼓励员工创新,营造了公平开放的氛围,还设立了专门的奖项,每周评选出一位“创新之星”,给予通报表扬和现金奖励!我们保持高速发展驱动力
    发表于 01-31 09:14

    中央控制系统:未来多媒体发展的核心驱动力

    随着科技的飞速发展,多媒体设备在各个领域中的应用越来越广泛。而中央控制系统作为其核心组成部分,正在成为未来多媒体发展的核心驱动力。本文将深入探讨中央控制系统在未来多媒体
    的头像 发表于 01-23 14:42 144次阅读

    语音数据集:推动智能语音技术发展的关键驱动力

    随着人工智能技术的不断进步,智能语音技术已经成为我们日常生活中不可或缺的一部分。语音数据集作为智能语音技术的核心,对于推动其
    的头像 发表于 12-28 13:46 188次阅读

    宏集方案 | 物联网HMI的关键驱动力—SCADA级功能库和控件库

    在这个数字化时代,物联网HMI已成为连接人与设备之间的关键纽带,为用户提供直观、智能的交互体验,背后强大的关键驱动力扮演着至关重要的角色,其中SCADA级功能库和控件库的引入成为了物联网HMI设计和开发的核心要素。
    的头像 发表于 12-26 09:39 215次阅读
    宏集方案 | 物联网HMI的关键<b class='flag-5'>驱动力</b>—SCADA级功能库和控件库

    大数据技术如何为精益管理赋能?

    随着科技的飞速发展大数据技术已经逐渐渗透到各个领域,为企业带来了前所未有的变革。在精益管理领域,大数据
    的头像 发表于 12-19 09:58 263次阅读

    企业合规丨合规开创未来:企业如何构建安全高效的数据合规体系?

    随着数据“升格”为第五大生产要素,数据的价值受到了空前的重视。 对于企业而言,掌控和利用数据的能力将成为核心竞争力,决定
    的头像 发表于 12-04 15:55 224次阅读
    <b class='flag-5'>企业</b>合规丨合规开创未来:<b class='flag-5'>企业</b>如何构建安全高效的<b class='flag-5'>数据</b>合规体系?

    成长靠老板,强大靠团队 ——发挥团队力量,共创企业辉煌

    个培训班。 公司发展到今天,穷尽了老板的精力与心血。是时候让企业换一种活法了,尽一切所能,发挥团队的力量,减轻一下老板的负担,让老板也能轻松一点。为了企业可持续
    发表于 12-03 13:55

    中科创达以魔方RUBIK大模型助推智能产业长远发展

    今日,由工业和信息化部、宁夏回族自治区人民政府联合主办的“2023中国算力大会”如期召开。中科创达智能物联网事业群副总裁杨新辉应邀出席会议并带来了企业在大模型领域的最新进展。   随着科学技术的不断
    的头像 发表于 08-19 09:25 1622次阅读

    【喜讯】芯盾时代入选2023中国大数据(潜在)独角兽企业榜单

    近日,长城战略咨询重磅发布了“2023年中国大数据独角兽企业榜单”,展示了中国大数据产业内新锐力量的创新成果,揭示了独角兽等新物种企业前沿
    的头像 发表于 08-02 10:05 427次阅读
    【喜讯】芯盾时代入选2023中国<b class='flag-5'>大数据</b>(潜在)独角兽<b class='flag-5'>企业</b>榜单

    中小企业如何应用大数据

    随着信息技术的快速发展大数据已经成为当今商业世界中的热门话题。大数据不仅对大型企业有益,对中小
    的头像 发表于 07-05 10:38 390次阅读

    虹科方案 | 物联网HMI的关键驱动力—SCADA级功能库和控件库

    01前言在这个数字化时代,物联网HMI已成为连接人与设备之间的关键纽带,为用户提供直观、智能的交互体验,背后强大的关键驱动力扮演着至关重要的角色,其中SCADA级功能库和控件库的引入成为了物联网
    的头像 发表于 06-08 10:51 329次阅读
    虹科方案 | 物联网HMI的关键<b class='flag-5'>驱动力</b>—SCADA级功能库和控件库

    物联网HMI的关键驱动力—SCADA级功能库和控件库

    关键驱动力的引入不仅提升了物联网HMI的功能性,也帮助企业加快智能化生产和数字化转型的进程。本文将重点介绍虹科物联网HMI的关键驱动力及其在实际应用中的核心价值。
    的头像 发表于 06-02 09:18 436次阅读
    物联网HMI的关键<b class='flag-5'>驱动力</b>—SCADA级功能库和控件库

    大数据有何特点?

    随着科技的不断发展大数据已经成为当今信息化时代的主要驱动力之一。大数据的特点是什么?
    的头像 发表于 05-12 10:27 1906次阅读

    大数据是什么 大数据存储的概念 大数据应用场景有哪些

    大数据的成功管理取决于几个方面,例如数据的收集、存储、处理、分析和可视化。在大数据的处理过程中,各种技术和算法也被不断地应用于解决各种问题。大数据
    发表于 05-03 09:23 2766次阅读