0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

迷茫的后端 想做大数据可以少走很多弯路

Linux爱好者 来源:fqj 2019-05-02 11:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着大数据、人工智能的火热,很多程序员都不甘现状,寻求更广阔的发展。但高薪工作也意味着高压,对于很多工作了三五年的程序员来说,更不想放弃现有的技术基础,去重新学习新领域的技术。但大数据作为一个飞速发展的热门领域,一半以上的专业人才却是转行而来……

1

数据是未来的“一切”

很多向大数据方向发展的人,都是看到了这个行业未来无限广阔的前景和“钱景”。大数据并不是新名词,但近几年大数据、人工智能向各行各业逐渐渗透,数据也随之井喷式增长。早年掌握大量用户数据的互联网公司,已经向世人展现数据在不同应用场景中的巨大价值:

“天然”大数据公司亚马逊从海量购买数据中获得信息、预测用户行为;谷歌已成为网民的“意图数据库”;LinkedIn的猎头价值;滴滴等出行、物流配送业务利用交易数据进行实时定价,使利润最大化;还有的借助大数据相关技术,创造出新的业务模式——比如利用算法做个性化内容推荐的今日头条、一点资讯……

“一旦进入大数据的世界,企业的手中将握有无限可能。你会发现数据越大,结果越好。为什么有的企业在商业上不断犯错?那是因为他们没有足够的数据对运营和决策提供支持。”

亚马逊CTO Werner Vogels

数据人才的旺盛需求源自一个根本性的变化:科技公司现如今都成了数据公司。大到 BAT 等互联网巨头,小到创业公司,都在向数据驱动型企业转变,挖掘数据、解读数据、用数据洞察助力企业业务发展变得更加重要,导致行业内人才的供给相对不足,薪资也非常可观。

迷茫的后端 想做大数据可以少走很多弯路

*数据工程师平均薪资(取自2019/4/25,Glassdoor)

Glassdoor 最新数据显示,美国数据工程师平均年薪为 116k 美金(约合月薪 6w+ 人民币),比数据分析师高出60%。北美就业情况是中国的晴雨表,对比其他数据岗位,国内的数据工程师需求急速上升。

2

数据工程师转行人士占46%

随着企业需求的增长,数据工程师数量也随之急速增长,其中,接近一半的比例是从其他相关岗位转行而来。越来越多的程序员、工程师转而向大数据方向发展,不仅仅是岗位的高薪,也是为了顺应时代。并且从企业对数据人才的需求增长来看,这一趋势并不会有所放缓。

迷茫的后端 想做大数据可以少走很多弯路

* 数据工程师的岗位来源前 10,排名最高的分别是软件工程师(41.67%)、分析师、咨询师、商业分析师。数据来源:Stitch,点击可查看大图

大数据行业之所以转行人士占比大,也是因为转行的门槛相对不高:

首先,大数据本身的年龄不大。其他岗位动辄“10年开发经验”的要求比比皆是,但大数据相关岗位往往更看重能力,不会对工作年限有过高要求,无形之中为刚毕业的学生、转行人士提供了很多机会。

其次,大多数企业对大数据人才需求并不明确。大数据不是单一的学科,需要多方向的内容支撑。因此当企业需求不明确时,很多人本来在从事软件工程师、后端、甚至是算法等岗位,只需补充对应的技术内容,很容易转型大数据方向,还有很多想成为数据科学家的人,通过数据工程师“曲线救国”。

3

需要走多少弯路,才能成为数据工程师?

回答这个问题之前,你首先要知道数据工程师需要做什么,各种新技术和产品的出现,数据工程师这个角色也发生了较大的变化。

几年前的数据工程师,主要管理数据进出数据库,在 SQL 或 Procedural SQL 中创建管道,并在数据仓库中加载数据,创建统一、标准化的数据集结构以供后期分析。但 2018 年以来,他们不再仅仅为数据的后期分析提供支持,还要负责整个数据流,保证任何数据都能够正常操作,并方便其他使用者获取。

这里的新技术和新产品,主要指的是大数据及其相关技术、DOE、机器学习、Spark&Real-time、云开发和无服务器等。

大数据:

2006年,Hadoop 的开源大大改变了数据格局,存储大量数据变得更容易,更便宜。最初,在 Hadoop 上进行开发非常复杂,需要用 Java 开发 Map Reduce 作业。直到 2010 年 Hive 开源,更多传统数据工程师才能更容易进入这个大数据时代。

DOE:

随着大数据的发展,大型互联网公司面临的最大挑战是:缺少运行复杂数据流的工具。Spotify 在2012年开源 Luigi,在 2015 年开源 Airbnb Airflow,这些编排引擎本质上是把数据流作为代码。Python 是大多数编排引擎的编译语言。

机器学习:

在 Hadoop 出现之前,我们通常在一台机器上训练机器学习模型,并且以非常特殊的方式进行应用。对于大型互联网公司而言,需要利用先进的软件开发技术以更好地训练机器学习模型并应用到生产中,比如使用 Mahout 之类的框架。

Spark&Real-time:

2014 年 Spark 发布了用于 python 的 MLlib,也将大数据上的机器学习计算民主化。关于 Hadoop 和 Spark 的选择问题,也一直在讨论中。作为两个顶级的 Apache 项目,Spark 在性能、成本、可用性、安全性和机器学习等多个角度,都比 Hadoop 略胜一筹,或许 Spark 在未来会成为大数据领域更年轻的“统治者”。

云开发和无服务器:

迁移到云对数据工程师而言有多重影响。“云”打破了物理限制,对于大多数用户而言,它意味着存储和计算趋于无限化。这样一来,就不再需要对服务器进行不断的优化。而且,通过允许扩展和减少资源来实现云,使得处理数据工程中典型的高峰批处理作业变得更加容易。

大数据行业,甚至是整个程序员行业,都是需要不停学习、不停经历技术迭代的,想要成为一名新时代下的数据工程师,就必须不断学习新技术以适应这快速的变化。

Udacity 全新上线的数据工程师纳米学位课程,将帮助想要进入该领域的人学到必备的专业技能,并在实际场景中进行应用,进而找到理想的工作。

或许很多人对 Udacity 并不陌生。Udacity 由 Google X 实验室的无人车之父 Sebastian Thrun 创立,课程与 Amazon、Google、Kaggle 等全球领先企业联合开发。在 MOOC 发展较为成熟的美国,Udacity 为毕业生颁发的「纳米学位」相当于“名企敲门砖”。

2016 年登陆中国后,与更多中国企业达成合作,腾讯、京东、唯品会等互联网名企,都将 Udacity 纳米学位项目作为员工的内部培训内容,入职的 Udacity 毕业生甚至可以获得公司的“学费返还”,纳米学位在中国的影响也在逐渐扩大。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 互联网
    +关注

    关注

    55

    文章

    11350

    浏览量

    110441
  • 大数据
    +关注

    关注

    64

    文章

    9096

    浏览量

    144052
  • 后端
    +关注

    关注

    0

    文章

    34

    浏览量

    2548

原文标题:迷茫的后端:想做大数据,没有这么多弯路要走

文章出处:【微信号:LinuxHub,微信公众号:Linux爱好者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    深耕电路板加工8年,从踩坑到精通,这些实操经验帮你90%弯路

    需要对接电路板加工的采购、工程师,亦或是想自己定制电路板的创客,这些干货都能帮你避坑省钱、提升效率,不必要的弯路。 电路板作为电子设备的“核心骨架”,加工过程环环相扣,从基材选择、工艺确定,到打样
    发表于 04-16 09:31

    8路交流采集模块:数字化工厂标配,90%弯路 #plc #物联网

    物联网
    juying
    发布于 :2026年04月08日 16:10:16

    黑M-狂野大数据5期|网盘无密Mp4+大数据直播课-狂野大数据

    科技重构数据生产力:狂野大数据直播实战全解析 随着数字化时代的快速发展,大数据已经渗透到我们生活的方方面面。无论是商业、教育,还是医疗、政府服务,大数据的应用都在不断创造新的价值。而在
    的头像 发表于 04-06 11:13 190次阅读

    无刷电机驱动板怎么选?看完这篇 90% 弯路

    ,抓住核心逻辑,新手也能一次选对,今天钿驰科技小编就把最实用的选型技巧、避坑要点说透,帮你90%的冤枉路。 先纠正一个最常见的误区:很多人选驱动板只看“功率越大越好”,其实这是大错特错!驱动板的核心是“适配”
    的头像 发表于 04-03 17:26 654次阅读
    无刷电机驱动板怎么选?看完这篇<b class='flag-5'>少</b><b class='flag-5'>走</b> 90% <b class='flag-5'>弯路</b>

    Supabase怎么用?5个实用技巧让你轻松开发后端项目

    Supabase作为开源的后端即服务(BaaS)平台,以PostgreSQL为核心,集成了数据库、用户认证、文件存储等全套后端能力,无需复杂配置即可快速上手。
    的头像 发表于 03-25 13:20 149次阅读
    Supabase怎么用?5个实用技巧让你轻松开发<b class='flag-5'>后端</b>项目

    别急着动手写代码:先想清楚这几点,后面改八百回

    实践的几条路径,设计模式不是银弹,但理解背后的原则,能帮我们一些弯路。 一、什么算“高质量”的软件 很多人把“能运行”等同于“好”。其实软件质量分内外两层:外部质量是用户看到的功能
    的头像 发表于 03-24 11:43 383次阅读
    别急着动手写代码:先想清楚这几点,后面<b class='flag-5'>少</b>改八百回

    三年弯路!顶尖硬件工程师分享的“实战锦囊”!

    工程师实战能力提升专家——赛盛技术赛盛技术公司专注于提供高质量的工程技术培训服务,以线下公开课、企业内训和线上网课等多元化形式,满足不同工程师的学习需求。课程内容广泛覆盖EMC、硬件设计/故障排查/测试、信号完整性、可靠性、结构设计、项目管理等多个关键领域。通过互动式、实战导向的学习模式,我们赋能工程师提升实践能力,高效解决实际工作中的技术难题,从而显著提升
    的头像 发表于 02-26 15:54 191次阅读
    <b class='flag-5'>少</b><b class='flag-5'>走</b>三年<b class='flag-5'>弯路</b>!顶尖硬件工程师分享的“实战锦囊”!

    大数据解决方案如何实施

    大数据解决方案实施的难点在于以下几点:  1.很少有优质可用的数据  在数聚股份看来,这几年数据交易机构如雨后春笋,“数据变现”成为很多拥有
    的头像 发表于 12-25 18:22 1143次阅读

    大数据平台运营的基础是什么

    在数聚股份看来,越来越多的企业开始搭建自己的大数据平台体系,并倾注大量资源用于平台的迭代和运营。那么大数据平台作为越来越被关注的企业新兴价值点,它应该以何种方式看待,并且以什么样的方式去建设和运营
    的头像 发表于 12-23 16:07 344次阅读

    机房布线,上线、下走线,哪个好?

    数据中心布线系统线方式时,很多朋友比较关心的是上线好,还是下走线好?这个问题一直都有讨论,尤其是刚从事机房施工的朋友,都有此一问。本期我们来总结下。为什么要讨论这个问题呢?因为对
    的头像 发表于 12-15 11:21 781次阅读
    机房布线,上<b class='flag-5'>走</b>线、下走线,哪个好?

    PCB设计与打样的6大核心区别,看完3个月弯路

    一站式PCBA加工厂家今天为大家讲讲PCB设计和PCB打样有什么区别?PCB设计和打样之间的区别。PCB设计(Printed Circuit Board Design)和打样(Prototyping)是电子产品开发中两个紧密相关但目的和流程不同的环节,主要区别体现在目标、流程、侧重点、成本与时间等方面,具体如下:   PCB设计和打样之间的区别 1. 目标不同 PCB设计: 核心目标是将电路原理图转化为可制造的物理布局,包括: 元器件的合理摆放(Layout) 信号线、电源线的布线(Routing) 满足电气性能(如阻抗控制
    的头像 发表于 11-26 09:17 734次阅读
    PCB设计与打样的6大核心区别,看完<b class='flag-5'>少</b><b class='flag-5'>走</b>3个月<b class='flag-5'>弯路</b>!

    御控工业物联网大数据解决方案:排水设备远程监控与大数据统计系统

    御控工业物联网推出排水设备远程监控与大数据统计系统,通过物联网、大数据、云计算等技术构建“感知-传输-分析-决策”闭环管理体系,助力排水行业数字化转型。
    的头像 发表于 09-12 10:04 792次阅读

    TNC连接器:防过载童锁双保险,用电更安心

    现在工业安全越来越受重视,选对连接器能很多弯路。德索这款 TNC 连接器,用双保险设计把安全隐患挡在门外,难怪不少老客户说,只要是德索的产品,闭着眼买都放心。
    的头像 发表于 07-16 09:51 551次阅读
    TNC连接器:防过载童锁双保险,用电更安心

    紫光国芯如何助力芯片后端设计

    众所周知,芯片产品的诞生需要经历设计、制造、封测等阶段,其中的芯片设计又包括架构、代码、验证、中端、后端等步骤。后端设计将抽象的代码转化成为可制造、功能正确、满足性能功耗指标的物理图纸数据,最终由芯片生产工厂制造。
    的头像 发表于 07-08 16:40 1327次阅读

    更改最大数据包大小时无法识别USB设备如何解决?

    将生产者 EP 端点描述符中的最大数据包大小从 1024 字节更改为 512 字节时,无法识别 USB 设备。 请告知如何解决这个问题。
    发表于 05-20 08:13