一份数据工程师必备的学习资源,干货满满

(给数据分析与开发加星标,提升数据技能)

英文:PRANAVDAR,翻译:张玲,转自:数据派(ID:datapi)

简介

在建立模型之前,在数据经过清洗用于探索分析之前,甚至在数据科学家工作开始之前,数据工程师就已经闪亮登场了。每一个数据驱动的业务都需要一个适用于数据科学管道的框架,否则就是失败的配置。

大多数人怀揣着成为数据科学家的梦想进入数据科学世界,但却没有意识到数据工程师是做什么的,或者这个角色需要具备什么能力。数据工程师是数据科学项目的重要组成部分,以至于在当今数据丰富的环境里,产业对他们的需求正在指数式地上涨。

目前,没有统一的或者正式的学习路线可供数据工程师使用。大多数担任这个角色的人是通过在工作中学习的,而不是遵循一个详细的学习路线。我写这篇文章的目的是帮助那些想成为数据工程师,但却不知道从哪里开始以及从哪里找到学习资源的人。

本文中,我列出了所有有抱负的数据工程师需要知道的事情。首先,我们将了解什么是数据工程师,以及该角色和数据科学家的区别,然后将继续讨论你的技能宝箱中应该有的核心技能,以便完全胜任这个工作,最后我还提到了一些应该考虑的行业认可证书。

好了,让我们直接开始吧!

目录

1.什么是数据工程师

2.数据科学家和数据工程师的区别

3.数据工程中的不同角色

4.数据工程认证

5.核心数据工程技能及其学习资源

数据工程简介

基本语言要求:Python

扎实的操作系统知识

丰富、深入的数据库知识-SQL和NoSQL

数据仓库-Hadoop、MapRduc、Hiv、Pig、ApachSpark、Kafka

基本的机器学习知识

6.总结

1.什么是数据工程师

数据工程师负责构建和维护数据科学项目的数据架构,他们必须确保服务器和应用程序之间的数据流是连续的。改进数据基础应用程序,将新的数据管理技术和软件集成到现有系统中,构建数据收集管道及其他各种各样的事情,都属于数据工程师的职责。

数据工程中最受欢迎的技能之一是设计和构建数据仓库的能力。数据仓库是收集、存储和检索所有原始数据的地方,如果没有数据仓库,一个数据科学家做的所有任务就会变得要么太昂贵,要么太大,以至于无法拓展。

ETL(提取、转换和载入)是数据工程师构建数据管道所遵循的步骤,它实际上是一份关于如何处理、转换收集来的原始数据以备分析的蓝图。

数据工程师通常有着工程背景,与数据科学家不同的是,这个角色不需要太多的学术和科学知识。因此,对构建大规模结构和体系结构的开发人员或工程师非常适合这个角色。

2.数据科学家和数据工程师之间的区别

了解这两种角色之间的区别非常重要。从广义上讲,数据科学家综合使用统计学、数学、机器学习和行业知识来构建模型。他/她必须使用组织支持的相同工具/语言和框架来编码和构建这些模型。而数据工程师必须构建并维护适用于数据收集、处理和部署数据密集型应用的数据结构和体系架构。构建数据收集和存储管道,将数据汇总给数据科学家,从而将模型投入生产-这些只是数据工程师必须执行的任务中的一部分。

要使任何大规模数据科学项目取得成功,数据科学家和数据工程师需要携手合作,否则事情很快就会出错。

要了解有关这两个角色之间差异的更多信息,请访问我们的详细信息图。

详细信息图:









































北京中医白癜风医学研究院怎么样
北京治疗白癜风正规医院



转载请注明:http://www.xcqg58.com/jbjj/9214.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了