你该选择哪个职业呢?数据科学家、数据分析师和数据工程师

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

许多人,在技术行业内外,对不同的数据角色及其职责感到困惑。这可能会使得想要进入该领域的人难以知道哪份工作适合他们的技能,以及与他们想要做的事情是否一致。因此,在这篇文章中,我想详细解释数据科学家、分析师和工程师之间的区别。


下面的图表展示了公司内部的基本数据流。

这并不是普遍适用的,不同的组织之间可能会有所变化。

公司内部的数据流。作者绘制的图表。
让我们来详细分析这些步骤:

  • 收集 — 这主要是关于从你可能需要的来源收集数据。要获取数据,你需要从组织拥有的网站或产品中进行日志记录和API调用。
  • 存储 — 现在我们有了数据,需要存储它以便我们可以访问。数据可以存储在许多地方和形式中,如关系数据库、云基础设施(如S3桶),甚至是某个服务器上的普通旧CSV。为此,你需要构建健壮的数据管道。
  • 转换 — 尽管我们有了数据,但它可能不是在一个很好的格式中。所以,我们需要转换它来清理并创建有用的表格。
  • 分析 — 数据清理干净后,我们可以开始从中收集洞察,以帮助推动业务决策。
  • 优化 — 数据生命周期的最后顶点是使用洞察来优化公司内部的流程,通过预测分析、建模和测试来实现。

角色要求概览


公司内不同的数据角色将控制数据流的不同部分。通常,数据工程师将使用管道来收集和存储数据。收集步骤也可以与软件工程师协作完成。

转换阶段是由这三个角色以某种方式完成的,至少根据我的经验是这样。数据科学家需要转换数据以进行模型训练,分析师转换数据以收集洞察,工程师通过数据建模转换数据以创建更好的表格。

然后,数据分析通常由数据分析师完成。最后,数据科学家负责流程中的优化步骤。尽管如此,数据科学家可能会发现自己有时也在进行一些分析,反之亦然。

我想强调的是,根据我的经验,角色之间的界限并不是固定的,而是经常相当流动的。如果你是一名数据工程师,你可能会发现自己有时也在进行一些分析和预测建模。这取决于你的组织结构和你的角色需求。

在大公司,你的技能将会更加专业化。数据科学家只会做建模部分,工程师只会做收集和存储方面的工作。而在小公司,比如初创公司,你更有可能是全能选手。在申请工作时请记住这一点!

还有另一件事需要注意,那就是每家公司对数据角色的定义往往不同。一家公司的数据科学家可能在另一家公司是数据分析师。因此,在申请前仔细阅读职位描述非常重要。

无论如何,让我们分解这三个数据角色以及他们执行工作所需的技能和工具。

数据工程师


如上所述,数据工程师基本上是数据生态系统的基础,因为他们是获取和存储数据的人。他们的总体目标是构建健壮且可持续的数据管道和基础设施,以服务分析师、科学家和任何想要在公司内部使用数据的人。

以下是成为数据工程师所需的技能和工具:

  • 编码 — 作为工程师,你需要能够编码。你需要知道的主要语言是Python和SQL,但像NoSQL、R和Java这样的语言也很有用。
  • 数据库和存储 — 现在,关系型和非关系型数据库是存储数据的主要方式,因此了解它们的工作方式和功能非常重要。常见的学习对象包括MySQL和PostgreSQL。你还需要了解数据仓库和数据湖等内容。
  • 命令行和终端 — 像任何技术职业一样,使用命令行执行命令、编辑文件和运行脚本是很重要的。
  • ETL(提取、转换、加载) — 这些工具有助于构建数据管道,比如Apache Airflow。
  • 云计算 — 许多数据工作流程,以及一般的技术工作,都是通过云计算完成的。现在几乎是基本要求,要理解AWS、Azure和Google Cloud等平台。


这并不是一个详尽的列表,因为每个公司的数据工程师角色都不相同。

数据分析师


数据分析师的主要工作是从数据中提取有意义的洞察,以帮助业务。作为分析师,你通常比数据工程师更接近业务端,因此领域知识很重要。

以下是成为数据分析师所需的技能和工具:

  • 编码 — 一般来说,分析师主要需要了解SQL。Python对许多角色来说很有用,但不是必需的。
  • Excel — 对于任何行业的任何分析任务,Microsoft Excel都是黄金标准。作为分析师,你必须非常熟练地使用它。
  • 仪表板 — 你需要能够以清晰的方式将你的发现呈现给利益相关者。使用Power BI和Tableau等工具通过仪表板进行呈现是最佳方式。
  • 分析技能 — 分析师经常运行实验,如AB测试,因此擅长数学和统计学是必需的。
  • 沟通 — 如上所述,你经常需要向非技术利益相关者展示你的发现,因此能够以易于消化的方式传达你的结果至关重要。

像数据工程师一样,这个列表绝不是详尽的,某些公司可能还需要分析师具备其他技能。

数据科学家


作为数据科学家,你的主要目标是创建预测性和机器学习算法,以帮助业务做出决策和自动化流程。你可能会进行预测、优化,甚至是深度学习,这取决于你工作的行业和领域。

以下是成为数据科学家所需的技能和工具:

  • 编码 — Python和SQL是必须的。Python因为大多数机器学习包都是用这种语言编写的,SQL用于收集你的训练数据。
  • 机器学习 — 你需要对机器学习算法及其工作原理有良好的
  • 理解,因为这是你大部分时间都在做的事情!
  • 数学和统计学 — 要理解机器学习,你需要在线性代数、微积分和贝叶斯统计等领域精通数学和统计学。
  • 云计算 — 许多算法和数据科学产品都部署在云上,因此熟悉云系统是很好的。
  • 命令行和终端 — 数据科学家相当多的时间在生产代码中工作,因此精通Bash和Z-Shell脚本非常有用。
  • 沟通 — 你经常需要向非技术利益相关者展示你的发现和模型,因此能够以易于消化的方式传达你的结果至关重要。

该选择哪一个?


最终的问题是,你应该选择哪个数据角色?在我看来,这取决于你的技能集在哪里以及你对什么感兴趣。我认为成为分析师是最容易的,因为它的要求较少,所以你可以更快地获得第一份工作。它也是对任何关注业务的人来说最好的角色。数据科学家的工作主要针对喜欢数学和统计学的人,而数据工程师非常适合喜欢技术方面的人。无论你选择哪一个,记住,无论标题如何,各公司的角色和职责都会有所不同。因此,确保你仔细阅读职位描述,以准确了解你每天将要做的事情!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/502142.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Taskflow:子流任务(Subflow Tasking)

创建Subflow DAG任务中,有一种常见的场景,一个任务可能在执行期间产生新的任务,然后紧接着执行新任务。 之前提到的静态图就没有办法实现这样一个功能了,所以Taskflow提供了另一种流的节点:Subflow,Subflo…

gpt 3d三角形 重心坐标填充 沿x轴炫赵师傅

go import pygame from pygame.locals import * import sys import math# 初始化Pygame pygame.init()# 设置窗口大小 width, height 800, 600 screen pygame.display.set_mode((width, height)) pygame.display.set_caption(3D Triangle Fill with Barycentric Coordinates)…

zabbix主动发现,注册及分布式监控

主动发现 结果 主动注册 结果 分布式监控 服务机:132 代理机:133 客户端:135 代理机 数据库赋权: 代理机配置 网页上配置代理 客户端配置 网页上配置主机 重启代理机服务 网页效果

写作类AI推荐(二)

本章要介绍的写作AI如下: 火山写作 主要功能: AI智能创作:告诉 AI 你想写什么,立即生成你理想中的文章AI智能改写:选中段落句子,可提升表达、修改语气、扩写、总结、缩写等文章内容优化:根据全文…

【LV16 day2 平台总线驱动开发---名称匹配】

一、总线、设备、驱动 硬编码式的驱动开发带来的问题: 垃圾代码太多结构不清晰一些统一设备功能难以支持开发效率低下 1.1 初期解决思路:设备和驱动分离 ​ struct device来表示一个具体设备,主要提供具体设备相关的资源(如寄…

sadtalker学习用于风格化音频驱动单图像说话人脸动画的真实 3D 运动系数的应用

论文出处 https://arxiv.org/abs/2211.12194 使用方法 1. 打开项目的colab链接 https://colab.research.google.com/github/Winfredy/SadTalker/blob/main/quick_demo.ipynb#scrollTofAjwGmKKYl_I 在examples/source_image文件夹中添加希望动起来说话的图片,这…

厦门攸信技术亮相新技术研讨会,展现物流自动化解决方案新高度!

今日,厦门攸信信息技术有限公司受邀参加了一场备受行业关注的电子制造高端盛会——一步步新技术研讨会,凭借卓越的智能制造与物流自动化技术在会议中大放异彩。作为一家引领行业发展的企业,厦门攸信技术不仅展示了其深厚的技术底蕴&#xff0…

java全排列(力扣Leetcode46)

全排列 力扣原题链接 问题描述 给定一个不含重复数字的数组 nums,返回其所有可能的全排列。你可以按任意顺序返回答案。 示例 示例 1: 输入:nums [1,2,3] 输出:[[1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2],[3,2,1]] 示例 2…

路径规划——搜索算法详解(二):Floyd算法详解与MATLAB代码

上次总结了Dijkstra算法的案例原理与代码,本文分享第二种比较基础且易懂的方法为Floyd算法,该算法可以有效正确地处理有向图的最短路径问题,与Dijkstra算法不同,Floyd算法是一种动态规划算法,对于稠密图效果显著。原理…

从易到难,推荐9个适合练手的C++项目

老有一些同学和我说学习了 C 以后,想要做些项目锻炼自己,让我从「简单到难」都推荐一些。 那有啥说的,必须推荐!毕竟 C 的优质项目我见过太多了! 下面我就按照「从易到难」的梯度,依次来推荐,…

你真的会数据结构吗:二叉树

❀❀❀ 文章由不准备秃的大伟原创 ❀❀❀ ♪♪♪ 若有转载,请联系博主哦~ ♪♪♪ ❤❤❤ 致力学好编程的宝藏博主,代码兴国!❤❤❤ halo铁汁们,没错又是你们人见人爱,花见花开的大伟啊,今天也是周六&#x…

JHY-31复合电压继电器 额定电压Un=110VDC 板后接线 JOSEF约瑟

用途: JHY-31复合电压继电器使用于电力系统的继电保护线路中,作为各种类型故障的判别元件和电压闭锁元件。 继电器型号名称: 例:辅助直流工作电压为110V的复合电压继电器的订货代号为: JHY-31/110V。 工作原理: 继电器内部具有负…

OpenFeign 基本介绍

OpenFeign能干什么 前面在使用SpringCloud LoadBalancerRestTemplate时,利用RestTemplate对http请求的封装处理形成了一套模版化的调用方法。但是在实际开发中, 由于对服务依赖的调用可能不止一处,往往一个接口会被多处调用,所以…

浏览器工作原理与实践--垃圾回收:垃圾数据是如何自动回收的

在上一篇文章中,我们提到了JavaScript中的数据是如何存储的,并通过例子分析了原始数据类型是存储在栈空间中的,引用类型的数据是存储在堆空间中的。通过这种分配方式,我们解决了数据的内存分配的问题。 不过有些数据被使用之后&am…

Codeforces Round 850 (Div. 2) D. Letter Exchange

题目 思路&#xff1a; #include <bits/stdc.h> using namespace std; #define int long long #define pb push_back #define fi first #define se second #define lson p << 1 #define rson p << 1 | 1 const int maxn 1e6 5, inf 1e9, maxm 4e4 5; co…

拥抱挑战,开启增长:2024年全球产品团队的OKR策略

2024年&#xff0c;全球经济格局进入重塑阶段。消费者在消费选择上趋于严苛&#xff0c;企业需推出更具吸引力的产品与服务&#xff0c;以赢得消费者的青睐。同时&#xff0c;企业需通过持续创新&#xff0c;提升产品竞争力&#xff0c;方能在充满挑战的市场环境中实现持续增长…

node.js学习(2)

版权声明 以下文章为尚硅谷PDF资料&#xff0c;B站视频链接&#xff1a;【尚硅谷Node.js零基础视频教程&#xff0c;nodejs新手到高手】仅供个人学习交流使用。如涉及侵权问题&#xff0c;请立即与本人联系&#xff0c;本人将积极配合删除相关内容。感谢理解和支持&#xff0c;…

Jmeter 从登录接口提取cookie 并 跨线程组调用cookie (超详细)

文章目录 一、开始前的准备二、 业务场景介绍三、从登录接口提取cookies四、跨线程组调用cookies 一、开始前的准备 1、安装Jmeter&#xff0c;参考文章&#xff1a;JMeter 3.1 和JMeterPlugin的下载安装 2、设置配置文件使Cookie管理器保存cookie信息。 修改apache-jmeter-x…

DAY16 二叉树最大深度最小深度完全二叉树节点个数

9.二叉树的最大深度 递归法 后序遍历 本题可以使用前序&#xff08;中左右&#xff09;&#xff0c;也可以使用后序遍历&#xff08;左右中&#xff09;&#xff0c;使用前序求的就是深度&#xff0c;使用后序求的是高度。 二叉树节点的深度&#xff1a;指从根节点到该节点…

安装和使用 Oracle Database 23c 容器鏡像

Oracle Database 23c 是 Oracle 最新的数据库版本&#xff0c;它带来了许多新特性和性能改进。 对于开发者来说&#xff0c;Oracle 提供了一个免费的开发者版&#xff0c; 可以通过 Docker 容器轻松安装和使用。以下是详细的安装和使用指南。 安装 Docker 在开始之前&#xff0…