数据 (Data) 是 DIKW Pyramid (Data, Information, Knowledge, Wisdom) 中最低级的材料。而数据工程是一整套对数据进行采集, 处理, 提取价值(变为 I 或 K)的过程。首先介绍一下相关的几种角色: Data Engineer, Data Scientist & Data Analyst。 这三个角色任务重叠性高, 要求合作密切, 但各负责的领域稍有不同。大部分公司里的这些角色都会根据每个人本身的技能长短而身兼数职, 所以有时候比较难以区分。
Data Engineer 数据工程师: 分析数据少不了需要运用计算机和各种工具 automate 数据处理的过程, 包括数据格式转换, 储存, 更新, 查询。 数据工程师的工作就是开发工具完成 automate 的过程, 属于 Infrastructure/Tools 层。