大数据 分类

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

前置概念

atodo2024/9/9大约 12 分钟

以下是根据网页内容梳理的DataWorks基本概念表格：

模块	基本概念	描述
通用概念	工作空间	DataWorks管理任务、成员及权限的基本单元，按部门或业务划分
	资源组	DataWorks功能模块运行所需的计算资源基础，分为Serverless资源组（通用型）和传统资源组
	简单模式/标准模式	工作空间模式：标准模式对应开发和生产两个环境的数据源隔离
	计算资源	执行数据处理任务的大数据引擎实例（如MaxCompute、Hologres等）
数据集成	数据源	连接不同数据存储服务的配置信息，用于同步任务源端和目的端
	数据同步	支持结构化/半结构化/无结构化数据的传输（如离线同步、实时同步），Serverless同步任务无需资源组
数据建模	逆向建模	将物理表逆向生成逻辑模型，快速复用现有表结构
	建模空间	跨多个工作空间共享统一数仓规划的工具
	维度表	存储数据分析维度的属性（如用户维度表、商品维度表）
	明细表	记录业务过程原始数据（如下订单明细表）
	汇总表	统计相同时间周期、维度的派生指标数据（如DWS层表）
	应用表	面向具体场景的个性化统计数据（如ADS层表）
	数仓分层	分为ODS（贴源层）、DIM（公共维度层）、DWD（明细层）、DWS（汇总层）、ADS（应用层）五层
数据开发	节点	数据处理的基本单元，包括数据集成节点、SQL计算节点、通用节点（如虚拟节点）
	业务流程	从业务视角组织代码开发（如交易流程、用户分析流程）
	Notebook	交互式开发环境，支持SQL/Python代码与可视化分析
	SQL组件	将通用SQL逻辑抽象为可复用的模板（仅MaxCompute适用）
运维中心	周期任务	按调度周期自动执行的任务（如每天/每小时任务）
	周期实例	周期任务生成的运行实例（如每天生成24个实例）
	补数据	重新计算历史或未来时间段数据（用于数据回刷或修正）
	基线	监控任务产出时间，优先级越高资源倾斜越大，承诺完成时间结合预警余量触发告警
数据治理中心	健康分	数据资产健康度综合指标（0-100），涵盖存储、计算、研发、质量、安全维度
	治理项	需优化的数据问题点（如任务超长运行、无人访问节点），分为强治理项和可选治理项
	检查项	前置检查机制（如全表扫描检测、依赖缺失检查），拦截不符合规范的任务提交
安全中心	数据权限	精细化的权限管控（申请、审批、审计）
	数据内容安全	敏感数据识别、分级分类、脱敏规则及风险识别
数据地图	元数据	描述数据属性的信息（如表结构、位置、权限）
	血缘关系	数据加工全链路可视化（表/字段级流转路径）
数据分析	SQL查询	标准SQL查询分析各类数据源
	电子表格	在线数据编辑工具，支持可视化分析与报告导出
数据服务	API	基于数据源快速封装的应用程序接口
	函数	API的前后置过滤器，处理请求参数或返回结果
	数据推送	定时推送SQL查询结果至Webhook（如日报推送）
开放平台	OpenAPI	通过API调用集成DataWorks功能
	OpenEvent	订阅DataWorks事件（如表变更、任务变更）
	扩展程序	插件机制，自定义用户操作行为逻辑（如任务发布流程管控）

atodo2024/9/9大约 3 分钟

Dataphin

atodo2024/9/9小于 1 分钟

DolphinScheduler

解析版本：DolphinScheduler 3.2.2

DolphinScheduler 3.2.2 代码模块解析

以下是基于 Apache DolphinScheduler 3.2.2 版本官方文档及社区技术资料的代码模块解析表格，

模块	子模块	核心定位	核心作用	关键特性（3.2.2 版本）
dolphinscheduler-standalone-server	/	单机模式部署	单机模式服务端，集成所有核心服务（Master/Worker/API等）	简化本地开发与测试流程，无需分布式环境支持
dolphinscheduler-meter	/	系统监控应用	系统监控指标采集模块，集成 Prometheus 等工具	暴露 Master/Worker 忙碌状态指标，增强服务监控能力
dolphinscheduler-data-quality	/	数据质量应用	数据质量校验模块，集成数据校验规则和任务执行逻辑	支持在 DAG 中插入数据质量检查节点，确保数据处理准确性
dolphinscheduler-aop	/	编码支持	提供支持，用于日志、事务、权限等统一拦截处理	增强系统可维护性，支持自定义切面逻辑
dolphinscheduler-spi	/	编码支持	服务提供接口（SPI），定义插件扩展机制	支持任务/存储/注册中心动态扩展，提供插件开发规范
dolphinscheduler-common	/	公共模块	公共基础模块，包含工具类、枚举、常量定义和通用数据结构	使用安全构造器防御 YAML 注入（`snakeyaml` 安全解析）
dolphinscheduler-tools	/	公共模块	系统工具集，包含数据库初始化、升级脚本及环境配置工具	提供 `upgrade-schema.sh` 脚本，支持元数据库自动迁移
dolphinscheduler-service	/	核心服务层	核心服务层，集成 Quartz 调度、Zookeeper 操作、日志客户端等能力	支持分布式调度事件驱动模型，优化任务状态轮询机制（`StateWheelExecuteThread`）
dolphinscheduler-dao	/	数据访问层	数据访问层，操作元数据库（工作流实例、任务状态等）	优化事务逻辑，确保命令消费与实例生成的原子性
dolphinscheduler-dao-plugin	dolphinscheduler-dao-api	数据访问层	DAO 插件抽象层，定义多数据库访问接口	支持灵活切换元数据库类型
	dolphinscheduler-dao-plugin-all	数据访问层	DAO 插件聚合包，集成多数据库驱动	修复分页查询总页数错误
	dolphinscheduler-dao-h2	数据访问层	数据库驱动实现，适配 H2 元数据存储	用于本地测试环境
	dolphinscheduler-dao-mysql	数据访问层	数据库驱动实现，适配 MySQL 元数据存储	仅支持 MySQL 8.0.16+，修复数据源名称获取逻辑
	dolphinscheduler-dao-pg	数据访问层	数据库驱动实现，适配 PostgreSQL 元数据存储	支持 PostgreSQL 8.2.15+ 版本
dolphinscheduler-datasource	dolphinscheduler-datasource-api	数据源	数据源抽象层，定义多数据源连接与操作接口	支持动态加载数据源配置
	dolphinscheduler-datasource-all	数据源	数据源实现层，集成 MySQL/Hive 等数据源驱动	修复 Hive JDBC URL 解析问题
dolphinscheduler-registry	dolphinscheduler-registry-api	注册中心	注册中心抽象层，定义节点注册与发现接口	新增 ETCD/JDBC 注册中心支持，优化容错机制
	dolphinscheduler-registry-all	注册中心	注册中心实现层，集成 ZooKeeper/ETCD 等具体实现	通过临时节点监听实现故障转移
dolphinscheduler-extract	dolphinscheduler-extract-common	RPC通信	支撑工具，保障执行可观测性
	dolphinscheduler-extract-base	RPC通信	通信基石，定义协议与注解
dolphinscheduler-scheduler	dolphinscheduler-scheduler-api	调度算法	调度算法抽象层，定义任务分片与负载均衡接口	基于 Slot 分片策略避免重复调度
	dolphinscheduler-scheduler-all	调度算法	调度算法实现层，支持分布式调度决策	减少 Hikari 连接池资源占用
dolphinscheduler-task	dolphinscheduler-task-api	任务执行	任务执行抽象层，定义任务插件接口（如 Shell/SQL/Spark）	优化跨工作流依赖任务（`DependentTask`）
	dolphinscheduler-task-all	任务执行	任务执行实现层，集成具体任务运行时逻辑	修复任务终止后异常调度问题
dolphinscheduler-storage	dolphinscheduler-storage-api	存储服务	存储服务抽象层，定义资源文件持久化接口	增加资源路径全名检查，防止越权文件操作
	dolphinscheduler-storage-all	存储服务	存储服务实现层，支持 HDFS/S3/OSS 等存储引擎	重构资源中心，默认使用本地存储并支持覆盖上传
dolphinscheduler-microbench		微基准测试	对系统底层组件（如线程池、锁机制、网络通信等）进行细粒度性能测试，量化关键代码路径的执行效率

atodo2024/9/9大约 4 分钟

Flink

参考资料

致谢

atodo2024/9/9小于 1 分钟

Hadoop

什么是Hadoop

官网：Apache Hadoop

Hadoop是Apache旗下的一个用java语言实现开源软件框架，是一个开发和运行处理大规模数据的软件平台。允许用户使用简单的编程模型实现在大量跨机器集群上对海量数据集进行分布式处理。Hadoop本身不是依靠硬件来提供高可用性，而是设计用于在应用层检测和处理故障，从而在一组计算机之上提供高可用性服务，每个计算机都可能出现故障。

atodo2024/9/9大约 7 分钟

数据中台

https://www.zhihu.com/question/429640731

数据中台的定义

数据中台是一种将企业沉睡的、碎片化的数据变成数据资产，持续使用数据、产生智能、为业务服务，从而实现数据价值变现的系统和机制。通过数据中台提供的方法和运行机制，形成汇聚整合、提纯加工、建模处理、算法学习，并以共享服务的方式将数据提供给业务使用，从而与业务联动。

atodo2024/9/9大约 3 分钟

数据仓库

常见的数据仓库类型有哪些

五个

‌**一个公司通常会有五个主要的数据仓库，分别是：操作数据存储（ODS）、企业数据仓库（EDW）、数据集市（Data Mart）、实时数据仓库（Real-Time Data Warehouse）和云数据仓库（Cloud Data Warehouse）**‌‌1。

atodo2024/9/9大约 3 分钟

数据仓库：主题和主题域的

主题域

主题域通常是联系较为紧密的数据主题的集合。可以根据业务的关注点，将这些数据主题划分到不同的主题域。主题域的确定必须由最终用户和数据仓库的设计人员共同完成。

atodo2024/9/9小于 1 分钟

数据处理范式：OLTP、OLAP、HTAP

OLTP（联机事务处理）、OLAP（联机分析处理）与HTAP（混合事务/分析处理）构成了现代数据处理的三大核心范式，分别满足实时业务操作、深度分析及实时决策的融合需求。

一、基本概念

OLTP（联机事务处理）
- 定义：面向高频、短时的事务操作（如增删改查），强调实时性、数据一致性和高并发处理能力。
- 特点：
  - 数据更新频繁，每次操作涉及少量数据（如账户转账、订单提交）。
  - 严格遵循ACID原则（原子性、一致性、隔离性、持久性）。
  - 典型技术栈：MySQL、PostgreSQL、Oracle。
- 核心价值：保障业务系统稳定运行，支撑每秒数万级事务。
OLAP（联机分析处理）
- 定义：面向复杂查询与历史数据分析，支持多维度聚合、趋势预测和决策支持。
- 特点：
  - 数据更新少，以批量导入为主，查询涉及海量历史数据。
  - 采用列式存储优化读取效率，支持多维数据模型（星型/雪花模型）。
  - 典型技术栈：ClickHouse、Apache Doris、Snowflake。
- 核心价值：挖掘数据深层价值，驱动战略决策。
HTAP（混合事务/分析处理）
- 定义：融合OLTP与OLAP能力，在单一平台上同时处理实时事务与分析查询，消除ETL延迟。
- 特点：
  - 通过行列混合存储（行存处理事务+列存支持分析）实现负载隔离。
  - 支持实时访问最新数据进行分析（如风控场景秒级响应）。
  - 典型技术栈：TiDB、PolarDB（HTAP模式）、Oracle Exadata。
- 核心价值：打破数据孤岛，实现业务闭环的实时决策。

atodo2024/9/9大约 7 分钟