解析版本:DolphinScheduler 3.2.2
DolphinScheduler 3.2.2 代码模块解析
以下是基于 Apache DolphinScheduler 3.2.2 版本官方文档及社区技术资料的代码模块解析表格,
模块 | 子模块 | 核心定位 | 核心作用 | 关键特性(3.2.2 版本) |
---|---|---|---|---|
dolphinscheduler-standalone-server | / | 单机模式部署 | 单机模式服务端,集成所有核心服务(Master/Worker/API等) | 简化本地开发与测试流程,无需分布式环境支持 |
dolphinscheduler-meter | / | 系统监控应用 | 系统监控指标采集模块,集成 Prometheus 等工具 | 暴露 Master/Worker 忙碌状态指标,增强服务监控能力 |
dolphinscheduler-data-quality | / | 数据质量应用 | 数据质量校验模块,集成数据校验规则和任务执行逻辑 | 支持在 DAG 中插入数据质量检查节点,确保数据处理准确性 |
dolphinscheduler-aop | / | 编码支持 | 提供支持,用于日志、事务、权限等统一拦截处理 | 增强系统可维护性,支持自定义切面逻辑 |
dolphinscheduler-spi | / | 编码支持 | 服务提供接口(SPI),定义插件扩展机制 | 支持任务/存储/注册中心动态扩展,提供插件开发规范 |
dolphinscheduler-common | / | 公共模块 | 公共基础模块,包含工具类、枚举、常量定义和通用数据结构 | 使用安全构造器防御 YAML 注入(snakeyaml 安全解析) |
dolphinscheduler-tools | / | 公共模块 | 系统工具集,包含数据库初始化、升级脚本及环境配置工具 | 提供 upgrade-schema.sh 脚本,支持元数据库自动迁移 |
dolphinscheduler-service | / | 核心服务层 | 核心服务层,集成 Quartz 调度、Zookeeper 操作、日志客户端等能力 | 支持分布式调度事件驱动模型,优化任务状态轮询机制(StateWheelExecuteThread ) |
dolphinscheduler-dao | / | 数据访问层 | 数据访问层,操作元数据库(工作流实例、任务状态等) | 优化事务逻辑,确保命令消费与实例生成的原子性 |
dolphinscheduler-dao-plugin | dolphinscheduler-dao-api | 数据访问层 | DAO 插件抽象层,定义多数据库访问接口 | 支持灵活切换元数据库类型 |
dolphinscheduler-dao-plugin-all | 数据访问层 | DAO 插件聚合包,集成多数据库驱动 | 修复分页查询总页数错误 | |
dolphinscheduler-dao-h2 | 数据访问层 | 数据库驱动实现,适配 H2 元数据存储 | 用于本地测试环境 | |
dolphinscheduler-dao-mysql | 数据访问层 | 数据库驱动实现,适配 MySQL 元数据存储 | 仅支持 MySQL 8.0.16+,修复数据源名称获取逻辑 | |
dolphinscheduler-dao-pg | 数据访问层 | 数据库驱动实现,适配 PostgreSQL 元数据存储 | 支持 PostgreSQL 8.2.15+ 版本 | |
dolphinscheduler-datasource | dolphinscheduler-datasource-api | 数据源 | 数据源抽象层,定义多数据源连接与操作接口 | 支持动态加载数据源配置 |
dolphinscheduler-datasource-all | 数据源 | 数据源实现层,集成 MySQL/Hive 等数据源驱动 | 修复 Hive JDBC URL 解析问题 | |
dolphinscheduler-registry | dolphinscheduler-registry-api | 注册中心 | 注册中心抽象层,定义节点注册与发现接口 | 新增 ETCD/JDBC 注册中心支持,优化容错机制 |
dolphinscheduler-registry-all | 注册中心 | 注册中心实现层,集成 ZooKeeper/ETCD 等具体实现 | 通过临时节点监听实现故障转移 | |
dolphinscheduler-extract | dolphinscheduler-extract-common | RPC通信 | 支撑工具,保障执行可观测性 | |
dolphinscheduler-extract-base | RPC通信 | 通信基石,定义协议与注解 | ||
dolphinscheduler-scheduler | dolphinscheduler-scheduler-api | 调度算法 | 调度算法抽象层,定义任务分片与负载均衡接口 | 基于 Slot 分片策略避免重复调度 |
dolphinscheduler-scheduler-all | 调度算法 | 调度算法实现层,支持分布式调度决策 | 减少 Hikari 连接池资源占用 | |
dolphinscheduler-task | dolphinscheduler-task-api | 任务执行 | 任务执行抽象层,定义任务插件接口(如 Shell/SQL/Spark) | 优化跨工作流依赖任务(DependentTask ) |
dolphinscheduler-task-all | 任务执行 | 任务执行实现层,集成具体任务运行时逻辑 | 修复任务终止后异常调度问题 | |
dolphinscheduler-storage | dolphinscheduler-storage-api | 存储服务 | 存储服务抽象层,定义资源文件持久化接口 | 增加资源路径全名检查,防止越权文件操作 |
dolphinscheduler-storage-all | 存储服务 | 存储服务实现层,支持 HDFS/S3/OSS 等存储引擎 | 重构资源中心,默认使用本地存储并支持覆盖上传 | |
dolphinscheduler-microbench | 微基准测试 | 对系统底层组件(如线程池、锁机制、网络通信等)进行细粒度性能测试,量化关键代码路径的执行效率 |
什么是Hadoop
Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许用户使用简单的编程模型实现在大量跨机器集群上对海量数据集进行分布式处理。Hadoop本身不是依靠硬件来提供高可用性,而是设计用于在应用层检测和处理故障,从而在一组计算机之上提供高可用性服务,每个计算机都可能出现故障。
https://www.zhihu.com/question/429640731
数据中台的定义
数据中台是一种将企业沉睡的、碎片化的数据变成数据资产,持续使用数据、产生智能、为业务服务,从而实现数据价值变现的系统和机制。通过数据中台提供的方法和运行机制,形成汇聚整合、提纯加工、建模处理、算法学习,并以共享服务的方式将数据提供给业务使用,从而与业务联动。
五个
**一个公司通常会有五个主要的数据仓库,分别是:操作数据存储(ODS)、企业数据仓库(EDW)、数据集市(Data Mart)、实时数据仓库(Real-Time Data Warehouse)和云数据仓库(Cloud Data Warehouse)**1。
数据处理范式:OLTP、OLAP、HTAP
OLTP(联机事务处理)、OLAP(联机分析处理)与HTAP(混合事务/分析处理)构成了现代数据处理的三大核心范式,分别满足实时业务操作、深度分析及实时决策的融合需求。
一、基本概念
- OLTP(联机事务处理)
- 定义:面向高频、短时的事务操作(如增删改查),强调实时性、数据一致性和高并发处理能力。
- 特点:
- 数据更新频繁,每次操作涉及少量数据(如账户转账、订单提交)。
- 严格遵循ACID原则(原子性、一致性、隔离性、持久性)。
- 典型技术栈:MySQL、PostgreSQL、Oracle。
- 核心价值:保障业务系统稳定运行,支撑每秒数万级事务。
- OLAP(联机分析处理)
- 定义:面向复杂查询与历史数据分析,支持多维度聚合、趋势预测和决策支持。
- 特点:
- 数据更新少,以批量导入为主,查询涉及海量历史数据。
- 采用列式存储优化读取效率,支持多维数据模型(星型/雪花模型)。
- 典型技术栈:ClickHouse、Apache Doris、Snowflake。
- 核心价值:挖掘数据深层价值,驱动战略决策。
- HTAP(混合事务/分析处理)
- 定义:融合OLTP与OLAP能力,在单一平台上同时处理实时事务与分析查询,消除ETL延迟。
- 特点:
- 通过行列混合存储(行存处理事务+列存支持分析)实现负载隔离。
- 支持实时访问最新数据进行分析(如风控场景秒级响应)。
- 典型技术栈:TiDB、PolarDB(HTAP模式)、Oracle Exadata。
- 核心价值:打破数据孤岛,实现业务闭环的实时决策。
大数据:国标DCMM
DCMM(Data Management Capability Maturity Model,数据管理能力成熟度评估模型)是我国首个数据管理领域的国家标准(标准号:GB/T 36073-2018),旨在帮助企业建立和评价数据管理能力,推动数字化转型。
一、背景与发展
-
早期探索阶段(2003 - 2010 年):中国数据管理领域在银行与通信业等数据衍生企业经历早期实践探索,企业从不同侧重点开展数据管理工作。
-
广泛关注阶段(2010 - 2015 年):数据管理纳入电力等大型央企信息化规划和建设,也因互联网巨头业务域数据规模增长受到关注。2014 年,国家数据管理领域标准立项,2015 年开始编制标准内容。
-
加速发展阶段(2015 - 2020 年):数据治理领域加速发展,2016 年在金融、能源、通讯等行业进行试验验证,2018 年 3 月 15 日 DCMM 国家标准正式发布。
-
大力推广阶段(2020 年至今):2020 年 4 月,中共中央、国务院发布文件将数据定义为新型生产要素,各方企业越发重视数据管理,工信部等部门也发文推动 DCMM 标准的贯标与应用。
术语:数据管理
术语 | 解释 |
---|---|
数据资产 | 组织拥有和控制的、能够产生效益的数据。 |
数据认责 | 确定数据管理和应用相关参与方的责任关系, 明确其承担 的角色与职责的活动和过程。 |
元数据 | 是关于数据或数据元素的数据, 以及关于数据拥有权、存 取路径、访问权和数据易变性的数据。 |
数据模型 | 数据模 型是对数据结构和关系的抽 象描述 , 通过实体 (Entity)、属性(Attribute)、关系(Relationship) 等要素,从不同层级(概念、逻辑、物理)定义数据的组 织形式和存储方式。 |
数据标准 | 是数据的命名、定义、结构和取值的规则。数据标准是保 障数据的内外部使用和交换的一致性和准确性的规范性约 束 数据标准是进行数据标准化、消除数据业务歧义的主要 参考和依据。 |
数据质量 | 是指数据的某个可测量的特性 提供了定义数据质量要求的 一组词汇。 |