DataWorks基本概念
accttodo 12/31/2025 DataWorks
目录
参考:
# DataWorks基本概念
以下是根据网页内容梳理的DataWorks基本概念表格:
模块 | 基本概念 | 描述 |
---|---|---|
通用概念 | 工作空间 | DataWorks管理任务、成员及权限的基本单元,按部门或业务划分 |
资源组 | DataWorks功能模块运行所需的计算资源基础,分为Serverless资源组(通用型)和传统资源组 | |
简单模式/标准模式 | 工作空间模式:标准模式对应开发和生产两个环境的数据源隔离 | |
计算资源 | 执行数据处理任务的大数据引擎实例(如MaxCompute、Hologres等) | |
数据集成 | 数据源 | 连接不同数据存储服务的配置信息,用于同步任务源端和目的端 |
数据同步 | 支持结构化/半结构化/无结构化数据的传输(如离线同步、实时同步),Serverless同步任务无需资源组 | |
数据建模 | 逆向建模 | 将物理表逆向生成逻辑模型,快速复用现有表结构 |
建模空间 | 跨多个工作空间共享统一数仓规划的工具 | |
维度表 | 存储数据分析维度的属性(如用户维度表、商品维度表) | |
明细表 | 记录业务过程原始数据(如下订单明细表) | |
汇总表 | 统计相同时间周期、维度的派生指标数据(如DWS层表) | |
应用表 | 面向具体场景的个性化统计数据(如ADS层表) | |
数仓分层 | 分为ODS(贴源层)、DIM(公共维度层)、DWD(明细层)、DWS(汇总层)、ADS(应用层)五层 | |
数据开发 | 节点 | 数据处理的基本单元,包括数据集成节点、SQL计算节点、通用节点(如虚拟节点) |
业务流程 | 从业务视角组织代码开发(如交易流程、用户分析流程) | |
Notebook | 交互式开发环境,支持SQL/Python代码与可视化分析 | |
SQL组件 | 将通用SQL逻辑抽象为可复用的模板(仅MaxCompute适用) | |
运维中心 | 周期任务 | 按调度周期自动执行的任务(如每天/每小时任务) |
周期实例 | 周期任务生成的运行实例(如每天生成24个实例) | |
补数据 | 重新计算历史或未来时间段数据(用于数据回刷或修正) | |
基线 | 监控任务产出时间,优先级越高资源倾斜越大,承诺完成时间结合预警余量触发告警 | |
数据治理中心 | 健康分 | 数据资产健康度综合指标(0-100),涵盖存储、计算、研发、质量、安全维度 |
治理项 | 需优化的数据问题点(如任务超长运行、无人访问节点),分为强治理项和可选治理项 | |
检查项 | 前置检查机制(如全表扫描检测、依赖缺失检查),拦截不符合规范的任务提交 | |
安全中心 | 数据权限 | 精细化的权限管控(申请、审批、审计) |
数据内容安全 | 敏感数据识别、分级分类、脱敏规则及风险识别 | |
数据地图 | 元数据 | 描述数据属性的信息(如表结构、位置、权限) |
血缘关系 | 数据加工全链路可视化(表/字段级流转路径) | |
数据分析 | SQL查询 | 标准SQL查询分析各类数据源 |
电子表格 | 在线数据编辑工具,支持可视化分析与报告导出 | |
数据服务 | API | 基于数据源快速封装的应用程序接口 |
函数 | API的前后置过滤器,处理请求参数或返回结果 | |
数据推送 | 定时推送SQL查询结果至Webhook(如日报推送) | |
开放平台 | OpenAPI | 通过API调用集成DataWorks功能 |
OpenEvent | 订阅DataWorks事件(如表变更、任务变更) | |
扩展程序 | 插件机制,自定义用户操作行为逻辑(如任务发布流程管控) |