DataWorks基本概念

12/31/2025 DataWorks

目录


参考:


# DataWorks基本概念

以下是根据网页内容梳理的DataWorks基本概念表格:

模块 基本概念 描述
通用概念 工作空间 DataWorks管理任务、成员及权限的基本单元,按部门或业务划分
资源组 DataWorks功能模块运行所需的计算资源基础,分为Serverless资源组(通用型)和传统资源组
简单模式/标准模式 工作空间模式:标准模式对应开发和生产两个环境的数据源隔离
计算资源 执行数据处理任务的大数据引擎实例(如MaxCompute、Hologres等)
数据集成 数据源 连接不同数据存储服务的配置信息,用于同步任务源端和目的端
数据同步 支持结构化/半结构化/无结构化数据的传输(如离线同步、实时同步),Serverless同步任务无需资源组
数据建模 逆向建模 将物理表逆向生成逻辑模型,快速复用现有表结构
建模空间 跨多个工作空间共享统一数仓规划的工具
维度表 存储数据分析维度的属性(如用户维度表、商品维度表)
明细表 记录业务过程原始数据(如下订单明细表)
汇总表 统计相同时间周期、维度的派生指标数据(如DWS层表)
应用表 面向具体场景的个性化统计数据(如ADS层表)
数仓分层 分为ODS(贴源层)、DIM(公共维度层)、DWD(明细层)、DWS(汇总层)、ADS(应用层)五层
数据开发 节点 数据处理的基本单元,包括数据集成节点、SQL计算节点、通用节点(如虚拟节点)
业务流程 从业务视角组织代码开发(如交易流程、用户分析流程)
Notebook 交互式开发环境,支持SQL/Python代码与可视化分析
SQL组件 将通用SQL逻辑抽象为可复用的模板(仅MaxCompute适用)
运维中心 周期任务 按调度周期自动执行的任务(如每天/每小时任务)
周期实例 周期任务生成的运行实例(如每天生成24个实例)
补数据 重新计算历史或未来时间段数据(用于数据回刷或修正)
基线 监控任务产出时间,优先级越高资源倾斜越大,承诺完成时间结合预警余量触发告警
数据治理中心 健康分 数据资产健康度综合指标(0-100),涵盖存储、计算、研发、质量、安全维度
治理项 需优化的数据问题点(如任务超长运行、无人访问节点),分为强治理项和可选治理项
检查项 前置检查机制(如全表扫描检测、依赖缺失检查),拦截不符合规范的任务提交
安全中心 数据权限 精细化的权限管控(申请、审批、审计)
数据内容安全 敏感数据识别、分级分类、脱敏规则及风险识别
数据地图 元数据 描述数据属性的信息(如表结构、位置、权限)
血缘关系 数据加工全链路可视化(表/字段级流转路径)
数据分析 SQL查询 标准SQL查询分析各类数据源
电子表格 在线数据编辑工具,支持可视化分析与报告导出
数据服务 API 基于数据源快速封装的应用程序接口
函数 API的前后置过滤器,处理请求参数或返回结果
数据推送 定时推送SQL查询结果至Webhook(如日报推送)
开放平台 OpenAPI 通过API调用集成DataWorks功能
OpenEvent 订阅DataWorks事件(如表变更、任务变更)
扩展程序 插件机制,自定义用户操作行为逻辑(如任务发布流程管控)
上次更新时间: 6/10/2025, 9:13:30 AM