大数据:概念术语
accttodo 12/31/2025 大数据
目录
参考
# 大数据:概念术语
# 术语:数据管理
术语 | 解释 |
---|---|
数据资产 | 组织拥有和控制的、能够产生效益的数据。 |
数据认责 | 确定数据管理和应用相关参与方的责任关系, 明确其承担 的角色与职责的活动和过程。 |
元数据 | 是关于数据或数据元素的数据, 以及关于数据拥有权、存 取路径、访问权和数据易变性的数据。 |
数据模型 | 数据模 型是对数据结构和关系的抽 象描述 , 通过实体 (Entity)、属性(Attribute)、关系(Relationship) 等要素,从不同层级(概念、逻辑、物理)定义数据的组 织形式和存储方式。 |
数据标准 | 是数据的命名、定义、结构和取值的规则。数据标准是保 障数据的内外部使用和交换的一致性和准确性的规范性约 束 数据标准是进行数据标准化、消除数据业务歧义的主要 参考和依据。 |
数据质量 | 是指数据的某个可测量的特性 提供了定义数据质量要求的 一组词汇。 |
# 概念:XXX数据
类别 | 定义 | 特点 | 特征 | 技术 | 应用 |
---|---|---|---|---|---|
大数据 | 海量、高速、多样化的数据集合,超出传统数据处理能力 | 4V:Volume(体量大)、Velocity(速度快)、Variety(多样性)、Veracity(真实性) | 分布式存储、并行计算、多源异构 | Hadoop、Spark、Flink、Hive | 用户行为分析、金融风控、智慧城市 |
时序数据 | 按时间顺序记录的数据,通常带有时间戳 | 时间序列依赖、高写入频率、周期性/趋势性 | 时间索引、高效写入、时间范围查询 | InfluxDB、TimescaleDB、Prometheus | IoT监控、日志分析、股票交易 |
主数据 | 企业核心业务实体的权威数据(如客户、产品、供应商) | 唯一性、一致性、长期稳定性 | 跨系统共享、避免冗余、数据清洗 | MDM系统(Informatica MDM、SAP MDM) | ERP/CRM主数据管理、数据治理 |
图数据 | 以节点(实体)和边(关系)表示的数据结构 | 关系优先、复杂网络分析 | 高性能图遍历、社区发现、路径查询 | Neo4j、JanusGraph、Apache TinkerPop | 社交网络推荐、反欺诈、知识图谱 |
元数据 | 描述数据的数据(如结构、含义、来源) | 描述性、支持数据治理 | 数据血缘、可发现性、标准化 | Apache Atlas、Collibra、Alation | 数据目录管理、合规审计 |
# 对比:Hadoop、Spark、Flink
以表格的形式从概念、定位、特征、特性、技术、应用及可补充的其他方面解释Hadoop、Spark、Flink的区别,并给出之间联系及选择建议
维度 | Hadoop | Spark | Flink |
---|---|---|---|
概念 | 分布式批处理框架,核心为HDFS(存储)和MapReduce(计算)。 | 基于内存的通用计算引擎,支持批处理、流处理、机器学习等。 | 原生流处理框架,支持有界/无界数据流,批处理视为流特例。 |
定位 | 离线批处理,高吞吐量场景。 | 高性能批处理为主,微批流处理为辅。 | 低延迟流处理为主,批流统一。 |
特征 | - 高容错性 - 高扩展性 - 经济型硬件。 | - 内存计算 - DAG优化 - 多语言支持。 | - 事件时间处理 - 精确一次语义 - 状态管理。 |
核心特性 | - 手动优化 - 高延迟 - 无交互模式。 | - Catalyst优化器 - 交互式Shell - 内存缓存。 | - Checkpoint机制 - Watermark支持乱序 - 窗口灵活。 |
技术架构 | - HDFS + MapReduce - YARN资源调度。 | - RDD/DAG执行模型 - 集成SQL/MLlib/GraphX。 | - 流式算子模型 - Table API/SQL - 状态后端。 |
延迟 | 分钟级~小时级。 | 秒级(微批)。 | 毫秒级(真流)。 |
容错机制 | 数据副本 + 任务重试。 | RDD血缘 + Checkpoint。 | Chandy-Lamport快照 + 精确一次。 |
应用场景 | - 数据仓库ETL - 历史日志分析 。 | - 迭代算法(ML) - 交互式查询。 | - 实时风控 - 物联网监控。 |
兼容性 | 与Hive/HBase集成。 | 兼容Hadoop生态(HDFS/YARN)。 | 支持Kafka/HBase,提供Hadoop兼容包。 |
硬件需求 | 普通硬件。 | 中高端硬件(内存依赖高)。 | 中高端硬件(需状态存储)。 |
联系与选择建议
- 联系
- 生态互补:Spark/Flink可运行在Hadoop的YARN上,共享HDFS数据源。
- 技术演进:Spark优化批处理,Flink填补实时流空白,Hadoop仍是低成本存储基石。
- 选择建议
- 批处理优先:选Hadoop(稳定)或Spark(速度)。
- 实时流处理:必选Flink(低延迟)。
- 机器学习/交互查询:Spark(MLlib/Zeppelin支持)。
- 团队经验:新手从Spark入手,专家按场景选Flink/Hadoop。