大数据:概念术语

12/31/2025 大数据

目录


参考


# 大数据:概念术语

# 术语:数据管理

术语 解释
数据资产 组织拥有和控制的、能够产生效益的数据。
数据认责 确定数据管理和应用相关参与方的责任关系, 明确其承担 的角色与职责的活动和过程。
元数据 是关于数据或数据元素的数据, 以及关于数据拥有权、存 取路径、访问权和数据易变性的数据。
数据模型 数据模 型是对数据结构和关系的抽 象描述 , 通过实体 (Entity)、属性(Attribute)、关系(Relationship) 等要素,从不同层级(概念、逻辑、物理)定义数据的组 织形式和存储方式。
数据标准 是数据的命名、定义、结构和取值的规则。数据标准是保 障数据的内外部使用和交换的一致性和准确性的规范性约 束 数据标准是进行数据标准化、消除数据业务歧义的主要 参考和依据。
数据质量 是指数据的某个可测量的特性 提供了定义数据质量要求的 一组词汇。

# 概念:XXX数据

类别 定义 特点 特征 技术 应用
大数据 海量、高速、多样化的数据集合,超出传统数据处理能力 4V:Volume(体量大)、Velocity(速度快)、Variety(多样性)、Veracity(真实性) 分布式存储、并行计算、多源异构 Hadoop、Spark、Flink、Hive 用户行为分析、金融风控、智慧城市
时序数据 按时间顺序记录的数据,通常带有时间戳 时间序列依赖、高写入频率、周期性/趋势性 时间索引、高效写入、时间范围查询 InfluxDB、TimescaleDB、Prometheus IoT监控、日志分析、股票交易
主数据 企业核心业务实体的权威数据(如客户、产品、供应商) 唯一性、一致性、长期稳定性 跨系统共享、避免冗余、数据清洗 MDM系统(Informatica MDM、SAP MDM) ERP/CRM主数据管理、数据治理
图数据 以节点(实体)和边(关系)表示的数据结构 关系优先、复杂网络分析 高性能图遍历、社区发现、路径查询 Neo4j、JanusGraph、Apache TinkerPop 社交网络推荐、反欺诈、知识图谱
元数据 描述数据的数据(如结构、含义、来源) 描述性、支持数据治理 数据血缘、可发现性、标准化 Apache Atlas、Collibra、Alation 数据目录管理、合规审计

以表格的形式从概念、定位、特征、特性、技术、应用及可补充的其他方面解释Hadoop、Spark、Flink的区别,并给出之间联系及选择建议

维度 Hadoop Spark Flink
概念 分布式批处理框架,核心为HDFS(存储)和MapReduce(计算)。 基于内存的通用计算引擎,支持批处理、流处理、机器学习等。 原生流处理框架,支持有界/无界数据流,批处理视为流特例。
定位 离线批处理,高吞吐量场景。 高性能批处理为主,微批流处理为辅。 低延迟流处理为主,批流统一。
特征 - 高容错性
- 高扩展性
- 经济型硬件。
- 内存计算
- DAG优化
- 多语言支持。
- 事件时间处理
- 精确一次语义
- 状态管理。
核心特性 - 手动优化
- 高延迟
- 无交互模式。
- Catalyst优化器
- 交互式Shell
- 内存缓存。
- Checkpoint机制
- Watermark支持乱序
- 窗口灵活。
技术架构 - HDFS + MapReduce
- YARN资源调度。
- RDD/DAG执行模型
- 集成SQL/MLlib/GraphX。
- 流式算子模型
- Table API/SQL
- 状态后端。
延迟 分钟级~小时级。 秒级(微批)。 毫秒级(真流)。
容错机制 数据副本 + 任务重试。 RDD血缘 + Checkpoint。 Chandy-Lamport快照 + 精确一次。
应用场景 - 数据仓库ETL
- 历史日志分析 。
- 迭代算法(ML)
- 交互式查询。
- 实时风控
- 物联网监控。
兼容性 与Hive/HBase集成。 兼容Hadoop生态(HDFS/YARN)。 支持Kafka/HBase,提供Hadoop兼容包。
硬件需求 普通硬件。 中高端硬件(内存依赖高)。 中高端硬件(需状态存储)。

联系与选择建议

  1. 联系
    • 生态互补:Spark/Flink可运行在Hadoop的YARN上,共享HDFS数据源。
    • 技术演进:Spark优化批处理,Flink填补实时流空白,Hadoop仍是低成本存储基石。
  2. 选择建议
    • 批处理优先:选Hadoop(稳定)或Spark(速度)。
    • 实时流处理:必选Flink(低延迟)。
    • 机器学习/交互查询:Spark(MLlib/Zeppelin支持)。
    • 团队经验:新手从Spark入手,专家按场景选Flink/Hadoop。
上次更新时间: 6/11/2025, 5:19:49 PM