大数据：概念术语

atodo2024/9/9大约 4 分钟

术语：数据管理

术语	解释
数据资产	组织拥有和控制的、能够产生效益的数据。
数据认责	确定数据管理和应用相关参与方的责任关系，明确其承担的角色与职责的活动和过程。
元数据	是关于数据或数据元素的数据，以及关于数据拥有权、存取路径、访问权和数据易变性的数据。
数据模型	数据模型是对数据结构和关系的抽象描述，通过实体（Entity）、属性（Attribute）、关系（Relationship）等要素，从不同层级（概念、逻辑、物理）定义数据的组织形式和存储方式。
数据标准	是数据的命名、定义、结构和取值的规则。数据标准是保障数据的内外部使用和交换的一致性和准确性的规范性约束数据标准是进行数据标准化、消除数据业务歧义的主要参考和依据。
数据质量	是指数据的某个可测量的特性提供了定义数据质量要求的一组词汇。

概念：XXX数据

类别	定义	特点	特征	技术	应用
大数据	海量、高速、多样化的数据集合，超出传统数据处理能力	4V：Volume（体量大）、Velocity（速度快）、Variety（多样性）、Veracity（真实性）	分布式存储、并行计算、多源异构	Hadoop、Spark、Flink、Hive	用户行为分析、金融风控、智慧城市
时序数据	按时间顺序记录的数据，通常带有时间戳	时间序列依赖、高写入频率、周期性/趋势性	时间索引、高效写入、时间范围查询	InfluxDB、TimescaleDB、Prometheus	IoT监控、日志分析、股票交易
主数据	企业核心业务实体的权威数据（如客户、产品、供应商）	唯一性、一致性、长期稳定性	跨系统共享、避免冗余、数据清洗	MDM系统（Informatica MDM、SAP MDM）	ERP/CRM主数据管理、数据治理
图数据	以节点（实体）和边（关系）表示的数据结构	关系优先、复杂网络分析	高性能图遍历、社区发现、路径查询	Neo4j、JanusGraph、Apache TinkerPop	社交网络推荐、反欺诈、知识图谱
元数据	描述数据的数据（如结构、含义、来源）	描述性、支持数据治理	数据血缘、可发现性、标准化	Apache Atlas、Collibra、Alation	数据目录管理、合规审计

对比：Hadoop、Spark、Flink

以表格的形式从概念、定位、特征、特性、技术、应用及可补充的其他方面解释Hadoop、Spark、Flink的区别，并给出之间联系及选择建议

维度	Hadoop	Spark	Flink
概念	分布式批处理框架，核心为HDFS（存储）和MapReduce（计算）。	基于内存的通用计算引擎，支持批处理、流处理、机器学习等。	原生流处理框架，支持有界/无界数据流，批处理视为流特例。
定位	离线批处理，高吞吐量场景。	高性能批处理为主，微批流处理为辅。	低延迟流处理为主，批流统一。
特征	- 高容错性 - 高扩展性 - 经济型硬件。	- 内存计算 - DAG优化 - 多语言支持。	- 事件时间处理 - 精确一次语义 - 状态管理。
核心特性	- 手动优化 - 高延迟 - 无交互模式。	- Catalyst优化器 - 交互式Shell - 内存缓存。	- Checkpoint机制 - Watermark支持乱序 - 窗口灵活。
技术架构	- HDFS + MapReduce - YARN资源调度。	- RDD/DAG执行模型 - 集成SQL/MLlib/GraphX。	- 流式算子模型 - Table API/SQL - 状态后端。
延迟	分钟级~小时级。	秒级（微批）。	毫秒级（真流）。
容错机制	数据副本 + 任务重试。	RDD血缘 + Checkpoint。	Chandy-Lamport快照 + 精确一次。
应用场景	- 数据仓库ETL - 历史日志分析。	- 迭代算法（ML） - 交互式查询。	- 实时风控 - 物联网监控。
兼容性	与Hive/HBase集成。	兼容Hadoop生态（HDFS/YARN）。	支持Kafka/HBase，提供Hadoop兼容包。
硬件需求	普通硬件。	中高端硬件（内存依赖高）。	中高端硬件（需状态存储）。

联系与选择建议

联系
- 生态互补：Spark/Flink可运行在Hadoop的YARN上，共享HDFS数据源。
- 技术演进：Spark优化批处理，Flink填补实时流空白，Hadoop仍是低成本存储基石。
选择建议
- 批处理优先：选Hadoop（稳定）或Spark（速度）。
- 实时流处理：必选Flink（低延迟）。
- 机器学习/交互查询：Spark（MLlib/Zeppelin支持）。
- 团队经验：新手从Spark入手，专家按场景选Flink/Hadoop。

参考资料

致谢