数据中台
accttodo 5/7/2022 大数据数据中台
https://www.zhihu.com/question/429640731
# 数据中台的定义
数据中台是一种将企业沉睡的、碎片化的数据变成数据资产,持续使用数据、产生智能、为业务服务,从而实现数据价值变现的系统和机制。通过数据中台提供的方法和运行机制,形成汇聚整合、提纯加工、建模处理、算法学习,并以共享服务的方式将数据提供给业务使用,从而与业务联动。
# 数据中台与数据仓库的区别
# 数据来源
数据中台:数据来源期望是全域数据,包括:业务数据库,日志数据,埋点数据,爬虫数据,外部数据等,数据格式可以是结构化数据,也可以是非结构化的数据。
传统数仓:数据来源主要是业务数据库,数据格式以结构化数据为主。
# 建设目标
数据中台:建立目标是为了融合整个企业的全部数据,打通数据之间的隔阂,消除数据标准和口径不一致的问题。
- 数据中台通常会对来自多方面的的基础数据进行清洗,按照主题域概念建立多个以事物为主的主题域。比如用户主题域,商品主题域,渠道主题域,门店主题域等。
- 数据中台遵循三个one的概念: One Data, One ID, One Service,就是说数据中台不仅仅是汇聚企业各种数据,而且让这些数据遵循相同的标准和口径,对事物的标识能统一或者相互关联,并且提供统一的数据服务接口。就像做菜一样,按照标准化的菜名,先把所有可能用到的材料都准备好。
传统数仓:建立目标主要用来做BI的报表,只抽取和清洗该相关分析报表用到基础数据,目的性很单一。新增一张报表,就要从底层到上层再做一次。
# 数据应用
数据中台:建立的数据应用不仅仅只是面向于BI报表,更多面向营销推荐,用户画像,AI决策分析,风险评估等。而且这些应用的特点是比较轻,容易快速开发出来,因为重要的数据分析工作在数据中台已经完成并且沉淀,之前工作成果都能被多个应用共享。
传统数仓:建立的数据应用主要是面向报表,数据应用的建设就是传统烟囱式建设,每次都从头再来的开发方式。
# 平台能力
数据中台:建立在分布式计算平台和存储平台,理论上可以无限扩充平台的计算和存储能力。
传统数仓:多数都是建立的单机的基础上,一旦数据量变大,会受单机容量的限制。