
Big Data
阿里云数仓建设与实践
通过阿里云原生大数据产品MaxCompute(ODPS)、DataWorks(IDE)、Dataphins、Flink、Hologres、QuickBI、DataV等产品构建一体化一站式的大数据处理平台,完成云上数据资产管理、数据治理与数据项目交付
29次点击3分钟阅读
数仓构建
数据调研
业务调研
- 熟悉业务流程:明确每个现实业务的具体流程,拆分为抽象的业务过程(不可拆分的行为事件)
- 熟悉操作逻辑:将数据与业务过程对应起来,明确每个业务过程对哪些表的数据产生哪些影响(具体到对表、数据条目的操作逻辑)
需求分析
明确需求所需的业务过程及维度
- 业务数据汇总标准,衡量标准
- 明细数据层和汇总数据层设计,公共维度层设计,公共的指标设计(具体到对表、数据条目的操作逻辑)
数据划分
数据划分是指面向业务、数据域、业务过程、部门分析,将业务过程或者维度进行抽象的集合。目的:便于数据的管理和应用数据是否需要冗余或沉淀到汇总数据层中
基本原则
- 公共抽象:为保障整个体系的生命力,数据划分是需要抽象提炼,并且长期维护和更新的,但不轻易变动
- 冗余性扩展性:既能涵盖当前所有的业务需求,又能在新业务进入时无影响地被包含进已有的数据划分中和扩展新的数据划分
- 按业务过程划分:当一个数据域由多个业务过程组成时,可以按业务流程划分。业务过程是从数据分析角度看客观存在的或者抽象的业务行为动作
- 按照部门划分:根据数据归属部门来划分数据
构建业务总线矩阵
包含所有事实(业务过程)及维度,以及两者之间的关系。
- 矩阵的行是业务过程,列是维度
- 一个业务过程对应一张事务型事实表,一个维度则对应一张维度表
明确统计指标
当需求足够多时,建议将公共的派生指标保存在数仓的DWS层,减少重复计算,提高数据的复用性
- 原子指标 : 业务过程 + 度量值 + 聚合逻辑
- 派生指标 : 原子指标 + 统计周期 + 业务限定(修饰词) + 统计粒度(groupBy)
- 衍生指标 : 在一个或多个派生指标的基础上计算而来
维度模型设计
构建业务总线矩阵的过程就是设计维度模型的过程。但是需要注意,总线矩阵中通常只包含事务型事实表,周期性快照事务表和累积型快照事实表这两种类型的事实表需单独设计
- 事实表存储在DWD层
- 维度表存储在DIM层
数据仓库研发流程
项目案例
沟通访谈
以HK Express 项目为例
战略及组织
- Q1 数据服务部的业务发展重点,以及未来三到五年的发展目标?
- Q2 介绍您部门的定位、业务范围、组织层级以及相应职责划分?
业务范围
- 您部门服务的客户有哪些?包括南航内部和外部客户,主要的产品或服务是什么?
- 2020年您部门业务目标及完成情况?业务痛点?以及2021年的规划?
数据分析现状
- 日常工作中哪些数据被使用的频率最高?(例如:销售数据、会员数据、渠道数据、里程数据、导购数据等),主要使用哪些系统?
- 部门内部、部门间如何进行数据分享的?
会员洞察
- 部门负责会员洞察的哪些工作?(例如:抽样调研、趋势分析、机会捕捉、策略调整等)与哪些部门合作?
- 是如何认识并进行会员生命周期管理?
- 会员活跃度分析:是否有对“沉默会员”的原因分析?沉默会员的数量?数据来源?
- 会员标签体系:请列举目前已建设标签分类情况(例如:行为偏好、购买偏好、渠道偏好等),目前存储在哪个系统中?
数据分析
- 业务部门或团队对数据报告、报表生成上有哪些新需求?(例如:自定义报表、实时数据查询等)
- 业务部门或团队经常查看和使用哪些的运营报告或系统?系统是否能自动生成?
对项目的期望和要求
- 您对此次项目(大数据治理方面)的期望是什么?希望达到哪些目标与愿景?
离线 & 实时一体化数仓
离线数据仓库常用的产品
- MaxComputer:
- DataWorks
- Dataphin
- QuickBI
- DataV