打破湖仓壁垒,铸就实时湖
仓: AnalyticDB 湖仓版
麦慧君
阿里云 AnalyticDB 产品专家
Breaking the barriers of data lakes and creating real - time lakehouse:
AnalyticDB Data Lakehouse Edition
Contents
目录
01 客户场景介绍
02 核心 功能介绍
03 操作流程演示
客户场景介绍
Customer Story
01
客户背景
Customer Story
某游戏行业客户 ,业务需求:
• 海量 Kafka 日志数据实时写入,用户信息维度表从 TP 导入到数仓
• 混合负载:周期性 ETL 任务(数据写入、分库分表) + 在线实时分析
(数据聚合、 BI 报表)
过去「湖 + 仓」解决方案的痛点:
• 数据时效性差:多次在集群间进行数据同步
• 数据一致性差:数据同步带来的延迟
• 数据冗余:同一份数据存在多个集群中
客户背景
Customer Story
• 1. Kafka 数据通过 APS 入湖
• 2. 作业开发:数据清洗 ETL ,对原始数据进行过滤和抽取;分库分表 ETL ,按游戏分库
• 3. 在线实时分析,生成 BI 报表
通过 AnalyticDB 湖仓版 ,实现 「数据入湖、作业开发、生成 BI 报表」 的一站式数据管理
核心功能
Key Functions
0 2
核心功能
Key Functions
数据入湖 离线处理 在线分析
通过 APS 将数据同步至湖仓版
入湖后数据存放在 OSS
数据格式: Hudi
方式一:开源引擎 Spark
通过 Notebook 进行作业开发
- 数据清洗
- 分库分表
通过 Workflow 进行周期性调度
Kafka 日志入湖
方式二:自研计算引擎
通过自研计算引擎处理 ETL
通过 增量物化视图 实现数据更新
聚合分析
圈人场景
每小时新增用户数
每天活跃用户数
每天新增收入
圈出每个城市的高消费玩家
圈出高等级玩家中的低消费玩家
数据管道 APS
AnalyticDB Pipeline Service
业务痛点
• 体验差:数据分布在不同数据源,需要通过不同工具同步到 AnalyticDB
• 成本高:每个数据源,每条接入链路都需要使用单独的资源
• 门槛高:用户想要以 Hudi 格式入湖,通常需要进行 SQL/ 代码开发,自行维护同步状态
功能
优势
数据库
( RDS/ PolarDB )
日志
( OSS/SLS/Kafka )
大数据
( MC/EMR )
本地等
数据管道( APS )
AnalyticDB Pipeline Service
AnalyticDB MySQL
湖仓版
一键
配置
统一在一个页面通过 可视化 的方式完成入
湖入仓配置,无需进行 SQL/ 代码开发
表级
同步
同步粒度可以细化到 表级 ,便于用户更细
粒度管理同步任务,提供白名单 /黑名单
方式满足不同场
打破湖仓壁垒,铸就实时湖 仓:AnalyticDB湖仓版.pdf