3.0
大数据上云
迈入云原生 Flink 引领实时化
云原生数据湖 新一代的流式湖仓
全面 Serverless
拥抱
AI
1.0 2.0 3.0
2009-2019
2020-2022 2023
~
阿里云开源大数据平台3.0
01
Hive
传统数仓
•缺乏事务能力支持
•扩展性差
•查询性能差
湖仓(Lakehouse)
•良好的事务能力支持
•系统扩展性强
•查询功能丰富
Hudi
Data Lake (OSS/S3)
Iceberg
Apache Iceberg
Delta Lake
Apache Hudi
Paimon
4倍
Upser t
10倍
Scan
5 亿条入湖数据更新和读取场景:
Paimon vs Hudi
低延时 低成本 入湖简单 开发效率高 生态丰富
* Benchmark
+ ->
Flink + Paimon
ADS
Streaming & Batch Streaming & Batch
Streaming & Batch
Database
Logs
binlog
ODS DWDDWS
Paimon
流批一体 全链路实时 成本低廉 数据开放
Hologres MaxCompute
Online Serving
Paimon Paimon
Serverless
阿里云开源大数据平台3.0
02
Serverless
ECI ECS
(Virtual Cluster)
OSS-HDFS
Serv erless
DLF HMS
Serverless Flink
实时作业开发与运行平台
作业资源自动调优
作业全生命周期管理
智能运维诊断
Open API 集成能力 动态缩扩容
全链路监控报警
企业级Flink增强计算引擎
细粒度资源分配
企业级SQL 算子优化
企业级数据集成
切换快速故障恢复 自研存储状态内核
参数与资源动态调整
Apache Flink
• Flink 2-3
•
SQL
•
• SQL
•
•
•
•
•
* Benchmark
Serverless StarR ocks
…
SQL Editor SQL …
…
StarR ocks Virtual W arehouse
BE BE BE
Data Cache
FE FE FE
…
Vir tual W arehouse
BE BE BE
Data Cache
Vir tual W arehouse
BE BE BE
Data Cache
Data Lak e Table Format StarRocks T able Format
数据湖存储 OS S-HDFS
• CBO
QPS
•
T rino 3
•
EL T
• 60%
• Vir
tual W arehouse
•
• SR Manager
•
* Benchmark
Serverless Spark
Serverless
Spark
• CU
•
Nativ e Spark 3
•
Celeborn PB Shuffle
•
•
•
•
• OS S-HDFS DLF
•
P aimon Hudi Iceberg
RBA C
JindoCache
Apache Celeborn
R emote Shuffle Service
Spark Nativ e Engine
Shuffle
•
•
数据湖存储 OS S-HDFS
* Benchmark
OSS
/ / /
JindoSDK/HDFS POSIX
POSIX
Spark Flink StarRocks
Java API
Ja
va API
JindoFS
HDFS
Serv e
阿里云开源大数据平台3.0 技术解读.pdf