文库 云计算 大数据

打破湖仓壁垒,铸就实时湖 仓:AnalyticDB湖仓版.pdf

AnalyticDB 湖仓 PDF   22页   下载61   2024-07-09   浏览7799   收藏83   点赞75   评分-   免费文档
温馨提示:当前文档最多只能预览 6 页,若文档总页数超出了 6 页,请下载原文档以浏览全部内容。
打破湖仓壁垒,铸就实时湖  仓:AnalyticDB湖仓版.pdf 第1页
打破湖仓壁垒,铸就实时湖  仓:AnalyticDB湖仓版.pdf 第2页
打破湖仓壁垒,铸就实时湖  仓:AnalyticDB湖仓版.pdf 第3页
打破湖仓壁垒,铸就实时湖  仓:AnalyticDB湖仓版.pdf 第4页
打破湖仓壁垒,铸就实时湖  仓:AnalyticDB湖仓版.pdf 第5页
剩余16页未读, 下载浏览全部
打破湖仓壁垒,铸就实时湖 仓: AnalyticDB 湖仓版 麦慧君 阿里云 AnalyticDB 产品专家 Breaking the barriers of data lakes and creating real - time lakehouse: AnalyticDB Data Lakehouse Edition Contents 目录 01 客户场景介绍 02 核心 功能介绍 03 操作流程演示 客户场景介绍 Customer Story 01 客户背景 Customer Story 某游戏行业客户 ,业务需求: • 海量 Kafka 日志数据实时写入,用户信息维度表从 TP 导入到数仓 • 混合负载:周期性 ETL 任务(数据写入、分库分表) + 在线实时分析 (数据聚合、 BI 报表) 过去「湖 + 仓」解决方案的痛点: • 数据时效性差:多次在集群间进行数据同步 • 数据一致性差:数据同步带来的延迟 • 数据冗余:同一份数据存在多个集群中 客户背景 Customer Story • 1. Kafka 数据通过 APS 入湖 • 2. 作业开发:数据清洗 ETL ,对原始数据进行过滤和抽取;分库分表 ETL ,按游戏分库 • 3. 在线实时分析,生成 BI 报表 通过 AnalyticDB 湖仓版 ,实现 「数据入湖、作业开发、生成 BI 报表」 的一站式数据管理 核心功能 Key Functions 0 2 核心功能 Key Functions 数据入湖 离线处理 在线分析 通过 APS 将数据同步至湖仓版 入湖后数据存放在 OSS 数据格式: Hudi 方式一:开源引擎 Spark 通过 Notebook 进行作业开发 - 数据清洗 - 分库分表 通过 Workflow 进行周期性调度 Kafka 日志入湖 方式二:自研计算引擎 通过自研计算引擎处理 ETL 通过 增量物化视图 实现数据更新 聚合分析 圈人场景 每小时新增用户数 每天活跃用户数 每天新增收入 圈出每个城市的高消费玩家 圈出高等级玩家中的低消费玩家 数据管道 APS AnalyticDB Pipeline Service 业务痛点 • 体验差:数据分布在不同数据源,需要通过不同工具同步到 AnalyticDB • 成本高:每个数据源,每条接入链路都需要使用单独的资源 • 门槛高:用户想要以 Hudi 格式入湖,通常需要进行 SQL/ 代码开发,自行维护同步状态 功能 优势 数据库 ( RDS/ PolarDB ) 日志 ( OSS/SLS/Kafka ) 大数据 ( MC/EMR ) 本地等 数据管道( APS ) AnalyticDB Pipeline Service AnalyticDB MySQL 湖仓版 一键 配置 统一在一个页面通过 可视化 的方式完成入 湖入仓配置,无需进行 SQL/ 代码开发 表级 同步 同步粒度可以细化到 表级 ,便于用户更细 粒度管理同步任务,提供白名单 /黑名单 方式满足不同场
打破湖仓壁垒,铸就实时湖 仓:AnalyticDB湖仓版.pdf
下载提示

欢迎下载文档

如有下载失败等问题,请邮件联系:duucloud # outlook.com