文库 云计算 大数据

阿里云EMR 2.0:重新定义新一代开源大数据平台.pdf

大数据 阿里云 EMR PDF   13页   下载64   2024-07-08   浏览30370   收藏33   点赞68   评分-   免费文档
温馨提示:当前文档最多只能预览 6 页,若文档总页数超出了 6 页,请下载原文档以浏览全部内容。
阿里云EMR 2.0:重新定义新一代开源大数据平台.pdf 第1页
阿里云EMR 2.0:重新定义新一代开源大数据平台.pdf 第2页
阿里云EMR 2.0:重新定义新一代开源大数据平台.pdf 第3页
阿里云EMR 2.0:重新定义新一代开源大数据平台.pdf 第4页
阿里云EMR 2.0:重新定义新一代开源大数据平台.pdf 第5页
剩余7页未读, 下载浏览全部
面向未来 构建新一代开源大数据基础设施 EMR 2.0 :重新定义新一代开源大数据平台 何源 ( 荆杭 ) 阿里云高级产品专家 EMR 产品负责人 开源大数据的痛点以及 EMR 产品历程 2016 年 6 月 EMR 公有云商业化版 本发布上线 EMR 发布 EMR CloudSort 100 TB 竞赛打破世界纪录 Cloudsort 第一 EMR 开启国际化,累 计输出海外 10 余个 Region 国际化 EMR TPC -DS 10TB 成 绩登顶, TCO 比第二 名下降 50% ,是首个 通过 TPC 官方认证的公 有云产品 TPC - DS 第一 EMR JindoFS 发布, 升级云上大数据计算 存储分离架构 数据湖 1.0 数据湖构建 DLF 正式商 业化 元数据托管服务 EMR on ACK 版本上 线,为用户提供了全 新的构建大数据平台 的方式 K8S 形态发布 陆续推出 S tarrocks , Doris 等组件,丰富 数据分析的场景 数据分析 场景上线 新版控制 台上线 全新的架构升级和 产品体验 2016 年 9 月 2017 年 6 月 2019 年 3 月 2019 年 6 月 2020 年 12 月 2021 年 9 月 2022 年 3 月 2022 年 6 月 如何提升性能 ,降低成本 如何 降低运维成本 如何 保证数据和任务可靠性 如何管理数据开发和治理 EMR 2.0 新特性 全新平台体验 • 集群创建速度 2 倍 以上优化 • 集群扩容速度 3 倍 以上提升 • 弹性规模支持 千台 以上 • 故障节点迁移 • 集群诊断 工具 构建下一代开源大数据基础设施 • 全 托管 EMR Notebook (Jupyter ) • Workflow (Dolphinscheduler ) • 数据开发治理平台 Dataworks • on EMR • EMR on ECS ,支 持 倚天 g8 ,性价比 提升超过 40% • EMR on ACK(K8s) • EMR Serverless • 新版 数据湖 • 数据分析 • 数据服务 • 数据流 • 数据科学 全新数据开发 全新资源形态 全新分析场景 EMR 2.0 产品架构 硬件资源 ECS ( Intel, AMD, 倚天) / 神龙 /ECI 调度资源 EMR on ECS EMR on ACK EMR Serverless 存储资源 OSS - HDFS (Powered by JindoData ) 分析场景 新版数据湖 Datalake 数据分析 OLAP 实时数据流 Dataflow 数据服务 DataServing 数据科学 DataScience Spark/Hive/Yarn/Presto/ HudiDelta /RSS/ Kyuubi Starrocks /Doris/ Clickhou se / Flink /Kafka Hbase /Phoenix Tensorflow /Pytorch 开发工具 开源解决方案 EMR Studio(Notebook, Workflow) 企业级开发平台 DataWorks on EMR 管控平台 弹性 调度 故障补偿 组件 管理 监控告警 集群诊断 权限 & 安全 DLF 元 数 据
阿里云EMR 2.0:重新定义新一代开源大数据平台.pdf
下载提示

欢迎下载文档

如有下载失败等问题,请邮件联系:duucloud # outlook.com