
北京 2023
议程

北京 2023
议程
Apache Paimon: Streaming Lakehouse is Coming
Apache Paimon: Streaming Lakehouse is Coming
December 8: 10:20-11:0040minundefined分享基于 Flink + Apache Paimon (原 Flink Table Store)构建 Streaming Lakehouse,加速数据湖的数据实时流动和分析。本次议题,我们将分享以下内容:
1. 数据湖新架构:Streaming Lakehouse
2.Paimon 核心能力:为什么选用 Flink + Paimon
用户对话 1:同程旅行基于 Apache Paimon 的数据湖实践
用户对话 2:汽车之家基于 Apache Paimon 的数据湖实践
用户对话 3:联通基于 Aapche Paimon 的流式数据湖的应用实践
Flink Has Become the De-facto Standard of Streaming Compute
Flink Has Become the De-facto Standard of Streaming Compute
December 8: 09:40-10:2040minundefinedApache Flink 社区过去一年在技术、应用层面的发展;以及生态层面进展介绍。
用户对话:基于 Flink 的实时数仓在曹操出行运营中的应用
Flink Has Become the De-facto Standard of Streaming Compute
Apache Flink 社区过去一年在技术、应用层面的发展;以及生态层面进展介绍。 用户对话:基于 Flink 的实时数仓在曹操出行运营中的应用
Apache Paimon: Streaming Lakehouse is Coming
分享基于 Flink + Apache Paimon (原 Flink Table Store)构建 Streaming Lakehouse,加速数据湖的数据实时流动和分析。本次议题,我们将分享以下内容: 1. 数据湖新架构:Streaming Lakehouse 2.Paimon 核心能力:为什么选用 Flink +
Next Station of Flink CDC?
分享 Flink CDC 开源社区在过去一年的发展,介绍 Flink CDC 3.0 产品定位调整以及全新的架构设计,并重磅宣布 Flink CDC 开源旅程的下一站。 用户对话 1:Flink CDC 在阿里云 DataWorks 数据集成应用实践 用户对话 2:喜马拉雅基于 Flink CDC 构建实时高效的数据集
The Next Generation of Apache Flink
分享 Apache Flink 社区未来一年的主要技术方向及规划,以及 Flink 2.0 版本的筹备情况。
Apache Paimon:Streaming Lakehouse is Coming
Apache Paimon:Streaming Lakehouse is Coming
December 9: 14:00 - 14:4040minundefined分享介绍基于 Flink 和 Paimon 构建 Streaming Lakehouse,加速数据湖的数据实时流动和分析,为用户提供流式数据更新入湖和流式分析的能力,同时提供批式数据湖分析。分享大致内容:
一、Streaming Lakehouse 是数据湖新架构,为什么选用 Flink + Paimon
二、Paimon 的发展历程,核心能力,如何解决数据湖的流动
三、Paimon 的生态阵容,各大企业如何集成 Paimon,解决了什么问题
四、Paimon 在阿里云上的实践
五、总结
联通基于 Flink&Paimon 的流式数据湖应用实践
联通基于 Flink&Paimon 的流式数据湖应用实践
December 9: 14:40 - 15:2040minundefined本议题计划介绍联通基于 Flink&Paimon 构建流式数据湖的实践经验,主要包括两个联通核心业务的项目,从业务背景、流批一体数仓架构、实践中遇到的问题和解决方案,借助 Flink&Paimon 解决的问题、达到的效果,以及未来规划方面进行介绍。
一、业务背景介绍
二、业务要求和痛点分析
三、基于 Flink&Paimon 的湖仓实践
四、Flink&Paimon 应用中遇到的问题及生产优化
五、未来规划
undefined
联通基于 Flink&Paimon 的流式数据湖应用实践同程旅行基于 Apache Paimon 的数据湖实践
同程旅行基于 Apache Paimon 的数据湖实践
December 9: 15:20 - 16:0040minundefined一、Paimon引入
1.1 引入背景
1.2 引入效果
二、Paimon 优化实战
2.1 写入性能和稳定性
2.1 读取性能和稳定性
2.3 丢数据问题
三、Paimon 生态建设
3.1 生态建设
3.1.1 Paimon 集成 Trino
3.1.2 表服务管理
3.1.3 Binlog 结构自动演进
3.1.4 指标监控
四、未来规划
4.1 数据湖仓云上能力
4.2 数据湖加速(集成SR)
4.3 加速实时数仓构建
undefined
同程旅行基于 Apache Paimon 的数据湖实践汽车之家基于 Paimon 的应用实践
汽车之家基于 Paimon 的应用实践
December 9: 16:00 - 16:4040minundefined一、业务背景
二、基于 Paimon 的业务场景
2.1 实时湖仓的业务实践
2.2 遇到的问题及解决方案
2.3 业务收益
三、基于 Paimon 的平台实践
3.1 StarRocks 集成 Paimon 加速查询
3.2 基于 Metric 的自助诊断功能
四、未来规划:
4.1 实时平台集成 Paimon Web UI
4.2 流式数仓的血缘关系与数据修复
undefined
汽车之家基于 Paimon 的应用实践OPPO Data&AI 统一实时湖仓实践之路
OPPO Data&AI 统一实时湖仓实践之路
December 9: 16:40 - 17:2040minundefined一、OPPO Data&AI 一体实时湖仓,支持大数据降本增效,助力 AndesGPT 落地数据业务
二、实时湖仓架构演进,介绍 OPPO 实时湖仓从单纯 Flink+Iceberg 逐步演进出来 Flink+Glacier,解决多种数据实时入湖,流式数据读写,实时查询,实时索引构建,实时同步 schema 变化,元数据统一服务以及流批一体开发遇到的问题
三、实时特征工程平台构建,基于实时湖仓+Flink,实现流批一体特征工程数据开发,PB级特征实时更新,助力业务降本增效
四、统一 Data&AI 实时湖仓平台,大模型文本训练数据入湖,实现加速大语言模型训练
五、展望,Data&AI 统一实时湖仓将继续提升数据的实时性,提供高性能的数据+AI 服务
undefined
OPPO Data&AI 统一实时湖仓实践之路Apache Paimon:Streaming Lakehouse is Coming
分享介绍基于 Flink 和 Paimon 构建 Streaming Lakehouse,加速数据湖的数据实时流动和分析,为用户提供流式数据更新入湖和流式分析的能力,同时提供批式数据湖分析。分享大致内容: 一、Streaming Lakehouse 是数据湖新架构,为什么选用 Flink + Paimon 二、Paim
联通基于 Flink&Paimon 的流式数据湖应用实践
本议题计划介绍联通基于 Flink&Paimon 构建流式数据湖的实践经验,主要包括两个联通核心业务的项目,从业务背景、流批一体数仓架构、实践中遇到的问题和解决方案,借助 Flink&Paimon 解决的问题、达到的效果,以及未来规划方面进行介绍。 一、业务背景介绍 二、业务要求和痛点分析 三、基于 F
同程旅行基于 Apache Paimon 的数据湖实践
一、Paimon引入 1.1 引入背景 1.2 引入效果 二、Paimon 优化实战 2.1 写入性能和稳定性 2.1 读取性能和稳定性 2.3 丢数据问题 三、Paimon 生态建设 3.1 生态建设 3.1.1 Paimon 集成 Trino 3.1.2 表服务管理 3.1.3 Binlog 结构自动演进 3.1.
汽车之家基于 Paimon 的应用实践
一、业务背景 二、基于 Paimon 的业务场景 2.1 实时湖仓的业务实践 2.2 遇到的问题及解决方案 2.3 业务收益 三、基于 Paimon 的平台实践 3.1 StarRocks 集成 Paimon 加速查询 3.2 基于 Metric 的自助诊断功能 四、未来规划: 4.1 实时平台集成 Paimon We
OPPO Data&AI 统一实时湖仓实践之路
一、OPPO Data&AI 一体实时湖仓,支持大数据降本增效,助力 AndesGPT 落地数据业务 二、实时湖仓架构演进,介绍 OPPO 实时湖仓从单纯 Flink+Iceberg 逐步演进出来 Flink+Glacier,解决多种数据实时入湖,流式数据读写,实时查询,实时索引构建,实时同步 schema 变
流计算需要什么样的流存储?
流计算需要什么样的流存储?
December 10: 14:00 - 14:4040minundefinedundefined
流计算需要什么样的流存储?Flink 2.0 状态管理存算分离架构演进
Flink 2.0 状态管理存算分离架构演进
December 10: 14:40 - 15:2040minundefinedundefined
Flink 2.0 状态管理存算分离架构演进Log-Based Checkpoint 在大流量场景下的落地实践
Log-Based Checkpoint 在大流量场景下的落地实践
December 10: 16:00 - 16:4040minundefined一、场景介绍
- 介绍依赖 Log-Based Checkpoint 能力的业务场景,该场景数据量、状态量都较大(并发数上千,状态量TB级),同时对 Checkpoint 秒级间隔有强诉求,主要是考虑通过降低 Checkpoint 间隔来减少故障恢复涉及的数据量,从而减少故障恢复时数据的重复率,同时加速恢复效率。
二、正确性问题解决
- 介绍从数据正确性出发,在 Log-Based Checkpoint 上做的优化与改进。主要涉及对状态文件的注册管理、上传、删除清理策略的调整。
三、稳定性、规模优化
- 在此基础上,针对大流量作业在 Log-Based Checkpoint 的稳定性和支撑规模方面做了进一步优化。主要关注生产环境下的跨作业故障恢复、本地状态恢复等能力的支持,并考虑减轻大流量的 Changelog 对状态持久化存储(HDFS)的压力。 同时,仅降低 Checkpoint 间隔并不能达到该场景的业务预期,因此需要结合 Unaligned Checkpoint 将制作耗时也控制到秒级,同时对 Unaligned Checkpoint 在大流量高并发场景下的表现做优化。
四、后续规划
- 介绍美团后续准备对 Log-Based Checkpoint 的建设规划,包括与公司内存储团队合作将 Changelog 的快照存储转移到流式存储上等。
undefined
Log-Based Checkpoint 在大流量场景下的落地实践Flink 2.0 状态存算分离改造实践
Flink 2.0 状态存算分离改造实践
December 10: 15:20 - 16:0040minundefinedundefined
Flink 2.0 状态存算分离改造实践蚂蚁流计算状态演进和优化
蚂蚁流计算状态演进和优化
December 10: 16:40 - 17:2040minundefined一、大规模流任务中状态管理的挑战
二、基于 Antkv kv 分离的状态优化
三、增量 Checkpoint 下的小文件及存储放大的平衡
四、未来状态优化的演进
undefined
蚂蚁流计算状态演进和优化流计算需要什么样的流存储?
Flink SQL 在流计算场景中已经被广泛地应用,成为构建实时数仓不可或缺的工具,但是仍然面临着一些问题难以解决。本次议题,我们将探讨 Flink SQL 在流计算场景面临的挑战和问题,现有流存储的限制和不足,Flink SQL+现有流存储为什么无法很好地满足用户构建实时数仓的需求。接着会介绍我们…
Log-Based Checkpoint 在大流量场景下的落地实践
一、场景介绍 - 介绍依赖 Log-Based Checkpoint 能力的业务场景,该场景数据量、状态量都较大(并发数上千,状态量TB级),同时对 Checkpoint 秒级间隔有强诉求,主要是考虑通过降低 Checkpoint 间隔来减少故障恢复涉及的数据量,从而减少故障恢复时数据的重复率,同时加速恢复效率。 二、
蚂蚁流计算状态演进和优化
一、大规模流任务中状态管理的挑战 二、基于 Antkv kv 分离的状态优化 三、增量 Checkpoint 下的小文件及存储放大的平衡 四、未来状态优化的演进
Serverless Flink多云架构实践
Serverless Flink多云架构实践
December 11: 14:00 - 14:4040minundefinedundefined
Serverless Flink多云架构实践Apache Celeborn: 帮助Flink成为更好的流批一体引擎
Apache Celeborn: 帮助Flink成为更好的流批一体引擎
December 11: 14:40 - 15:2040minundefined一、Flink Batch 在 Shuffle 上面临的挑战
二、Apache Celeborn 如何提升 Flink Batch 的稳定性和性能
三、Apache Celeborn 社区的今天和明天
undefined
Apache Celeborn: 帮助Flink成为更好的流批一体引擎OPPO基于Flink的云原生实时计算平台的演进
OPPO基于Flink的云原生实时计算平台的演进
December 11: 15:20 - 16:0040minundefined一、OPPO 实时计算平台的现状、架构和瓶颈点:详细介绍 OPPO 实时计算平台的当前状态,包括平台的架构设计和关键组件的功能。同时,分析当前平台所面临的瓶颈点,如数据处理性能、资源利用率等,并提出解决方案。
二、上云的核心技术和改进点:探讨 OPPO 在将实时计算平台上云过程中所采用的核心技术和改进点。包括实施方案、对 Flink 和 Kubernetes 资源管理和调度的改造,平滑的弹性伸缩模式(伸缩基于 CPU、内存、LAG 或者 DS2 算法),插件化的历史服务和基于 ChatGPT 的异常诊断,以及基于预编译的部署加速手段等。
三、上云的收益和问题解决方案:分享 OPPO 将实时计算平台上云后所获得的收益,并介绍遇到的问题和相应的解决方案。包括在离线实时混部、削峰填谷等方面的努力,以及解决常见问题的方法,如 TM 心跳超时、单分区延时、自动节点拉黑、资源互斥等。
四、运维测的实时诊断:介绍 OPPO 实时计算平台的运维测实时诊断功能,以及如何利用该功能快速定位和处理问题。同时,分享该功能的开源情况,以便其他用户也能受益。
五、未来展望:展望 OPPO 实时计算平台的未来发展,强调平台将继续朝着更加稳定和智能的方向演进。探讨可能的演进方向,如性能优化、智能调度、自动化运维等,以满足不断增长的业务需求。
undefined
OPPO基于Flink的云原生实时计算平台的演进货拉拉 Flink 云原生的应用与实践
货拉拉 Flink 云原生的应用与实践
December 11: 16:00 - 16:4040minundefined一、Flink 如何云原生化
1.1 使用和优化 K8S operator 实现 Flink on K8S
1.2 K8S 集群/K8S 任务的指标和日志收集,以及监控+调度适配优化
1.3 在任务层面和集群层面自动快速的从 YARN 切换到 K8S
二、Flink 云原生下如何存算分离
2.1 实现 Redis/HBase 模式下的 remote-statebackend
2.2 remote-statebackend 适配优化,不限于多层缓存优化,不同 workload 的下读写性能优化,remote 存储设计
2.3 实现 Redis/HBase statebackend 模式下的转换,以及和原生 statebackend 模式下的转换
三、Flink 云原生收益
3.1 成本和稳定性收益
3.2 remote-statebackend 的应用场景适配 ,不限于 state 可查询应用场景,state 可共享应用场景,state 可编辑应用场景
undefined
货拉拉 Flink 云原生的应用与实践Flink Kubernetes Operator: Flink在云原生的下一站
Flink Kubernetes Operator: Flink在云原生的下一站
December 11: 16:40 - 17:2040minundefinedApache Celeborn: 帮助Flink成为更好的流批一体引擎
一、Flink Batch 在 Shuffle 上面临的挑战 二、Apache Celeborn 如何提升 Flink Batch 的稳定性和性能 三、Apache Celeborn 社区的今天和明天
OPPO基于Flink的云原生实时计算平台的演进
一、OPPO 实时计算平台的现状、架构和瓶颈点:详细介绍 OPPO 实时计算平台的当前状态,包括平台的架构设计和关键组件的功能。同时,分析当前平台所面临的瓶颈点,如数据处理性能、资源利用率等,并提出解决方案。 二、上云的核心技术和改进点:探讨 OPPO 在将实时计算平台上云过程中所采用的核心技术和改进点。包括实施方案、
货拉拉 Flink 云原生的应用与实践
一、Flink 如何云原生化 1.1 使用和优化 K8S operator 实现 Flink on K8S 1.2 K8S 集群/K8S 任务的指标和日志收集,以及监控+调度适配优化 1.3 在任务层面和集群层面自动快速的从 YARN 切换到 K8S 二、Flink 云原生下如何存算分离 2.1 实现 Re
Flink Kubernetes Operator: Flink在云原生的下一站
Flink Kubernetes Operator 经过 1 年多的发展,目前已经具备基础云原生和自动化部署 Flink 功能。本次演讲将带各位跨入云原生的 Flink 时代,描述 Flink Kubernetes Operator 在云原生工作,包括Flink 作业部署追踪、自动调优、可观测性等多…
阿里云实时计算Flink的产品化思考与实践
阿里云实时计算Flink的产品化思考与实践
December 12: 14:00 - 14:4040minundefinedundefined
阿里云实时计算Flink的产品化思考与实践阿里巴巴瓴羊基于Flink实时计算的优化和实践
阿里巴巴瓴羊基于Flink实时计算的优化和实践
December 12: 14:40 - 15:2040minundefinedundefined
阿里巴巴瓴羊基于Flink实时计算的优化和实践网易互娱基于Flink生态的一站式实时数据集市
网易互娱基于Flink生态的一站式实时数据集市
December 12: 15:20 - 16:0040minundefinedundefined
网易互娱基于Flink生态的一站式实时数据集市小米 Flink 实时计算平台的建设实践
小米 Flink 实时计算平台的建设实践
December 12: 16:00 - 16:4040minundefinedundefined
小米 Flink 实时计算平台的建设实践「动手实践」Flink+Hologres 搭建实时数仓
「动手实践」Flink+Hologres 搭建实时数仓
December 13: 14:00-17:003h 0minundefined资深 Flink 专家授课,手把手带领开发者实操。以国内某电商平台为例,基于 Flink+Hologres 架构搭建实时数仓,实现数据的实时加工清洗和对接上层应用数据查询,形成实时数据的分层和复用,支撑业务方的报表查询及个性化推荐等多个业务场景。
报名方式:名额 100 名,开发者需携带电脑参加。购买 FFA 门票并勾选训练营选项,购票地址:https://www.huodongxing.com/event/3721509128700
实验资源领取:
- 方式一,阿里云实时计算版免费试用,3 个月 5000CU*Hr:https://free.aliyun.com/?pipCode=sc
- 方式二,购买阿里云实时计算版首月 99 元:https://realtime-compute.console.aliyun.com/#/resource/all/sell/serverless/asi/default
undefined
「动手实践」Flink+Hologres 搭建实时数仓「动手实践」Flink+Hologres 搭建实时数仓
资深 Flink 专家授课,手把手带领开发者实操。以国内某电商平台为例,基于 Flink+Hologres 架构搭建实时数仓,实现数据的实时加工清洗和对接上层应用数据查询,形成实时数据的分层和复用,支撑业务方的报表查询及个性化推荐等多个业务场景。 报名方式:名额 100 名,开发者需携带电脑参加。购买 FFA 门票并勾