

上海 2024
议程


上海 2024
议程

极致性能优化:使用Apache Fury高性能序列化框架加速Flink数据传输和状态读写性能
极致性能优化:使用Apache Fury高性能序列化框架加速Flink数据传输和状态读写性能
10:10 - 10:5040minundefined基于 Flink+ Paimon + MaxCompute 搭建流式湖仓
基于 Flink+ Paimon + MaxCompute 搭建流式湖仓
10:10 -10:5040minundefined1. 背景信息:简要说明以下内容:
a. 流式湖仓的特点和优势
b. 介绍 MaxCompute 以及与 Paimon 的集成
2. 方案架构
a. 流式湖仓的分层设计
b. 通过 Flink ETL 作业导入数据到 Paimon
c. 通过 MaxCompute 读取和分析 Paimon
3. MaxCompute 读写 Paimon 10 倍提升:性能优化及对比测试
a. 优化点:行存,native 优化
b. 纵向对比:与旧版 Paimon connector 对比
c. 横向对比:hudi, delta,内表
Flink x Paimon 在抖音集团生活服务的落地实践
Flink x Paimon 在抖音集团生活服务的落地实践
10:50 - 11:3040minundefined当前抖音集团生活服务业务实时数仓建设主要还是使用 MQ 作为实时模型数据存储层,MQ 本质上是消费队列,作为实时数仓存储有很多的局限性,不能很好的满足实时数仓开发、管理、运维等过程的一些诉求。通过 Flink X Paimon 新型流式湖仓架构,可以有效解决实时数仓在开发、管理、运维过程中的一系列问题。
本次分享主要从以下 4 个方面介绍 Flink X Paimon 湖仓架构在抖音生服业务上的一些落地实践
一、 生活服务实时数仓业务背景,建设现状,问题以及挑战
二、业务实践
1. Paimon 维表在治理体验业务应用实践
2. Paimon Partial Update Merge Engine构建主键宽表应用实践
3. Paimon Changelog audit_log 在DMP业务应用实践
4. Paimon logsystem 构建秒级数据应用实践
三、使用总结和问题
四、未来规划展望
undefined
Flink x Paimon 在抖音集团生活服务的落地实践Flink+Paimon在贝壳家装业务中的探索与实践
Flink+Paimon在贝壳家装业务中的探索与实践
16:00 - 16:4040minundefinedPart1、家装行业特点及其实时数据解决方案
一、业务背景与个人介绍
二、产业特征与数据挑战
2.1 业务特征
2.2 用户诉求特征
2.3 数据挑战
三、贝壳家装业务的整体数据架构
3.1 数据架构的规划策略
3.2 家装业务整体数据架构
3.3 数据内核从Lambda架构向流式湖仓的过渡
3.4 整体数据架构的发展方向
四、数据产品化与数据普惠
4.1 数据产品化的应对
4.2 数据普惠助力科学管理方法落地
Part2、流式湖仓在贝壳家装业务中的探索与实践
五、家装数仓从离线数仓到流式湖仓的演进
5.1 贝壳家装数仓建设历程
5.2 天级离线+小时级准实时离线数仓阶段
5.3 离线+经典实时链路的Lambda架构阶段
5.4 Flink+Paimon流式湖仓阶段
六、典型场景的流式湖仓建设实践
6.1 客源状态跟进场景
6.2 业绩计算场景
七、总结与展望
7.1 总结
7.2 展望
货拉拉基于Paimon的湖仓思考与实践
货拉拉基于Paimon的湖仓思考与实践
16:40 - 17:2040minundefined01 湖仓架构模式的思考
02 数据湖系统能力建设
---数据多种入湖方式支持
---实时任务列级血缘管理
---catalog管理和Schema进化的应用支持
---多云多对象存储支持
03 数据湖关键能力建设
---原生指标+指标埋点
---数据湖关键参数,读写任务计算引擎相关参数自优化
---多种读写场景:多读多写,读历史,读当前,读热点等场景下的思考和处理
04 数据湖在数据领域的应用
---数据质量
---数据回放场景
---数据trace
---业务波动告警
中原银行实时场景企业级解决方案
中原银行实时场景企业级解决方案
9:30 - 10:1040minundefined一、建设背景 中原银行经过多年探索和实践,对银行业交易行为和数据操作特点进行分析总结,逐步构建了金融业、企业级、全场景实时化的解决方案。
二、流式湖仓 介绍基于changelog触发计算的流式湖仓架构、银行业交易数据特点遇到的技术挑战等。
1)落地方案:构建了流式湖仓架构,包含实时采集、实时计算、实时存储、实时服务全链路的解决方案;
2)分层模型:基于仓库的多层实时计算模型,提供实时报表或实时指标,并保证端到端保证数据的正确性和稳定性;
3)技术挑战:近亿级账户表实时更新、千万级维度表join、冗余容错设计保证故障快速恢复等。
三、场景案例 以典型银行业务场景为例,阐述在行内的应用成效。
1)行为分析:手机银行、微信银行用户行为轨迹分析,辅助发现用户异常行为;
2)实时核对:风险模型上线后,实时验证,保证风险模型投产准确性;
3)交易协同:零售贷款、信用卡逾期实时冻结、扣划、催收等内容。
四、总结展望
中原银行实时场景企业级解决方案
一、建设背景 中原银行经过多年探索和实践,对银行业交易行为和数据操作特点进行分析总结,逐步构建了金融业、企业级、全场景实时化的解决方案。 二、流式湖仓 介绍基于changelog触发计算的流式湖仓架构、银行业交易数据特点遇到的技术挑战等。 1)落地方案:构建了流式湖仓架构,包含实时采集、实时计算、实时存储、实时服务全链
基于 Flink+ Paimon + MaxCompute 搭建流式湖仓
1. 背景信息:简要说明以下内容: a. 流式湖仓的特点和优势 b. 介绍 MaxCompute 以及与 Paimon 的集成 2. 方案架构 a. 流式湖仓的分层设计 b. 通过 Flink ETL 作业导入数据到 Paimon c. 通过 MaxCompute 读取和分析 Paimon 3. MaxCompute
Flink x Paimon 在抖音集团生活服务的落地实践
当前抖音集团生活服务业务实时数仓建设主要还是使用 MQ 作为实时模型数据存储层,MQ 本质上是消费队列,作为实时数仓存储有很多的局限性,不能很好的满足实时数仓开发、管理、运维等过程的一些诉求。通过 Flink X Paimon 新型流式湖仓架构,可以有效解决实时数仓在开发、管理、运维过程中的一系列问… 本次分享主要从
Flink+StarRocks+Paimon:构建企业级开源实时湖仓
1、Flink+StarRocks+Paimon开源实时湖仓技术揭秘 2、Flink+StarRocks开源实时数仓案例 3、Flink+StarRocks+Paimon开源实时湖仓分析案例
阿里妈妈基于Flink+Paimon的Lakehouse应用实践
提纲: - 背景: - 业务场景与规模 - 业务&技术目标 - 整体设计: - 架构演进 - 基于Paimon的流批一体应用 - 应用治理 - 收益
基于 Paimon + DLF 构建阿里云 OpenLake 数据湖存储底座
1. 为什么要有OpenLake,OpenLake需要什么样的存储,以及Paimon提供的能力 2. DLF Paimon Catalog介绍:云原生 Paimon 存储 3. DLF 提供的扩展功能与托管能力 4. DLF 与 Paimon 社区的发展方向
Flink+Paimon在贝壳家装业务中的探索与实践
Part1、家装行业特点及其实时数据解决方案 一、业务背景与个人介绍 二、产业特征与数据挑战 2.1 业务特征 2.2 用户诉求特征 2.3 数据挑战 三、贝壳家装业务的整体数据架构 3.1 数据架构的规划策略 3.2 家装业务整体数据架构 3.3 数据内核从Lambda架构向流式湖仓的过渡 3.4 整体数据架构的发展
货拉拉基于Paimon的湖仓思考与实践
01 湖仓架构模式的思考 02 数据湖系统能力建设 ---数据多种入湖方式支持 ---实时任务列级血缘管理 ---catalog管理和Schema进化的应用支持 ---多云多对象存储支持 03 数据湖关键能力建设 ---原生指标+指标埋点 ---数据湖关键参数,读写任务计算引擎相关参数自优化 ---多种读写场景:多读多
流存储Fluss:迈向湖流一体架构
流存储Fluss:迈向湖流一体架构
10:10 -10:5040minundefined流存储(如 Kafka)提供了更低的延迟,湖存储(如 Iceberg)提供了更高的吞吐和分析性能,通常构建数仓时,流存储和湖存储需要重复建设,以满足实时和离线不同的需求。这导致目前流存储和湖存储依然很割裂,数据的重复存储带来的成本、一致性、治理等问题都面临很大的挑战。
本次议题,我们将首先探讨湖流割裂的现状下用户面临的问题和挑战,以及目前业界在湖流一体存储上的趋势。然后,会介绍我们团队设计的 Fluss x Paimon 构建湖流一体存储的方案,分析该湖流一体存储相比传统割裂地使用流存储和湖存储能带来的收益,深度解析其技术架构和原理。
最后将以一个 Demo 的形式完整展示 Fluss x Paimon 湖流一体存储提供的能力。
腾讯大数据天穹流批一体建设之流批一体存储BSS
腾讯大数据天穹流批一体建设之流批一体存储BSS
10:50 - 11:3040minundefined深入剖析流批一体存储技术的起源背景,探讨其在业界的实现方式,并评估现有解决方案与实际业务需求之间的差异。将从行业生态、未来发展方向以及技术创新等多维度进行分析。
此外,将详细介绍公司自主研发的流批一体存储解决方案(BSS 全称 Batch & Stream Storage),包括其设计方案、性能优势以及在不同应用场景下的应用案例。期望通过BSS 的技术分享,推动流批一体存储技术的进步,为大数据处理领域带来更高效的解决方案。
本次分享主要从以下6个方面介绍腾讯批流一体存储
1.背景介绍
2.业内实现
3.BSS方案设计
4.性能数据
5.应用场景
6.落地案例
Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
14:00 - 14:4040minundefined实时湖仓实现了数据在多引擎之间的共享,并达到了分钟级的时效性,是未来数据架构的方向。但目前实时湖仓的建设还有非常多的挑战。比方说,OLAP查询的性能、如何构建实时的数据分层、实时和离线计算的口径对齐(lambda架构或者流批一体)、湖和仓的定位等。
本次分享通过Flink+Paimon+Hologres的产品组合帮助用户更好的构建面向未来的一体化实时湖仓,介绍Hologres Dynamic Table在实时数据分层方面的优势和在阿里集团核心业务场景的成功实践。
基于 Flink 和 Paimon 构建 Pulsar 的大规模消息追踪平台
基于 Flink 和 Paimon 构建 Pulsar 的大规模消息追踪平台
14:40 - 15:2040minundefinedApache Pulsar 采用了存算分离的云原生架构,在保证消息系统的性能同时,提供了多租户、多集群高可用等丰富的企业级功能,引领着消息系统云原生化的变革。
Apache Paimon是一款高效的分布式数据存储与处理框架,旨在为大规模数据处理提供一个灵活且高性能的解决方案,践行着新一代实时湖仓的架构理念。
作为企业内部做为基础平台,Pulsar 的消息追踪体系(Message Tracing System)对于确保消息传递系统的可靠性、可审计性、合规性和可维护性至关重要。
本次分享将会介绍我们使用 Flink 和 Paimon 构建 Pulsar 的大规模消息追踪平台的实践和收益。
1 Pulsar 消息追踪体系背景介绍;
2 基于 Flink + Paimon 的 Pulsar 消息追踪体系的整体架构和实践;
3 总结和未来规划。
基于 Paimon x Spark 构建极速湖仓分析
基于 Paimon x Spark 构建极速湖仓分析
15:20 - 16:0040minundefined1. Paimon x Spark 最新进展
- 社区 0.9 ...
- 所有功能完备
2. Paimon x Spark 极致查询优化
- Flink 写主键表 + Spark dv 查询
- bucket join - cache catalog
- nested column pruning
- select count(*)
- ...
3. 湖仓场景下 Paimon x Spark 典型案例
- 生产案例 ...
- Flink 写 + Spark ETL
- Flink 写 + Spark Clustering + Spark query
- ...
4. 未来展望与规划
- spark 4.0 集成 + Variant
- view
- ...
基于 TiDB + Flink 实时数据汇聚平台实践
基于 TiDB + Flink 实时数据汇聚平台实践
16:00 - 16:4040minundefined1. TiDB 简介和架构原理
1) 平凯星辰公司介绍
2) TiDB 简介
3) TiDB 架构原理
4) TiDB HTAP 架构原理
5) TiDB 产品特性
6) TiDB 客户 LOGO 墙
2. HTAP & Flink 实时数仓场景分析和案例
1) 传统实时数仓架构
2) TiCDC 架构和能力说明
3) 基于 TiDB 的批流一体架构
4) TiDB 实时数仓架构图
5) Flink + TiDB 实时数仓案例介绍
3. HTAP VS 传统分布式数据库架构
1) TiDB VS 集中式数据库
2) TiDB VS 分库分表数据库
3) TiDB VS AP类数据库
4. TiDB 通用场景:数据库选型说明
1) TiDB 通用解决方案概述
2) TiDB OLTP Scale 场景和案例
3) TiDB 实时汇聚场景和案例
4) TiDB 多业务融合场景和案例
5) 银行分布式数据库选型场景说明
美团增量湖仓Beluga的架构设计与实践
美团增量湖仓Beluga的架构设计与实践
9:30 - 10:1040minundefined一 发展历程与挑战
1 简介自研离线增量数仓、列式生产解决方案hidi的落地与问题(引出实时读写需要timeline);
2 简介基于hudi的实时增量数仓的落地与问题(单层bucket、文件上限、compact rescale不透明、timeline bucket依赖hdfs效率低、低成本实时cdc、表快照精准切分等问题);
二 Beluga架构设计
1 Beluga从架构到实现
2 Beluga性能表现
三 批流一体roadmap
1 适合美团的批流一体:开发平台、生产调度、存储与算子
2 算子视角补齐
3 技术换运营的增量改造推进
美团增量湖仓Beluga的架构设计与实践
一 发展历程与挑战 1 简介自研离线增量数仓、列式生产解决方案hidi的落地与问题(引出实时读写需要timeline); 2 简介基于hudi的实时增量数仓的落地与问题(单层bucket、文件上限、compact rescale不透明、timeline bucket依赖hdfs效率低、低成本实时cdc、表快照精准切分等
流存储Fluss:迈向湖流一体架构
流存储(如 Kafka)提供了更低的延迟,湖存储(如 Iceberg)提供了更高的吞吐和分析性能,通常构建数仓时,流存储和湖存储需要重复建设,以满足实时和离线不同的需求。这导致目前流存储和湖存储依然很割裂,数据的重复存储带来的成本、一致性、治理等问题都面临很大的挑战。 本次议题,我们将首先探讨湖流割裂的现状下用户面临的
腾讯大数据天穹流批一体建设之流批一体存储BSS
深入剖析流批一体存储技术的起源背景,探讨其在业界的实现方式,并评估现有解决方案与实际业务需求之间的差异。将从行业生态、未来发展方向以及技术创新等多维度进行分析。 此外,将详细介绍公司自主研发的流批一体存储解决方案(BSS 全称 Batch & Stream Storage),包括其设计方案、性能优势以及在不同应
BTS - 抖音集团流批一体存储服务
1. 抖音集团流批一体存储 BTS 介绍 2. BTS + Flink 流批一体方案 3. BTS 技术原理 4. BTS 在抖音集团流量数据的实践 5. 未来规划
Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
实时湖仓实现了数据在多引擎之间的共享,并达到了分钟级的时效性,是未来数据架构的方向。但目前实时湖仓的建设还有非常多的挑战。比方说,OLAP查询的性能、如何构建实时的数据分层、实时和离线计算的口径对齐(lambda架构或者流批一体)、湖和仓的定位等。 本次分享通过Flink+Paimon+Hologres的产品组合帮助用
基于 Flink 和 Paimon 构建 Pulsar 的大规模消息追踪平台
Apache Pulsar 采用了存算分离的云原生架构,在保证消息系统的性能同时,提供了多租户、多集群高可用等丰富的企业级功能,引领着消息系统云原生化的变革。 Apache Paimon是一款高效的分布式数据存储与处理框架,旨在为大规模数据处理提供一个灵活且高性能的解决方案,践行着新一代实时湖仓的架构理念。 作为企业内
基于 Paimon x Spark 构建极速湖仓分析
1. Paimon x Spark 最新进展 - 社区 0.9 ... - 所有功能完备 2. Paimon x Spark 极致查询优化 - Flink 写主键表 + Spark dv 查询 - bucket join - cache catalog - nested column pruning - select
基于 TiDB + Flink 实时数据汇聚平台实践
1. TiDB 简介和架构原理 1) 平凯星辰公司介绍 2) TiDB 简介 3) TiDB 架构原理 4) TiDB HTAP 架构原理 5) TiDB 产品特性 6) TiDB 客户 LOGO 墙 2. HTAP & Flink 实时数仓场景分析和案例 1) 传统实时数仓架构 2) TiCDC 架构和能力说
Flink + Doris 的实时湖仓解决方案
1. 实时数仓设计架构的局限性 2. 全新实时湖仓架构建设 3. 基于 Flink + Apache Doris 构建的实时湖仓产品能力 4. Apache Doris + Paimon 实时湖仓用户实践
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践
10:50-11:3040minundefined1、背景:鹰角数据平台现状以及游戏相关业务介绍
1.1、鹰角大数据平台基础架构设计及数据平台使用场景
1.2、明日方舟游戏背景介绍
2、实践:Paimon 在明日方舟存档业务下落地实践
2.1、HG-Paimon 支持
2.2、基于云原生vvp flink 下 paimon 入仓
2.3、Paimon Feature 实践
3、实践:Flink + Trino + Paimon 湖仓一体平台实践
3.1、数据湖权限管控
3.2、支持 Paimon 自助查询
4、展望:湖仓一体化平台方案未来规划
4.1、自建 Trino 集成 Paimon 能力增强
4.2、StarRocks 集成 Paimon,加速 Olap 数据分析
4.3、推进现有 Hive 表切换 Paimon
移动云基于 Apache Flink 的实时湖仓建设与实践
移动云基于 Apache Flink 的实时湖仓建设与实践
11:30-12:1040minundefined计算场景的多元持续驱动着大数据技术革新,而实时湖仓代表了当下主流趋势,实时湖仓被广泛应用于移动云各大业务, 面向复杂的使用场景和超大的数据量,在实时湖仓的建设过程中遇到许多挑战,本次分享将介绍移动云在实时湖仓方面的思考和建设。
本次分享主要包括以下几个方面的内容:
一、实时湖仓演进 介绍实时湖仓在移动云的架构演进过程
1.1 背景介绍,传统离线数仓、时效性差,不满足业务需求
1.2 通过Doris,Paimon组件构建实时湖仓,进行统一数仓构建
二、平台的建设与治理 体现工程实践以及治理方面,分享遇到的问题
2.1 数据湖整体架构设计
2.2 数据湖治理
2.3 作业稳定性治理
三、实时湖仓实践应用案例
3.1 移动云云电脑的湖仓业务实践,基于Flink+Paimon+Doris的实时湖仓探索,利用Doris的物化视图进行汇总层和应用层的计算,并同时通过Doris进行数据湖查询、分析
四、展望移动云实时湖仓未来发展方向
4.1 完善湖仓平台建设,提升易用性
4.2 完善实时湖仓元数据管理能力
抖音集团电商流量实时数仓建设实践
抖音集团电商流量实时数仓建设实践
14:00 - 14:4040minundefined现今,抖音集团电商业务的用户基数十分庞大,具有复杂多元的特点,旗下的实时数据产品亦丰富多样。为了更好地与业务发展相适配,实时数仓在时效性、稳定性以及数据质量等方面需达到更高的要求标准。
历经一系列的深入探索,电商数据BP团队积累了若干经验,在此与诸位分享。本次分享主要涵盖抖音集团电商业务流量域数据架构的演进历程,同时也会分享一些在实践落地过程中具有代表性问题的解决方案,期望能给大家带来有益的启发和助力。
1. 背景
- 流量业务介绍
- 技术挑战
2. 数仓建模架构的演进
- 纵向分层
- 横向拆分
3 流批一体架构的演进
- 流批发展流程
- 任务一体化
- 口径一体化
4 大流量下的性能优化实战
- 大流量数据消费问题:Header索引
- 数据倾斜:weak-hash
5 总结&规划
实时计算在度小满的落地发展历程
实时计算在度小满的落地发展历程
16:00 - 16:4040minundefined一、实时计算平台在度小满的落地发展历程
二、落地初探——流计算落地与推广
1. 实时同步服务——基于DataX的全量查询切换为基于FlinkX的流式同步落地推广
2. 实时计算平台——Flink Jar任务&SQL任务全生命周期管理
三、质量保障——Metrics采集与应用
1. 基于PushGateway的Flink on yarn指标采集方案
2. 基于运行时指标的任务健康度判定体系
四、场景拓展——数据集成外延建设
1. 基于Kerberos Ticket 缓存的Flink on yarn权限认证方案
2. 对接自有HiveMetastore的FlinkSQL字段级权限管控
五、未来规划
抖音基于Flink的DataOps能力实践
抖音基于Flink的DataOps能力实践
9:30 - 10:1040minundefined目前抖音实时数仓主要基于Flink引擎搭建,业务还在高速发展期,高数据诉求下作业迭代非常频繁。受限于Flink作业依赖环境复杂,开发人员众多、经验及习惯参差不齐,在流程规范、研发效率和稳定性等方面面临极大的挑战。
DataOps是作用于人+流程+工具的一套方法论,围绕需求管理、作业开发、数据测试、部署发布等整个研发流程,通过工具保障实时开发同学的流程性,提高数据质量和开发效率,尤其作业开发/部署发布环节能力实现依赖Flink引擎改造并需要有成熟的开发经验沉淀。
目前实时开发DataOps能力已经在抖音业务落地使用,在降低Flink作业的开发成本、提升测试/部署/发布环节质量等方面拿到了不错的收益。
一、 Flink作业开发现状与痛点
1.1 当前现状
1.2 痛点
二、 基于Flink的DataOps能力建设
2.1 需求管理
2.2 作业开发
2.3 数据测试
2.4 部署发布
三、效果收益
四、规划展望
抖音基于Flink的DataOps能力实践
目前抖音实时数仓主要基于Flink引擎搭建,业务还在高速发展期,高数据诉求下作业迭代非常频繁。受限于Flink作业依赖环境复杂,开发人员众多、经验及习惯参差不齐,在流程规范、研发效率和稳定性等方面面临极大的挑战。 DataOps是作用于人+流程+工具的一套方法论,围绕需求管理、作业开发、数据测试、部署发布等整个研发流程
Flink CDC在阿里云DataWorks数据集成入湖场景的应用实践
1、阿里云DataWorks数据集成介绍 2、阿里云DataWorks数据集成架构和原理 3、DataWorks数据集成入湖场景的产品化案例分享 4、未来规划
Uber流处理平台的容器化
1 Uber流处理平台的介绍 1.1 Uber现有实时处理平台和流处理平台的介绍 1.2 Uber流处理平台的架构和规模 2 为什么要容器化流处理平台 3 容器化的方法 3.1 Uber的容器化平台 3.2 Uber Hadoop平台的容器化 3.3 配置管理 3.4 节点自动化 4 总结 5 问答
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践
1、背景:鹰角数据平台现状以及游戏相关业务介绍 1.1、鹰角大数据平台基础架构设计及数据平台使用场景 1.2、明日方舟游戏背景介绍 2、实践:Paimon 在明日方舟存档业务下落地实践 2.1、HG-Paimon 支持 2.2、基于云原生vvp flink 下 paimon 入仓 2.3、Paimon Feature
移动云基于 Apache Flink 的实时湖仓建设与实践
计算场景的多元持续驱动着大数据技术革新,而实时湖仓代表了当下主流趋势,实时湖仓被广泛应用于移动云各大业务, 面向复杂的使用场景和超大的数据量,在实时湖仓的建设过程中遇到许多挑战,本次分享将介绍移动云在实时湖仓方面的思考和建设。 本次分享主要包括以下几个方面的内容: 一、实时湖仓演进 介绍实时湖仓在移动云的架构演进过程
抖音集团电商流量实时数仓建设实践
现今,抖音集团电商业务的用户基数十分庞大,具有复杂多元的特点,旗下的实时数据产品亦丰富多样。为了更好地与业务发展相适配,实时数仓在时效性、稳定性以及数据质量等方面需达到更高的要求标准。 历经一系列的深入探索,电商数据BP团队积累了若干经验,在此与诸位分享。本次分享主要涵盖抖音集团电商业务流量域数据架构的演进历程,同时也
Flink CDC在阿里云实时计算Flink版的云上实践
1. 实时计算 Flink 产品 简介 2. 数据摄入 YAML 能力介绍 3. YAML 作业典型应用场景 4. Demo((整库入Holo,binlo入Kafka)与未来规划
实时计算在度小满的落地发展历程
一、实时计算平台在度小满的落地发展历程 二、落地初探——流计算落地与推广 1. 实时同步服务——基于DataX的全量查询切换为基于FlinkX的流式同步落地推广 2. 实时计算平台——Flink Jar任务&SQL任务全生命周期管理 三、质量保障——Metrics采集与应用 1. 基于PushGateway的F
天翼云实时湖仓的生产实践
1. 业务场景介绍 单表数据量在亿级别,单天更新频度超过 100% 2. 数据入湖的挑战和方案 基于 FlinkCDC 3.0 的实时入湖挑战(时间字段问题,隔离性问题,分库分表同步,新增 Connector 如何保证 SchemaEvolution 正常,安全问题等) 3. 数据湖的挑战和解决方案 单表频繁更新(单天
Flink Celeborn 集成最新进展以及在Bilibili的实践
Flink Celeborn 集成最新进展以及在Bilibili的实践
10:10 -10:5040minundefinedApache Celeborn 是一个为大数据计算引擎设计的中间数据服务,能够有效的提高大数据引擎的性能,稳定性和灵活性。
本文将介绍 Celeborn 和 Flink 集成的原理和最新进展以及 Celeborn 在B站的实践。
undefined
Flink Celeborn 集成最新进展以及在Bilibili的实践用友畅捷通在Flink上构建实时数仓、挑战与最佳实践
用友畅捷通在Flink上构建实时数仓、挑战与最佳实践
10:50 - 11:3040minundefined01. 业务背景:传统的T+1离线计算已经不再满足客户需求,越来越多的业务通过flink流批一体实时入仓
02. 数仓建设:当前用友畅捷通流计算的数据规模,与新增的几条业务线,与最新的数据仓库的技术架构
03. 当前挑战:当前数仓建设在同步数据方面面临的一些挑战(数据延迟,链路出错重启,表结构不一致,数据不一致等问题)
04. 最佳实践:针对上述挑战,用友畅捷通所做出的一些措施与努力
05. 未来发展方向: 最后介绍下接下来2025年以及以后整个数仓架构的发展事项,以及哪些业务还可能会使用我们flink进行实时链路的搭建
Dinky x Paimon 在搜配云实时数仓建设实践
Dinky x Paimon 在搜配云实时数仓建设实践
11:30-12:1040minundefined搜配云数仓业务改造,原有lambda架构存在开发成本大,数据一致性校验困难,问题排查困难等问题,调研后最终决定通过Flink与paimon+doris构建流式数仓体系,并随着Flink on k8s的成熟,逐步将业务迁移到云平台
本次分享包含以下内容:
1.Flink on k8s建设,探究Flink k8s native与operator
2.Paimon引入实践
3.Dinky平台使用
4.Paimon在日志业务生产实践
5.Dinky集成Paimon开发实践
6.Flink CDC Pipline的尝试与实践
如何建设流批混部的高可用Serverless Flink平台
如何建设流批混部的高可用Serverless Flink平台
14:00 - 14:4040minundefined1. Serverless Flink的整体架构,主要介绍在Flink on K8s技术逐渐成熟的前提,如何基于云原生技术(K8s、Koordinator、VirtualCluster、Kata等)构建Serverless Flink平台,以及Serverless Flink平台应该包括哪些能力
2. 跨可用区容灾与无感调度,主要介绍:Serverless Flink平台如何应对可用区故障的场景,提供三个九乃至更好的可靠性,保证高优业务的连续性
3. Serverless Flink在流批混部面临的挑战,包括:启动加速、调度性能、优先级抢占、磁盘与网络隔离等
4. 未来展望,从Serverless Flink平台到通用大数据底座Pyxis,沉淀通用能力支持更多大数据引擎Serverless化
网易游戏 Flink 云原生实践
网易游戏 Flink 云原生实践
14:40 - 15:2040minundefined一、 背景
介绍平台当前的作业和资源状况,使用 YARN 管理 Flink 作业资源遇到的瓶颈
二、架构演进
引入 K8s 管理 Flink 作业资源解决 YARN 管理遇到的问题,分享平台不同阶段的资源管理架构演进
三、实践挑战
1. 混合云部署
分享 K8s 自建集群 + Virtual-Kubelet 双控制面集群 + 阿里云集群的混合云部署架构和实践
2. 在线/实时/离线混合部署 分享 Flink on K8s 作业与其它服务的混布场景:
* 与 接入 K8s 管理的服务混部
* 与 未接入 K8s 管理的服务混部
3. 自动扩缩容&流批一体
4. Operator 服务优化
四、总结与展望
Serverless Flink:小红书在云上k8s的Flink集群部署演进之路
Serverless Flink:小红书在云上k8s的Flink集群部署演进之路
15:20 - 16:0040minundefined小红书在2019年就选择了k8s来部署运行Flink集群,但是在方案上选择了各个业务线独占物理机器的方式,经过5年以来的迭代,在降本增效的大背景下,该方案暴露了很多问题:
1)每台机器上总有碎片资源无法使用
2)用户新增和退订资源步骤冗长,集群资源池运维成本过高
3)很多Flink作业的pod规格不大,很适合与公司各个业务线资源混合部署,填补机器上的缝隙剩余资源,提供资源池分配率。
基于这些判断,我们于2024年与容器团队开始推动将Flink的部署方式向池化资源迁移,完成Serverless Flink的升级。 为了保障迁移的稳定性,我们通过作业告警规则,以及原资源池的资源用量情况,筛选出初步符合要求的相关作业;并且为了保障池化资源宿主机的利用率,适配每天的驱逐请求,我们还开发了Flink作业的热迁移能力,能在秒级内将作业从待驱逐机器上迁移走,减少断流时间。容器团队为了保障Serverless Flink集群的稳定性,研发了包括:
1)资源quota化交付能力,可以弹性高效交付资源
2)优化节点的驱逐资源策略,保障故障节点的驱逐优化
3)采用计算资源隔离以及IO单独挂盘等方案,保障了作业的稳定运行。
目前我们已经从独占资源中,迁移了6万core到公司整体的池化资源上,在整个公司层面额外节省了x core的成本,并且在保障池化资源利用率的前提下,平稳运行了半年时间。未来我们也将会进一步推广Serverless Flink的覆盖度。
Flink在B站的大规模云原生实践
Flink在B站的大规模云原生实践
16:40 - 17:2040minundefined在降本增效的背景下,云原生化几乎是一致的发展趋势。目前在B站大部分Flink作业运行在K8S上。在此过程中,Flink任务稳定性、运行效率、运维等方面的带来了一些列问题与挑战。
本次分享将分为4个方面介绍Flink在B站的大规模云原生落地实践。
一、功能和稳定性优化。介绍适配云原生环境的容器化改造和云原生场景的稳定性优化。
二、效率优化。围绕落地过程中,启动性能、调度性能等方面的优化改造。
三、运维优化。介绍在云原生环境下,任务迁移,Troubleshooting等方面改造。
四、未来展望。未来将进一步在潮汐混部,负载均衡,多机房灾备等方向上探索。
Flink Celeborn 集成最新进展以及在Bilibili的实践
Apache Celeborn 是一个为大数据计算引擎设计的中间数据服务,能够有效的提高大数据引擎的性能,稳定性和灵活性。 本文将介绍 Celeborn 和 Flink 集成的原理和最新进展以及 Celeborn 在B站的实践。
用友畅捷通在Flink上构建实时数仓、挑战与最佳实践
01. 业务背景:传统的T+1离线计算已经不再满足客户需求,越来越多的业务通过flink流批一体实时入仓 02. 数仓建设:当前用友畅捷通流计算的数据规模,与新增的几条业务线,与最新的数据仓库的技术架构 03. 当前挑战:当前数仓建设在同步数据方面面临的一些挑战(数据延迟,链路出错重启,表结构不一致,数据不一致等问题)
Dinky x Paimon 在搜配云实时数仓建设实践
搜配云数仓业务改造,原有lambda架构存在开发成本大,数据一致性校验困难,问题排查困难等问题,调研后最终决定通过Flink与paimon+doris构建流式数仓体系,并随着Flink on k8s的成熟,逐步将业务迁移到云平台 本次分享包含以下内容: 1.Flink on k8s建设,探究Flink k8s nati
如何建设流批混部的高可用Serverless Flink平台
1. Serverless Flink的整体架构,主要介绍在Flink on K8s技术逐渐成熟的前提,如何基于云原生技术(K8s、Koordinator、VirtualCluster、Kata等)构建Serverless Flink平台,以及Serverless Flink平台应该包括哪些能力 2. 跨可用区容灾与无
网易游戏 Flink 云原生实践
一、 背景 介绍平台当前的作业和资源状况,使用 YARN 管理 Flink 作业资源遇到的瓶颈 二、架构演进 引入 K8s 管理 Flink 作业资源解决 YARN 管理遇到的问题,分享平台不同阶段的资源管理架构演进 三、实践挑战 1. 混合云部署 分享 K8s 自建集群 + Virtual-Kubelet 双控制面集
Serverless Flink:小红书在云上k8s的Flink集群部署演进之路
小红书在2019年就选择了k8s来部署运行Flink集群,但是在方案上选择了各个业务线独占物理机器的方式,经过5年以来的迭代,在降本增效的大背景下,该方案暴露了很多问题: 1)每台机器上总有碎片资源无法使用 2)用户新增和退订资源步骤冗长,集群资源池运维成本过高 3)很多Flink作业的pod规格不大,很适合与公司各个
Flink on K8s 在美团的落地实践
一、美团实时计算平台的现状和架构介绍 二、Flink上云探索和实践 (容器化改造、工具链适配、稳定性优化) 三、k8s针对flink场景的支持和优化(集群规模、调度性能、集群稳定性提升) 四、未来展望(弹性伸缩、资源优化等)
Flink在B站的大规模云原生实践
在降本增效的背景下,云原生化几乎是一致的发展趋势。目前在B站大部分Flink作业运行在K8S上。在此过程中,Flink任务稳定性、运行效率、运维等方面的带来了一些列问题与挑战。 本次分享将分为4个方面介绍Flink在B站的大规模云原生落地实践。 一、功能和稳定性优化。介绍适配云原生环境的容器化改造和云原生场景的稳定性优
实时数据采集(Flink CDC)在杭州银行的应用实践
实时数据采集(Flink CDC)在杭州银行的应用实践
December 5: 10:10 -10:5040minundefined在当今快速发展的金融科技时代,实时数据处理与分析已成为金融机构提升运营效率、增强客户体验、和加强风险管理的重要工具。本议题将深入探讨杭州银行如何利用Flink CDC技术实现实时数据流采集,以满足日益增长的业务需求。
Flink CDC能够高效捕捉数据库中的变化,实时将数据更新推送至下游系统,为杭州银行大数据系统提供快速供给的能力。这种能力在多个金融应用场景中展现出重要价值,包括客户交易监控、风险管理、反欺诈检测和合规审计等。
具体而言,议题将分析过去杭州银行数据采集系统的痛点,以及如何通过Flink CDC技术来提升数据采集的时效性;分析杭州银行数据采集系统的在金融场景下的特殊性,以及基于Flink cdc的实时数据采集系统的实践过程的遇到的问题及经验。以及基于Flink CDC的数据采集系统在杭州银行的金融场景下应用实践,如实时风控,实时反欺诈,实时厅堂等场景。
与此同时,议题还将讨论在实施Flink CDC过程中面临的挑战,例如数据一致性、系统整合和技术选型等,并分享杭州银行在这些方面的成功经验和应对策略。通过对技术架构的优化与团队的协作,杭州银行在实时数据处理能力上取得了显著提升,为后续的智能金融决策奠定了坚实基础。
最后,本议题将展望未来杭州银行在数据驱动决策方面的进行展望。随着人工智能和机器学习等技术的进一步发展,实时数据采集将与更智能的分析方法相结合,为金融行业带来全新的机遇和挑战。
通过本次探索,我们期望为金融行业提供有价值的实践经验和技术参考,推动金融行业的持续创新与发展。
Fink X OceanBase 实现海量数据的快速迁移和实时分析
Fink X OceanBase 实现海量数据的快速迁移和实时分析
December 5: 10:50 - 11:3040minundefined1. OceanBase 的列存特性和多模特性
2. Flink + OceanBase 旁路导入实现海量数据的高性能迁移
3. Flink CDC OceanBase Pipeline 实时整库同步
4. Flink + OceanBase 构建新型实时数仓
Amoro + CDC 构建数据入湖管理新体验
Amoro + CDC 构建数据入湖管理新体验
December 5: 11:30-12:1040minundefined01 数据入湖介绍
-- 数据湖是什么
-- 数据入湖场景介绍
-- 数据 ACID/Append场景
-- CDC高效入湖架构解析
02 数据入湖
- CDC数据Pipeline 一键入湖 Paimon
- CDC数据Pipeline 一键入湖 iceberg
- 演示相关入湖作业
- 入湖所带来的一些新挑战
03 Amoro 湖仓管控你的入湖作业
- 基于Amoro湖上文件优化合并
- Amoro管控数据分支/Tag/Snapshot
- 湖上数据管控介绍
04 未来规划
- Dinky+CDC+Amoro 构造湖仓一体新体验
- Paimon小文件合并深度支持
- Amoro + CDC可视化的CDC入湖
Flink CDC 3.0在医保局多中心多库多表场景应用实践
Flink CDC 3.0在医保局多中心多库多表场景应用实践
December 5: 14:00 - 14:4040minundefined1.医保项目背景及挑战
2.基于Flink CDC3.0的实时数据采集方案
3.对Flink CDC3.0的能力增强解析
4.项目成果
内容简介:
在多数据中心多库多表的场景下,怎样实现高效实时数据的采集、保证数据一致性的同时大幅提升集群资源利用率。数新智能的数据智能引擎技术负责人将以某省医保局的项目落地实践为案例,解析数新智能的一站式多云数据智能平台怎样结合Flink CDC3.0相关特性,升级其数据平台架构,以及对Flink CDC哪些能力进行增强,最后达到解决客户痛点的同时,Flink集群计算资源比Flink CDC 2.0节省高达90%以上。
光大银行基于实时数据与开放表格式的高效入湖方案
光大银行基于实时数据与开放表格式的高效入湖方案
December 5: 16:00 - 16:4040minundefined1. 现状,T+1文件传输的传统数据链路存在开发效率低和错误率高的问题
2. 方案,数据集成(E)和数据加载(L)两部分
2.1 数据集成,CDC实时链路替换换批量文件方式,自动推送数据变更和表模式变更,通过Kafka Schema Registry存储模式变更信息
2.2 数据加载,批量从Kafka读取数据,从Schema Registry读取表模式变更信息,写入Hudi表格文件
3. 效果与收益,数据和表模式的大多数变更都可以自动推送到数据湖。省去了大量沟通和开发成本,开发效率提升了100倍。
4. 未来,对存量表进行推广,降低变更成本。
Dinky 和 FlinkCDC 在实时整库同步的探索之路
Dinky 和 FlinkCDC 在实时整库同步的探索之路
December 5: 16:40 - 17:2040minundefined当今实时数据处理与分析的技术发展迅速,为各行各业的数据分析与应用带来了时效性的跨越式提升。这一大进步的核心是变化数据捕获(CDC)。而 Apache FlinkCDC已然成为最强大和最受欢迎的工具之一。今年,FlinkCDC3重新定义为端到端的数据集成工具,独立实现了实时整库同步技术。由于站在巨人的肩膀上,基于 Flink 实现的Dinky实时计算平台的能力也随之提升。
本议题将分享 Dinky 开源实时计算平台如何基于 Flink 和 FlinkCDC构建 CDCSOURCE 实时整库同步链路,并深度解读 FlinkCDC Pipeline实时整库同步的能力与实现细节,帮助用户清晰两者的实现差异与应用场景,以便在使用中快速定位问题,促进 Flink 及 FlinkCDC技术更新,一起探索实时数据集成技术的发展与创新。
Flink CDC YAML: 面向数据集成的 API 设计
1. Flink CDC 简介 2. CDC YAML 设计初衷 3. CDC YAML 核心能力设计解读 4. 社区发展和未来规划
实时数据采集(Flink CDC)在杭州银行的应用实践
在当今快速发展的金融科技时代,实时数据处理与分析已成为金融机构提升运营效率、增强客户体验、和加强风险管理的重要工具。本议题将深入探讨杭州银行如何利用Flink CDC技术实现实时数据流采集,以满足日益增长的业务需求。 Flink CDC能够高效捕捉数据库中的变化,实时将数据更新推送至下游系统,为杭州银行大数据系统提供快
Fink X OceanBase 实现海量数据的快速迁移和实时分析
1. OceanBase 的列存特性和多模特性 2. Flink + OceanBase 旁路导入实现海量数据的高性能迁移 3. Flink CDC OceanBase Pipeline 实时整库同步 4. Flink + OceanBase 构建新型实时数仓
Amoro + CDC 构建数据入湖管理新体验
01 数据入湖介绍 -- 数据湖是什么 -- 数据入湖场景介绍 -- 数据 ACID/Append场景 -- CDC高效入湖架构解析 02 数据入湖 - CDC数据Pipeline 一键入湖 Paimon - CDC数据Pipeline 一键入湖 iceberg - 演示相关入湖作业 - 入湖所带来的一些新挑战 03
Flink CDC 3.0在医保局多中心多库多表场景应用实践
1.医保项目背景及挑战 2.基于Flink CDC3.0的实时数据采集方案 3.对Flink CDC3.0的能力增强解析 4.项目成果 内容简介: 在多数据中心多库多表的场景下,怎样实现高效实时数据的采集、保证数据一致性的同时大幅提升集群资源利用率。数新智能的数据智能引擎技术负责人将以某省医保局的项目落地实践为案例,解
Flink+StarRocks 高并发实时导入场景优化实践
1.高并发实时导入的需求背景 2.StarRocks 在高并发场景下的挑战 3.基于 StarRocks 服务端攒批的导入链路优化 4.用户实际场景中的效果验证
Flink CDC + Hologres高性能数据同步优化实践
1. Flink+Hologres构建一站式实时数仓 2. Flink实时写入Hologres新增功能 3. Flink近实时写入Hologres 4. Flink实时订阅Hologres数据变更新增功能
光大银行基于实时数据与开放表格式的高效入湖方案
1. 现状,T+1文件传输的传统数据链路存在开发效率低和错误率高的问题 2. 方案,数据集成(E)和数据加载(L)两部分 2.1 数据集成,CDC实时链路替换换批量文件方式,自动推送数据变更和表模式变更,通过Kafka Schema Registry存储模式变更信息 2.2 数据加载,批量从Kafka读取数据,从Sch
Dinky 和 FlinkCDC 在实时整库同步的探索之路
当今实时数据处理与分析的技术发展迅速,为各行各业的数据分析与应用带来了时效性的跨越式提升。这一大进步的核心是变化数据捕获(CDC)。而 Apache FlinkCDC已然成为最强大和最受欢迎的工具之一。今年,FlinkCDC3重新定义为端到端的数据集成工具,独立实现了实时整库同步技术。由于站在巨人的…