ApacheCon - 云原生大数据上的 Apache 项目实践

Apache 软件基金会的官方全球系列大会 CommunityOverCode Asia(原 ApacheCon Asia)首次中国线下峰会将于 2023 年 8 月 18-20 日在北京丽亭华苑酒店举办,大会含 17 个论坛方向、上百个前沿议题。

字节跳动云原生计算团队在此次 CommunityOverCode Asia 峰会中深度参与并进行相关主题演讲,由 8 位同学围绕 4 个专题下的 6 个议题,分享 Apache 开源项目在字节跳动业务中的实践经验。此外,Apache Calcite PMC Member、Apache Flink Committer 李本超将参与 Keynote 演讲,分享参与开源贡献的经验与收获。

 

主题演讲

开源贡献难吗?

也许很多同学都有想过参与一些开源贡献,来提升自己的技术能力和影响力。但是理想跟现实之间通常有一些距离:因为工作太忙,没有时间参与;开源项目门槛太高,不知道怎么入门;尝试过一些贡献,但是社区响应度不高,没有坚持下去。本次 keynote,李本超会结合自己的经历,分享他在贡献开源社区过程中的一些小故事和思考,如何克服这些困难,最终在开源社区取得突破,并且在工作和开源贡献之间取得平衡。

李本超

字节跳动,Flink SQL 技术负责人

Apache Calcite PMC Member,Apache Flink Committer,毕业于北京大学,目前就职于字节跳动流式计算团队,Flink SQL 技术负责人。

专题演讲

专题:数据湖与数据仓库

基于 Flink 构建实时数据湖的实践

王正 火山引擎云原生计算研发工程师

闵中元 火山引擎云原生计算研发工程师

演讲简介:实时数据湖是现代数据架构的核心组成部分,它允许企业实时分析和查询大量数据。在这场分享中,我们将首先介绍实时数据湖目前存在的痛点,比如数据的高时效性,多样性,一致性和准确性等。然后介绍我们如何基于 Flink 和 Iceberg 构建实时数据湖,主要通过如下两部分展开:如何将数据实时入湖、如何使用 Flink 进行 OLAP 临时查询。最后介绍一下字节跳动在实时数据湖中的一些实践收益。

讲师简介:王正,于 2021 年加入字节跳动,就职于基础架构开放平台团队,主要负责 Serverless Flink 等方向研发;

闵中元,于 2021 年加入字节跳动,就职于基础架构开放平台团队,主要负责 Serverless Flink ,Flink OLAP 等方向研发。

专题:人工智能 / 机器学习

字节跳动深度学习批流一体训练实践

毛洪玥 字节跳动基础架构工程师

演讲简介:随着公司业务发展,算法复杂度不断提升,越来越多的算法模型在离线更新的基础上探索实时训练以提升模型效果。为实现复杂的离线和实时训练灵活编排、自由切换,能在更大范围内调度在离线计算资源,机器学习模型训练逐渐趋于批流一体化.本次将分享包括字节跳动机器学习训练调度框架的架构演进、批流一体实践、异构弹性训练等部分内容。并着重介绍在 MFTC(批流一体协同训练)场景下,多阶段多数据源混合编排、流式样本全局 Shuffle、全链路 Native 化,训练数据洞察等实践经验。

讲师简介:于 2022 年加入字节跳动,从事机器学习训练研发工作,主要负责大规模云原生批流一体 AI 模型训练引擎,支撑了包括抖音视频推荐、头条推荐、穿山甲广告、千川图文广告等业务。

字节跳动 Spark 支持万卡模型推理实践

刘畅 字节跳动基础架构工程师

张永强 字节跳动机器学习系统工程师

演讲简介:随着云原生的发展,Kubernetes 由于其强大的生态构建能力和影响力,使得包括大数据、AI 在内越来越多类型的负载应用开始向 Kubernetes 迁移,字节内部探索 Spark 从 Hadoop 迁移到 Kubernetes,使得作业云原生化运行。同时搜索有大量 GPU 需求量极大的离线批处理任务,随着潮汐任务上量,发现一系列问题:GPU 算力供给(卡时数)仍有较大缺口、单机房资源池规模无法匹配业务单位任务计算量增长、在线资源池算力浪费问题、缺乏统一平台入口。Spark 和 AML(应用机器学习)合作,通过 GPU 共享技术、混部 GPU 调度、Spark 引擎增强,平台及周边生态完善等途径,支持万张卡混部 GPU 模型推理离线计算,支持作业 80 亿多模态训练数据使用混部 GPU 7k 卡 7.5h 完成模型打分数据清洗,并且资源使用效率、稳定性均得到了显著提升。

讲师简介:刘畅,于 2020 年加入字节跳动,就职于基础架构批式计算团队,主要负责 Spark 云原生方向工作,Spark On Kubernetes 等方向研发;

张永强,于 2022 年加入字节跳动,就职于 AML 机器学习系统团队,参与构建大规模机器学习平台。

专题:数据存储与计算

字节跳动 MapReduce -> Spark 平滑迁移实践

魏中佳 字节跳动基础架构工程师

演讲简介:随着业务发展,字节跳动内部每天线上约运行 120 万 个 Spark 作业,与之相对比的是,线上每天依然约有两万到三万个 MapReduce 任务。作为一个历史悠久的批处理框架,从大数据研发的角度来看,MapReduce 引擎的运维面临了一系列问题。例如,框架更新迭代的的 ROI 较低,对于新的计算调度框架适配性较差等等。而从用户的角度来看, MapReduce 引擎的使用也存在一系列的问题。例如,计算性能不佳,需要额外的 Pipeline 工具管理串行运行的 Job,希望迁移 Spark 但是存量作业数量多且大量作业使用了 Spark 本身不支持的各种脚本。在此背景下,字节跳动 Batch 团队设计并实现了一套 MapReduce 任务平滑迁移 Spark 的方案,该方案使用户仅需对存量作业增加少量的参数或环境变量即可完成从 MapReduce 到 Spark 的平缓迁移,大大降低了迁移成本,并且取得了不错的成本收益。

讲师简介:2018 年加入字节跳动,现任字节跳动基础架构大数据开发工程师,专注大数据分布式计算领域,主要负责 Spark 内核开发、字节自研 Shuffle Service 开发。

字节跳动千亿文件 HDFS 集群实践

熊睦 火山引擎大数据存储研发工程师

演讲简介:随着大数据技术的深入发展,数据规模和使用复杂度越来越高,Apache HDFS 面临着新的挑战。在字节跳动,HDFS 即是传统 Hadoop 数仓业务的存储,也是存算分离架构计算引擎的底座,还是机器学习模型训练的存储底座。在字节跳动,HDFS 既搭建了服务于大规模计算资源调度跨多地区的存储调度能力提升计算任务稳定性;也提供了统合用户侧缓存、常规三副本、冷存的数据识别和冷热调度能力。本次分享介绍字节跳动内部如何认识新兴场景对传统大数据存储的新要求,并通过技术演进和运维体系建设,支持不同场景下的系统稳定。

讲师简介:主要负责大数据存储 HDFS 元数据服务演进和上层计算生态支持。

专题:云原生

字节跳动云原生 YARN 实践

邵凯阳 火山引擎云原生计算研发工程师

演讲简介:字节跳动内部离线业务具有庞大的规模,线上每天有数十万节点、数百万任务运行,每天使用的资源量达千万量级,内部由离线调度系统和在线调度系统分别负责离线业务和在线业务的调度管理。但随着业务规模发展,这一套系统暴露了一些短板:在离线属于两套系统,一些重大活动场景需要通过运维方式进行在离线资源转换,运维负担繁重,转换周期长;资源池不统一使得整体资源利用率不高,配额管控、机器运维等无法复用;大数据作业无法享受到云原生的各种好处,例如:可靠稳定的隔离能力、便捷的运维能力等。在离线系统亟待统一,而传统大数据引擎不是针对云原生设计难以直接云原生部署,各计算引擎和任务需要进行深度改造才能支持原先在 YARN 上的各种特性,改造成本巨大。基于此背景,字节跳动提出基于云原生的 YARN 解决方案 —— Serverless YARN,其 100% 兼容 Hadoop YARN 协议, Hadoop 生态下的大数据作业无需修改即可透明迁移到云原生系统上,在线资源和离线资源间可以高效灵活转换、分时复用,集群整体资源利用率得到显著提升。

讲师简介:在字节跳动基础架构负责离线调度相关工作,具有多年工程架构经验。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/75393.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

手机里视频太大怎么压缩?压缩教程分享

现在视频文件的体积越来越大了,动不动就是几个GB起步,如果后期再剪辑处理一下,更是会占据更多的设备空间了,还会导致我们传输受到限制,这时候就需要我们对视频进行压缩处理,下面给大家分享几个简单的方法&a…

Python爬虫——scrapy_基本使用

安装scrapy pip install scrapy创建scrapy项目,需要在终端里创建 注意:项目的名字开头不能是数字,也不能包含中文 scrapy startproject 项目名称 示例: scrapy startproject scra_baidu_36创建好后的文件 3. 创建爬虫文件&…

go的gin和gorm框架实现切换身份的接口

使用go的gin和gorm框架实现切换身份的接口,接收前端发送的JSON对象,查询数据库并更新,返回前端信息 接收前端发来的JSON对象,包含由openid和登陆状态组成的一个string和要切换的身份码int型 后端接收后判断要切换的身份是否低于该…

vue3+vite配置vantUI主题

❓在项目中统一配置UI主题色,各个组件配色统一修改 vantUI按需安装 参考vantUI文档 创建vantVar.less文件夹进行样式编写 vantVar.less :root:root{//导航--van-nav-bar-height: 44px;//按钮--van-button-primary-color: #ffffff;--van-button-primary-backgr…

CentOS系统环境搭建(三)——Centos7安装DockerDocker Compose

centos系统环境搭建专栏🔗点击跳转 Centos7安装Docker&Docker Compose 使用 yum 安装Docker 内核 [rootVM-4-17-centos ~]# uname -r 3.10.0-1160.88.1.el7.x86_64Docker 要求 CentOS 系统的内核版本高于 3.10 更新 yum yum update安装需要的软件包&#x…

kubernetes的存储卷使用

目录 一、为什么使用存储卷 二、emptyDir存储卷 1.概念 2.创建Pod emptyDir 3. 验证emptyDir存储卷 三、hostPath存储卷 1.概念 2.创建Pod hostPath 3.验证hostPath存储卷 三、nfs共享存储卷 1.概念 2.安装nfs,配置nfs服务 3.创建Pod 4.验证nfs存储卷 一、…

Electron-builder打包和自动更新

前言 文本主要讲述如何为 electron 打包出来软件配置安装引导和结合 github 的 release 配置自动更新。 electron-builder 是将 Electron 工程打包成相应平台的软件的工具,我的工程是使用 electron-vite 构建的,其默认集成了 electron-builder &#x…

欧拉算法与埃氏筛法比较

#include<iostream> using namespace std; bool data[100000005]; // zhishu用于存储质数的数组 &#xff0c;cnt下标 int zhishu[100000000],cnt0;int main() {data[1] 1;// 1表示素数 int n;cin >> n;// 循环遍历for(int i2;i<n;i){if(data[i] 0){// 表明是…

SDXL1.0大模型安装与使用

个人网站&#xff1a; 文章目录 前言一、模型下载使用&#xff08;简单体验&#xff09;二、模型下载使用&#xff08;繁琐版&#xff09;三、ComfyUI 前言 使用 Stable Diffusion XL&#xff0c;您可以使用较短的提示创建描述性图像&#xff0c;并在图像中生成文字。该模型在…

vue自定义穿梭框支持远程滚动加载

分享-2023年资深前端进阶&#xff1a;前端登顶之巅-最全面的前端知识点梳理总结&#xff0c;前端之巅 *分享一个使用比较久的&#x1fa9c; 技术框架公司的选型(老项目)&#xff1a;vue2 iview-ui 方案的实现思路是共性的&#xff0c;展现UI样式需要你们自定义进行更改&#…

【Unity每日一记】向量操作摄像机的移动(向量加减)

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;元宇宙-秩沅 &#x1f468;‍&#x1f4bb; hallo 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍&#x1f4bb; 本文由 秩沅 原创 &#x1f468;‍&#x1f4bb; 收录于专栏&#xff1a;uni…

Linux知识点 -- 进程概念(补充)

Linux知识点 – 进程概念&#xff08;补充&#xff09; 文章目录 Linux知识点 -- 进程概念&#xff08;补充&#xff09;一、进程地址空间的堆区二、虚拟地址到物理地址之间的转化三、虚拟地址到物理地址之间的映射 一、进程地址空间的堆区 在用户每次使用malloc等函数在进程的…

【设计模式——学习笔记】23种设计模式——策略模式Strategy(原理讲解+应用场景介绍+案例介绍+Java代码实现)

文章目录 案例引入传统方案实现实现分析 介绍基本介绍登场角色 案例实现案例一类图实现 案例二类图实现问答 策略模式在JDK源码中的使用总结文章说明 案例引入 有各种鸭子&#xff0c;比如野鸭、北京鸭、水鸭等。 鸭子有各种行为&#xff0c;比如走路、叫、飞行等。不同鸭子的…

[NLP]LLM 训练时GPU显存耗用量估计

以LLM中最常见的Adam fp16混合精度训练为例&#xff0c;分析其显存占用有以下四个部分&#xff1a; GPT-2含有1.5B个参数&#xff0c;如果用fp16格式&#xff0c;只需要1.5G*2Byte3GB显存, 但是模型状态实际上需要耗费1.5B*1624GB. 比如说有一个模型参数量是1M&#xff0c;在…

k8s 自身原理之 Service

好不容易&#xff0c;终于来到 k8s 自身的原理之 关于 Service 的一部分了 前面我们用 2 个简图展示了 pod 之间和 pod 与 node 之间是如何通信息的&#xff0c;且通信的数据包是不会经过 NAT 网络地址转换的 那么 Service 又是如何实现呢&#xff1f; Service 我们知道是用…

Flask-SQLAlchemy

认识Flask-SQLAlchemy Flask-SQLAlchemy 是一个为 Flask 应用增加 SQLAlchemy 支持的扩展。它致力于简化在 Flask 中 SQLAlchemy 的使用。SQLAlchemy 是目前python中最强大的 ORM框架, 功能全面, 使用简单。 ORM优缺点 优点 有语法提示, 省去自己拼写SQL&#xff0c;保证SQL…

Unity游戏源码分享-俄罗斯方块unity2017

Unity游戏源码分享-俄罗斯方块unity2017 工程地址&#xff1a; https://download.csdn.net/download/Highning0007/88204011

【Linux初阶】system V - 共享内存

文章目录 前言一、共享内存初识1.共享内存的原理2.理解共享内存3.共享的内存的概念 二、共享内存函数1.shmget函数2.shmat函数3.shmdt函数4.shmctl函数 三、共享内存的查看方法及其特征四、共享内存的代码实现五、共享内存优缺点分析1.共享内存的优点2.共享内存的缺点 六、共享…

【Nacos2.24持久化到Postgres数据库适配——详细版】

Nacos2.24持久化到Postgres数据库适配 前言步骤拉取源码添加依赖修改源码编译打包修改配置测试运行 参考 前言 公司基于springboot实现了一套单体框架&#xff0c;目前我负责搭建SpringCloud微服务框架&#xff0c;需要用到nacos&#xff0c;但是由于公司特殊性&#xff0c;na…

1022.从根到叶的二进制之和

目录 一、题目 二、代码 一、题目 二、代码 /*** Definition for a binary tree node.* struct TreeNode {* int val;* TreeNode *left;* TreeNode *right;* TreeNode() : val(0), left(nullptr), right(nullptr) {}* TreeNode(int x) : val(x), left(nu…