亚马逊云科技Serverless构建的实时数仓解决方案,助力猎豹降低30%成本

也许你也听过这样一句话:“21世纪什么最贵?人才!”当数字经济全面席卷而来,这个问题的答案不可置否地变为了“数据”。通过数据分析获取近乎实时的洞察,以驱动业务的全流程,是企业数字化转型的必经之路。借助亚马逊云科技Serverless数据分析服务构建的端到端实时数仓解决方案,猎豹移动旗下的App用户埋点分析负载上的成本节省相较于之前减少30%,成功构建实时数仓。

 

机会从数据中攫取机会

各类企业所管理的数据正在经历爆炸式增长。IDC研究表明,2022年到2024年三年间创建的数据量将超过过去30年创建的所有数据量,随着生成式AI技术的出现,更将进一步促进数据分析领域的高速发展。拥有数据对于企业来说是“双刃剑”,在积累大量数据的同时,通过聚合数据进行深入挖掘分析,用数据来驱动业务,用数据来支撑决策、用数据来推动业务和商业模式创新、推动业务流程优化,进而实现降本增效,才是重中之重。而猎豹移动就是这条路上的先行者。

猎豹移动(NYSE:CMCM)成立于2010年11月,公司致力于“在人机共存的世界里,用科技让生活更美好”。当前,猎豹移动正在从移动互联网向以AI驱动的产业互联网进行战略升级,以安全工具+AI机器人场景为核心,构建覆盖工具应用、移动娱乐、人工智能、机器人等行业企业在内的猎豹生态。

猎豹移动与亚马逊云科技的合作由来已久,早在2012年,猎豹移动就将海外推出的移动应用App Clean Master运行在亚马逊云科技上。2023年初,猎豹移动在海外发布了全新应用程序,并将其相关数据发送到猎豹移动的分析系统中,该系统基于一家云服务提供商的自有数据库产品和分析工具搭建,猎豹移动的运营团队可通过直接查询原有数据库进行业务分析。

但随着用户数据量的不断增加、数据复杂度的不断上升,原有云供应商的数据分析架构暴露出了以下问题:

  1. 第一,原数据库的计价模式是基于猎豹移动的运营团队和BI人员直接对数仓进行操作,而由于原有数据库的计价模式,该数据库产品是基于实际计算量和扫描量进行计费,而客户团队本身撰写查询语句的水平参差不齐,难以避免会出现浪费计算量和扫描量的查询语句,因此会造成成本不可控的风险。
  2. 第二,原数据库不能保证所有日志在一天内都会被摄取到数据库中,也无法保证实时摄入,当数据规模较大时,仅可以保证T+3,也就是说当天的数据内容,只有在摄入3天之后才能保证当天数据都可以在数据库中查询到,无法实现T+0或近实时工作负载。此外,原数据库行数每日超过2亿行时,还可能会出现丢失日志的问题,这为猎豹移动应用的推进带来了很大的压力。

因此,基于与亚马逊云科技建立的长久友好合作关系,猎豹移动将用户行为数据分析工作负载的迁移任务交到了亚马逊云科技手中。

解决方案利用Amazon Redshift流式摄取构建实时数仓

亚马逊云科技根据客户特点和需求,迅速构建了基于Amazon Redshift的无服务器数据分析解决方案,客户采用此解决方案进行PoC验证测试,测试结果显示,该解决方案可以解决猎豹移动的所有问题。自此,客户决定将他们的整个用户行为分析工作负载迁移到亚马逊云科技上。

 

保障数据完整性,实现海量数据量级的近实时分析能力

该解决方案通过将Nginx日志推送到Vector然后发送至Amazon Kinesis Data Streams中,并通过Amazon Lambda函数从Amazon Kinesis Data Streams中消化流式数据,运行ETL进程,并将处理后的数据存储在Amazon S3中,并通过Amazon S3再次触发第二个Amazon Lambda函数将数据复制到Amazon Redshift云数据仓库中。流式摄取可以帮助用户以极低延迟,在几秒钟内将数百MB数据摄取到Amazon Redshift云数据仓库集群,丢失数据的可能性大大降低。此外,该解决方案提供了新的近实时数据分析能力,这种流式数据使用方式,查询速度从原有的“T+3”级别的按天计算的数据查询,到现在的分钟级别,实现了指数级的性能提升。

从容应对动态负载且成本可控,尽在Serverless

Amazon Redshift Serverless是Amazon Redshift Serverless的无服务器版,作为一种快速、可扩展、安全且完全托管的云数据仓库,可从容应对动态工作负载。Amazon Redshift可以帮助用户通过标准SQL语言简单、经济地分析各类数据,实现高达3倍的性能价格比,它不仅可以基于自身内部表进行数据分析,还可以查询Amazon S3中的数据,Amazon Redshift与Amazon S3可以无缝结合,实现部分智能湖仓架构。针对于客户担心的成本问题,Amazon Redshift Serverless版只需为数据仓库在活动时消耗的计算容量付费,并且客户可以根据RPU(Redshift处理单元)设置Base和Max指标,去控制数据仓库的性能和成本,从而实现高度成本可控。

数据分析师和数据工程师友好的查询编辑器

Amazon Redshift Query Editor v2.0是一款基于Web的SQL客户端应用程序,可以使用它在Amazon Redshift数据仓库上创作和运行查询。客户可以选择使用图表直观显示查询结果,并通过与团队成员共享查询来进行协作。该编辑器支持一次运行多条SQL语句,并允许在结果窗格的单独选项卡中查看每条语句的结果。不管是数据分析师或数据工程师,猎豹移动的团队成员都可以在查询中使用会话变量和临时表,此外,Amazon Redshift Query Editor v2.0支持运行长时间运行的查询,而不必让浏览器窗口保持打开状态,稍后在24小时内检索结果。

成果迁移后的全栈无服务器数据分析实现30%成本降低

更灵活、更易用的数据分析

通过亚马逊云科技Serverless无服务器数据分析解决方案,猎豹移动将批处理分析能力进一步拓展为近实时分析能力,并以低延迟高吞吐量的方式访问自己存储在数据仓库中的流式数据。

成本可控下的极致性价比

无服务器架构下的数据分析工作负载真正做到了极致性价比,Amazon Redshift无服务器自动扩展功能便于我们利用Amazon Redshift的速度从容应对甚至是最为动态的工作负载,并且仅需按实际使用量付费。在客户预期未来将处理的每天20TB新日志时,数据摄取部分的成本比原有云供应商的解决方案更成本友好。“迁移到基于亚马逊云科技Serverless产品构建的实时数仓后,该App团队在用户分析负载上的成本节省相较于之前减少30%。”猎豹移动技术总监韩峰说。

坚持客户拥有和控制数据的理念,提供数据全生命周期加密保护

亚马逊云科技严格遵循客户拥有和控制数据的理念,因而,猎豹移动对自己的数据拥有完整控制权,可以用任何想用的方式管理私有数据。亚马逊云科技提供了复杂的技术和物理措施来防止未经授权的访问,并以超高的数据隐私和安全标准构建数据相关服务。此外,亚马逊云科技还提供数据全生命周期的加密服务,涵盖了数据的存储、传输以及使用各个环节。

此次Serverless数据库迁移只是猎豹移动和亚马逊云科技在该领域的初次尝试。未来,猎豹移动将对之前的应用做逐步迁移,并计划将更多新的应用负载直接原生构建在亚马逊云科技上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/29069.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Linux操作系统学习——启动

概要 Linux操作系统内核是服务端学习的根基,也是提高编程能力、源码阅读能力和进阶知识学习能力的重要部分,本文开始将记录Linux操作系统中的各个部分源码学习历程。 1. 理解代码的组织结构 以Linux源码举例,首先你得知道操作系统分为哪几个部…

【SpringCloud入门】-- 初识Eureka注册中心

目录 1.SpringCloudEureka简介 2.什么是CAP原则? 3.注册中心的概念? 4.SpringCloud其他注册中心 5.搭建Eureka注册中心 6.eureka的配置(主要是server,instance,client) 7.eureka集群概念 8.eureka集群搭建 1.SpringCloudE…

基于R语言的物种气候生态位动态量化与分布特征模拟

目录 专题一 引言 专题二 数据获取与处理方法 专题三 组合物种分布模型(Ensemble Species Distribution Model)的原理与使用 专题四 拓展研究 专题五 结果分析与论文写作 专题六 案例分析 专题七 总结和展望 利用R语言进行物种气候生态位动态量化…

【蓝桥杯算法题】用java遍写税收计算

【蓝桥杯算法题】用java遍写税收计算 题目&#xff1a;劳务报酬税收计算&#xff1a;输入 m &#xff0c;输出税后收入。如果 m <800&#xff0c;不扣税&#xff0c; 如果800< m <4000&#xff0e;则 m 减去800后的金额扣除20&#xff05;所得税。如果 m >4000&…

【计算机网络详解】——运输层(学习笔记)

&#x1f4d6; 前言&#xff1a;两台主机的通信&#xff0c;实际上两台主机中的应用进程进行通信&#xff0c;而在一台计算机中&#xff0c;用不同的端口号标识不同的应用进程。本节将介绍传输层的相关内容&#xff0c;包括端口号的分配方法、端口号的复用与分用、以及传输层的…

编译tolua——3、以pbc为例子,添加第三方库

目录 1、编译工具和环境说明 2、基础编译tolua 3、以pbc为例子&#xff0c;添加第三方库 4、更新luaJit 大家好&#xff0c;我是阿赵。 之前分享过怎样正常编译基础版本的tolua。这次用添加pbc为例&#xff0c;看看怎样往tolua里面添加其他的第三方库。知道了方法之后&#xf…

本地项目托管到 Gitee

本地项目托管到 Gitee 1、创建远程仓库2、Git Bash Here第一步&#xff1a;初始化本地仓库 git init第二步&#xff1a;建立链接git remote add origin xxx第三步&#xff1a;将远程仓库中的文件推送至本地仓库中git pull --rebase origin master第四步&#xff1a;将本地项目放…

【利用AI让知识体系化】简要了解网络七层协议

文章目录 一、前言引言目的和意义 二、网络七层协议简介OSI参考模型七层协议分层结构和各层协议简介 三、物理层 - Layer 1物理层概述物理层的作用物理层标准和协议 四、数据链路层 - Layer 2数据链路层概述常见的协议 五、网络层 - Layer 3网络层概述网络层的作用IP地址的作用…

cool-admin框架后端使用-node版本,线上宝塔部署

版本6.x 宝塔新建一个文件夹和创建好数据库&#xff0c;记录账号和密码&#xff0c;自行创建&#xff0c;不做说明 特别注意&#xff0c;如果用宝塔node管理那里运行&#xff0c;如果按照到有pm2的&#xff0c;要先卸载&#xff0c;不可以共存&#xff0c;会有冲突 cool-vue前端…

爬虫数据采集需要什么样的代理ip以及遇到的反爬措施

随着互联网的快速发展&#xff0c;数据已经成为许多行业中的重要资源。网络爬虫作为一种数据采集工具&#xff0c;在许多领域中得到了广泛应用。但是现在很多网站都有非常多的限制&#xff0c;所以在爬取数据的时候&#xff0c;还需要借助代理ip来助力&#xff0c;才能更好的完…

谁说不可兼得,用scrcpy实现手机免流播放bilibili投屏电脑

目前的手机大额流量卡都是支持设备免流的&#xff0c;但是如何将这个流量用在其他设备&#xff0c;就相当麻烦。于是我查找了些相关Android投屏技术资料&#xff0c;发现了一个简单的USB投屏工具——scrcpy。 安装说明 Office&#xff1a;https://github.com/Genymobile/scrcp…

深度学习之卷积神经网络(CNN)

大家好&#xff0c;我是带我去滑雪&#xff01; 卷积神经网络&#xff08;Convolutional Neural Network&#xff0c;CNN&#xff09;是一种基于深度学习的前馈神经网络&#xff0c;主要用于图像和视频识别、分类、分割和标注等计算机视觉任务。它主要由卷积层、池化层、全连接…

手机技巧:安卓微信 8.0.38 内测版本功能一览

2023年6月14号安卓版本的微信8.0.38又开始内测了&#xff0c;今天就赶紧下载体验一下&#xff0c;下面就来给大家一一介绍&#xff0c;本次安卓微信内测版本功能更新&#xff0c;感兴趣的朋友可以文末下载体验一下&#xff01; 首先看一下官方的更新内容&#xff1a; 本次更新…

网络安全实验室|网络信息安全攻防学习平台(脚本关1-6)

传送门&#xff1a; http://hackinglab.cn/ 1. key又又不见了 点击此处开启抓包&#xff0c;send ti repeater 模块 yougotit_script_now2. 快速口算 脚本来源&#xff1a; https://blog.csdn.net/hzxtjx/article/details/125692349 import requests,re# 自动处理cookies&a…

Java+Swing+mysql仿QQ聊天工具

JavaSwingmysql仿QQ聊天工具 一、系统介绍二、功能展示1.用户登陆2.好友列表3.好友聊天4.服务器日志 三、系统实现四、其它1.其他系统实现2.获取源码 一、系统介绍 系统主要功能&#xff1a;用户登陆、好友列表、好友聊天、服务器日志 二、功能展示 1.用户登陆 2.好友列表 3…

Ubuntu远程装载硬盘Mount and unmount disk

小虎本来以为Ubuntu&#xff08;Linux系统&#xff09;不能够远程装载硬盘&#xff0c;每次重开机都要线下重新装载硬盘。但是苦于工作站不在身边&#xff0c;跑来跑去太麻烦&#xff0c;所以想远程装载一下。 解决方法 遍历搜索所有硬盘。找到对应名字。 lsblk创建一个文件…

Unity中Camera参数—Culling Mask详解

Culling Mask 如下图所示&#xff1a; 显示层级如下&#xff1a; 应用&#xff1a; Culling Mask &#xff1a;主要是相机针对不同层级的物体进行渲染的操作&#xff08;想让相机渲染哪个层就勾选哪个层&#xff09; 层级介绍&#xff1a; unity中的层前7个被unity锁定&#…

RISC-V体系结构的U-Boot引导过程 第一阶段

RISC-V体系结构的U-Boot引导过程 第一阶段 flyfish .globl _start _start:.globl使符号对链接器可见相当于C语言中的Extern&#xff0c;声明此变量&#xff0c;并且告诉链接器此变量是全局变量&#xff0c;外部可以访问.u-boot.lds里的ENTRY(_start)也是这里的_start。 即指定…

儿童遗留监测成为「加分项」,多种技术路线「争夺战」一触即发

儿童遗留密闭车内&#xff0c;温度可以在短短15分钟内达到临界水平&#xff0c;从而可能导致中暑和死亡&#xff0c;尤其是当汽车在太阳底下暴晒。 按照Euro NCAP给出的指引&#xff0c;与车祸相比&#xff0c;儿童因车辆中暑而死亡的情况较少&#xff0c;但却是完全可以避免的…

基于改进MRAS算法的永磁同步电机参数辨识

基于改进MRAS算法的永磁同步电机参数辨识 摘 要永磁同步点电机参数辨识算法介绍永磁同步电机数学模型改进MRAS参数辨识算法递推最小二乘法辨识原理递推最小二乘法结合MRAS算法原理仿真结果分析总结 摘 要 在永磁同步电机运行时&#xff0c;电机的电气参数会受到温度以及磁链饱…