成本降低 90%,出海社交平台 Typing 基于 Databend 的大数据探

Typing(输入中科技)成立于 2022 年,是一家主要面向东南亚、拉美、中东等海外地区提供社交平台的出海企业。其社交平台类似于国内的 Soul、陌陌等,提供视频直播、语音聊天室、短视频、生活分享、文字聊天等社交功能,注册用户超百万,日活用户数十万。人们可以在平台内认识有趣的人,结交新朋友,还可以建立自己的社交社区。

Typing 业务场景特点

如今,社交平台已经成为生活中必不可少的一部分。人们在社交平台上交友、分享和交流信息,这些信息包含了丰富的用户行为和偏好数据。大数据技术使得这些海量的数据可以被有效地挖掘和分析,从而为社交平台的发展和用户体验,提供技术支撑和决策支持。

Typing 作为一家社交公司,数据的重要性不言而喻,通过数据可以挖掘出许多商业价值:

一,构建社交平台的用户画像。用户画像是基于用户的行为数据和个人信息建立的用户模型。Typing 通过分析用户的关注、好友关系、兴趣爱好等数据,可以对平台内用户进行准确的用户画像构建。通过用户画像,平台可以更好地理解用户的需求和行为倾向,从而为 Typing 的用户提供更加个性化和精准的服务和推荐,提升平台的用户体验度和满意度。

二,社交平台的内容推荐和个性化推送。Typing 整个社交平台的内容繁多复杂,包含音频、视频、文字、图片等多种形式,用户在其中找到自己感兴趣的内容和人往往比较困难。借助大数据分析技术,Typing 可以对用户的历史行为数据进行分析,了解用户的兴趣和偏好,从而为用户提供个性化的内容推荐和推送。通过个性化内容推送,Typing 社交平台可以提高用户的活跃度和粘性,同时也增加用户对平台的依赖和忠诚度。

三,社交平台的社交关系挖掘。作为社交平台,人与人之间的社交关系是 Typing 的核心所在,对社交关系的理解和分析可以帮助 Typing 更好地发现用户的兴趣和需求。借助大数据分析技术,Typing 可以分析用户的好友关系、互动行为等数据,发现用户之间的兴趣群体和社交网络,从而为用户提供更加精准和相关的社交推荐。同时,社交关系挖掘还可以为平台提供用户流失预测和用户关系维护等策略指导,提高用户的留存和活跃度。

Typing 面临的技术挑战

受限于创业公司的规模,Typing 整个研发团队只有 15 人左右,没有专门的大数据团队和 AI 算法推荐团队,但是公司对精细化运营有着强烈需求,这就需要对用户、对整个平台做到知根知底。如何基于数据得出有价值的分析和洞察变得不可或缺。为了实现这一目标,Typing 技术团队进行了很多摸索,先后接触过阿里云、火山引擎的大数据方案,但在 Typing 看来,这些方案从文档到接入都很复杂,时间和人力成本都比较高,对于一家创业公司而言很难落地。

Typing 也曾经试用过开源的 Clickhouse,但它需要有专门的数据开发人员做一些中间的数据清理 ETL 工作,由于缺乏这方面的人力最终也未能落地。

为什么选择 Databend?

在一次大会的开源活动中,Typing 技术团队负责人武云鹏接触到了 Databend,在经过一系列深入了解和交流后,他被 Databend 以下几个特点所深深吸引:

  • 存算分离架构:Databend 将存储与计算完全分离,用户可以根据应用程序的需要轻松扩展或者缩小。同时,Databend 完全面向对象存储设计,突破了传统数据库磁盘容量的束缚;

  • 高性能查询:Databend 先进的架构和矢量化查询引擎,不仅实现了海量数据的即时分析,更将延迟缩短到亚秒级。同时利用数据级并行( Vectorized Query Execution )和指令级并行( SIMD )技术,提供性能卓越的数据分析。在TPC-H标准下,Databend在导入数据,cold run,hot run三个维度上比国外主流新一代存算一体云原生数据库整体快 1.3 倍;相比传统存算一体数据库有 2-3 倍的速度提升;

  • 与主流数据生态和工具无缝对接:Databend Cloud 与主流数据技术和工具无缝对接,提供 Java、Go、Python、Node.js、Rust 等语言 SDK,支持与 Kafka、DBT、FlinkCDC、Airbyte、Data X、Devezium 等工具对接,解决了 Typing 原有技术栈的兼容问题,满足了在数据转换、商业智能、Ad-Hoc 分析和数据应用方面的所有需求,可以帮助用户快速挖掘数据的潜在价值;

  • 低成本:Databend Cloud 经济、智能的计算集群,搭配高度压缩、性能优化的对象存储,可以将成本降低高达 90%,像 Typing 这样的创业公司进行数据处理不必再花费巨资;

  • 使用方便:Databend Cloud 提供一站式 SaaS 服务,通过数据管道和任务管理,可以让数据导入变得更为简单,让用户免运维,开箱即用。同时,Databend 没有要构建的索引,不需要手动调整,不需要手动计算分区或分片数据,所有这些都在数据加载到表中时完成。

部署方案

Databend 的各项特性刚好契合了 Typing 对于大数据平台的各项需求,于是 Typing 选择了 Databend 数据库作为主要的大数据分析工具。经过一系列规划、准备、兼容性评估等工作,成功将大数据计算业务迁移到 Databend Cloud 上。 

 目前,Typing 的数据源主要来自 AWS Aurora 数据库,开发人员每天定时以 T+1 的方式进行数据同步。首先用 databend-py SDK 将 Aurora 数据库中的几十张表导出到 S3 中,然后再通过 Databend 将 S3 里的数据直接导入 Databend Cloud。得益于 Databend 所坚持的开源理念和对 Superset 的开源贡献,Databend 可以非常轻松地接入 Superset 开源数据看板工具。经过 Databend Cloud 计算后的数据再传到 Superset 中就可以进行数据可视化展现了。

在这个场景中,Databend 主要用途是承载运营数据看板。Typing 每天早上 8 点开始同步,数据量大约 2-3TB,10 点上班前就可以完成数据导入和计算。Typing 的技术人员上班后就可以在 Superset 中,做一些面向运营和产品的可视化数据看板。

此外,Databend 在 Typing 还有另一个用途,利用数据库中产生的用户行为历史数据(如消费记录、语音房、送礼物等数据),在 Databend Cloud 中进行全量用户计算,计算出用户分群标签,然后导入业务服务器,支撑业务应用开发对用户做出区分,进行更多的个性化推送。

项目收益

从去年 11 月部署完成到现在已经过去了半年时间,Databend Cloud 非常好地解决了 Typing 大数据分析的各种挑战,不论是查询速度、结果的准确性还是成本,都超出了 Typing 的预期。

  • 迁移到 Databend Cloud 后,在查询速度更快的基础上,Typing 的数据成本降低了 90%,目前成本中最高的部分是从 AWS Aurora 同步数据到 Databend Cloud 的消费,Typing 也正在尝试与 Databend 一起探索通过更换同步机制减小这部分成本;

  • Typing 的运营团队经常通过写 SQL,来定一些指标查看数据看板。由于 Databend 提供了统一的 SQL 接口,符合产品和研发原有数据库使用习惯,节省了适应成本。运营团队反馈新的数据看板上手非常简单,无论写什么都能很快给出结果,整个过程非常顺滑稳定;

  • 在服务过程中,Databend 官方提供了专属工程师服务,紧急问题天级或小时级就可以反馈修复。对于 Typing 而言,可以节省出专门的数据开发人力,将 Databend 工程师作为数据团队的一部分,这在以往一些云大厂服务中是完全可不想象的。

未来探索

目前,Typing 正在开启对 Databend 的新一轮探索,对 Databend 的信任也让 Typing 想将其拓展到更广的用途中。未来,Typing 计划将业务服务器的埋点数据也同步到 Databend Cloud 中。由于埋点数据包含了更多的用户行为,相比数据库数据而言,这些数据对业务决策更有价值,这部分数据将用来支撑一些时效性更强的逻辑业务。而服务器的埋点数据更具时效性,大概每 15 分钟同步一次,需要进行近实时同步。Databend 经过成本和时效性等方面考量,提供了一种增量同步方案,最小可以达到小时级,

在与 Typing 的整个合作过程中,Databend 不仅帮助 Typing 解决了现有的许多技术难题,还秉承着开放合作的理念与 Typing 一起进行更多场景的探索,为社交平台业务的发展提供可靠的数据支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/607105.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【C++】零钱兑换的始端---柠檬水找零

欢迎来CILMY23的博客 本篇主题为 零钱兑换的始端---柠檬水找零 个人主页:CILMY23-CSDN博客 个人专栏系列: Python | C | C语言 | 数据结构与算法 感谢观看,支持的可以给个一键三连,点赞关注收藏。 前言: 柠檬水找…

2024年最新【SpringBoot2】开发实用篇-测试_springboot2 test(1),2024年最新2024春招BAT面试真题详解

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上软件测试知识点,真正体系化! 由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、…

吸血鬼崛起v rising皮革获取教程 v rising皮革机怎么获得

《V Rising》是一款由Stunlock Studios公司制作并发行的生存建造类游戏,以“吸血鬼”为题材。中文名为“吸血鬼崛起”。在游戏中,打boss可以获得许多掉落材料,有些材料需要合成,而制作皮革则需要使用皮革机。下面就为大家介绍一下…

利用大语言模型(KIMI)生成OPC UA 信息模型

在大语言模型没有出现之前,人们更倾向使用图形化工具或者基于窗口的软件来构建信息模型,图形化工具能够直观地表达信息模型中各元素之间的相互关系。但是图形化工具也有缺点,当描述一个复杂的信息模型时,图形会变得非常复杂和庞大…

如何通过OMS加快大表迁移至OceanBase

OMS,是OceanBase官方推出的数据迁移工具,能够满足众多数据迁移场景的需求,现已成为众多用户进行数据迁移同步的重要工具。OMS不仅支持多种数据源,还具备全量迁移、增量同步、数据校验等功能,并能够对分表进行聚合操作&…

豪投巨资,澳大利亚在追逐海市蜃楼吗?

澳大利亚政府正在积极投资于量子计算领域。继2021年向量子技术投资逾1亿澳元后,2023年5月,该国发布了首个国家量子战略,详细阐述了如何把握量子技术的未来及保持全球领先地位。 澳大利亚的国家量子战略概述 原文链接: https://ww…

jQuery-1.语法、选择器、节点操作

jQuery jQueryJavaScriptQuery&#xff0c;是一个JavaScript函数库&#xff0c;为编写JavaScript提供了更高效便捷的接口。 jQuery安装 去官网下载jQuery&#xff0c;1.x版本练习就够用 jQuery引用 <script src"lib/jquery-1.11.2.min.js"></script>…

力扣HOT100 - 4. 寻找两个正序数组的中位数

解题思路&#xff1a; 两个数组合并&#xff0c;然后根据奇偶返回中位数。 class Solution {public double findMedianSortedArrays(int[] nums1, int[] nums2) {int m nums1.length;int n nums2.length;int[] nums new int[m n];if (m 0) {if (n % 2 0) return (nums2…

游戏专用设备指纹方案解析

如同人类拥有独一无二的指纹&#xff0c;设备也有设备的指纹&#xff0c;我们可以把设备指纹理解为设备的唯一识别码。 构建设备指纹需要采集设备硬件信息、软件信息、环境信息、网络信息等维度信息&#xff0c;进行加密/压缩&#xff0c;再通过算法处理&#xff0c;赋予设备唯…

手机视频提取gif怎么操作?分享这个方法不能错过!

随着网络的发展动态gif表情包已经是人们交流的重要部分了。想要通过手机来实现视频转换gif的操作&#xff0c;还不想下载软件的情况下。可以通过使用手机端的视频转gif工具-GIF中文网&#xff0c;无需下载软件。手机端轻松一键就能在线实现视频提取gif的操作。一起来看看具体的…

【ETAS CP AUTOSAR工具链】RTA-OS基本概念与开发流程

RTA-OS基于早期ETAS操作系统的成熟技术&#xff0c;迄今为止&#xff0c;已在全球超过3.5亿个ECU中使用。RTA-OS是一个可静态配置的抢占式实时操作系统(RTOS)&#xff0c;它常被用于资源受限但有着高性能要求的方案中。内核的实现不仅遵循了AUTOSAR R3.x、R4.0、R4.1、R4.2、R4…

【stomp 实战】spring websocket 接收消息源码分析

后台消息的发送过程&#xff0c;我们通过spring websocket用户消息发送源码分析已经了解了。我们再来分析一下后端接收消息的过程。这个过程和后端发送消息过程有点类似。 前端发送消息 前端发送消息给服务端的示例如下&#xff1a; 发送给目的/app/echo一个消息。 //主动发…

英码科技推出昇腾系列AI加速卡:专为视频解析与模型推理场景打造,更具成本竞争力!

当前&#xff0c;人工智能的发展已进入加速渗透千行百业的阶段&#xff0c;算力已然成为数字化转型关键的新质生产力。随着国际挑战的加剧&#xff0c;国产算力的发展趋势愈发明显&#xff0c;市场需求也呈现出激增的态势。在这一大背景下&#xff0c;华为昇腾以其强大的技术实…

GaussianBody:基于3D高斯散射的服装人体重建

GaussianBody: Clothed Human Reconstruction via 3d Gaussian Splatting GaussianBody&#xff1a;基于3D高斯散射的服装人体重建 Mengtian Li1,2,3, Shengxiang Yao1, Zhifeng Xie1,3,2, Keyu Chen4,2, Yu-Gang Jiang2 李梦田 1,2,3 、姚胜祥 1 、谢志峰 1,3, 2 、陈科宇 4, …

谷歌开源!用 js 编写 Shell 脚本! | 开源日报 No.247

google/zx Stars: 41.4k License: Apache-2.0 zx 是一个用于编写更好脚本的工具。 提供有用的包装器&#xff0c;简化了对 child_process 的操作转义参数并提供合理的默认值使用 JavaScript 编写复杂脚本时比 Bash 更方便可以直接使用 npm 安装 dani-garcia/vaultwarden St…

长难句打卡5.9

For example, the Long Now Foundation has as its flagship project a mechanical clock that is designed to still be marking time thousands of years hence. 例如,今日永存资金会将机械钟表视为旗舰项目,因此该钟表旨在为未来几千年保持计时。 Foundation n.基金会flag…

数据库(MySQL)—— 索引

数据库&#xff08;MySQL&#xff09;—— 索引 什么是索引创建索引使用 CREATE INDEX 语句使用 ALTER TABLE 语句在创建表时定义索引特殊类型索引注意事项 举个例子无索引的情况有索引的情况为什么索引快索引的结构 今天我们来看看MySQL中的索引&#xff1a; 什么是索引 MyS…

unity基础(一)

内容概要&#xff1a; 生命周期函数vector3 位置 方向 缩放旋转等信息Vector3欧拉角和Quaternion四元素unity脚本执行顺序设置 一 生命周期函数 方法说明Awake最早调用,所以一般可以再此实现单例模式OnEnable组件激活后调用,在Awake后会调用一次Start在Update之前调用一次&a…

硬件知识积累 音频插座的了解,看音频插座的原理图来了解音频插座的引脚。

1. 音频接口 音频插座是一种用于连接音频信号线路的电子元件&#xff0c;常见于音频设备&#xff08;如音响、耳机、话筒等&#xff09;中。它的主要作用是将电子信号转化为声音信号&#xff0c;以满足人们对于音乐、电影、游戏等方面的需求。 根据插头形状的不同&#xff0c;音…

和comate一起,用JavaScript实现一个简易版五子棋小游戏

前言 五子棋起源于中国&#xff0c;是全国智力运动会竞技项目之一&#xff0c;是一种两人对弈的纯策略型棋类游戏。双方分别使用黑白两色的棋子&#xff0c;下在棋盘直线与横线的交叉点上&#xff0c;先形成五子连珠者获胜。 这次和Baidu Comate智能代码助手共同完成这个小游戏…