大数据 - Doris系列《一》- Doris简介

目录

🐶1.1 Doris 概述

🐶1.2 OLAP和OLTP(面试)

1. 应用场景

🥙联机事务处理OLTP(On-Line Transaction Processing)

🥙联机分析处理OLAP(On-Line Analytical Processing)

2. OLAP和OLTP比较--“用户行为日志数据”

3. 常见的开源OLAP引擎

🐶1.3 使用场景

🐶1.4 优势

🐶1.5 架构

1.🥙FE(Frontend)

2. 🥙BE(Backend)

3. 🥙MySQL Client

4. Broker:

🐶1.6 默认端口


🐶1.1 Doris 概述

Apache Doris 由百度大数据部研发(之前叫百度 Palo,2018 年贡献到 Apache 社区后, 更名为 Doris ),在百度内部,有超过 200 个产品线在使用,部署机器超过 1000 台,单一 业务最大可达到上百 TB。

Apache Doris 是一个现代化的 MPP(Massively Parallel Processing,即大规模并行处理)

分析型(OLAP数据库产品。仅需亚秒级(一秒钟的十亿分之一)响应时间即可获得查询结果,有效地支持实时数据分析。

大规模并行处理:存储的数据量大、计算的数据量也很大。

Apache Doris 的分布式架构非常简洁,易于运维,并且可以支持 10PB 以上的超大数据集。

Apache Doris 可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。

🐶1.2 OLAP和OLTP(面试)

1. 应用场景

 

OLAP(联机分析处理)OLTP联机事务处理是两种不同类型的数据库处理系统,它们存在的意义主要在于满足不同的业务需求和数据处理目标。

🥙联机事务处理OLTP(On-Line Transaction Processing)

公司业务系统使用数据库的场景,针对业务系统数据库有大量随机的增删改查

  •  高并发

  • 速度要快

  • 支持事务

在淘宝的网站上,OLTP系统用于处理用户的交易,包括浏览商品、下单、付款等。每个用户的交互都会影响数据库中的实时数据,例如库存数量、订单状态等。这确保了淘宝平台能够在高并发环境下迅速处理大量的交易请求。

🥙联机分析处理OLAP(On-Line Analytical Processing)
  • 公司的数据分析使用数据库的场景,对已经生成好的数据进行统计分析

  • 一次操作都是针对的整个数据集

  • 只有查这个动作,不会去增删改

  • 查询的响应速度相对慢点也能接受

  • 并发量要求不是太高

 淘宝也需要使用OLAP系统来进行分析,以了解用户购物习惯、热门商品趋势、销售季节性等信息。通过OLAP,淘宝可以生成各种报告和可视化图表,帮助业务决策者更好地了解市场动态,并采取适当的策略,例如优化推荐算法、调整营销策略等。 OLAP还可以用于监测业务的整体健康状况,发现潜在的问题并及时采取行动。

2. OLAPOLTP比较--“用户行为日志数据”

OLTP

OLAP

数据源

仅包含当前运行日常业务数据

整合来自多个来源的数据,包括OLTP和外部来源

目的

面向应用,面向业务,支撑事务

面向主题,面向分析,支持分析决策

焦点

当下

主要面向过去,面向历史(实时数仓除外)

任务

增删改查

主要是用于读,select查询,写操作很少

响应时间

毫秒

秒,分钟,小时,天,这些取决于数据量和查询的复杂程度

数据量

小数据,MB,GB

大数据,TP,PB

 

3. 常见的开源OLAP引擎

开源OLAP引擎

优点

缺点

技术融合成本

易用性

使用场景

运维成本

引擎类型

ClickHouse

列式存储

单极性彪悍

保留明细数据

分布式集群在线扩展支持不佳

运维成本极高

非标协议接口

全面

纯列存OLAP

Druid

实时数据摄入

列式存储和位图索引

多租户和高并发

OLAP性能分场景表现差异大

使用门槛高

仅支持聚合查询

非标协议接口

局限

MOLAP

TiDB

HTAP混合数据库

同时支持明细和聚合查询

高度兼容mysql

非列式存储

OLAP能力不足

SQL标准

全面

纯列存OLAP

Kylin

与计算引擎,可以对数据一次聚合多次查询

支持数据规模超大

易用性强,支持标准sql

性能强,查询数据快

需要依赖hadoop生态

仅支持聚合查·询

不支持adhoc查询

不支持join和对数据的更新

SQL标准

局限

MOLAP

Doris

GooleMesa+Apache Impa+ORCFile/Parquet

主键更新

支持Rollup Table

高并发和高通图的Ad-hoc查询

支持聚合+明细数据查询

无外部系统依赖

成熟度不够

兼容mysql访问协议

全面

HOLAP

🐶1.3 使用场景

  • 报表分析

    • 实时看板 (Dashboards)

    • 面向企业内部分析师和管理者的报表

    • 面向用户或者客户的高并发报表分析(Customer Facing Analytics)。比如面向网站主的站点分析、面向广告主的广告报表,并发通常要求成千上万的 QPS ,查询延时要求毫秒级响应。著名的电商公司京东在广告报表中使用 Apache Doris ,每天写入 100 亿行数据,查询并发 QPS 上万,99 分位的查询延时 150ms。

  • 即席查询(Ad-hoc Query):面向分析师的自助分析,查询模式不固定,要求较高的吞吐。小米公司基于 Doris 构建了增长分析平台(Growing Analytics,GA),利用用户行为数据对业务进行增长分析,平均查询延时 10s,95 分位的查询延时 30s 以内,每天的 SQL 查询量为数万条。

  • 统一数仓构建 :一个平台满足统一的数据仓库建设需求,简化繁琐的大数据软件栈。海底捞基于 Doris 构建的统一数仓,替换了原来由 Spark、Hive、Hbase、Phoenix 组成的旧架构,架构大大简化。

  • 数据湖联邦查询:通过外表的方式联邦分析位于 Hive、Hudi 中的数据,在避免数据拷贝的前提下,查询性能大幅提升

🐶1.4 优势

 

🐶1.5 架构

Doris 的架构很简洁,只设 FE(Frontend)前端进程、BE(Backend)后端进程两种角色、两个后台的服务进程,不依赖于外部组件,方便部署和运维,FE、BE 都可在线性扩展。

1.🥙FE(Frontend)

  存储、维护集群元数据;负责接收、解析查询请求,规划查询计划,调度查询执行,返回查询结果。主要有三个角色:

  • Leader 和 Follower:主要是用来达到元数据的高可用,保证单节点宕机的情况下,元数据能够实时地在线恢复,而不影响整个服务。

    注意点:follower的存活数量要超过半数才能正常执行。

    • Leader: ①生成sql的执行计划 ②修改,写入元数据 ③备份元数据

    • follower: ①生成sql的执行计划 ② 备份元数据 ③leader挂了以后,竞选leader

  • Observer:用来扩展查询节点,同时起到元数据备份的作用。如果在发现集群压力非常大的情况下,需要去扩展整个查询的能力,那么可以加 observer 的节点。observer 不参与任何的写入,只参与读取。

    • observer: ①生成sql的执行计划 ②备份元数据

2. 🥙BE(Backend)

负责物理数据的存储和计算依据 FE 生成的物理计划,分布式地执行查询。数据的可靠性由 BE 保证,BE 会对整个数据存储多副本或者是三副本。副本数可根据需求动态调整。

3. 🥙MySQL Client

Doris 借助 MySQL 协议,用户使用任意 MySQL 的 ODBC/JDBC 以及 MySQL 的客户端,都可以直接访问 Doris。

mysql -uroot -p -P9030 -hhadoop01

Mysql 本地主机名:localhost 端口号:3306

Mysql linux本地主机名或IP地址:hadoop01 hadoop02 hadoop03 192.168.252.101/192.168.252.102/192.168.252.103

4. Broker:

一个独立的无状态进程。封装了文件系统接口,提供 Doris 读取远端存储系统中文件的能力,包括 HDFS,S3,BOS 等。

 

🐶1.6 默认端口

实例名称

端口名称

默认端口

通讯方向

说明

BE

be_port

9060

FE-->BE

BE 上 thrift server 的端口,用于接收来自 FE 的请求

BE

webserver_port

8040

BE<-->FE

BE 上的 http server 端口

BE

heartbeat_service_port

9050

FE-->BE

BE 上心跳服务端口,用于接收来自 FE 的心跳

BE

brpc_prot*

8060

FE<-->BE,BE<-->BE

BE 上的 brpc 端口,用于 BE 之间通信

FE

http_port

8030

FE<-->FE ,用户<--> FE

FE 上的 http_server 端口

FE

rpc_port

9020

BE-->FE ,FE<-->FE

FE 上 thirft server 端口

FE

query_port

9030

用户<--> FE

FE 上的 mysql server 端口

FE

edit_log_port

9010

FE<-->FE

FE 上 bdbje 之间通信用的端口

Broker

broker_ipc_port

8000

FE-->BROKER,BE-->BROKER

Broker 上的 thrift server,用于接收请求

常用端口号

端口号

作用

8030

FE的Web UI端口

8040

BE的Web UI端口

9030

MYSQL客户端连接Doris的端口

9050

BE上心跳服务端口,用于接收来自FE的心跳

9010

FE之间的通信的端口

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/290586.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

大数据技术在民生资金专项审计中的应用

一、应用背景 目前&#xff0c;针对审计行业&#xff0c;关于大数据技术的相关研究与应用一般包括大数据智能采集数据技术、大数据智能分析技术、大数据可视化分析技术以及大数据多数据源综合分析技术。其中&#xff0c;大数据智能采集数据技术是通过网络爬虫或者WebService接…

Linux程序、进程以及计划任务(第一部分)

目录 一、程序和进程 1、什么是程序&#xff1f; 2、什么是进程&#xff1f; 3、线程是什么&#xff1f; 4、如何查看是多线程还是单线程 5、进程结束的两种情况&#xff1a; 6、进程的状态 二、查看进程信息的相关命令 1、ps&#xff1a;查看静态的进程统计信息 2、…

WEB:探索开源PDF.js技术应用

1、简述 PDF.js 是一个由 Mozilla 开发的开源 JavaScript 库&#xff0c;用于在浏览器中渲染 PDF 文档。它的目标是提供一个纯粹的前端解决方案&#xff0c;摆脱了依赖插件或外部程序的束缚&#xff0c;使得在任何支持 JavaScript 的浏览器中都可以轻松地显示 PDF 文档。 2、…

git的拉取、提交、合并、解决冲突详细教程

我们在开发中使用git&#xff0c;经常会遇到拉代码&#xff0c;切换分支&#xff0c;提交代码&#xff0c;新建分支&#xff0c;合并代码&#xff0c;解决冲突这些操作&#xff0c;下面我跟大家分享一个好用的git工具来进行这些操作。 首先&#xff0c;我们下载一个git工具 点…

HarmonyOS4 vp单位计算

我们在harmonyOS中设置宽度等单位时 需要在后面写明具体是什么单位 width("100%")这里 我们就写明了是 百分之百 如果不写 直接给数值 width(100)那么 它就会按vp去读 这里就被读为 100vp vp 之前是一种移动端宽度概念 后面鸿蒙重定义了它的概念 计算公式是 px 乘…

实战环境搭建-安装xshell和xftp

安装xshell和xftp的原因是想远程虚拟机&#xff0c;很多时候&#xff0c;直接去操作虚拟机明显不太方便。 所以&#xff0c;我们需要一个能够搭载虚拟机和本地电脑之间的桥梁&#xff0c;哪怕是你们去了企业&#xff0c;也和这个类似&#xff0c;唯一的区别是企业里面更多连接…

Centos 磁盘挂载和磁盘扩容(新加硬盘方式)

步骤总结如下 一、对磁盘进行分区 二、对磁盘进行格式化 三、将磁盘挂载到对应目录 四、做开机自动挂载磁盘 磁盘分区 1.使用命令&#xff1a;fdisk -l 查看磁盘&#xff08;注&#xff1a;正常在Centos7中第一块数据盘标识一般是/dev/sda,第二块数据盘标识一般是/dev/sdb&…

2024年防止内卷和被潜规则,RocketMQ消息中间件实战派上下册上线啦|架构随笔录

2023已经过去啦&#xff0c;作为技术小伙伴一定要做好2024年的规划&#xff0c;只有这样才能够避免内卷和潜规则。 2024年即将是一个重新开始的一年&#xff0c;但是你要说互联网不倦&#xff0c;那是不可能的&#xff0c;就连某大厂都开始走下坡路啦&#xff0c;里面卷的是不…

时间序列平稳性相关检验方法

理解平稳性 一般来说&#xff0c;平稳时间序列是指随着时间的推移具有相当稳定的统计特性的时间序列&#xff0c;特别是在均值和方差方面。平稳性可能是一个比较模糊的概念&#xff0c;将序列排除为不平稳可能比说序列是平稳的更容易。通常不平稳序列有几个特征&#xff1a; …

【Pytorch】学习记录分享13——OCR(Optical Character Recognition,光学字符识别)

[TOC](OCR(Optical Character Recognition,光学字符识别)) 1. OCR资源汇总 OCR(Optical Character Recognition,光学字符识别)指提取图像中的文字信息&#xff0c;通常包括文本检测和文本识别。 文字检测&#xff1a;将图片中的文字区域位置检测出来&#xff08;如图1(b)所示…

怎么寄快递可以便宜一点,怎么领快递优惠券?

随着网购越来越多了&#xff0c;人们对于寄快递的需求也越来越大啦。那么&#xff0c;怎么样寄快递才便宜呢&#xff1f;今天&#xff0c;就让有十年网店经验的小编来告诉你。忒别是最近又临近年关&#xff0c;人民喜悦的心情越来越迫切。亲戚朋友之间互送礼品的往来也越来越密…

C++ 多态向下转型详解

文章目录 1 . 前言2 . 多态3 . 向下转型3.1 子类没有改进父类的方法下&#xff0c;去调用该方法3.2 子类有改进父类的方法下&#xff0c;去调用该方法3.3 子类没有改进父类虚函数的方法下&#xff0c;去调用改方法3.4 子类有改进父类虚函数的方法下&#xff0c;去调用改方法3.5…

【设计模式之美】面向对象分析方法论与实现(二):需求到接口实现的方法论

文章目录 一. 进行面向对象设计1. 划分职责>需要有哪些类2. 定义类及其属性和方法3. 定义类与类之间的交互关系4. 将类组装起来并提供执行入口 二. 如何进行面向对象编程&#xff1f;1. 接口实现2. 辩证思考与灵活应用 【设计模式之美】面向对象分析方法论与实现&#xff08…

【JUC】Volatile关键字+CPU/JVM底层原理

Volatile关键字 volatile内存语义 1.当写一个volatile变量时&#xff0c;JMM会把该线程对应的本地内存中的共享变量值立即刷新回主内存中。 2.当读一个volatile变量时&#xff0c;JMM会把该线程对应的本地内存设置为无效&#xff0c;直接从主内存中读取共享变量 所以volatile…

力扣hot100 二叉树展开为链表 递归 特殊遍历

&#x1f468;‍&#x1f3eb; 题目地址 &#x1f469;‍&#x1f3eb; 参考题解 &#x1f60b; 将左子树插入到右子树上 /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* TreeNode right;* TreeNode() {}* …

基于ssm毕业设计选题系统论文

摘 要 现代经济快节奏发展以及不断完善升级的信息化技术&#xff0c;让传统数据信息的管理升级为软件存储&#xff0c;归纳&#xff0c;集中处理数据信息的管理方式。本毕业设计选题系统就是在这样的大环境下诞生&#xff0c;其可以帮助管理者在短时间内处理完毕庞大的数据信息…

ubuntu20快速搭建自己的git代码仓库环境

##安装docker groupadd docker apt install docker.io ##用户添加到docker组 sudo usermod -aG docker ${USER} ##用户添加sudo cat /etc/sudoers apt install vim ##sudoers文件权限可以写 chmod uw sudoers vim sudoers ##在root底下添加这行&#xff0c;yym改到自…

Android 项目适配64位架构后,腾讯X5内核加载失败解决方案

前些天发现了一个蛮有意思的人工智能学习网站,8个字形容一下"通俗易懂&#xff0c;风趣幽默"&#xff0c;感觉非常有意思,忍不住分享一下给大家。 &#x1f449;点击跳转到教程 在接入最新腾讯X5内核后&#xff0c;发现初始化会失败&#xff0c;在APP模块的build.gra…

关于设计模式的一点总结

一、GoF 23种设计模式 1.分类 GoF 23种设计模式可分为几类&#xff1a;创建型、结构型和行为型。如下表 分类设计模式创建型单例模式、工厂方法模式、抽象工厂模式、原型模式、建造者模式结构型代理模式、适配器模式、装饰者模式、桥接模式、组合模式、门面模式、享元模式行…

js——json对象相互转化——js基础积累

js——json对象相互转化——js基础积累 需求场景解决步骤1&#xff1a;定义一个变量接收此字段&#xff0c;方便处理解决步骤2&#xff1a; { 外面的双引号要去掉解决步骤3&#xff1a;使用正则去除参数中的\\解决步骤4&#xff1a;如果此参数必须以{开头&#xff0c;以}结尾解…