手把手教你解决 Hive 的数据倾斜

文章目录

    • 数据倾斜是什么?
    • 产生数据倾斜的场景
      • 1.空值引发的数据倾斜
      • 2.不可拆分的大文件产生的数据倾斜
      • 3.数值膨胀引发的数据倾斜
      • 4.不同数据类型引发的数据倾斜
      • 5.Count(distinct) 引发的数据倾斜
      • 6.表 Join 操作时引发数据倾斜
      • 7.group by 引发的数据倾斜
    • 解决数据倾斜
      • 数据准备
      • 模拟数据倾斜场景
        • 1.Group By 引发的数据倾斜
        • 2.Count(distinct) 引发的数据倾斜
        • 3.Join 操作引发的数据倾斜

数据倾斜是什么?

在 Hive 中,数据倾斜是指某些任务的数据量或处理时间远远超过其他任务,导致整体任务执行效率低下的现象。

产生数据倾斜的根本原因是在进行 Shuffle 流程后,导致 Key 的分布不均匀,造成某些 Reduce 处理的数量较大,形成数据倾斜,导致整个任务的执行效率下降。

产生数据倾斜的场景

1.空值引发的数据倾斜

如果在进行聚合操作时,存在大量空值,会导致这些空值会被分配到一个 Reduce 中,导致该 Reduce 需要处理大量的数据,造成数据倾斜现象。

解决方法

  • 过滤空值

  • 给空值数据设计随机值

例如:

select a,b,c from t1 join t2 on case when t1.id is null then concat('randNum',rand()) else t1.id end = t2.id;

2.不可拆分的大文件产生的数据倾斜

在处理某些大文件数据时,由于其源压缩格式不能进行拆分,例如:Gzip、Snappy,导致在处理这些数据时,只能将其放在一个 MapTask 中进行处理,从而产生数据倾斜。

解决方法

  • 先在 HDFS 上进行解压,然后再进行操作

  • 尽量选用可拆分的压缩文件格式

3.数值膨胀引发的数据倾斜

在多维聚合计算时,如果进行分组聚合的字段过多,且数据量很大,Map 端的聚合不能很好地起到数据压缩的情况下,会导致 Map 端产出的数据急速膨胀,导致作业产生 OOM。

解决方法

  • 在 Hive 中可以通过参数 hive.new.job.grouping.set.cardinality 配置的方式自动控制作业的拆解,该参数默认值是 30。该参数主要针对 grouping sets/rollups/cubes 这类多维聚合的操作生效,如果最后拆解的键组合大于该值,会启用新的任务去处理大于该值之外的组合。如果在处理数据时,某个分组聚合的列有较大的倾斜,可以适当调小该值。

4.不同数据类型引发的数据倾斜

表 A 的 Key 值是 int 类型,表 B 中的 Key 值既有 int 又有 string 类型,在两个表之间进行 Join 操作时,会默认按 Hash 中 int 类型的 id 进行分配,导致大量 string 类型的数据会被分配到一个 Reduce 中,产生数据倾斜。

解决方法

  • 在连接时转换为统一的数据类型,将表 B 中的 Key 统一转换为 string 类型(虽然表 A 的 Key 是 int 类型,但是 Hive 底层会在连接时会进行隐式转换)

  • 在建表时,统一数据类型

5.Count(distinct) 引发的数据倾斜

Count(distinct) 是产生数据倾斜的经典场景,因为该任务是全局排序的操作,在没有分组的情况下,只会产生一个 Reduce 任务,数据量大时自然就会产生数据倾斜。

解决方法

  • 先进行去重操作,然后分组统计

例如:

-- 优化前
select a,count(distinct b) from t group by a;

-- 优化后
select a,sum(1) from (select a, b from t group by a,b)t1 group by a;

如果去重字段较多,可以先采用上述方式进行计算,最后再进行 union all

6.表 Join 操作时引发数据倾斜

在小表 Join 大表时,如果某个 Key 的值过大,就会产生数据倾斜。

解决方法

  • MapJoin,将小表加载到内存中,在 Map 端就进行 Join 操作,避免了 Shuffle 流程。在 Hive 中默认开启该功能,但限制了小表的大小,可以通过配置参数 set hive.mapjoin.smalltable.filesize=2500000; 进行修改,默认小表最大 25MB。将小表放在 Join 操作中的左表中,优先加载到内存中。

  • set hive.auto.convert.join=true; 设置是否允许 Hive 自动根据文件量大小将 common join 转成 map join,避免大量的 Shuffle 操作,该值默认为 true

MapJoin 优化就是在 Map 阶段完成 Join 工作,而不是像通常的 common join 在 Reduce 阶段按照 Join 的列值进行分发数据到每个 Reduce 上进行 Join 工作,这样避免了 Shuffle 阶段,从而避免了数据倾斜。

这个操作会将所有的小表全量复制到每个 Map 任务节点,然后再将小表缓存在每个 Map 节点的内存里与大表进行 Join 工作,所以小表的大小的不能太大,否则会出现 OOM 报错。

在 Hive 中,还可以通过 hive.optimize.skewjoin 参数用于处理在执行 JOIN 操作时可能出现的数据倾斜问题,默认为 false。设置这个参数为 true可以让 Hive 自动优化和处理倾斜的 JOIN,从而提高查询性能。

对于检测到的倾斜键值,Hive 会将其单独处理。具体方法是将这些倾斜数据分成小批次,并分配给多个 Reducer 处理。在 Map 阶段,Hive 会统计每个键值的数据量,如果某个键值的数据量超过一定阈值(该值可以通过参数 hive.skewjoin.key 调整,默认为 100000 行),则会被判定为倾斜数据。

如果是大表 Join 大表的场景,且数据量无法通过过滤等操作减少,那么这种情况就只能调整 Reduce 的大小了。

7.group by 引发的数据倾斜

分组维度过小,某值的数量过多,从而引发数据倾斜。

解决方法

  • 调整 Hive 参数
set hive.map.aggr=true; --默认true,在map端会做部分聚集操作,效率更高但需要更多的内存
-- 进行GroupBy操作时,是否自动检测并处理数据倾斜,均衡Reducer负载,默认为false
set hive.groupby.skewindata=true;

hive.groupby.skewindata 设置为 true 时,它会使数据倾斜时达到负载均衡。

它将计算变成了两个 MapReduce,在第一个 MR 的 shuffle 过程进行 Partition 时,随机给 key 打标记,使每个 key 随机均匀分布到各个 Reduce 上计算,但是这样只能完成部分计算,因为相同 key 没有分配到相同 Reduce上。

第二个 MR 就是正常的执行流程,对第一次 MR 的执行结果再次执行,但是数据分布不均匀的问题在第一个 MR 已经得到了很大的改善,所以并不会造成数据倾斜。

解决数据倾斜

数据准备

在这里,我通过 Python 生成了包含数据倾斜问题的模拟数据:

import random

# 文件名
filename = 'input_data.txt'

# 数据量
num_records = 50000000

# 倾斜key
skewed_key = 'key_skewed'

# 生成数据
with open(filename, 'w') as f:
    for _ in range(num_records):
        if random.random() < 0.8:
            f.write(f'{skewed_key}\t{random.randint(1, 100)}\n')
        else:
            key = f'key_{random.randint(1, 10000)}'
            value = random.randint(1, 100)
            f.write(f'{key}\t{value}\n')

print(f'Data written to {filename}')

一共会生成 5000w 条数据,其中 80% 为倾斜数据,因为它们的 key 相同,剩下的为正常数据。

数据生成完成后,大小约为 643MB,将生成的数据上传到 HDFS 中:

hdfs dfs -mkdir -p /user/hive/warehouse/skew_data
hdfs dfs -put input_data.txt /user/hive/warehouse/skew_data/

接下来,创建 Hive 表并加载数据:

CREATE DATABASE IF NOT EXISTS skew_db;
USE skew_db;

CREATE TABLE IF NOT EXISTS skewed_table (
    key STRING,
    value INT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t';

LOAD DATA INPATH '/user/hive/warehouse/skew_data/input_data.txt' INTO TABLE skewed_table;

这里直接创建,不指定任何存储与压缩格式。

模拟数据倾斜场景

环境说明

  • 执行环境:Hive On Spark
  • YARN 总资源:<memory:12 GB, vCores:12>
  • AM 最小资源:<memory:1024, vCores:1>
  • AM 最大资源:<memory:2048, vCores:2>
  • 容量调度器:0.8
1.Group By 引发的数据倾斜

在这里,我先不做任何优化操作,直接进行 group by 操作,按 key 分组统计 value 列的累加求和值。

SELECT key, SUM(value)
FROM skewed_table
GROUP BY key;

执行计划如下:

Explain
STAGE DEPENDENCIES:
  Stage-1 is a root stage
  Stage-0 depends on stages: Stage-1

STAGE PLANS:
  Stage: Stage-1
    Spark
      Edges:
        Reducer 2 <- Map 1 (GROUP, 53)
      DagName: ds_20240524105012_45af3c14-bde8-460d-bf4d-ad47b929e96b:1
      Vertices:
        Map 1 
            Map Operator Tree:
                TableScan
                  alias: skewed_table
                  Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                  Select Operator
                    expressions: key (type: string), value (type: int)
                    outputColumnNames: key, value
                    Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                    Group By Operator
                      aggregations: sum(value)
                      keys: key (type: string)
                      mode: hash
                      outputColumnNames: _col0, _col1
                      Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                      Reduce Output Operator
                        key expressions: _col0 (type: string)
                        sort order: +
                        Map-reduce partition columns: _col0 (type: string)
                        Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                        value expressions: _col1 (type: bigint)
            Execution mode: vectorized
        Reducer 2 
            Execution mode: vectorized
            Reduce Operator Tree:
              Group By Operator
                aggregations: sum(VALUE._col0)
                keys: KEY._col0 (type: string)
                mode: mergepartial
                outputColumnNames: _col0, _col1
                Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                File Output Operator
                  compressed: false
                  Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                  table:
                      input format: org.apache.hadoop.mapred.SequenceFileInputFormat
                      output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
                      serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

  Stage: Stage-0
    Fetch Operator
      limit: -1
      Processor Tree:
        ListSink

首先,Stage-1 进行表扫描、选择和分组操作,通过 Map 任务将数据分组,然后通过 Reduce 任务聚合数据。接着,Stage-0Stage-1 获取数据,并输出结果。整个过程采用矢量化执行模式以提高性能。

矢量化执行(Vectorized Execution)是一种提高查询性能的技术,通过一次处理一大块数据(数据块或向量),而不是一行一行地处理。其主要优点包括:

  1. 更高的处理速度:利用现代 CPU 的并行处理能力,对一批数据进行同时操作。
  2. 减少函数调用:在处理一大块数据时,只需要一次函数调用,而不是每行数据都调用一次。
  3. 更好的缓存利用:处理连续的大块数据,提高 CPU 缓存的利用效率。
  4. 优化内存访问:更高效的内存读取模式,减少访问延迟。
    在 Hive 中,可以通过启用矢量化执行参数来利用这种技术:
SET hive.vectorized.execution.enabled = true;
SET hive.vectorized.execution.reduce.enabled = true;

这样,Hive 在处理查询时,会使用矢量化执行来加速数据处理,特别是在处理大数据量时效果显著。

未优化前执行过程如下:

在这里插入图片描述

总运行时长为 23s,其中有 3 MapTask, 53 个 ReduceTask,即使没有进行优化,但得益于 Spark 优秀的计算与自动优化能力,它也能做到高效率的运行。

下面调整 Hive 参数,对 group by 数据倾斜进行优化:

-- 控制是否在Map阶段进行部分聚合,默认为true
set hive.map.aggr=true;
-- 进行GroupBy操作时,是否自动检测并处理数据倾斜,均衡Reducer负载,默认为false
set hive.groupby.skewindata=true;

优化后的执行计划如下:

Explain
STAGE DEPENDENCIES:
  Stage-1 is a root stage
  Stage-0 depends on stages: Stage-1

STAGE PLANS:
  Stage: Stage-1
    Spark
      Edges:
        Reducer 2 <- Map 1 (GROUP PARTITION-LEVEL SORT, 53)
        Reducer 3 <- Reducer 2 (GROUP, 53)
      DagName: ds_20240524111335_c1a08cdc-0745-4ee7-8bcb-73813337e5ba:5
      Vertices:
        Map 1 
            Map Operator Tree:
                TableScan
                  alias: skewed_table
                  Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                  Select Operator
                    expressions: key (type: string), value (type: int)
                    outputColumnNames: key, value
                    Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                    Group By Operator
                      aggregations: sum(value)
                      keys: key (type: string)
                      mode: hash
                      outputColumnNames: _col0, _col1
                      Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                      Reduce Output Operator
                        key expressions: _col0 (type: string)
                        sort order: +
                        Map-reduce partition columns: rand() (type: double)
                        Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                        value expressions: _col1 (type: bigint)
            Execution mode: vectorized
        Reducer 2 
            Execution mode: vectorized
            Reduce Operator Tree:
              Group By Operator
                aggregations: sum(VALUE._col0)
                keys: KEY._col0 (type: string)
                mode: partials
                outputColumnNames: _col0, _col1
                Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                Reduce Output Operator
                  key expressions: _col0 (type: string)
                  sort order: +
                  Map-reduce partition columns: _col0 (type: string)
                  Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                  value expressions: _col1 (type: bigint)
        Reducer 3 
            Execution mode: vectorized
            Reduce Operator Tree:
              Group By Operator
                aggregations: sum(VALUE._col0)
                keys: KEY._col0 (type: string)
                mode: final
                outputColumnNames: _col0, _col1
                Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                File Output Operator
                  compressed: false
                  Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                  table:
                      input format: org.apache.hadoop.mapred.SequenceFileInputFormat
                      output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
                      serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

  Stage: Stage-0
    Fetch Operator
      limit: -1
      Processor Tree:
        ListSink

和上面一样,Stage-1 进行表扫描、选择和分组操作,通过 Map 任务将数据分组。第一个 Reduce 做部分聚合(mode: partials),第二个 Reduce 完成最终聚合(mode: final)。接着,Stage-0Stage-1 获取数据,并输出结果。同样,整个过程采用矢量化执行模式。

优化后执行过程如下:

在这里插入图片描述
我们从 DAG 图中可以看出,它多了一个阶段,作用是保障倾斜 key 进行分组时的负载均衡操作,改善倾斜 key 造成的影响。

其中有 3 MapTask,2 个 Reduce 任务,每次均为 53 个 ReduceTask。虽然增加了 Reduce 任务,但是运行时长缩短到了 15s,优化了整整 8s,可以看到调参还是起到了一定的作用。

如果你使用的引擎是 Hive On MR,那么该效果会体现的更加明显,感兴趣的同学可以自行尝试一下。

2.Count(distinct) 引发的数据倾斜

不做任何优化,按 key 分组统计每组中存在多少个不同的 value

SELECT key,count(distinct value) FROM skewed_table GROUP BY key;

执行计划如下:

Explain
STAGE DEPENDENCIES:
  Stage-1 is a root stage
  Stage-0 depends on stages: Stage-1

STAGE PLANS:
  Stage: Stage-1
    Spark
      Edges:
        Reducer 2 <- Map 1 (GROUP PARTITION-LEVEL SORT, 53)
      DagName: ds_20240524143342_8247aea2-8786-4f99-a4a8-79cfd844b80a:11
      Vertices:
        Map 1 
            Map Operator Tree:
                TableScan
                  alias: skewed_table
                  Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                  Select Operator
                    expressions: key (type: string), value (type: int)
                    outputColumnNames: key, value
                    Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                    Group By Operator
                      keys: key (type: string), value (type: int)
                      mode: hash
                      outputColumnNames: _col0, _col1
                      Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                      Reduce Output Operator
                        key expressions: _col0 (type: string), _col1 (type: int)
                        sort order: ++
                        Map-reduce partition columns: _col0 (type: string)
                        Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
            Execution mode: vectorized
        Reducer 2 
            Execution mode: vectorized
            Reduce Operator Tree:
              Group By Operator
                keys: KEY._col0 (type: string), KEY._col1 (type: int)
                mode: mergepartial
                outputColumnNames: _col0, _col1
                Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                Group By Operator
                  aggregations: count(_col1)
                  keys: _col0 (type: string)
                  mode: complete
                  outputColumnNames: _col0, _col1
                  Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                  File Output Operator
                    compressed: false
                    Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                    table:
                        input format: org.apache.hadoop.mapred.SequenceFileInputFormat
                        output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
                        serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

  Stage: Stage-0
    Fetch Operator
      limit: -1
      Processor Tree:
        ListSink

首先,Stage-1 进行表扫描、选择和分组操作,通过 Map 任务将数据分组。

这里在 Reduce 任务中,一共有两次 GroupBy 操作,第一次根据 keyvalue 列联合分组去重,减少数据量,然后第二次根据 key 分组统计。最后,Stage-0Stage-1 获取数据,并输出结果,整个过程采用矢量化执行模式。

其实,从这里可以看出,Spark 自动对这种情况进行了优化,它采用的这种方式和我们手动调优的思路是一样的。

未优化前执行过程如下:

在这里插入图片描述

共耗时 25s

下面通过对 SQL 语句进行优化:

SELECT key,sum(1) FROM (SELECT key,value FROM skewed_table GROUP BY key,value)t1 GROUP BY key;

手动优化后的执行计划如下:

Explain
STAGE DEPENDENCIES:
  Stage-1 is a root stage
  Stage-0 depends on stages: Stage-1

STAGE PLANS:
  Stage: Stage-1
    Spark
      Edges:
        Reducer 2 <- Map 1 (GROUP PARTITION-LEVEL SORT, 53)
      DagName: ds_20240524163733_b1dc11cb-2d4b-4a59-8074-804ac1c5a503:13
      Vertices:
        Map 1 
            Map Operator Tree:
                TableScan
                  alias: skewed_table
                  Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                  Select Operator
                    expressions: key (type: string), value (type: int)
                    outputColumnNames: key, value
                    Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                    Group By Operator
                      keys: key (type: string), value (type: int)
                      mode: hash
                      outputColumnNames: _col0, _col1
                      Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                      Reduce Output Operator
                        key expressions: _col0 (type: string), _col1 (type: int)
                        sort order: ++
                        Map-reduce partition columns: _col0 (type: string)
                        Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
            Execution mode: vectorized
        Reducer 2 
            Execution mode: vectorized
            Reduce Operator Tree:
              Group By Operator
                keys: KEY._col0 (type: string), KEY._col1 (type: int)
                mode: mergepartial
                outputColumnNames: _col0, _col1
                Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                Select Operator
                  expressions: _col0 (type: string)
                  outputColumnNames: _col0
                  Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                  Group By Operator
                    aggregations: sum(1)
                    keys: _col0 (type: string)
                    mode: complete
                    outputColumnNames: _col0, _col1
                    Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                    File Output Operator
                      compressed: false
                      Statistics: Num rows: 1 Data size: 6748992000 Basic stats: COMPLETE Column stats: NONE
                      table:
                          input format: org.apache.hadoop.mapred.SequenceFileInputFormat
                          output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
                          serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

  Stage: Stage-0
    Fetch Operator
      limit: -1
      Processor Tree:
        ListSink

优化后执行过程如下:

在这里插入图片描述

总耗时 20s,缩短了 5s,从执行计划中可以看出,优化前和优化前差不多,这完全是因为 Spark 的功劳,因为它对许多场景都进行了优化,大大减轻了开发人员的负担。

这里快 5s 是因为省去了 Spark 自动调优的时间,因为对 SQL 进行了手动调优,所以 Spark 发现无需再进行优化,直接运行即可,所以这里快了 5s

3.Join 操作引发的数据倾斜

为了模拟 Join 操作,这里根据主表的数据,再重新创建一张表(后续将此表称为小表):

CREATE TABLE small_table AS SELECT key,'1' `value` FROM skewed_table GROUP BY key;

小表中一共有 10001 条记录,其中的 key 都是不同的值。

现在,将两个表根据 key 进行 Join,完成联合查询:

SELECT
  smt.key,smt.value,skt.key,skt.value
FROM
  small_table smt
JOIN
  skewed_table skt
ON
  skt.key = smt.key
LIMIT
	10;

毫无疑问,这里肯定会引发数据倾斜,我们小表里头的数据是根据主表的 keyvalue 联合去重后插入的,但是由于我们的主表中,某个 key 存在大量的数据(这里该 key 约为 4000w 条),所以当我在执行 Join 操作时,会因为该 key 直接引发数据膨胀,产生严重的数据倾斜。

先来看看执行流程:

在这里插入图片描述

在这个案例中,一共有两个 Map 任务,但是没有 Reduce 任务,这是因为什么呢?

先来看看它们详细的执行内容,首先看第一个 Map:

在这里插入图片描述

第一个 Map 读取的是小表 small_table 中的数据。

现在我们再来看看第二个 Map 任务:

在这里插入图片描述

第二个 Map 读取的是主表 skewed_table 中的数据,一共有 3 个 MapTask 任务,因为我们主表的数据文件一共有约 643MB,一个 MapTask 处理 256MB,所以这里需要 3 个 MapTask。

之所以没有 Reduce 任务是因为自动转为了 MapJoin 操作,因为我们小表内容比较少,数据量才 1w 条(约 10MB),而主表有 5000w 条(约 643MB),满足转换为 MapJoin 的条件,它会提前将小表加载到内存中,然后在 Map 阶段执行 Join 操作,避免了 Shuffle 阶段。

所以即使我这里某个 key 的值达到了 4000w 条,它也不会发生数据倾斜。

MapJoin 是默认开启的,所以这里会自动进行转换,可以通过如下参数进行调整:

-- 是否将common join转成map join,默认为true;
set hive.auto.convert.join=true;
--大表Join小表判断的阈值,如果表的大小小于25Mb,则会被判定为小表,默认小表大小为:25Mb
set hive.mapjoin.smalltable.filesize=25000000;

还可以进行一些其它的优化操作:

-- 是否自动处理倾斜的键值,默认false
set hive.optimize.skewjoin=true;
-- 处理自动倾斜的阈值,默认10w行
set hive.skewjoin.key=100000;

当我们开启 Skew Join 之后,在运行时,会对数据进行扫描并检测哪个 key 会出现倾斜,对于会倾斜的 key,会将其分散到多个 Reducer 处理,从而均衡负载,提高查询性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/640804.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[xx点评完结]——白马点评完整代码+rabbitmq实现异步下单+资料,免费

项目所有功能已测&#xff0c;均可以跑通&#xff0c;Jmeter和RabbitMQ也都测了。 项目源码:dianpinghui: 仿黑马点评项目 资料: https://pan.baidu.com/s/1kTCn9PxgeIey90WgM4KRqA?pwdn66b 对佬有帮助可以给个star哈&#xff0c;感谢&#x1f339;&#x1f339;&#x1f3…

【Linux】进程终止与进程等待

目录 进程终止 errno exit和_exit 进程等待 wait和waitpid 宏&#xff1a;WIFEXITED 非阻塞等待 进程终止 下面要谈的一个话题就是进程终止&#xff0c;就是说一个进程退出了&#xff0c;可能有三种情况 1.进程代码执行完&#xff0c;结果是正确的 2.进程代码执行完&…

kali下载zsteg和stegpy

1.kali下载zsteg 从 GitHub 上克隆zsteg到kali git clone https://github.com/zed-0xff/zsteg 切换目录 cd zsteg 用于安装名为 zsteg 的 Ruby Gem 包 gem install zsteg 2.kali下载stegpy 下载网站内的stegpy-master压缩包GitCode - 开发者的代码家园 并拉到kali中 切换到s…

pycharm配置python开发环境—miniconda+black+gitlab

下载miniconda管理python开发环境 miniconda下载地址&#xff1a;https://docs.anaconda.com/free/miniconda/ miniconda最新版本的python版本是python3.12.2&#xff0c;下载这个miniconda最新版本后&#xff0c;会导致执行conda create -n py31013 python3.10.13指令配置py…

Excel中sum的跨表求和

#实际工作中&#xff0c;一个xlsx文件中会包含多个Excel表格&#xff0c;一般会有“总-分”的关系&#xff0c;如何把分表里的数字汇总到总表里呢&#xff1f; 一般有上图所示的两种表达方式。 可以使用通配符 *&#xff1a;代表任意个数、任意字符&#xff1b; &#xff1f;&…

成都爱尔眼科医院《中、欧国际近视手术大数据白皮书2.0》解读会圆满举行

2024年5月12日&#xff0c;爱尔眼科联合中国健康促进基金会健康传播与促进专项基金、新华社新媒体中心与中南大学爱尔眼科研究院、爱尔数字眼科研究所重磅发布《中、欧国际近视手术大数据白皮书2.0》。这是继2021、2022年在国内相继发布《国人近视手术白皮书》、《2022中、欧近…

Java进阶学习笔记7——权限修饰符

什么是权限修饰符&#xff1f; 就是用来限制类中的成员&#xff08;成员变量、成员方法、构造器、代码块....&#xff09;能够被访问的范围。 protected使用的比较少&#xff0c;但是程序员还是要阅读代码&#xff0c;看官方文档是怎么写的&#xff0c;都会接触到protected修饰…

计算机网络学习小结_物理层

数据通信基础知识 信道相关概念 单工&#xff0c;半双工&#xff0c;全双工 基带信号&#xff1a;信源发出的信号&#xff0c;如计算机输出的文字和图像都是基带信号。基带信号常包含较多低频成分&#xff0c;有的还有直流成分&#xff0c;有的信道不能传输低频成分和直流成…

手撕算法|斯坦福大学教授用60页PPT搞定了八大神经网络

人工智能领域深度学习的八大神经网络常见的是以下几种 1.卷积神经网络&#xff08;CNN&#xff09;&#xff1a; 卷积神经网络是用于图像和空间数据处理的神经网络&#xff0c;通过卷积层和池化层来捕捉图像的局部特征&#xff0c;广泛应用于图像分类、物体检测等领域。 2.循…

2024.5组队学习——MetaGPT(0.8.1)智能体理论与实战(下):多智能体开发

传送门&#xff1a; 《2024.5组队学习——MetaGPT&#xff08;0.8.1&#xff09;智能体理论与实战&#xff08;上&#xff09;&#xff1a;MetaGPT安装、单智能体开发》《2024.5组队学习——MetaGPT&#xff08;0.8.1&#xff09;智能体理论与实战&#xff08;中&#xff09;&…

对AI 感兴趣的小伙伴

如图&#xff0c;欢迎来玩儿&#xff01; 欢迎来玩儿

区块链论文总结速读--CCF A会议 USENIX Security 2024 共7篇 附pdf下载

Conference&#xff1a;33rd USENIX Security Symposium CCF level&#xff1a;CCF A Categories&#xff1a;网络与信息安全 Year&#xff1a;2024 Num&#xff1a;7 1 Title: Practical Security Analysis of Zero-Knowledge Proof Circuits 零知识证明电路的实用安全…

js禁止使用浏览器的前进后退按钮的方法

效果图&#xff1a; // 替换当前页面的历史记录&#xff0c;使用户不能通过浏览器的前进后退按钮导航 history.replaceState(null, null, location.href);// 监听浏览器的历史记录变化事件 window.onpopstate function(event) {// 再次替换当前页面的历史记录&#xff0c;确保…

AWS安全性身份和合规性之Identity and Access Management(IAM)

通过AWS Identity and Access Management&#xff08;IAM&#xff09;&#xff0c;您可以指定谁或什么能够访问AWS中的服务和资源、集中管理精细权限&#xff0c;并分析访问权限以优化跨AWS的权限。 比如一家软件开发公司需要在AWS上创建多个开发人员账户&#xff0c;并对其进…

解禁谷歌等浏览器禁止网站使用麦克等媒体设备

1、浏览器地址栏输入chrome://flags/ 微软的chromium内核的edge浏览器&#xff0c;既可以输入&#xff1a;chrome://flags/ &#xff0c;也可以输入edge://flags/ 2、打开后&#xff0c;界面如下 3、输入搜索&#xff0c;unsafe&#xff0c;并启用、输入需要启用的网址

Algoriddim djay Pro Ai for Mac:AI引领,混音新篇章

当AI遇上音乐&#xff0c;会碰撞出怎样的火花&#xff1f;Algoriddim djay Pro Ai for Mac给出了答案。这款专业的DJ混音软件&#xff0c;以AI为引擎&#xff0c;引领我们进入混音的新篇章。 djay Pro Ai for Mac的智能混音功能&#xff0c;让每一位DJ都能感受到前所未有的创作…

SqlSession是什么?在MyBatis-Spring中有什么应用?

目录 一、SqlSession是什么 二、SqlSession在MyBatis中的应用 三、SqlSession在Spring中的应用 一、SqlSession是什么 SqlSession 是 MyBatis 框架中的一个核心概念&#xff0c;它代表与数据库的一次会话。MyBatis 是一个流行的 Java 持久层框架&#xff0c;用于简化数据库…

智能界面设计:数字孪生与大数据结合的美学典范

智能界面设计&#xff1a;数字孪生与大数据结合的美学典范 引言 在数字化浪潮的推动下&#xff0c;智能界面设计成为了连接用户与技术的重要桥梁。数字孪生技术与大数据的结合&#xff0c;不仅为UI设计带来了前所未有的创新机遇&#xff0c;更成为了美学与功能性融合的典范。…

项目9-网页聊天室8(消息的发送和接收之websocket)

这是整个项目最最核心的部分. 但是这个部分的编写&#xff0c;需要依赖"基础设施" 包括不限于前面已经实现的 主界面,用户管理,会话管理, 好友管理, 消息管理 等等.... 发送消息,和接收消息,需要"实时传输 张三 发了一条消息,李四 这边立即就能接收到, 这样的…

【设计模式】JAVA Design Patterns——Converter(转换器模式)

&#x1f50d;目的 转换器模式的目的是提供相应类型之间双向转换的通用方法&#xff0c;允许进行干净的实现&#xff0c;而类型之间无需相互了解。此外&#xff0c;Converter模式引入了双向集合映射&#xff0c;从而将样板代码减少到最少 &#x1f50d;解释 真实世界例子 在真实…