spark常见问题

写文章只是为了学习总结或者工作内容备忘,不保证及时性和准确性,看到的权当个参考哈!

1.  执行Broadcast大表时,等待超时异常(awaitResult

现象:org.apache.spark.SparkException: Exception thrown in awaitResult:

java.util.concurrent.TimeoutException: Futures timed out after [300seconds]

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

20200428150606130.png

原因分析:当数据需要broacast到executor上时,由于数据量较大 、broacast超时导致。

解决方案:

  设置spark.sql.autoBroadcastJoinThreshold=-1 不broadcast小表,直接走shuffle。(弊端:时间花费长,影响较大)

2.Task任务在写文件时,发生管道中断关闭异常ClosedByInterruptException

现象:Uncaught exception while reverting writes to file /data03/yarn/……………

java.nio.channels.ClosedByInterruptException

20200428150607671.png

解决方案:查看该Task任务是否是推测执行任务,如果是属于正常现象,不影响任务。

3.DiskBlockManager 在创建本地目录失败

现象:Failed to create local dir in /data10/yarn/………….

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

原因分析:这个错误一般是磁盘满了或者要么是磁盘坏了。联系大数据平台运维人员。

4.SparkSQL访问HIVE表时,找不到数据库或者元数据信息

现象:org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database 'XXXX' not found;

解决方案:Step 1:查看hive的配置文件是否正确。

                  Step 2:在Step 1 基础上,查看是否存在该数据库。

                  Step 3:查看SparkSession 创建方法是否启用了Hive支持。正确的创建SparkSession 如下图:

20200428150608542.png

5.使用wholeTextFiles读取文件时,报非法参数异常

现象:Java.lang.IllegalArgumentException:……………..wholeTextFiles…..CharBuffer.allocation…….

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

原因分析:wholeTextFile不支持一次性读入大于1G的大文件,因为是将整个文件内容变成一个Text对象,而Text对象是有长度限制。

解决方案:将单个大文件分割成多个小文件读取。

6.数据倾斜

现象:为啥我有几个Task任务卡住不动已经很久了?现象如下图:

20200428150606474.png

点到当前的stage Tab 中 ,效果图如下:

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

原因分析:典型的数据倾斜现象,所有的task都已经完成了,而正在运行的task任务超过了所有完成task时间中位数的1.5倍以上,发生了数据倾斜现象。

解决方案:1.如果是Spark sql 访问hive 表,由于上游的某个hive文件过大导致,需要避免上游的表落地时某个文件特别大。可以在sql后面添加distribute by rand() ; 并且适

当增大spark.sql.shuffle.partitions参数值。2.需要从代码和业务逻辑上去处理数据倾斜

问题。参考:https://www.cnblogs.com/hd-zg/p/6089220.html

7.TaskResultGetter在拉取block块的时候,Executor丢失,导致连接失败错误

现象:org.apache.spark.shuffle.FetchFailedException:Failed to connection………….

或者出现Executor Lost 现象。

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

原因分析:shuffle read的时候数据的分区数设置的很小,同时shuffle read的量很大,那么

将会导致一个task需要处理的数据非常大。结果导致JVM crash,从而导致取shuffle数据失

败,同时executor也丢失了,看到Failed to connect to host的错误,也就是executor lost的

意思。有时候即使不会导致JVM crash也会造成长时间的GC。

解决方案:

1.  减少shuffle数据:首先考虑使用map side join或是broadcast join来规避shuffle的产生。将不必要的数据在shuffle前进行过滤,比如原始数据有20个字段,只要选取需要的字段进行处理即可,将会减少一定的shuffle数据。

2. 针对于spark sql : 通过spark.sql.shuffle.partitions控制分区数,默认为40,根据shuffle的量以及计算的复杂度提高这个值。

3. 针对RDD操作:通过spark.default.parallelism控制shuffle read与reduce处理的分区数,官方建议为设置成运行任务的executor的2-3倍。

4. 提高executor的内存,通过spark.executor.memory适当提高executor的memory值。

8.Java 堆栈溢出错误

现象:Java.lang.StackOverflowError:

20200428150608388.png

原因分析:

代码中有这样一段逻辑(示意):

Dataset<Row> totalDS;  // 总数据集

while (循环条件) {

               Dataset<Row> batchDS = // 某种业务计算过程最后得到批次结果数据集;

               totalDS = totalDS.union(batchDS); // 把这批次的结果合并到最终总结果中

}

// 最后用 totalDS 再去做计算

因为循环次数比较多,大约200多次,导致最后 totalDS 的 lineage 太长,造成Spark计算时递归过深引发 StackOverflowError。

解决方案:每循环20次就checkpoint保存一下检查点,这样强制截断lineage,结果就运行完了没有出问题。

9.在代码中设置Masterlocal模式,实际提交模式为yarn-cluster,导致SparkContext初始化失败

现象:ERROR ApplicationMaster: SparkContext did not initialize after waiting for 100000 ms. Please check earlier log output for errors. Failing the application

解决方案:去掉setMaster("local[*]")

10.Executor由于某个正在运行的Task,由于Executor内存使用超出限制,导致ExecutorContainerkill,使得Executor退出

现象:ExecutorLostFailure (executor 3 exited caused by one of the running tasks) Reason: Container killed by YARN for exceeding memory limits. 8.1 GB of 8 GB physical memory used

原因分析:不合理的使用大量的cache 和 broadcast操作,导致executor 在运行task任务时资源紧张。

解决方法:尽量避免缓存过多的RDD ,移除RDD缓存操作,增加参数spark.storage.memoryFraction和spark.yarn.executor.memoryOverhead的值。适当增加executor的数量和内存。

11.driver RPC 超时

现象:org.apache.spark.rpc.RpcTimeoutException: Cannot receive any reply in 120 seconds. This timeout is controlled by spark.rpc.askTimeout at org.apache.spark.rpc.RpcTimeout org.apache.spark.rpc.RpcTimeout.org$apache$spark$rpc$RpcTimeout$$createRpcTimeoutException(RpcTimeout.scala:48) at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:63)

原因分析:导致driver RPC 超时有两个原因:

(1)executor所在的节点宕掉了。

(2)运行在executor中的任务占用较大内存,导致executor长时间GC,心跳线程无法运行,从而引起心跳超时。

引发这个问题可能是发生了数据倾斜,导致stop the world。

解决方案:若存在数据倾斜,首先解决数据倾斜问题。适当增加executor数量和内存。避免长时间的GC。

12.SparkSql使用” $”代替col(),需要导入隐式转换

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

现象:在scala 命令行模式 可以直接用$"column_name"的方式指定列数据, 为什么sbt 打包的时候不能这么用?还得import column,使用col("column_name")来替代?能用$ 代替 col吗,需要怎么操作?

解决方案:import spark.implicits._(导入)

13.Python Spark 在生产线上提交任务,报错:command not find

解决方案:请参考如下脚本:(注意spark-submit的路径)

20200428150607599.png

14.提高SparkSQL在shuffle之后Task的并发度

现象:明明有很多task,但是在处理量大的时候只分配40个,如何增加Task的数量。

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

解决方案:适当的增加 --conf spark.sql.shuffle.partitions参数的值,注意该参数只有存在shuffle行为下才能生效。

15.由于打包冲突导致的SparkContext启动失败问题

20200428150609448.png

解决方案:将spark相关依赖删掉,然后用maven命令mvn clean package重新打包。

16.SparkSQL中,sql语句中存在着过长的计算表达式,导致GeneratedIterator超过了规定的字节数

现象:ERROR Thread-8 CodeGenerator: failed to compile: org.codehaus.janino.JaninoRuntimeException: Code of method "agg_doAggregateWithoutKey$(Lorg/apache/spark/sql/catalyst/expressions/GeneratedClass$GeneratedIterator;)V" of class "org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator" grows beyond 64 KB. 用户代码如下图所示:

20200428150607902.png

原因分析:在SQL中拼凑循环累积计算某个表达,导致GeneratedIterator超过了规定的字节数64K。

解决方案:1.优化自身的表达式代码不要过长,可以分开计算。

                  2.或者设置spark.sql.codegen.wholeStage=false, 不适用codegen策略。

17.Spark在执行Task任务时,发生OOM现象

 现象:Java.lang.OutOfMemoryError:Java heap space

20200428150607900.png

原因分析:如果处理的数据或者加载的数据很大,driver或者executor内存可能不够,出现上面的OOM错误。

解决方案:仔细查看日志,分清是driver端还是executor端OOM。先优化自身的代码,检查思考是否有必要在driver端处理大量的数据,有没有大量的cache或者broadcast操作,如果存在cache或者broadcast操作,去除该操作。适当的调大driver或者executor的内存大小。

 

19.SparkSQL中,SQL语句存在大量的嵌套语句,导致Spark无法解析

现象:org.apache.spark.sql.AnalysisException: unresolved operator 'Project

解决方案:检查一下自己的sql是否嵌套太多的子查询语句,导致spark无法解析,所以需要修改sql或者改用其他方式处理;注意该语句可能在hive里面没有错误,但是在spark中会出错。

20.Task返回给driver的数据量超过了1G

现象:Total size of serialized results of 2000 tasks (2048MB) is bigger than spark.maxResultSize(1024.0 MB)

原因分析:ask返回给driver的数据量超过了规定的1G。

解决方案:设置参数spark.driver.maxResultSize=3G,参数的大小根据业务的实际情况而定 。

21.IDE日志中一直显示“ACCEPTED”,任务跑不动

现象:watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

原因分析:当前IDE系统的yarn队列资源暂时被占满。

解决方案:Spark阻塞在(state :ACCEPTED)状态

 

22.SparkSQL中小文件数过多导致任务过慢

现象:IDE日志中长时间出现如下内容:可以,如下所示:

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

原因分析:小文件数较多(与Spark UI中的task数目相同),长时间在重命名小文件所在目录

解决方案:SQL最上方加参数:set spark.sql.adaptive.repartition.enabled=true,并建议将中间临时表、目标表格式切换为DataSource表:Spark DataSource表推广文档

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/721107.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

答应我,完成单位投稿任务用对的方法别让自己受投稿之苦

在这个信息爆炸的时代,单位的形象塑造与品牌传播已成为不可忽视的关键环节。作为单位的信息宣传员,我深知每一次对外发声的重要性,它不仅是展示我们工作成果的窗口,更是连接公众、塑造品牌形象的桥梁。然而,在传统的投稿方式中,尤其是依赖于邮箱投稿,我经历了太多次的挫败与无奈…

LeetCode 算法:合并两个有序链表 c++

原题链接&#x1f517;&#xff1a;合并两个有序链表 难度&#xff1a;简单⭐️ 题目 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例 1&#xff1a; 输入&#xff1a;l1 [1,2,4], l2 [1,3,4] 输出&#xff1a;…

PHP学习笔记--初学

笔录&#xff1a;我是从黑马里面找的资料学习的&#xff0c;如果有人看我的笔记话&#xff0c;建议去看黑马程序课程&#xff0c;更详细一些。 目录 php定义&#xff0c;平台支持&#xff1a; 静态网站&#xff1a; 动态网站&#xff1a; 服务器概念&#xff1a; IP的概念…

JavaFX 分隔符

Separator类表示水平或垂直分隔线。它分割元素&#xff0c;不产生任何动作。 我们可以设计风格&#xff0c;应用视觉效果&#xff0c;并为分隔符设置动画。 默认情况下&#xff0c;分隔符是水平的。我们可以使用setOrientation方法改变它的方向。 Separator类扩展了Node类。…

2024/6/18(RBAC,查询用户权限,细粒度授权,选课,支付宝生成二维码支付,支付结果查询需要内网穿透)

黑马程序员【学成在线项目】,P141 测试沙箱支付宝_黑马学成在线支付宝沙箱-CSDN博客 需要内网穿透

reverse-android-实战喜马拉雅-ollvm

资料 1. apk: com.ximalaya.ting.android.apk. 2020年8月 可以使用 2. 抓包分析 java层分析 so层分析 登录的算法so是在 liblogin_encrypt.so中。 32位的&#xff0c; 用 IDA打开&#xff0c;查看 静态的导出函数。 打开 一个 首先看到 IDA VIEW 是一个横向 比较多的分支&am…

【3D模型库】机械三维模型库整理

1 开拔网 简介&#xff1a;开拔网是中国较早的机械设计交流平台&#xff0c;广受行业内的各个大学&#xff0c;公司以及行业人士的欢迎。网站有非常丰富的3D模型&#xff0c;CAD图纸&#xff0c;以及各类热门软件的下载。同时我们也为行业搭建一个平台&#xff0c;提供各类设计…

AI智能盒子助力中钢天源设备工厂升级安全防护

中钢集团安徽天源科技股份有限公司成立于2002年3月27日,是中央企业中国中钢股份有限公司控股的上市公司&#xff0c;主导产品为永磁铁氧体器件、钕铁硼器件、四氧化三锰、锶铁氧体预烧料及各类磁选机等。 在中钢天源智能化升级过程中&#xff0c;采用并定制开发一系列厂区安全…

【C++】Template模板

创作不易&#xff0c;本篇文章如果帮助到了你&#xff0c;还请点赞 关注支持一下♡>&#x16966;<)!! 主页专栏有更多知识&#xff0c;如有疑问欢迎大家指正讨论&#xff0c;共同进步&#xff01; &#x1f525;c系列专栏&#xff1a;C/C零基础到精通 &#x1f525; 给大…

【Spine学习12】之 事件帧

1、新建事件帧&#xff1a; 2、选择第8s的攻击帧&#xff0c;点击第一步新建的attack事件帧前面的钥匙 这样每次动作到8s的时候会自动跳出事件帧提示 这个文字实际动画不会显示 事件是动画过程中所发生情况的触发器。 给程序员识别的

C++使用教程

目录 一、软件使用 二、C基础规则补充 关键字 整型取值范围 浮点型取值范围 字符型使用规则 字符串型使用规则 布尔类型 常用的转义移字符 三、数组、函数、指针、结构体补充 1.数组 2.函数 声明&#xff1a; 分文件编写&#xff1a; 值传递&#xff1a; 3.指…

省市县选择三级联动(使用高德API实现)

省市县选择如果自己实现是比较麻烦的&#xff0c;最近发现可以使用高德实现省市县联动选择&#xff0c;实现后来记录一下供大家参考。 文章目录 最终效果&#xff1a;一、准备工作二、完整页面代码 最终效果&#xff1a; 实现单次点击获取省市县名称&#xff0c;选择完成后返回…

【串口通信-USART】

串口通信 前言一、串行通信和并行通信二、波特率三、USRAT如何实现USART 四、通信的时候共地五、奇偶校验位总结 前言 大三上时候的笔记⇨32入门-串口通信-发送和接收数据&#x1f31f;更加偏向32部分的吧。 大三上左右的时候写过串口通信的笔记&#xff0c;那时候虽然青涩啥也…

多路h265监控录放开发-(1)建立head窗口并实现鼠标拖动整个窗口

头文件&#xff1a; //鼠标事件 用于拖动窗口//一下三个函数都是QWidget的可重载成员函数void mouseMoveEvent(QMouseEvent* ev) override;void mousePressEvent(QMouseEvent* ev) override;void mouseReleaseEvent(QMouseEvent* ev) override; 源文件&#xff1a; / /// 鼠标…

运算放大器共模抑制比(CMRR)

目录 运算放大器共模抑制比(CMRR) 三运放共模抑制比电路 运算放大器共模抑制比(CMRR) 如果信号均等施加至运算放大器的两个输入端&#xff0c;使差分输入电压不受影响&#xff0c;则输出也不应受影响。实际上&#xff0c;共模电压的变化会引起输出变化。运算放大器共模抑制比…

Locust框架

Locust 简介&#xff1a;是一个Python的第三方库&#xff0c;专门用来进行性能并发测试 Locust特点&#xff1a; 基于Python的开源负载测试工具支持多种操作系统支持二次开发能够模拟更多用户基于协程&#xff08;微线程&#xff09;的并发 Jmeter与Locust对比 Locust安装 …

7.华为交换机端口配置链路聚合Eth-trunk

目的&#xff1a;两台华为交换机端口配置链路聚合 LSW1配置 [Huawei]interface Eth-Trunk 1 [Huawei-Eth-Trunk1]q [Huawei]int g0/0/1 [Huawei-GigabitEthernet0/0/1]eth-trunk 1 [Huawei-GigabitEthernet0/0/1]int g0/0/2 [Huawei-GigabitEthernet0/0/2]eth-trunk 1LSW2配置…

最新Prompt预设词分享,DALL-E3文生图+文档分析

使用指南 直接复制使用 可以前往已经添加好Prompt预设的AI系统测试使用&#xff08;可自定义添加使用&#xff09; 支持GPTs SparkAi SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统&#xff0c;支持OpenAI-GPT全模型国内AI全模型。支持GPT-4o…

数据库面试题(持续更新中)

目录 1.oracle 与 mysql 的区别 2.三范式 3.事务的特性&#xff08;ACID&#xff09; 4.事务隔离级别 5.脏读、不可重复读、幻读 非重复度和幻像读的区别 6.explain查看sql的执行计划 7.查询SQL语句的执行过程 8.更新sql语句的执行过程 9.锁 加锁机制分为 兼容性上分…

Swift开发——索引器扩展

扩展用于向已存在的类型(例如,类、结构体、枚举和协议等)中添加新的功能,扩展甚至可以向系统类型(包括无法查阅代码的类型)中添加新的功能,但是扩展不能覆盖原类型中已有的方法,扩展也不能向类中添加新的存储属性。 01、索引器扩展 扩展可为类、结构体等类型添加索引器。程序段…