文章目录
- 1. 创建CSV文件
- 2. 上传CSV文件
- 3. 读取CSV文件生成RDD
- 4. 去掉标题行生成新RDD
- 5. 查看新生成的RDD
1. 创建CSV文件
- 执行命令:
vim scores.csv
- 在WPS里查看CSV文件
2. 上传CSV文件
- 执行命令:
hdfs dfs -put scores.csv /park
3. 读取CSV文件生成RDD
- 执行命令:
val lines = sc.textFile("hdfs://master:9000/park/scores.csv")
4. 去掉标题行生成新RDD
-
执行命令:
val firstLine = lines.first()
-
执行命令:
val secondToLastLines = lines.filter(_ != firstLine)
5. 查看新生成的RDD
- 执行命令:
secondToLastLines.collect.foreach(println)
通过上述步骤,我们能够成功地从 HDFS 读取 CSV 文件,去除标题行,并查看剩余的数据行。这为进一步的数据处理和分析打下了基础。