简介:
在本篇博客中,我们将探讨如何利用PySpark和SnowNLP这两个强大的工具来分析大规模的旅游评论数据。通过结合携程和去哪儿的数据作为示例,我们将探索如何从海量的评论中提取有价值的情感信息和洞察。PySpark作为一种分布式计算框架,能够处理大规模的数据集,为我们提供了处理大数据的能力。而SnowNLP作为一种自然语言处理工具,能够帮助我们对中文文本进行情感分析,从而揭示出评论中隐藏的情感倾向和情感趋势。通过本文的学习,读者将不仅了解情感分析的基本原理和技术,还能掌握如何利用这些技术来解读和分析旅游评论数据,为旅游业的改进和优化提供实际的指导和建议。
开发环境
Python,HDFS,spark,hive。
链接hive
# Author: 冷月半明
# Date: 2023/12/7
# Description: This script does XYZ.
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType, IntegerType
# 创建SparkSession并连接到远程Spark服务器
spark = SparkSession.builder.appName("RemoteSparkConnection").master("yarn").config("spark.pyspark.python", "/opt/apps/anaconda3/envs/myspark/bin/python").getOrCreate()
print("链接成功")
# 使用spark.sql()从Hive表中读取数据
df = spark.sql("SHOW DATABASES;")
# 显示数据
df.show()
# 关闭SparkSession
spark.stop()
此时因为没指定源数据库位置信息,因此只有默认库。
网上解决方式有两种,其一在使用pyspark是指定元数据位置,其二在spark设置里粘入hive-site.xml,在此使用第一种方式。
当指定元数据存储位置后再次查询,就能正常显示。
计算去哪网的情感得分
def qvna():
print("链接成功")
df = spark.sql("SELECT * FROM cjw_data.qvna;")
print(type(df))
# 定义一个新的 UDF,用于计算每一行的平均情感值
def calculate_average_sentiment(commentlist):
try:
jsonstr = str(commentlist)
python_obj = json.loads(jsonstr, strict=False)
except:
return None
contentcores = []
for item in python_obj:
for i in item:
if (i["content"] != "用户未点评,系统默认好评。"):
contentcores.append(SentimentAanalysis(i["content"]))
if len(contentcores) > 0:
average = sum(contentcores) / len(contentcores)
else:
average = None # 如果数组为空,返回 None
return average
calculate_average_sentiment_udf = udf(calculate_average_sentiment, StringType())
# 使用 withColumn 方法添加新的字段
df = df.withColumn("average_sentiment", calculate_average_sentiment_udf(df["commentlist"]))
newdf = df.select("id", "title", "price", "average_sentiment")
newdf.write.mode("overwrite").saveAsTable("cjw_data.qvnasentiment")
print(newdf)
print(newdf.count())
newdf.show(20)
首先,我们通过 PySpark 的 spar