【2024年第三届中国高校大数据挑战赛】赛题 C:用户对博物馆评论的情感分析
加群可以享受定制等更多服务,或者搜索B站:数模洛凌寺
联络组织企鹅:904117571
以下是C题老师的解题思路(企鹅内还会随时更新文档):
2024中国高校大数据挑战赛C题思路详解
1 问题重述
问题 1:
- 针对每位用户的评论,建立情感判别模型,判断评论内容的情感正反方向,输出评论内容的情感方向为正面、中立、负面。
- 并统计每个博物馆历史评论各个方向情感的比例分布情况。
问题 2:
- 综合考虑评论内容中情感词、程度副词、否定词、标点符合等等影响情感方向的指标,建立情感得分评价模型,得到每位用户评论的情感得分
- 基于得分对五个博物馆进行客观排名。
问题 3:
- 针对每位用户评论的内容,可通过事件抽取或实体抽取算法,从评论内容中抽取影响用户情感的关键事件或因素,如某用户评论“非常不错!环境高大上!好多是最近房地产开发盖新房子时新挖出来的,不错",可得知该评论为正面情感,影响其正面评价的是”房地产开发盖新房子时新挖的"、"环境高大上“两个因素。
- 基于上述抽取的关键事件或影响因素,综合分析得到影响用户对五个博物馆情感的影响因素。
问题 4:
- 基于上述分析得到的数据结果,为五个博物馆撰写一段提升公共服务水平的可行性建议,建议要有理有据,且具有一定的可操作性。
2 问题分析
视频讲解如下:视频讲解
2.0 数据预处理
在做所有问题之前,需要对数据进行预处理和描述性统计
2.1 问题一分析
该问题属于自然语言处理领域(NLP),可以考虑建立一个文本情感三分类模型,但是这个问题中,如何定义三种类别是需要做的工作。
2.2 问题二分析
对上一个问题的修正,考虑更细粒度的特征
情感得分评价模型,也可以看成一个回归任务,得到每个用户的评分,通过计算平均得分,得到5个博物馆的排名
2.3 问题三分析
该问题是这个题的拔高部分,需要查阅相关文献,掌握实体抽取先关知识,后续会更新
2.4 问题四分析
和美赛一样,写一封信
更多思路
i = 1
if i == 1 :
print('904117571')