【爬虫+数据清洗+数据分析+可视化】“淄博烧烤”现象热评舆情python数据分析大屏

一、开发背景

您好,我是@马哥小迷弟132 ,一枚10年程序猿。

自从2023.3月以来,"淄博烧烤"现象持续占领热搜流量,体现了后疫情时代众多网友对人间烟火气的美好向往,本现象级事件存在一定的数据分析实践意义。

静态截图:
大屏截图

动态演示:【大屏演示】Python可视化舆情大屏「淄博烧烤」

二、爬虫代码

2.1 爬微博列表

通过m端的搜索页面,爬取以"淄博烧烤"为关键词的微博id,获取到微博id的目的,是传给评论爬虫。

发送请求部分:

# 请求地址
url = 'https://m.weibo.cn/api/container/getIndex'
# 请求参数
params = {
    "containerid": "100103type=60&q={}".format(v_keyword),
    "page_type": "searchall",
    "page": page
}
# 发送请求
r = requests.get(url, headers=headers, params=params)

注意,type=60代表"热门",如下:
m端微博

解析数据部分:

# 解析json数据
cards = r.json()["data"]["cards"]
print('微博数量:', len(cards))
for card in cards:
    # 微博id
    id_list = card['mblog']['id']
    id_list_list.append(id_list)

至此,已经获取到以「淄博烧烤」为关键词的微博id列表 id_list_list 了。

2.2 爬微博评论

从2.1章节获取到微博id列表之后,传入爬取微博评论函数 get_comments
这部分爬虫讲解可移步:
【2023微博评论爬虫】用python爬上千条微博评论,突破15页限制!

最终,爬取到的微博评论数据,示例如下:
淄博烧烤-微博评论

说明:无论微博搜索页,还是微博评论页,都可以自定义设置max_page,满足自己的个性化数据量要求。

2.3 导入MySQL数据库

最核心的三行代码:

# 读取csv数据
df = pd.read_csv('去重后_' + comment_file)
# 把csv数据导入MySQL数据库
df.to_sql(name='t_zbsk', con=engine, chunksize=1000, if_exists='replace', index=False)
print('导入数据库完成!')

用create_engine创建数据库连接,格式为:

create_engine(‘数据库类型+数据库驱动://用户名:密码@数据库IP地址/数据库名称’)

这样,数据库连接就创建好了。

然后,用pandas的read_csv函数读取csv文件。

最后,用pandas的to_sql函数,把数据存入MySQL数据库:

  • name=‘college_t2’ #mysql数据库中的表名
  • con=engine # 数据库连接
  • index=False #不包含索引字段
  • if_exists=‘replace’ #如果表中存在数据,就替换掉

非常方便地完成了反向导入,即:从csv向数据库的导入。

这个部分的讲解视频:
仅用Python三行代码,实现数据库和excel之间的导入导出!

三、可视化代码

3.1 大标题

由于pyecharts组件没有专门用作标题的图表,我决定灵活运用Line组件实现大标题。

首先,找到一张星空图作为大屏背景图:
大屏背景图

然后,在Line组件中加入js代码,加载背景图:

# 设置背景图片
line3.add_js_funcs(
    """
    var img = new Image(); img.src = './static/bg2.png';
    """
)

大标题效果如下:
最上方的大标题

3.2 词云图(含:加载停用词)

绘制词云图,需要先进行中文分词。既然分词,就要先设置停用词,避免干扰词影响分析结果。
这里采用哈工大停用词作为停用词词典。

# 停用词列表
with open('hit_stopwords.txt', 'r') as f:
    stopwords_list = f.readlines()
stopwords_list = [i.strip() for i in stopwords_list]

这样,所有停用词就存入stopwords_list这个列表里了。

如果哈工大停用词仍然无法满足需求,再加入一些自定义停用词,extend到这个列表里:

# 加入自定义停用词
stopwords_list.extend(
    ['3', '5', '不', '都', '好', '人', '吃', '都', '去', '想', '说', '还', '很', '…', 'nan', '真的', '不是',
     '没', '会', '看', '现在', '觉得', ' ', '没有', '上', '感觉', '大', '太', '真', '哈哈哈', '火', '挖', '做',
     '一下', '不能', '知道', '这种', '快'])

现在就可以愉快的绘制词云图了,部分核心代码:

wc = WordCloud(init_opts=opts.InitOpts(width='600px', height=chart_height, theme=theme_config, chart_id='wc1'))
wc.add(series_name="评论内容",
       data_pair=data300,
       word_gap=1,
       word_size_range=[20, 70],
       )  # 增加数据
wc.set_global_opts(
    title_opts=opts.TitleOpts(pos_left='center',
                              pos_top='0%',
                              title=v_title,
                              title_textstyle_opts=opts.TextStyleOpts(font_size=20, color=title_color)  # 设置标题
                              ),
    tooltip_opts=opts.TooltipOpts(is_show=True),  # 显示提示
)

词云图效果:
评论内容-词云图

3.3 玫瑰图(含:snownlp情感分析)

先对评论数据进行情感判定,采用snownlp技术进行情感打分及判定结果:

for comment in cmt_list:
    sentiments_score = SnowNLP(comment).sentiments
    if 0 <= sentiments_score < 0.2:  # 情感分小于0.2,判定为极其消极
        tag = '极其消极'
        neg_very_count += 1
    elif 0.2 <= sentiments_score < 0.4:  # 情感分在0.2和0.4之间,判定为比较消极
        tag = '比较消极'
        neg_count += 1
    elif 0.4 <= sentiments_score < 0.6:  # 情感分在0.4和0.6之间,判定为中性
        tag = '中性'
        mid_count += 1
    elif 0.6 <= sentiments_score < 0.9:  # 情感分在0.6和0.9之间,判定为比较积极
        tag = '比较积极'
        pos_count += 1
    else:  # 情感分大于0.9,判定为极其积极
        tag = '极其积极'
        pos_very_count += 1

将情感分析结果用pandas保存到一个Excel文件里,如下:
情感判定结果

绘制玫瑰图,部分核心代码:

# 画饼图
pie = (
    Pie(init_opts=opts.InitOpts(theme=theme_config, width=chart_width, height=chart_height, chart_id='pie1'))
    .add(series_name="情感分类",  # 系列名称
         data_pair=[  # 添加数据
             ['极其积极', pos_very_count],
             ['比较积极', pos_count],
             ['中性', mid_count],
             ['比较消极', neg_count],
             ['极其消极', neg_very_count],
         ],
         rosetype="radius",  # 是否展示成南丁格尔图
         radius=["20%", "65%"],  # 扇区圆心角展现数据的百分比
         )  # 加入数据
    .set_global_opts(  # 全局设置项
        title_opts=opts.TitleOpts(title=v_title,
                                  pos_left='center',
                                  title_textstyle_opts=opts.TextStyleOpts(color=title_color, ), ),  # 标题
        legend_opts=opts.LegendOpts(pos_left='center', pos_top='8%', orient='horizontal',
                                    textstyle_opts=opts.TextStyleOpts(color='white', ))  # 图例字体颜色
    )
)

玫瑰图效果:
情感分布-玫瑰图

3.4 柱形图-TOP10关键词

先根据词云图部分提取出TOP10高频词(过滤掉停用词之后的):

data10 = collections.Counter(result).most_common(10)

然后带入柱形图,部分核心代码:

 # 画柱形图
bar = Bar(
    init_opts=opts.InitOpts(theme=theme_config, width='780px', height=chart_height,
                            chart_id='bar1'))  # 初始化条形图
bar.add_xaxis(x_data)  # 增加x轴数据
bar.add_yaxis("高频词汇", y_data)  # 增加y轴数据
bar.set_series_opts(label_opts=opts.LabelOpts(position="top"))  # Label出现位置
bar.set_global_opts(。。。)

柱形图效果:
top10高频词-柱形图

3.5 折线图-讨论热度趋势

首先,根据评论时间统计出每天的微博评论数量:

# 按日期分组统计评论数量
df_comments['评论日期'] = df_comments['评论时间'].astype(str).str[:10]  # 提取日期
grp = df_comments.groupby('评论日期')['评论内容'].count()

然后,根据统计数据画出折线图,部分核心代码:

line = Line(
init_opts=opts.InitOpts(width='780px', height=chart_height, theme=theme_config, chart_id='line1'))  # 实例化
line.add_xaxis(x_data)  # 加入X轴数据
line.add_yaxis('讨论数量', y_data, is_smooth=True,
           areastyle_opts=opts.AreaStyleOpts(color=JsCode(area_color_js), opacity=1), )  # 加入Y轴数据
line.set_global_opts(。。。)

折线图效果:
讨论热度趋势-折线图

3.6 地图-IP分布

由于IP属地字段都包含"来自"两字,先进行数据清洗,将"来自"去掉:

# 数据清洗-ip属地
ip_count = df_comments['评论者IP归属地'].str.replace('来自', '')

然后统计各个IP属地的数量,方便后续带入地图可视化:

# 统计各IP数量
ip_count = ip_count.value_counts()

下面开始绘制地图,部分核心代码:

f_map = (
    Map(init_opts=opts.InitOpts(width='600px',
                                height='600px',
                                theme=theme_config,
                                page_title=v_title,
                                chart_id='map1',
                                bg_color=None))
    .add(series_name="评论数量",
         data_pair=list(zip(loc_list, value_list)),
         maptype="china",  # 地图类型
         is_map_symbol_show=False)
    .set_global_opts(。。。)
    .set_series_opts(label_opts=opts.LabelOpts(is_show=True, font_size=8, ),
                     markpoint_opts=opts.MarkPointOpts(
                         symbol_size=[90, 90], symbol='circle'),
                     effect_opts=opts.EffectOpts(is_show='True', )
                     )
)

地图效果,如下:
评论IP分布-中国地图

当然,地图中的颜色,都是自己设置的十六进制颜色,可以根据自己的喜好更改。

3.7 Page组合大屏

最后,也是最关键的一步,把以上所有图表组合到一起,用Page组件,并且选用DraggablePageLayout方法,即拖拽的方式,组合图表:

# 绘制:整个页面
page = Page(
    page_title='微博热门评论可视化分析大屏-以"淄博烧烤"为例',
    layout=Page.DraggablePageLayout,
)
page.add(
    # 绘制:大标题
    make_title(v_title='微博热门评论可视化分析大屏-以"淄博烧烤"为例'),
    # 绘制:词云图
    make_wordcloud(v_title='评论内容-词云图'),
    # 绘制:饼图
    make_analyse_pie(v_title='情感分布-玫瑰图'),
    # 绘制:柱形图
    make_bar(v_title='TOP10关键词-柱形图'),
    # 绘制:折线图
    make_line(v_title='讨论热度趋势-折线图'),
    # 绘制:地图
    make_map(v_title='评论IP分布-中国地图'),
)
page.render('大屏_临时.html') 

本代码执行完毕后,打开临时html并排版,排版完点击Save Config,把json文件放到本目录下。

再执行最后一步,调用json配置文件,生成最终大屏文件。

Page.save_resize_html(
	source="大屏_临时.html",  # 源html文件
	cfg_file="chart_config.json",  # 配置文件
	dest="大屏_最终.html"  # 目标html文件
)

至此,所有代码执行完毕,生成了最终大屏html文件。

四、彩蛋-多种颜色主题

分享一个小技巧,我设置了一键更换颜色主题:

# 整体主题颜色
theme_config = ThemeType.SHINE

只需更换ThemeType参数,即可实现一键更换主题!

4.1 INFOGRAPHIC主题

INFOGRAPHIC

4.2 MACARONS主题

MACARONS

4.3 SHINE主题

SHINE

4.4 WALDEN主题

WALDEN

4.5 WESTEROS主题

WESTEROS

4.6 WHITE主题

WHITE

4.7 WONDERLAND主题

WONDERLAND

更多颜色主题等待小伙伴去发掘!

五、技术总结

技术开发流程:

  1. requests 爬虫发送请求
  2. json 解析返回数据
  3. re 正则表达式清洗文本
  4. pandas保存csv文件
  5. sqlalchemy 保存MySQL数据
  6. pyecharts 可视化开发
  7. snownlp 情感分析
  8. jieba 中文分词
  9. pyecharts+page 组合大屏
  10. flask 启动网页服务

六、在线体验

为了方便大家体验可视化动态交互效果,我把此大屏部署到了服务器,请移步:
马哥python说 - 效果演示

七、演示视频

效果演示视频:
【大屏演示】Python可视化舆情大屏「淄博烧烤」

八、获取完整源码

完整python源码,微信公众号"老男孩的平凡之路"后台回复"淄博烧烤大屏"即可获取。

附完整源码:【可视化大屏】“淄博烧烤”热评舆情分析大屏


我是 @马哥小迷弟 ,持续分享python源码干货中!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/515417.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java零基础入门-java8新特性(上篇)

一、本期教学目标 java8有哪些新特性什么是函数式接口什么是Lambda表达式掌握Stream ApiStream和Collect集合区别Stream创建方式Stream操作三步骤 二、概述 上几期&#xff0c;我们是完整的学完了java异常类的学习及实战演示、以及学习了线程进程等基础概念&#xff0c;而这一…

Cache多核之间的一致性MESI

快速链接: 【精选】ARMv8/ARMv9架构入门到精通-[目录] &#x1f448;&#x1f448;&#x1f448; 思考: 1、为什么要学习MESI协议&#xff1f; 哪里用到了&#xff1f;你确定真的用到了&#xff1f; 2、MESI只是一个协议&#xff0c;总得依赖一个硬件去执行该协议吧&#xff0c…

电商技术揭秘一:电商架构设计与核心技术

文章目录 引言一、电商平台架构概述1.1 架构设计原则与架构类型选择1.2 传统电商平台架构与现代化架构趋势分析 二、高并发处理与负载均衡2.1 高并发访问特点分析与挑战2.2 负载均衡原理与算法选择 三、分布式数据库与缓存技术3.1 分布式数据库设计与一致性考量3.2 缓存策略与缓…

C++实现二叉搜索树的增删查改(非递归玩法)

文章目录 一、二叉搜索树的概念结构和时间复杂度二、二叉搜索树的插入三、二叉搜索树的查找四、二叉搜索树的删除&#xff08;最麻烦&#xff0c;情况最多&#xff0c;一一分析&#xff09;3.1首先我们按照一般情况下写&#xff0c;不考虑特殊情况下4.1.1左为空的情况&#xff…

分享:搭建企微知识库简单易学步骤

说起企微知识库&#xff0c;可能有些人还不太清楚&#xff0c;为什么现在很懂企业选择搭建企微知识库&#xff1f;其实&#xff0c;企微知识库就是一个装满了企业的各种知识、经验和资料的载体。目的是为了方便员工随时查找和学习、有助于知识的传承和共享、加强团队协作和沟通…

自然语言处理: 第二十一章大模型基底之llama2

文章地址: LLaMA:OpenandEfficient Foundation Language Models 项目地址: meta-llama/llama: Inference code for Llama models (github.com) 前言 在LLaMa1的基础之上有兴趣的可以看看我上一篇博客自然语言处理: 第二十一章大模型基底之llama1。Meta 又继续推出了LLaMa2&a…

windows安装OpenUSD

一、下载OpenUSD git clone https://github.com/PixarAnimationStudios/OpenUSDOpenUSD&#xff0c;原名USD&#xff08;Universal Scene Description&#xff0c;通用场景描述&#xff09;&#xff0c;是由皮克斯动画工作室开发的一种开放数据格式。OpenUSD主要用于在虚拟世界…

AI论文速读 |【综述】 时序分析基础模型:教程与综述

论文标题&#xff1a;Foundation Models for Time Series Analysis: A Tutorial and Survey 作者&#xff1a; Yuxuan Liang&#xff08;梁宇轩&#xff09;, Haomin Wen&#xff08;温浩珉&#xff09;, Yuqi Nie&#xff08;PatchTST一作&#xff09;, Yushan Jiang, Ming J…

机器学习全攻略:概念、流程、分类与行业应用案例集锦

目录 1.引言 2.从零开始认识机器学习&#xff1a;基本概念与重要术语 3.五步走&#xff1a;掌握机器学习项目执行的完整流程 3.1.问题定义与数据收集 3.2.数据预处理与特征工程 3.3.模型选择与训练 3.4.模型评估与优化 3.5.模型部署与监控 4.深入了解各类机器学习方法…

计算机网络—TCP协议详解:特性、应用(2)

&#x1f3ac;慕斯主页&#xff1a;修仙—别有洞天 ♈️今日夜电波&#xff1a;マリンブルーの庭園—ずっと真夜中でいいのに。 0:34━━━━━━️&#x1f49f;──────── 3:34 &#x1f504; ◀️…

基于卷积神经网络的苹果等级分类系统(pytorch框架)【python源码+UI界面+前端界面+功能源码详解】

功能演示&#xff1a; 苹果等级分类系统&#xff0c;基于vgg16&#xff0c;resnet50卷积神经网络&#xff08;pytorch框架&#xff09;_哔哩哔哩_bilibili &#xff08;一&#xff09;简介 基于卷积神经网络的苹果等级分类系统是在pytorch框架下实现的&#xff0c;系统中有两…

LangChain-05 RAG Conversational 增强检索会话

安装依赖 pip install --upgrade --quiet langchain-core langchain-community langchain-openai编写代码 from langchain_core.messages import AIMessage, HumanMessage, get_buffer_string from langchain_core.prompts import format_document from langchain_core.runn…

腾讯云轻量服务器8核16G服务器价格1668元一年送3个月,18M大带宽

腾讯云轻量应用服务器8核16G配置租用优惠价格1668元15个月&#xff0c;买一年送3个月&#xff0c;配置为&#xff1a;轻量8核16G18M、270GB SSD盘、3500GB月流量、18M带宽&#xff0c;腾讯云优惠活动 yunfuwuqiba.com/go/txy 活动链接打开如下图&#xff1a; 腾讯云8核16G服务器…

基于java+SpringBoot+Vue的网上订餐系统设计与实现

基于javaSpringBootVue的网上订餐系统设计与实现 开发语言: Java 数据库: MySQL技术: Spring Boot JSP工具: IDEA/Eclipse、Navicat、Maven 系统展示 前台展示 菜品浏览与选择&#xff1a;用户可以浏览不同的菜品分类&#xff0c;并选择心仪的菜品。 订单创建与管理&…

多线程--深入探究多线程的重点,难点以及常考点线程安全问题

˃͈꒵˂͈꒱ write in front ꒰˃͈꒵˂͈꒱ ʕ̯•͡˔•̯᷅ʔ大家好&#xff0c;我是xiaoxie.希望你看完之后,有不足之处请多多谅解&#xff0c;让我们一起共同进步૮₍❀ᴗ͈ . ᴗ͈ აxiaoxieʕ̯•͡˔•̯᷅ʔ—CSDN博客 本文由xiaoxieʕ̯•͡˔•̯᷅ʔ 原创 CSDN 如…

SpringBoot登录校验(四)过滤器Filter

JWT令牌生成后&#xff0c;客户端发的请求头中会带有JWT令牌&#xff0c;服务端需要校验每个请求的令牌&#xff0c;如果在每个controller方法中添加校验模块&#xff0c;则十分复杂且冗余&#xff0c;所以引入统一拦截模块&#xff0c;将请求拦截下来并做校验&#xff0c;这块…

100道面试必会算法-18-岛屿问题(数量、周长、面积)

100道面试必会算法-18-岛屿问题&#xff08;数量、周长、面积&#xff09; 题目描述 给你一个由 1&#xff08;陆地&#xff09;和 0&#xff08;水&#xff09;组成的的二维网格&#xff0c;请你计算网格中岛屿的数量。 岛屿总是被水包围&#xff0c;并且每座岛屿只能由水平…

银行数字化转型导师坚鹏:银行数字化转型给支行带来的8大价值

银行数字化转型给支行带来的8大价值 银行数字化转型对不仅对总行、分行产生了深远影响&#xff0c;给总行、分行带来了新质生产力&#xff0c;对银行支行&#xff08;包括网点&#xff09;也会产生重要价值&#xff0c;银行数字化转型导师坚鹏从以下8个方面进行详细分析&#…

Linux多进程通信(4)——消息队列从入门到实战!

Linux多进程通信总结——进程间通信看这一篇足够啦&#xff01; 1.基本介绍 1&#xff09;消息队列的本质其实是一个内核提供的链表&#xff0c;内核基于这个链表&#xff0c;实现了一个数据结构&#xff0c;向消息队列中写数据&#xff0c;实际上是向这个数据结构中插入一个…

keil创建工程 芯源半导体CW32F003E4P7

提前下载keil 安装步骤 1、下载CW32F003固件库 芯源半导体官网下载固件库 下载好后右键解压 CW32F003_StandardPeripheralLib_V1.5\IdeSupport\MDK 进入MDK文件夹 双击WHXY.CW32F003_DFP.1.0.4.pack安装固件库 点击next然后finish安装结束 keil创建工程 点击new uVision P…