基于Python的51job招聘数据采集与可视化项目实践

  1. 项目背景与目标 在当今竞争激烈的就业市场中,深入分析招聘信息对于求职者和企业都具有重要意义。基于Python的51job招聘数据采集与可视化项目旨在通过自动化手段高效获取大量招聘信息,并对这些数据进行深度分析和展示。 51job作为中国领先的招聘网站,汇集了海量的招聘信息,涵盖各行各业,提供了极为丰富的数据源。通过采集这些数据,可以帮助我们了解当前的就业市场需求,岗位分布,薪资水平等关键信息。另一方面,随着数据科学和机器学习的发展,传统的人工分析方法已经无法满足大数据分析的需求。因此,使用Python进行数据采集和分析,不仅提高了效率,还可以利用多种数据分析和可视化工具,实现对招聘信息的全面解读。 项目目标主要利用Python爬虫技术,自动从51job网站上获取招聘信息,包括职位名称、公司、地点、薪资、要求等数据。对采集到的数据进行清洗和整理,确保数据的完整性和一致性。运用Python的数据分析库(如Pandas、NumPy等)对招聘数据进行分析,挖掘出有价值的趋势和模式。使用Matplotlib、Seaborn等可视化工具,将分析结果以图表形式展示,便于直观理解和决策支持。 通过该项目,可以为求职者提供更有针对性的求职建议,为企业制定招聘策略提供数据支持,进一步促进人力资源的合理配置。

  2. 数据采集 本项目采集51招聘网站招聘数据1400条,其中1000条存入csv,400条存入json文件。采集的网页信息如下图:

  3. 数据采集项目主要使用Python的Selenium库和BeautifulSoup库来自动化抓取51job网站的招聘信息,并将其存储到本地文件csv和json文件中。 首先,通过Selenium库启动Chrome浏览器,并设置一些选项来规避反爬虫机制。login函数负责打开51job网站,并根据输入的关键词(如"python")进行搜索。在搜索结果页面,代码通过BeautifulSoup解析网页内容,提取每个招聘信息的具体细节,如岗位名称、公司名称、薪资、城市、区县、行业、标签、企业性质、企业人数和回复情况。 在每一页的招聘信息提取完毕后,程序会点击“下一页”按钮,继续抓取下一页的内容,直到预定的页数(如5页)结束。提取的信息以字典形式存储,并使用json库将其保存到本地的51招聘.json文件中,确保每条数据都成功存入,存入json主要代码如下图。
  4. 存入csv主要代码如下图:
  5. 项目通过Selenium实现自动化浏览和操作,有效避免了手动数据收集的繁琐,同时使用BeautifulSoup进行网页解析,确保数据的准确提取。整个流程包括网页的加载、数据提取、翻页操作以及数据的本地存储,确保了数据采集的高效性和全面性。采集结果如下图:
  6. 数据处理
  7. 3.1 数据集成
  8. 数据集成主要通过以下几个步骤实现: 首先,读取两个数据源:一个JSON文件和一个CSV文件。从存储招聘信息的JSON文件和CSV文件中读取数据。利用pandas库,将这些数据转换为DataFrame格式以便于后续操作。通过json.loads逐行读取JSON文件中的招聘数据,并将其添加到一个列表中,随后使用pd.DataFrame将列表转换为数据框。接着,代码读取CSV文件中的数据,并将两个数据框通过pd.concat合并为一个。集成后数据集信息如下图。

  9. 3.2 数据清洗 通过df.drop_duplicates函数删除重复记录,并重置索引。接下来,处理缺失值和异常值。填充缺失值时,将“性质”列的缺失值填充为“未知”,然后删除所有包含缺失值的行。数据标准化方面,主要针对“薪资”列进行了单位换算,将不同格式的薪资统一转换为“万/年”的格式,并将转换后的薪资列拆分为最小值和最大值两列。数据清洗后结果如下图:
  10. 3.3 数据变换 数据变换主要通过以下几个步骤实现,以便将原始数据转换为可分析的格式: 针对薪资数据,定义了一个convert_salary函数,用于将各种格式的薪资统一转换为“万/年”。这个函数处理不同单位(如“万”、“千”、“元/天”)的薪资,并进行相应的换算和格式转换。转换后的薪资数据被拆分为最小值和最大值两列,以便后续分析,薪资数据变换结果如下图:
  11. 行业数据也进行了分词和统计。通过将“行业”列中的数据按“/”分割,统计每个行业的频次,生成一个包含行业和其对应频次的字典。
  12. 3.4 数据规约 数据规约的实现旨在减少数据量,同时保留数据的主要特征,以便提高分析和处理的效率。数据规约具体实现如下: 1、通过删除重复数据来减少数据量。利用drop_duplicates方法,依据‘公司’和‘岗位名’两个字段去重,并重置索引。 df.drop_duplicates(subset=['公司', '岗位名'], inplace=True) df.reset_index(drop=True, inplace=True) 2、删除缺失值较多的记录。在处理缺失值时,先将“性质”列的缺失值填充为“未知”,然后删除所有包含其他缺失值的行,从而减少不完整数据的影响。 df['性质'].fillna('未知', axis=0, inplace=True) df.dropna(axis=0, inplace=True) 3、通过单位换算,将不同单位的薪资数据统一转换为“万/年”的格式,并将转换后的薪资列拆分为最小值和最大值两列。这不仅标准化了数据格式,还减少了数据的复杂性。 df['薪资_g'] = df['薪资'].apply(convert_salary) df['薪资_g'] = df['薪资_g'].str.replace('万/年', '') df['薪资_min'] = df['薪资_g'].str.split('-', expand=True)[0].astype('float').round(1) df['薪资_max'] = df['薪资_g'].str.split('-', expand=True)[1].astype('float').round(1) 4、对冗余信息进行规约,例如通过合并标签中的重复项,实现对标签列的简化。 df['标签'] = df['标签'].apply(lambda x: ' '.join(set(x.split('-'))))
  13. 数据分析与可视化 1、词云图实现 实现词云图需要几个关键步骤,从文本准备到图像生成。下面详细描述了如何使用 stylecloud 库来生成词云图: 步骤一:安装必要的库 安装 stylecloud 和其他必要的库 步骤二:准备文本数据 首先,准备好生成词云的文本数据。从 DataFrame 中提取了标签并将其组合成一个文本字符串 text: # 将标签列表转换为文本 text = ' '.join(df['标签'].tolist()) 这一步将所有标签合并为一个字符串,生成词云时会根据词频来决定每个词的大小和位置。 步骤三:生成词云图 使用 stylecloud 库生成词云图非常简单。需要指定文本、字体路径、颜色、图标以及背景颜色等参数。代码如下: import stylecloud # 指定字体文件路径 font_path = 'simhei.ttf' # 使用本地的黑体字体文件 # 使用 stylecloud 生成词云图 stylecloud.gen_stylecloud( text=text, # 文本数据 font_path=font_path, # 字体路径 palette='cartocolors.qualitative.Bold_5', # 颜色方案 max_font_size=100, # 最大字体大小 icon_name='fas fa-yen-sign', # 图标形状 background_color='#f4f4f4', # 背景颜色 output_name='福利.jpg' # 输出文件名 ) 参数解释: text: 输入的文本数据,将会用于生成词云。 font_path: 字体文件路径,simhei.ttf 是常用的中文字体。 palette: 颜色方案,cartocolors.qualitative.Bold_5 是一个颜色方案的名字,可以根据需要调整。 max_font_size: 最大字体大小,控制词云中最大词的大小。 icon_name: 词云的形状,这里使用的是“人民币符号”,你可以更换为其他图标,例如 'fas fa-heart' (爱心)。 background_color: 词云图的背景颜色。 output_name: 输出文件的名称和格式。 步骤四:保存和查看词云图 词云图生成后,会自动保存为指定名称的文件(如 '福利.jpg')。可以在输出文件中查看词云效果。如下图:

  14. 2、招聘数量前20的区县数据柱形图实现 数据分组与统计: df.groupby('区县')['链接'].count() 对区县进行分组,统计每个区县的招聘链接数。 排序与选取: reset_index() 重置索引,sort_values(by='链接', ascending=False) 按招聘数量降序排列,取前20个数据。 柱形图绘制: plt.bar(x_data, y_data, color='skyblue') 绘制柱形图,设置柱形颜色为浅蓝色。 标题与标签: plt.title、plt.xlabel和plt.ylabel 添加标题和轴标签,明确图表内容。 这种方法清晰地展示了招聘数量最多的前20个区县,有助于了解招聘热点地区。如下图:
  15. 3、不同公司性质招聘数量分布实现 实现不同公司性质招聘数量分布,主要步骤包括数据分组、统计数量、绘制饼图等。数据分组与统计: df.groupby('性质')['链接'].count() 对公司性质进行分组,统计每种公司性质的招聘链接数量。 排序与重置索引: reset_index() 重置索引,sort_values(by='链接', ascending=False) 按招聘数量降序排列。 饼图绘制: plt.pie 绘制饼图,labels 参数设置标签,autopct 参数显示百分比,colors 参数设置颜色。 文本属性和标签距离: textprops={'fontsize': 12} 设置文本字体大小,labeldistance=1.05 设置标签距离。 图例与标题: plt.legend(fontsize=5) 添加图例并设置字体大小,plt.title 添加标题并设置字体大小。 通过这些步骤,生成了一个展示不同公司性质招聘数量分布的饼图,直观显示各类型公司在招聘市场中的占比。如下图:
  16. 总结与展望

  17. 总结

    在本项目中,我们通过Python实现了51job招聘数据的采集与可视化,数据采集方面,使用json库逐行读取JSON文件,将招聘评论数据存储在列表中,并转换为Pandas DataFrame。使用pandas.read_csv读取CSV文件,并合并两种数据源,保证数据的完整性。数据处理方面, 对数据进行去重、缺失值填补和处理。特别是对薪资字段进行单位转换,确保数据的一致性。 提取并处理招聘信息的关键特征,包括薪资、行业、城市分类等。使用正则表达式和自定义函数处理薪资数据。数据分析与可视化方面, 使用词云图展示招聘行业的分布情况,利用stylecloud库生成形象化的词云。分类和比较不同城市和行业的薪资水平,帮助用户理解薪资分布。绘制饼图展示不同公司性质的招聘数量分布,直观显示各类型公司的招聘需求。 使用柱形图展示招聘数量前20的区县数据,识别招聘热点地区。

    展望

    未来的改进和发展方向包括:

    (1)数据采集自动化:使用爬虫技术实时获取最新的招聘数据,确保数据的时效性。结合API接口,扩展数据来源,获取更多维度的招聘信息。

    (2)数据处理优化:增加数据清洗的自动化程度,减少人工干预,提高处理效率。引入更多的特征工程方法,如自然语言处理技术,深入挖掘文本信息。

    (3)高级数据分析:利用机器学习算法进行薪资预测、岗位匹配等高级分析,提供更具指导性的结果。引入地理信息系统(GIS)技术,进行更精细的地域分布分析。

    (4)可视化改进:使用交互式可视化工具(如Plotly、Bokeh),提升用户体验。

    开发Web应用或仪表盘,实现招聘数据的动态展示和分析结果的实时更新。

    (5)用户定制化服务:根据用户需求,提供个性化的分析报告和数据推送服务。

    结合用户反馈,不断优化数据分析模型和可视化效果。

    通过这些改进,项目可以更加全面、准确地分析招聘市场动态,为求职者和招聘方提供更具价值的信息和决策支持。

    参考文献

    [1] 基于Python的网页数据爬取与可视化分析[J]. 田雪丽;郭志斌;刘梦贤.电脑知识与技术,2022(06)

    [2] 基于Python的南京二手房数据爬取及分析[J]. 戴瑗;郑传行.计算机时代,2021(01)

    [3] Python爬虫技术的网页数据抓取与分析[J]. 徐志;金伟.数字技术与应用,2020(10)

    [4] Python招聘数据分析[J]. 葛琳;杨娜.计算机与网络,2020(16)

    [5] 基于Python的豆瓣图书数据的爬取与分析[J]. 张娇.晋城职业技术学院学报,2023(04).

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/786388.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ALG:MODTRAN查找表参数详解(学习笔记4)

一、Modtran安装及环境配置 https://blog.csdn.net/qq_41358707/article/details/134721973 二、ALG配置更新 添加大气RTM。Settings,进入首选项界面,单击RTM选项卡以更新RTM的配置: 从窗口右上角的select RTM弹出菜单中选择一个大气RTM&a…

Docker Desktop如何换镜像源?

docker现在很多镜像源都出现了问题,导致无法拉取镜像,所以找到一个好的镜像源,尤为重要。 一、阿里镜像源 经过测试,目前,阿里云镜像加速地址还可以使用。如果没有阿里云账号,需要先注册一个账号。 地址:https://cr.console.aliyun.com/cn-hangzhou/instances/mirrors 二…

【AI前沿】人工智能的历史演进

文章目录 📑引言一、人工智能的起源与早期发展1.1 古代与早期的智能机器设想1.2 20世纪初期的机械计算机1.3 图灵测试与计算智能1.4 达特茅斯会议与人工智能的正式诞生 二、早期AI研究与第一次冬天2.1 早期的探索与挑战2.2 早期的专家系统2.3 第一次AI冬天 三、专家…

C++杂说- 多态和继承的知识在总结

多态 就是多种形态,具体点就是去完成某个行为,当不同的对象去完成时会 产生出不同的状态。 构成多态还有两个条件: 1. 必须通过基类的指针或者引用调用虚函数 2. 被调用的函数必须是虚函数,且派生类必须对基类的虚函数进行重写 虚…

67.SAP FICO-凭证类型学习

目录 SAP凭证类型 凭证类型的作用 - OBA7 SAP默认的凭证类型更改 FI相应事务代码默认凭证类型 - OBU1 对FB50、60、70默认凭证类型的更改 - OBZO 后勤货物移动默认凭证类型 - OMBA 发货凭证类型 收货凭证类型 自动移动凭证类型 存货盘点凭证类型 发票默认的凭证类…

vue3中使用provide跨层传值(方法)

1.使用provide inject 跨层实现 祖父组件: provide有两个参数,第一个是我们传递的key,第二个就是value了 孙子组件: const dataList inject(getDataList1)//使用inject接收 const dataList1 dataList.getDataList 页面中使…

制作问卷表单二维码的方法,扫码登记信息更快捷

为了更好地收集用户信息,现在很多场景下会使用生成二维码的方式,让用户可以扫码自行填写相关信息,从而提高获取信息的效率以及填写数据的便捷性。那么用于收集用户数据的表单二维码是如何生成的呢?其实方法很简单,现在…

2.pwn的linux基础(计算机内部数据结构存储形式)

linux基础 保护层级: 分为四个ring0-ring3 一般来说就两个,0和3 0为内核 3为用户 权限: 用户分为多个组 文件和目录等等的权限一般都是三个,即可读可写可执行。 读:R,写:W,执行:X 赋予一个可执行文件执行权限就是chmod x file…

KBPC5010-ASEMI逆变焊机专用KBPC5010

编辑:ll KBPC5010-ASEMI逆变焊机专用KBPC5010 型号:KBPC5010 品牌:ASEMI 封装:KBPC-4 正向电流(Id):50A 反向耐压(VRRM):1000V 正向浪涌电流&#xff…

Vue89-Vuex中多组件共享数据

一、需求 1-1、count组件读取persons数据 借助mapState映射。 1-2、personList组件读取sum数据

MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning

文章汇总 LoRA的问题 与FFT相比,低秩更新难以记忆新知识。虽然不断提高LoRA的秩可以缓解这一问题,但差距仍然存在。 动机 尽可能地利用相同的可训练参数来获得更高的 Δ W \Delta W ΔW秩。 考虑到预训练权值 W 0 ∈ R d k W_0\in R^{d\times k} W0​…

【HTML入门】第五课 - 加粗和倾斜的字体们

这一小节,我们说一些常用的HTML文本格式化的标签知识。可能你会觉得HTML知识比较零散,有好多标签。没错,就是比较零散,标签比较多。正式这些形形色色的HTML标签们,组成了丰富多彩的网页元素。 但是在刚学习的时候&…

Linux-gdb

目录 1.-g 生成含有debug信息的可执行文件 2.gdb开始以及gdb中的常用执行指令 3.断点的本质用法 4.快速跳出函数体 5.其他 1.-g 生成含有debug信息的可执行文件 2.gdb开始以及gdb中的常用执行指令 3.断点的本质用法 断点的本质是帮助我们缩小出问题的范围 比如,…

three-platformize 微信小程序 uniapp 使用截图功能

最近需要将3d场景进行截图,但是网上的各种各样,看的我一团乱麻,因此在解决完后就将这些简单的分享一下; 原理:将3维场景的那个canvas中的像素提取出来,找一个空的canvas二维画布放上去,然后用二…

剪映PC电脑版开心版5.5.0免VIP导出补丁下载_替换一次即可长期使用

剪映5.5.0免VIP导出补丁来了,可以使用VIP特效,文字转语音声效,滤镜,等全部需要VIP的素材,都可以直接导出,不需要VIP 并且是需要替换一次,每次启动软件都是可以直接导出的,只要不重新…

vue学习day02-Vue指令-v-html、v-show与v-if、v-else与v-else-if、v-on、v-bind、v-for、v-model

6、Vue指令 指令:带有v-前缀的特殊标签属性 (1)v-html 作用:设置元素的innerHTML 语法:v-html“表达式” 示例: 提供一个地址,这里是百度的地址,通过v-html渲染 结果&#xff…

【C语言】auto 关键字详解

在C语言中,auto关键字用于声明局部变量,但它的使用已经变得很少见。事实上,从C99标准开始,auto关键字的默认行为就是隐含的,因此在大多数情况下无需显式使用它。 基本用法 在C语言中,auto关键字用于指定变…

【学术会议征稿】第五届大数据、人工智能与物联网工程国际会议

第五届大数据、人工智能与物联网工程国际会议 2024 5th International Conference on Big Data, Artificial Intelligence and Internet of Things 第五届大数据、人工智能与物联网工程国际会议(ICBAIE 2024)定于2024年10月25-27号在中国深圳隆重举行。…

大语言模型的直接偏好优化(DPO)对齐在PAI-QuickStart实践

直接偏好优化(Direct Preference Optimization,DPO)算法是大语言模型对齐的经典算法之一,它巧妙地将奖励模型(Reward Model)训练和强化学习(RL)两个步骤合并成了一个,使得训练更加快…

绝区柒--LLM简史

这是一系列LLM介绍的可成,分以下五个不分 序言:大型语言模型LLM简史第一部分:代币化——完整指南第 2 部分:使用 Python 中的 Scratch 从零开始使用 word2vec 进行词嵌入第 3 部分:用代码解释自注意力机制第 4 部分&a…