招不到人?用C语言采集系统批量采集简历

虽说现在大环境不太好,很多人面临着失业再就业风险,包括企业则面临着招人人,找对口专业难得问题。想要找到适合自己公司的人员,还要得通过爬虫获取筛选简历才能从茫茫人海中找到公司得力干将。废话不多说,直接开整。

在这里插入图片描述

1、导入所需的库:

import requests
from bs4 import BeautifulSoup
import re

这行代码导入了requests库,该库用于向网站发出HTTP请求;BeautifulSoup库,该库用于解析HTML文档;re库,该库用于处理正则表达式。

2、设置代理信息:

proxy_host = 'www.duoip.cn'
proxy_port = 8000
proxy = {
    'http': 'http://{}:{}'.format(proxy_host, proxy_port),
    'https': 'https://{}:{}'.format(proxy_host, proxy_port)
    '获取免费ip:jshk.com.cn/mb/reg.asp?kefu=xjy&csdn)
}

这行代码定义了代理的主机名和端口号,并将它们存储在proxy字典中。然后,我们使用format()函数将这些值拼接为代理URL。

3、发出HTTP请求:

response = requests.get('https://www.zhaopin.com/', proxies=proxy)

这行代码使用requests.get()函数向www.zhaopin.com发送GET请求。 proxies参数指定了代理服务器。

4、解析HTML文档:

soup = BeautifulSoup(response.text, 'html.parser')

这行代码使用BeautifulSoup库解析response.text(即HTTP响应的文本内容)。

5、获取招聘信息的HTML元素:

job_info = soup.find_all('div', attrs={'class': 'job-item'})

这行代码使用BeautifulSoup库的find_all()函数查找所有class为’job-item’的div元素(即招聘信息的HTML元素)。

6、循环遍历招聘信息:

for info in job_info:
    job_title = info.find('h2', attrs={'class': 'job-title'}).text
    company_name = info.find('span', attrs={'class': 'company'}).text
    link = info.find('a')['href']
    print('职位名称:', job_title)
    print('公司名称:', company_name)
    print('链接:', link)
    print('-------------------------')

这行代码循环遍历job_info列表中的每一个元素,并使用find()函数查找职位名称、公司名称和链接。text参数用于获取元素的文本内容,而[‘href’]参数用于获取链接。然后,我们打印出这些信息。

7、整个爬虫程序的运行:

if __name__ == '__main__':
    proxy_host = 'www.duoip.cn'
    proxy_port = 8000
    proxy = {
        'http': 'http://{}:{}'.format(proxy_host, proxy_port),
        'https': 'https://{}:{}'.format(proxy_host, proxy_port)
    }
    response = requests.get('https://www.zhaopin.com/', proxies=proxy)
    soup = BeautifulSoup(response.text, 'html.parser')
    job_info = soup.find_all('div', attrs={'class': 'job-item'})
    for info in job_info:
        job_title = info.find('h2', attrs={'class': 'job-title'}).text
        company_name = info.find('span', attrs={'class': 'company'}).text
        link = info.find('a')['href']
        print('职位名称:', job_title)
        print('公司名称:', company_name)
        print('链接:', link)
        print('-------------------------')

这行代码为整个爬虫程序的入口。当程序运行时,它会首先设置代理信息,然后发出HTTP请求,解析HTML文档,获取招聘信息的HTML元素,循环遍历招聘信息,并打印出这些信息。

以上就是爬取智联、无忧简历采集系统内容的Python代码。请注意,这只是一个基本的爬虫程序,实际的爬虫程序需要处理更多的复杂情况,例如处理网站的反爬虫策略、处理可能存在的网页结构变化、处理可能存在的错误等。因此,在编写实际的爬虫程序时,需要根据实际情况进行适当的调整和优化。

上面就是有关爬虫获取招聘信息的一些简易的代码,虽说过程很复杂,一旦跑通了,使用还是非常的方便。如果各位大佬有更好的建议,欢迎评论区交流讨论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/240603.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Github仓库远程操作——简单版

Github远程操作 github仓库简单的远程操作,更多复杂的功能请参考github官方文档 标题 Github远程操作添加公钥到githubGithub仓库远程操作 远程操作之前,先添加本地的公钥到github 添加公钥到github 创建本地ssh公私钥:使用powershell或者gi…

(1)(1.7) HOTT telemetry

文章目录 前言 1 布线和设置 2 参数说明 前言 Plane-4.0.0(及更高版本)、Copter-4.0.4(及更高版本)和 Rover-4.1.0(及更高版本)支持 Graupner HOTT 遥测技术。 1 布线和设置 与自动驾驶仪的连接可通过…

Jenkins项目部署CICD

目录 什么是CI/CD 常用 CI/CD 工具 主要步骤 1、点击新建任务 2、构建自由风格项目 3、填写内容 ①、General 1)描述 2)丢弃旧的构建 ②、源码管理 1)Repository URL 2)Credentials 3)Branches to build…

破局:国内市场确实存在“消费升级”和“消费降级”,3.0全新新零售商业模式

国内市场确实存在“消费升级”和“消费降级”两个趋势,这是由于不同消费者群体的需求和购买力存在差异。消费升级主要发生在高端市场,消费者愿意为高品质、高价值、高价格的商品和服务付出更多。而消费降级则主要发生在中低端市场,消费者更加…

【教程】Ipa Guard为iOS应用提供免费加密混淆方案

概述:使用ios加固工具对ios代码保护,保护ios项目中的核心代码, #ipagurd年终大促百厂联动暖冬特惠,超多软控件立享惊喜优惠>> ​ 简介 iOS加固保护是直接针对ios ipa二进制文件的保护技术,可以对iOS APP中的可…

git根据commit id强制推送,撤销远程仓库代码

由于将把不用发版的需求合并上去了,现在想撤回,可以根据以下操作进行 注意撤回、强制推送有风险,记得强制撤回前,备份好代码 确保本地仓库中包含你想要推送的 commit: 这里你要经常使用命令进行操作的话,就…

maui下sqlite演示增删改查

数据操作类 有分页 todoitemDatabase.cs: using SQLite; using TodoSQLite.Models;namespace TodoSQLite.Data {public class TodoItemDatabase{SQLiteAsyncConnection Database;public TodoItemDatabase(){}// 初始化数据库连接和表async Task Init(){if (Databa…

Java:TCP 通信方法(基本发送 + 接收)并 实现文件传输且反馈

TCP 通信编程 TCP:是一种可靠的网络协议,再通信两端都建立一个Socket对象。 通信之前要保证连接已经建立。 通过Socket产生IO流进行通信。 创建对象时,会连接服务器,连接不上,会报错。 所以,先运行服务端,再…

Triton算法服务部署:初识与试用【Hello world】

0. 写在前面 Triton Inference Server 是一款开源推理服务软件,可简化 AI 推理。其可以部署来自多个深度学习和机器学习框架的任何 AI 模型,包括 TensorRT、TensorFlow、PyTorch、ONNX、OpenVINO、Python、RAPIDS FIL 等。Triton 支持在 NVIDIA GPU、x8…

【C++】哈希表

文章目录 哈希概念哈希冲突哈希函数哈希表闭散列开散列 开散列与闭散列比较 正文开始前给大家推荐个网站,前些天发现了一个巨牛的 人工智能学习网站, 通俗易懂,风趣幽默,忍不住分享一下给大家。 点击跳转到网站。 哈希概念 顺…

微服务项目部署

启动rabbitmq \RabbitMQ\rabbitmq_server-3.8.2\sbin 找到你的安装路径 找到\sbin路径下执行这些命令即可 rabbitmqctl status //查看当前状态 rabbitmq-plugins enable rabbitmq_management //开启Web插件 rabbitmq-server start //启动服务 rabbitmq-server stop //停止服务…

不需要联网的ocr项目

地址 GitHub - plantree/ocr-pwa: A simple PWA for OCR, based on Tesseract. 协议 mit 界面 推荐理由 可以离线使用,隐私安全

python自动化测试实战 —— 自动化测试框架的实例

软件测试专栏 感兴趣可看:软件测试专栏 自动化测试学习部分源码 python自动化测试相关知识: 【如何学习Python自动化测试】—— 自动化测试环境搭建 【如何学习python自动化测试】—— 浏览器驱动的安装 以及 如何更…

【XR806开发板试用】基于FreeRTOS的SoftAp配网实现

1.环境搭建 由于电脑上之前就有开发其他设备用的ubuntu18.06虚拟机环境,就在此环境基础上进行开发。基本环境搭建参考官方文档进行: 全志XR806开发板开发环境搭建 2.功能实现 2.1设计思路 从官方下载的SDK开发包project/example目录下有基本功能实现…

扫盲运动—字节序

1 大端、小端字节序 术语“大端”和“小端”表示多个字节值的哪一端(小端或大端)存储在该值的起始地址。 大端:将高序字节存储在起始地址,这称为大端(big-endian)字节序小端:将低序字节存储在…

03-详解Nacos注册中心的配置步骤和功能

Nacos注册中心 服务注册到Nacos Nacos是SpringCloudAlibaba的组件也遵循SpringCloud中定义的服务注册和服务发现规范,因此使用Nacos与使用Eureka对于微服务来说并没有太大区别 主要差异就是依赖不同,服务地址不同 第一步: 在父工程cloud-demo模块的pom.xml文件中引入Spring…

现代信号处理实验:MATLAB实现LD算法进行AR估计

MATLAB实现LD算法进行AR估计 利用给定的一组样本数据估计一个平稳随机信号的功率谱密度称为功率谱估计,又称谱估计。谱估计的方法可以分成经典谱估计和现代谱估计。 经典谱估计又称为非参数化的谱估计,分为直接法和间接法。直接法是指直接计算样本数据…

C# WPF上位机开发(增强版绘图软件)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 前面我们写过一个绘图软件,不过那个比较简单,主要就是用鼠标模拟pen进行绘图。实际应用中,另外一种使用比较多的…

MySQL笔记-第18章_MySQL8其它新特性

视频链接:【MySQL数据库入门到大牛,mysql安装到优化,百科全书级,全网天花板】 文章目录 第18章_MySQL8其它新特性1. MySQL8新特性概述1.1 MySQL8.0 新增特性1.2 MySQL8.0移除的旧特性 2. 新特性1:窗口函数2.1 使用窗口…

最新鸿蒙HarmonyOS4.0开发登陆的界面1

下载deveco-studio 说明一下,本人只是学习中,现在只是拿着vue及uniapp的经验在一点一点的折腾,不过现在看来,鸿蒙入门并不是很难。也许是自己没有深入下去。 https://developer.harmonyos.com/cn/develop/deveco-studio#download…