目录
1.介绍
2.使用 selenium
1.安装
2.使用
1.测试打开网页,抓取雷速体育日职乙信息
2.通过xpath查找
3.输入文本框内容 send_keys
4.点击事件 click
5.获取网页源码:
7.seleniumt提供元素定位方式:8种
8.控制浏览器前进、后退、刷新
9.控制鼠标
10. 设置等待
11设置后台运行
12.后台终止
3.实战
1.介绍
1. selenium是一个用于web应用程序自动化测试工具,Selenium测试直接运行在浏览器中;
2.像真正的用户在操作一样2,驱动浏览执行特定的动作,如点击、下来等操作;
3.selenium支持浏览器
4.支持的语言
5.selenium在爬虫的应用
2.使用 selenium
1.安装
pip3 install selenium
2.使用
1.测试打开网页,抓取雷速体育日职乙信息
# coding:utf-8
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
# 打开浏览器
webdriver_chrome = webdriver.Chrome()
# 浏览器窗口最大化:
webdriver_chrome.maximize_window()
# 爬取日职乙联赛信息
webdriver_chrome.get("https://www.leisu.com/data/zuqiu/comp-568/season-11286")
# 默认页面是升级附加赛:提取主队信息
for home in webdriver_chrome.find_elements(By.XPATH, "//td[@class='home']/a"):
print("升级附加赛:主队信息:", home.text)
# 点击联赛
webdriver_chrome.find_element(By., "//div[@class='stage_name']").click()
# 获取联赛信息
for home in webdriver_chrome.find_elements(By.XPATH, "//td[@class='home']/a"):
print("联赛:主队信息:", home.text)
# 获取标题
print("标题:", webdriver_chrome.title)
print("获取cookie", webdriver_chrome.get_cookies())
print("获取页面源码", webdriver_chrome.page_source())
# 打开5秒关闭
time.sleep(5)
# 关闭浏览器
webdriver_chrome.quit()
2.通过xpath查找
webdriver_chrome.find_elements(By.XPATH, "//td[@class='home']/a")
3.输入文本框内容 send_keys
webdriver_chrome.find_element(By.XPATH,"//input[@id='']").send_keys("内容")
4.点击事件 click
webdriver_chrome.find_element(By.XPATH,"//input[@id='']").click()
5.获取网页源码:
webdriver_chrome.page_source()
6.获取cookies
webdriver_chrome.get_cookies()
7.seleniumt提供元素定位方式:8种
老版本使用
新版使用
find_elements(By.XPATH, "原始值")
find_elements(By.ID, "原始值")
find_elements(By.CLASS_NAME, "原始值")
等等
8.控制浏览器前进、后退、刷新
9.控制鼠标
import time
from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.by import By
# 打开浏览器
webdriver_chrome = webdriver.Chrome()
# 浏览器窗口最大化:
webdriver_chrome.maximize_window()
# 打开百度
webdriver_chrome.get("https://www.baidu.com/")
#鼠标移动到设置上
#定位设置
set_element_above=webdriver_chrome.find_element(By.ID,"s-usersetting-top")
print(set_element_above.text)
#移动鼠标到设置上
ActionChains(webdriver_chrome).move_to_element(set_element_above).perform()
time.sleep(5)
webdriver_chrome.quit()
10. 设置等待
1. 使用场景:有时候需要等某些元素加载后进行操作,或者网络原因需要加载;
2.等待分为2种方式,分为显式等待和隐式等待
3.显式等待代码:打开百度,输入内容
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
# 打开浏览器
webdriver_chrome = webdriver.Chrome()
# 浏览器窗口最大化:
webdriver_chrome.maximize_window()
# 打开百度
webdriver_chrome.get("https://www.baidu.com/")
# WebDriverWait:显示等待
# 参数:1.webdriver_chrome打开浏览器对象,2.timeout,3.轮训参数
# until:EC场景判断,通过id找到输入框
element = WebDriverWait(webdriver_chrome, 5, 0.5).until(EC.presence_of_element_located((By.ID, "kw")))
# 找到元素输入查找内容
element.send_keys("Python")
time.sleep(5)
webdriver_chrome.quit()
4.隐式等待代码:打开百度,输入内容
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.common.exceptions import NoSuchElementException
# 打开浏览器
webdriver_chrome = webdriver.Chrome()
# 浏览器窗口最大化:
webdriver_chrome.maximize_window()
#隐式等待
webdriver_chrome.implicitly_wait(5)
# 打开百度
webdriver_chrome.get("https://www.baidu.com/")
try:
webdriver_chrome.find_element(By.ID,"kw1").send_keys("python")
except NoSuchElementException as e:
print("超时没有找到元素:",e)
time.sleep(5)
webdriver_chrome.quit()
11设置后台运行
from selenium.webdriver.chrome.options import Optionsoptions = { "headless": "--headless", "no_sandbox": "--no-sandbox", "gpu": "--disable-gpu" } chrome_options = Options()driver = webdriver.Chrome(options=chrome_options)
12.后台终止
1.如运行异常可使用任务管理器,找到进程“chromediver.exe”结束进程
3.实战
1. 自动爬取比赛信息
2.自动翻页页
3.导出到excel中
待完成...