爬虫4-selenium
1. selenium 基本操作
- 在使用selenium之前必须先配置浏览器对应版本的webdriver。才可以控制浏览器打开网页
1.1 创建浏览器对象
b = Chrome()
1.2 打开网页
(需要哪个网页数据,就打开那个网页对应的网页地址)
b.get('https://movie.douban.com/top250?start=0&filter=')
1.3 获取网页源代码(page_source:打开的页面的源代码)
- 注意:不管以什么方法更新了界面内容,page_source的内容也会更新
print(b.page_source)
1.4 关闭浏览器(可有可无)
input('')
任意输入可以结束
2. selenium的翻页问题
from selenium.webdriver import Chrome
- selenium获取多业数据翻页方法:
2.1 翻页方法1
- 找到不同页的地址的变化规律,利用循环实现对也数据请求
b = Chrome()
for page in range(0, 101, 25):
b.get(f'https://movie.douban.com/top250?start={page}&filter=')
print(b.page_source)
input('')
2.2 翻页方法2
- 点击翻页按钮,刷新页面内容,再刷新后获取网页源代码
from selenium.webdriver.common.by import By
b = Chrome()
b.get('https://movie.douban.com/top250?start=0&filter=')
for x in range(5):
print(b.page_source)
# 点击下一页按钮
b1 = b.find_element(By.CLASS_NAME, 'next')
# b.find_element(By.CSS_SELECTOR, '.next')
# b.find_element(By.PARTIAL_LINK_TEXT, '.next')
# 点击按钮
b1.click()
- 涉及知识点
1)selenium 获取标签
浏览器对象.b.find_element() - 返回符合条件的第一个标签,返回的是标签对象
浏览器对象.b.find_elements() - 返回符合条件的所有标签,返回的有标签对象的列表
-
- 获取方式:
By.ID - 通过ID属性值获取标签
By.CLASS_NAME - 通过class属性值获取标签
By.CSS_SELECTOR - 通过css选择器属性值获取标签
By.PARTIAL_LINK_TEXT - 通过a标签的部分标签内容获取标签
By.LINK_TEXT - 通过a标签的标签内容获取标签
from selenium.webdriver.common.by import By
b = Chrome()
b.get('https://www.jd.com/')
# 获取id属性值为key的标签
seach = b.find_element(By.ID, 'key')
seach.click()
# 获取'便宜包邮'的a标签
a1 = b.find_element(By.LINK_TEXT, '便宜包邮')
a1.click()
# 获取标签内容包含'口好'的a标签
a2 = b.find_element(By.PARTIAL_LINK_TEXT, '口好')
a2.click()
2)操作标签
- 输入框内容:输入框对应标签.sent_keys(输入内容)
- 点击标签:标签对象.click
from selenium.webdriver.common.by import By
b = Chrome()
b.get('https://www.jd.com/')
seach = b.find_element(By.ID, 'key')
seach.send_keys('电饭煲\n')
3. 滚动问题
- 用代码控制浏览器滚动
from selenium.webdriver import Chrome
import time
from selenium.webdriver.common.by import By
b = Chrome()
b.get('https://search.jd.com/Search?keyword=%E7%94%B5%E9%A5%AD%E7%85%B2&enc=utf-8&wq=%E7%94%B5%E9%A5%AD%E7%85%B2&pvid=37838527b6d6410aa7fdb0fb672e91b4')
time.sleep(2)
for x in range(10):
b.execute_script('window.scrollBy(0, 800)')
time.sleep(2)
time.sleep(2)
result = b.find_elements(By.CSS_SELECTOR, '#J_goodsList>ul>li')
print(len(result))
input('')
案例:知网实例
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import time
def zhiwang():
# 1.创建浏览器
b = Chrome()
# 2.打开知网
b.get('https://www.cnki.net/')
# 3.获取输入框输入'数据分析'
seach = b.find_element(By.ID, 'txt_SearchText')
seach.send_keys('数据分析\n')
time.sleep(1)
for i in range(5):
# 4.获取所有论文的标题标签
titles = b.find_elements(By.CLASS_NAME, 'fz14')
# print(len(titles))
for x in titles:
title = x.text
x.click()
time.sleep(1)
# print(b.page_source)
# 以上还在第一个页面
# 切换选项卡,让浏览器对象指向新页面
b.switch_to.window(b.window_handles[-1])
# print(b.page_source)
author = b.find_element(By.ID, 'authorpart').text
summary = b.find_element(By.ID, 'ChDivSummary').text
keyword = b.find_element(By.CLASS_NAME, 'keywords').text
# summary = b.find_element(By.ID, 'abstract_text').text
print(title, author, summary, keyword)
time.sleep(2)
# 关闭当前窗口
b.close()
# 将选项卡切回第一个页面内
b.switch_to.window(b.window_handles[0])
time.sleep(5)
b1 = b.find_element(By.ID, 'PageNext')
b1.click()
time.sleep(5)
input('输入')
if __name__ == '__main__':
zhiwang()