[python爬虫] 爬取图片无法打开或已损坏的简单探讨

本文主要针对python使用urlretrieve或urlopen下载百度、搜狗、googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨。同时,作者将进一步帮你巩固selenium自动化操作和urllib库等知识。

一. 引入Selenium自动爬取百度图片

        下面这部分Selenium代码的主要功能是:
            1.先自动运行浏览器,并访问百度图片链接:百度图片-发现多彩世界
            2.通过driver.find_element_by_xpath()函数获取输入框的位置;
            3.在输入框中自动输入搜索关键词"邓肯",再输入回车搜索"邓肯"相关图片;
            4.再通过find_element_by_xpath()获取图片的原图url,这里仅获取一张图片;
            5.调用urllib的urlretrieve()函数下载图片。
        最后整个动态效果如下图所示,但是图片却无法显示:


        代码如下: 

# -*- coding: utf-8 -*-
importurllib  
importre  
importtime  
importos  
fromselenium import webdriver            
fromwebdriver.common.keys importKeys   
importwebdriver.support.ui as ui  
fromwebdriver.common.action_chains importActionChains           

#Open PhantomJS
#driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")  
driver = webdriver.Firefox()   
wait = ui.WebDriverWait(driver,10)  

#Search Picture By Baidu
url = "http://image.baidu.com/"
name = u"邓肯"
get(url)  
elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input")    
send_keys(name)    
send_keys(Keys.RETURN)  
sleep(5)  

#Get the URL of Pictures
#elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a")
elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a/img")  
elem_url = elem_pic.get_attribute("src")  
printelem_url  

#Download Pictures
get(elem_url)  
urlretrieve(elem_url,"picture.jpg")  
print"Download Pictures!!!"

二. 简单分析原因及知识巩固

       1.urllib.urlretrieve()
       通过urlretrieve()函数可设置下载进度发现图片是一下子就加载的。这里给大家巩固这个urlretrieve函数的方法和Python时间命名方式,代码如下:

# -*- coding: utf-8 -*-
importurllib  
importtime  
importos  

#显示下载进度
defschedule(a,b,c):  
#a:已下载的数据块 b:数据块的大小 c:远程文件的大小  
per = 100.0 * a * b / c  
ifper > 100 :  
per = 100  
print'%.2f%%' % per  

if__name__ == '__main__':  
url = "http://img4.imgtn.bdimg.com/it/u=3459898135,859507693&fm=11&gp=0.jpg"
#定义文件名时间命名  
t = time.localtime(time.time())  
#反斜杠连接多行
filename = str(t.__getattribute__("tm_year")) + "_"+ \  
str(t.__getattribute__("tm_mon")) + "_"+ \  
str(t.__getattribute__("tm_mday"))  
target = "%s.jpg"% filename  
printtarget  
urlretrieve(url,target,schedule)  
print"Download Picture!!!"  

        发现该图片的大小仅为168字节,其中输出结果如下图,获取的URL地址如下:
页面不存在_百度搜索 
而换张图片是能显示下载进度的,如我的头像。显然我想让程序加个进度就能爬取图片的想法失败。头像地址:https://avatar.csdn.net/F/8/5/1_eastmount.jpg

        猜测可能获取的百度URL不是原图地址,或者是个服务器设置了相应的拦截或加密。参考"Python爬虫抓取网页图片",函数相关介绍如下:

>>> help(urllib.urlretrieve)  
Help on function urlretrieve inmodule urllib:  
urlretrieve(url, filename=None, reporthook=None, data=None)  

参数url:
指定的下载路径  
参数finename:  
指定了保存本地路径(如果参数未指定,urllib会生成一个临时文件保存数据。)  
参数reporthook:  
是一个回调函数,当连接上服务器、以及相应的数据块传输完毕时会触发该回调,
我们可以利用这个回调函数来显示当前的下载进度。
参数data:
指post 到服务器的数据,该方法返回一个包含两个元素的(filename, headers)元组,  
filename 表示保存到本地的路径,header 表示服务器的响应头。

       2.urllib2.urlopen()
       换个方法urlopen()实现,同时设置消息头试试,并输出信息和图片大小。

# -*- coding: utf-8 -*-
importos        
importsys      
importurllib  
importurllib2  

#设置消息头
url = "http://img4.imgtn.bdimg.com/it/u=3459898135,859507693&fm=11&gp=0.jpg"
header = {  
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) \  
AppleWebKit/537.36 (KHTML, like Gecko) \  
Chrome/35.0.1916.114 Safari/537.36',  
'Cookie': 'AspxAutoDetectCookieSupport=1'
}  
request = urllib2.Request(url, None, header)  
response = urllib2.urlopen(request)  
printheaders['Content-Length']  

with open("picture.jpg","wb") as f:  
write(response.read())  
printgeturl()  
printinfo()    #返回报文头信息
printurlopen(url).read()  

        返回内容是”HTTPError: HTTP Error 403: Forbidden“,Selenium打开如下:

 其中403错误介绍如下,服务器拒绝服务:

        换成我的博客图像那张图是能下载的,同时设置消息头和代理,推荐一篇文章:
        [Python]网络爬虫(五):urllib2的使用细节与抓站技巧


 

三. 解决方法

        主要参考三篇文章和自己的一些想法:
        selenium+python 爬取网络图片(2) -- 百度
        Python 3 多线程下载百度图片搜索结果
        CSDN博客搬家到WordPress  - curl设置headers爬取

        第一个方法 F12审查元素和SRC的骗局
        这是感谢"露为霜"同学提供的方法,如果你通过浏览器点开百度搜索"邓肯"的第一张图片,复制网址后,会发现图片真实的地址为:
        http://gb.cri.cn/mmsource/images/2015/11/22/sb2015112200073.jpg
        此时你再分析百度搜索页面,你会发现"F12审查元素和获取src元素的行为欺骗了你",正是因为它俩定位到了错误的图片链接。而真实的URL是在"ul/li/"中的"data-objurl"属性中。

        代码如下: 

# -*- coding: utf-8 -*-
importurllib  
importre  
importtime  
importos  
fromselenium import webdriver            
fromwebdriver.common.keys importKeys  
importwebdriver.support.ui as ui          
fromwebdriver.common.action_chains importActionChains  

#Open PhantomJS
#driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")  
driver = webdriver.Firefox()   
wait = ui.WebDriverWait(driver,10)  

#Search Picture By Baidu
url = "http://image.baidu.com/"
name = u"邓肯"
get(url)  
elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input")    
send_keys(name)    
send_keys(Keys.RETURN)  
sleep(5)  

#Get the URL of Pictures
num = 1  
elem_pic = driver.find_elements_by_xpath("//div[@class='imgpage']/ul/li")  
forelem inelem_pic:  
elem_url = elem.get_attribute("data-objurl")  
printelem_url  
#Download Pictures
name = "%03d"% num  
urlretrieve(elem_url, str(name) + ".jpg")  
num = num + 1  
else:  
print"Download Pictures!!!"  

        运行代码成功爬取了9张图片,显然成功了!虽然最后报错:IOError: [Errno socket error] [Errno 10060] ,只爬取了9张图片,但是至少可以正确解决了该问题。运行截图如下所示:

        同样的道理,googto的elem.get_attribute("src")改成elem.get_attribute("data-imgurl")即可获取正确的图片地址并正确下载。
        PS:百度图片动态加载的功能是非常强大的,当你的鼠标拖动时,它会自动增加新的页面,在<ul>中包括新的一批<li>张图片,这也是不同于其它网页在右下角点击"1、2、3..."翻页的,可能也会成为海量图片爬取的又一难点。

        第二个方法 Selenium使用右键另存为
        还是使用老的链接,虽然读取是无法显示的,但尝试通过Selenium的鼠标右键另存为功能,看能不能爬取成功。

# -*- coding: utf-8 -*-
importurllib  
importre  
importtime  
importos  
fromselenium import webdriver            
fromwebdriver.common.keys importKeys  
importwebdriver.support.ui as ui          
fromwebdriver.common.action_chains importActionChains  

#Open PhantomJS 
driver = webdriver.Firefox()  
wait = ui.WebDriverWait(driver,10)  

#Search Picture By Baidu
url = "http://image.baidu.com/"
name = u"邓肯"
get(url)  
elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input")    
send_keys(name)    
send_keys(Keys.RETURN)  
sleep(5)  

#Get the URL of Pictures
elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a/img")  
elem_url = elem_pic.get_attribute("src")  
printelem_url  

#鼠标移动至图片上右键保存图片
get(elem_url)  
printpage_source  
elem = driver.find_element_by_xpath("//img")  
action = ActionChains(driver).move_to_element(elem)  
context_click(elem) #右键

#当右键鼠标点击键盘光标向下则移动至右键菜单第一个选项
send_keys(Keys.ARROW_DOWN)  
send_keys('v') #另存为
perform()  
print"Download Pictures!!!"

        运行效果如下图所示。虽然它能实现右键另存为,但是需要手动点击保存,其原因是selenium无法操作操作系统级的对话框,又说"set profile"代码段的设置能解决问题的并不靠谱。通过钩子Hook函数可以实现,以前做过C#的钩子自动点击功能,但是想到下载图片需要弹出并点击无数次对话框就很蛋疼,所以该方法并不好!
        钩子函数java版本结合robot可以阅读下面这篇文章:
        selenium webdriver 右键另存为下载文件(结合robot and autoIt)


        第三个方法 通过Selenium自动点击百度的下载按钮
        其实现过程就是通过Selenium找到"下载"按钮,再点击或获取链接即可。
        该方法参考文章:selenium+python 爬取网络图片(2) -- 百度
        同时,这里需要强调百度动态加载,可以通过Selenium模拟滚动窗口实现,也参考上面文章。其中核心代码为:

        driver.maximize_window()
        pos += i*500   # 每次下滚500
        js = "document.documentElement.scrollTop=%d" % pos
        driver.execute_script(js)


       第四个方法 百度图片解码下载及线程实现
       参考文章:Python 3 多线程下载百度图片搜索结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/81174.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

部署工业物联网可以选择哪些通信方案?

部署工业物联网有诸多意义&#xff0c;诸如提升生产效率&#xff0c;降低管理成本&#xff0c;保障生产品质稳定&#xff0c;应对长期从业劳动力变化趋势等。针对不同行业、场景&#xff0c;工业物联网需要选择不同的通信方案&#xff0c;以达到成本和效益的最佳平衡。本篇就简…

《HeadFirst设计模式(第二版)》第十章代码——状态模式

如下图所示&#xff0c;这是一个糖果机的状态机图&#xff0c;要求使用代码实现&#xff1a; 初始版本&#xff1a; package Chapter10_StatePattern.Origin;/*** Author 竹心* Date 2023/8/19**/public class GumballMachine {final static int SOLD_OUT 0;final static int…

Python学习笔记_进阶篇(二)_django知识(一)

本章简介&#xff1a; Django 简介Django 基本配置Django urlDjango viewDjango 模板语言Django Form Django 简介 Django是一个开放源代码的Web应用框架&#xff0c;由Python写成。采用了MVC的软件设计模式&#xff0c;即模型M&#xff0c;视图V和控制器C。它最初是被开发来…

攻防世界-PHP2

原题 解题思路 这题需要查看页面的phps文件&#xff08;这玩意从没见过&#xff09;。phps的文件是存放php的源代码的&#xff0c;但是不是所有网站都有。 只要让传入的idadmin就可以得到key了。 但是直接传入admin不行。用burp编码。 结果还是不行&#xff1a; 那就再…

【C++】做一个飞机空战小游戏(十)——子弹击落炮弹、炮弹与飞机相撞

[导读]本系列博文内容链接如下&#xff1a; 【C】做一个飞机空战小游戏(一)——使用getch()函数获得键盘码值 【C】做一个飞机空战小游戏(二)——利用getch()函数实现键盘控制单个字符移动【C】做一个飞机空战小游戏(三)——getch()函数控制任意造型飞机图标移动 【C】做一个飞…

Linux笔试题(4)

67、在局域网络内的某台主机用ping命令测试网络连接时发现网络内部的主机都可以连同,而不能与公网连通,问题可能是__C_ A.主机ip设置有误 B.没有设置连接局域网的网关 C.局域网的网关或主机的网关设置有误 D.局域网DNS服务器设置有误 解析&#xff1a;在局域网络内的某台主…

视频怎么转gif高清动图?分享一款视频转gif工具

许多小伙伴都不知道如何将拍摄的短视频转gif图片&#xff0c;本文将分享一款专业的视频转gif工具&#xff0c;打来浏览器即可将视频在线转gif&#xff08;https://www.gif.cn&#xff09;&#xff0c;操作简单&#xff0c;使用方便&#xff0c;下面是详细的步骤。 打开网站&am…

linux系统服务学习(六)FTP服务学习

文章目录 FTP、NFS、SAMBA系统服务一、FTP服务概述1、FTP服务介绍2、FTP服务的客户端工具3、FTP的两种运行模式&#xff08;了解&#xff09;☆ 主动模式☆ 被动模式 4、搭建FTP服务&#xff08;重要&#xff09;5、FTP的配置文件详解&#xff08;重要&#xff09; 二、FTP任务…

实验一 VMware 17 虚拟机下安装Ubuntu16.04

系列文章目录 文章目录 系列文章目录前言一、pandas是什么&#xff1f;二、使用步骤 1.引入库2.读入数据总结 前言 古人云&#xff1a;“工欲善其事&#xff0c;必先利其器。” 我们在学习分布式数据库原理知识同时少不了实操&#xff0c;在做实验之前&#xff0c;把相关实验…

AI 绘画Stable Diffusion 研究(十二)SD数字人制作工具SadTlaker插件安装教程

免责声明: 本案例所用安装包免费提供&#xff0c;无任何盈利目的。 大家好&#xff0c;我是风雨无阻。 想必大家经常看到&#xff0c;无论是在产品营销还是品牌推广时&#xff0c;很多人经常以数字人的方式来为自己创造财富。而市面上的数字人收费都比较昂贵&#xff0c;少则几…

解决多模块内核心模块有接口打包成jar后被依赖并调用遇到的问题(springcloud集成ruoyi.quartz)

项目准备开发个新功能&#xff0c;刚好很喜欢ruoyi写的任务调度&#xff0c;因此想到了集成ruoyi.quartz模块 &#xff0c;遇到了很多问题: 首先因为ruoyi.quartz模块依赖了ruoyi.common模块&#xff0c;因此第一步我需要把common模块一部分依赖项复制到了quartz模块内&#xf…

Python 的下一代 HTTP 客户端

迷途小书童 读完需要 9分钟 速读仅需 3 分钟 1 环境 windows 10 64bitpython 3.8httpx 0.23.0 2 简介 之前我们介绍过使用 requests ( https://xugaoxiang.com/2020/11/28/python-module-requests/ ) 来进行 http 操作&#xff0c;本篇介绍另一个功能非常类似的第三方库 httpx&…

pointnet C++推理部署--tensorrt框架

classification 如上图所示&#xff0c;由于直接export出的onnx文件有两个输出节点&#xff0c;不方便处理&#xff0c;所以编写脚本删除不需要的输出节点193&#xff1a; import onnxonnx_model onnx.load("cls.onnx") graph onnx_model.graphinputs graph.inpu…

时序预测 | MATLAB实现WOA-CNN-LSTM鲸鱼算法优化卷积长短期记忆神经网络时间序列预测

时序预测 | MATLAB实现WOA-CNN-LSTM鲸鱼算法优化卷积长短期记忆神经网络时间序列预测 目录 时序预测 | MATLAB实现WOA-CNN-LSTM鲸鱼算法优化卷积长短期记忆神经网络时间序列预测预测效果基本介绍模型描述程序设计学习总结参考资料 预测效果 基本介绍 时序预测 | MATLAB实现WOA-…

VBA技术资料MF45:VBA_在Excel中自定义行高

【分享成果&#xff0c;随喜正能量】可以不光芒万丈&#xff0c;但不要停止发光。有的人陷入困境&#xff0c;不是被人所困&#xff0c;而是自己束缚自己&#xff0c;这时"解铃还须系铃人"&#xff0c;如果自己无法放下&#xff0c;如何能脱困&#xff1f; 。 我给V…

03_缓存双写一致性

03——缓存双写一致性 一、缓存双写一致性 如果redis中有数据&#xff0c;需要和数据库中的值相同如果redis中无数据&#xff0c;数据库中的值要是最新值&#xff0c;且准备回写redis 缓存按照操作来分&#xff0c;可以分为两种&#xff1a; 只读缓存 读写缓存 同步直写操作…

解决:(error) ERR unknown command shutdow,with args beginning with

目录 一、遇到问题 二、出现问题的原因 三、解决办法 一、遇到问题 要解决连接redis闪退的问题&#xff0c;按照许多的方式去进行都没有成功&#xff0c;在尝试使用了以下的命名去尝试时候&#xff0c;发现了这个问题。 二、出现问题的原因 这是一个粗心大意导致的错误&am…

Azure静态网站托管

什么是静态网站托管 Azure Blob的静态网站托管是一项功能&#xff0c;它允许开发人员在Azure Blob存储中托管和发布静态网站。通过这个功能&#xff0c;您可以轻松地将静态网页、图像、视频和其他网站资源存储在Azure Blob中&#xff0c;并直接通过提供的URL访问这些资源。 官…

什么是变量提升(hoisting)?它在JavaScript中是如何工作的?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ 变量提升&#xff08;Hoisting&#xff09;⭐ 变量提升的示例&#xff1a;⭐ 写在最后 ⭐ 专栏简介 前端入门之旅&#xff1a;探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦 几何带你启航前端之旅 欢迎来到前端入门之旅&…

Android 场景Scene的使用

Scene 翻译过来是场景&#xff0c;开发者提供起始布局和结束布局&#xff0c;就可以实现布局之间的过渡动画。 具体可参考 使用过渡为布局变化添加动画效果 大白话&#xff0c;在 Activity 的各个页面之间切换&#xff0c;会带有过渡动画。 打个比方&#xff0c;使用起来类似…