python-爬取壁纸

代理池的,防止IP 被封

找到图片真实地址

现在看到的只是图片的预览地址 (previews)

1.检查:

2.鼠标变为箭头时查看网页源代码

关于怎样在源代码中找到图片的真实地址 ???

为什么在源代码界面 ctrl f 时候搜索的是 .png ???

首先图片地址是以 .jpg .png .jpeg 结尾

真实的图片地址是:

"contentUrl":"https://img3.wallspic.com/crops/0/5/0/6/7/176050/176050-old_paria_utah-paria-kanab-paria_river-towers_of_the_virgin-6319x4324.jpg"

用正则表达式匹配,只匹配高像素源图片

(r'contentUrl":"(https://img\d.wallspic.com/crops/.*?)"', response)

如果是下面的内容,则会连缩略图也匹配到

(r'"contentUrl":"(.*?)"',req)

最终代码:

import requests
import re

url = 'https://wallspic.com/cn/album/ji_shu/for_desktop'

response = requests.get(url = url).text

contentUrl = re.findall(r'contentUrl":"(https://img\d.wallspic.com/crops/.*?)"', response)
j = 0
for i in contentUrl:
    j += 1
    Content = requests.get(url = i).content
    print(i)
    with open(f'Wallspic-{j}.jpg', mode = 'wb') as f:
        f.write(Content)
        print(f'[+] 壁纸{j}保存完成!')

最终结果是以.jpg的形式输出的

也可以以 .png的形式输出,.png是益处多多

Desktop Wallpapers - Download HD Desktop Backgrounds

https://wall.alphacoders.com/by_sub_category.php?id=170792&name=Black+Wallpapers

下载的慢可能是网速的原因,需要翻墙;或者给 idea 配置代理,

刷新电脑本地的线路,保持畅通。 

---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

import requests
import re

def download_wallpapers(start_page, end_page):
    for page in range(start_page, end_page+1):
        url = f'https://wallspic.com/cn/album/dianying/popular?page={page}'
        response = requests.get(url=url).text
        contentUrl = re.findall(r'contentUrl":"(https://img\d.wallspic.com/crops/.*?)"', response)
        j = 0
        for i in contentUrl:
            j += 1
            Content = requests.get(url = i).content
            print(i)
            with open(f'p-{page}-{j}.jpg', mode = 'wb') as f:
                f.write(Content)
                print(f'[+] 壁纸{page}-{j}保存完成!')
# 下载第1页到第55页的壁纸
download_wallpapers(1, 55)

 

这段代码的作用是从wallspic.com网站下载电影壁纸,具体解读如下:

  1. 导入requests和re模块:
import requests
import re
  1. 定义一个函数download_wallpapers,该函数接受两个参数:起始页码start_page和结束页码end_page。
def download_wallpapers(start_page, end_page):
  1. 使用for循环遍历从start_page到end_page的所有页码。
for page in range(start_page, end_page+1):
  1. 构造每个页面的URL,并使用requests.get()方法获取页面的HTML文本。
url = f'https://wallspic.com/cn/album/dianying/popular?page={page}'
response = requests.get(url=url).text
  1. 使用正则表达式从HTML文本中提取出所有壁纸的下载链接。
contentUrl = re.findall(r'contentUrl":"(https://img\d.wallspic.com/crops/.*?)"', response)
  1. 使用for循环遍历所有壁纸的下载链接,并使用requests.get()方法下载每个壁纸。
for i in contentUrl:
    Content = requests.get(url = i).content
  1. 将每个壁纸保存到本地,并打印出保存完成的信息。
with open(f'p-{page}-{j}.jpg', mode = 'wb') as f:
    f.write(Content)
    print(f'[+] 壁纸{page}-{j}保存完成!')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/243055.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

OpenStack网络详解

本文主要解释了OpenStack在安装完毕——创建网段与dhcp——创建虚拟机的过程中,系统中多出来的这一堆网卡到底分别连接哪两部分的网卡,以及哪些设备是虚拟出来的。 拓扑 红色代表ovs与网桥 蓝色代表命名空间或者虚机 绿色代表网卡 网络概况 openstack安…

【Mars3d-ModelEntity】实现gltf模型不随地图缩放而改变大小

需求场景: 1.实现gltf模型不随地图缩放而改变大小 相关代码: const graphic new mars3d.graphic.ModelEntity({ name: "警车", position: [116.346929, 30.861947, 401.34], style: { url: "//data.mars3d.cn/gltf/mars/jingche/jingc…

SpringBoot进行自然语言处理,利用Hanlp进行文本情感分析

. # 📑前言 本文主要是SpringBoot进行自然语言处理,利用Hanlp进行文本情感分析,如果有什么需要改进的地方还请大佬指出⛺️ 🎬作者简介:大家好,我是青衿🥇 ☁️博客首页:CSDN主页放风…

[Unity+文心知识库]使用百度智能云搭建私有知识库,集成知识库API,打造具备知识库的AI二次元姐姐

1.简述 最近从百度智能云的官方技术支持那边了解到,目前百度千帆大模型平台提供有在线的知识库功能,能够在线上传自己的私人知识库文档,并且配置文心一言模型作为文本生成的引擎,构建自己的私有知识库。之前自己搭建知识库都是用的…

bugku--源代码

查看源代码 发显URL编码 解码 在拼接这一串 拿着去提交就行啦

【Vue】vue增加导航标签

系列文章 【C#】WebAPI,在Windows IIS平台部署 本文链接:https://blog.csdn.net/youcheng_ge/article/details/126539836 【Vue】vue,在Windows IIS平台部署 本文链接:https://blog.csdn.net/youcheng_ge/article/details/13385…

docker compose部署wordpress

准备机器: 192.168.58.151 (关闭防火墙和selinux) 安装好docker服务 (详细参照:http://t.csdnimg.cn/usG0s 中的国内源安装docker) 部署wordpress: 创建目录: [rootdocker ~]# mkdir…

Selenium库自动化测试入门

前言 为什么要学selenium??前面已经学了requests库我们会发现 对于绝大多数动态渲染的网页来说,用requests进行爬虫比较繁琐。 所以我们还是要学习一下selenium库,以帮助我们更高效的爬取网页。 环境: pychar 202…

flutter调试器查看不了副页面(非主页面/子页面)

刚接触flutter,写了两个页面,通过按钮,可以从主页面跳转到副页面,副页面我自己写的一个独立的dart文件,在主页面的代码中导入使用。但是当我运行代码后,点击跳转的时候,却发现查看不到对应的副页…

Linux驱动入门 —— 利用引脚号操作GPIO进行LED点灯

目录 一、字符设备驱动程序框架 编写驱动程序的步骤: 对于 LED 驱动,我们想要什么样的接口? LED 驱动能支持多个板子的基础:分层思想 二、Linux驱动如何指向一个GPIO 直接通过寄存器来操作GPIO 利用引脚号操作GPIO IMX6UL…

STM32的看门狗(WDG)

WDG(Watchdog)看门狗 看门狗可以监控程序的运行状态,当程序因为设计漏洞、硬件故障、电磁干扰等原因,出现卡死或跑飞现象时,看门狗能及时复位程序,避免程序陷入长时间的罢工状态,保证系统的可靠…

基于C/C++的rapidxml加载xml大文件 - 下部分

下载地址: RapidXml (sourceforge.net)https://rapidxml.sourceforge.net/ 将源码添加到自己的工程中 示例测试大文件耗时: 总共293w行数据,大概耗时不到1s。

Paper Reading: (U2PL) 基于不可靠伪标签的半监督语义分割

目录 简介目标/动机方法Pseudo-LabelingUsing Unreliable Pseudo-Labels 补充知识InfoNCE LossOHEM 实验Comparison with Existing AlternativesAblationEffectiveness of Using Unreliable Pseudo-LabelsAlternative of Contrastive Learning 总结附录U2PL 与 negative learni…

【C语言程序设计】数组程序设计

目录 前言 一、数组的定义和初始化 二、数组的基本操作 三、数组的高级应用 四、程序设计 4.1 程序设计第一题 4.2 程序设计第二题 4.3 程序设计第三题 总结 🌈嗨!我是Filotimo__🌈。很高兴与大家相识,希望我的博客能对你有所帮助…

论文阅读《DPS-Net: Deep Polarimetric Stereo Depth Estimation》

论文地址:https://openaccess.thecvf.com/content/ICCV2023/html/Tian_DPS-Net_Deep_Polarimetric_Stereo_Depth_Estimation_ICCV_2023_paper.html 概述 立体匹配模型难以处理无纹理场景的匹配,现有的方法通常假设物体表面是光滑的,或者光照是…

设计模式(2)--对象创建(4)--原型

1. 意图 用原型实例指定创建对象的种类,并且通过拷贝这些原型创建新的对象。 2. 两种角色 抽象原型(Prototype)、具体原型(Concrete Prototype) 3. 优点 3.1 对客户隐藏了具体的产品类 3.2 可以在运行时刻增加和删除产品 3.3 可以极大地减少系统所需要的类的数目 …

Weblogic-CVE-2023-21839

一、漏洞概述 RCE漏洞,该漏洞允许未经身份验证的远程,通过T3/IIOP协议网络访问并破坏WebLogic服务器,成功利用此漏洞可导致Oracle WebLogic服务器被接管,通过rmi/ldap远程协议进行远程命令执行,当 JDK 版本过低或本地存在小工具&…

@Scheduled任务调度/定时任务-非分布式

1、功能概述 任务调度就是在规定的时间内执行的任务或者按照固定的频率执行的任务。是非常常见的功能之一。常见的有JDK原生的Timer, ScheduledThreadPoolExecutor以及springboot提供的Schduled。分布式调度框架如QuartZ、Elasticjob、XXL-JOB、SchedulerX、PowerJob等。 本文…

出现 ‘mvn‘ 不是内部或外部命令,也不是可运行的程序或批处理文件 的解决方法

目录 1. 问题所示2. 原理分析3. 解决方法1. 问题所示 下载了Maven,也配置了环境,在环境变量中配置MAVEN_HOME,在用户变量中配置了bin变量 具体如下所示: 用户变量的配置: 结果显示如下所示: 2. 原理分析 HOME变量中会具体到jre变量,如果在用户变量中配置,jre可能…

SpringBoot+Vue3前后端快速整合入门

前言 最近需要维护一个个人项目,由于笔者是一个大后端,所以借此机会把前端学习过程记录一下,方便后续回顾。 前端项目初始化 安装npm 在前端项目初始化时,我们必须要安装好node,官网地址如下,因为笔者后…