Python爬虫项目实战案例-批量下载网易云榜单音乐保存至本地


✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭
~✨✨

🌟🌟 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。

我是Srlua,在这里我会分享我的知识和经验。🎥

希望在这里,我们能一起探索IT世界的奥妙,提升我们的技能。🔮

记得先点赞👍后阅读哦~ 👏👏

📘📚 所属专栏:Python
欢迎访问我的主页:Srlua 获取更多信息和资源。✨✨🌙🌙

目录

Python爬虫项目实战案例-批量下载网易云榜单音乐

request模块安装下载

win平台安装

如何查看是否安装成功?

pycharm中安装

成功爬取网易云的源代码

提取出榜单的音乐id和音乐名称

实现批量下载

文件创建

手动创建 / os模块自动创建

运行程序

爬取ing

自动下载至路径文件夹

如何爬取其他榜单?

切换榜单id,爬取成功!

完整代码


Python爬虫项目实战案例-批量下载网易云榜单音乐

request模块安装下载

win平台安装

Win平台: “以管理员身份运行”cmd,执行pip install requests

如何查看是否安装成功?

查看以上截图会显示Successfully installed...,即表示安装成功。

也可以在Win平台: “以管理员身份运行”cmd,执行pip list,查看到以下截图显示requests,即表示安装成功。

pycharm中安装

如果不行的话,也可以通过pycharm中的提示,安装install request packages

首先,我们进入网易云音乐官网 ,选择需要爬取的音乐榜单

这里博主选择热歌榜

想要爬取这些歌曲的话,我们需要获取它的音乐名字和它的音乐id

右击网页页面选择检查进入开发者模式,或者通过按键盘上的F12进入

然后我们control+r刷新页面

选择标头(headers)获取请求url的内容

把request header里的User-Agent:复制到header中

User-Agent:就是我们浏览器的基本信息

成功爬取网易云的源代码

使用Python中的requests库发送一个GET请求,并获取指定URL的网页源代码。

response = requests.get(url=url, headers=headers)
print(response.text)获取网页源代码

查看搜索控制台的内容

结合正则表达式查询

'<li><a href="/song\?id=(\d+)">(.*?)</a>'

这是一个正则表达式,用于匹配HTML中的特定模式。具体来说,它匹配的是一个<li>标签内的<a>标签,其中<a>标签的href属性以"/song?id="开头,后面跟着一串数字(由\d+表示),然后是">"和任意字符(由(.*?)表示),最后是闭合的</a>标签。

这个正则表达式可以用于从HTML中提取歌曲链接和歌曲名称。例如,如果有一个HTML字符串如下:

<ul>
  <li><a href="/song?id=123">歌曲1</a></li>
  <li><a href="/song?id=456">歌曲2</a></li>
</ul>

使用这个正则表达式进行匹配,可以得到两个结果:

  1. /song?id=123歌曲1

  2. /song?id=456歌曲2

提取出榜单的音乐id和音乐名称

使用正则表达式从HTML文本中提取歌曲的ID和标题。

首先,使用re.findall()函数来查找所有匹配的字符串。

正则表达式<li><a href="/song\?id=(\d+)">(.*?)</a>用于匹配以<li><a href="/song?id=开头,后面跟着一串数字(由\d+表示),然后是">和任意字符(由(.*?)表示),最后是闭合的</a></li>标签。

在每次循环中,num_id变量存储歌曲的ID,title变量存储歌曲的标题。然后,通过print()函数将它们打印出来。

实现批量下载

成功获取id和名称之后,我们就可以准备进行下载的部分了

尝试调用接口播放

成功播放

music_url = f'http://music.163.com/song/media/outer/url?id={num_id}.mp3'  
# 对于音乐播放地址发送请求 获取二进制数据内容   
music_content = requests.get(url=music_url, headers=headers).content   
with open(filename +title +'.mp3', mode='wb') as f:        
    f.write(music_content)

这段代码用于下载歌曲的MP3文件。

首先,它使用f-string将歌曲ID插入到音乐URL中,生成完整的音乐播放地址。

然后,通过requests.get()函数发送请求获取二进制数据内容。

最后,使用open()函数以写入二进制模式打开一个文件,并将音乐内容写入该文件中。文件名由filenametitle拼接而成,并以.mp3作为扩展名。

文件创建

手动创建 / os模块自动创建

博主这里选择用os模块创建

运行程序

爬取ing

自动下载至路径文件夹

如何爬取其他榜单?

如果想要爬取其他的榜单的歌曲内容,只要更改请求url中的id

切换榜单id,爬取成功!

完整代码


import requests  # 数据请求模块 第三方模块 pip install requests
import re  # 正则表达式模块 内置模块 不需要安装
import os  # 文件操作模块
​
filename = 'music\\'
​
if not os.path.exists(filename): # 如果没有这个文件夹则自动创建
    os.mkdir(filename)
​
# 如果想要爬取其他的榜单的歌曲内容,只要更改请求url中的id
​
url = 'https://music.163.com/discover/toplist?id=3778678'
# headers请求头 就是用伪装python代码的 把python代码伪装成浏览器对于服务器发送请求
# 服务器接收到请求之后,会给我们返回响应数据(response)
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0'
}
response = requests.get(url=url, headers=headers)
#print(response.text)获取网页源代码
# 正则表达式提取出来的一个内容 返回是列表 里面每一个元素都是元组
html_data = re.findall('<li><a href="/song\?id=(\d+)">(.*?)</a>',response.text)
for num_id, title in html_data:
   # http://music.163.com/song/media/outer/url?id=436346833.mp3
   music_url = f'http://music.163.com/song/media/outer/url?id={num_id}.mp3'
   # 对于音乐播放地址发送请求 获取二进制数据内容
   music_content = requests.get(url=music_url, headers=headers).content
   with open(filename +title +'.mp3', mode='wb') as f:
        f.write(music_content)
   print(num_id, title)
​

希望对你有帮助!加油!

若您认为本文内容有益,请不吝赐予赞同并订阅,以便持续接收有价值的信息。衷心感谢您的关注和支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/416541.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Linux系统Docker部署StackEdit Markdown并实现公网访问本地编辑器

文章目录 前言1. ubuntu安装VNC2. 设置vnc开机启动3. windows 安装VNC viewer连接工具4. 内网穿透4.1 安装cpolar【支持使用一键脚本命令安装】4.2 创建隧道映射4.3 测试公网远程访问 5. 配置固定TCP地址5.1 保留一个固定的公网TCP端口地址5.2 配置固定公网TCP端口地址5.3 测试…

国际伦敦银走势如此多变?如何应对

国际伦敦银走势由于受众多因素影响&#xff0c;因此它的多变是正常的&#xff0c;关键在于我们如何在多变的市场中应付自如&#xff0c;不光不会亏损&#xff0c;而且还要在多变的走势中抓住它的转折&#xff0c;找到入场的机会&#xff0c;下面我们就来讨论一下应对多变的国际…

刚入编的小学老师工资多少

“刚入编的小学老师&#xff0c;一个月能挣多少钱&#xff1f;”这个问题似乎总能激起一层波澜。不少人猜测&#xff0c;教师这份职业稳定、有寒暑假&#xff0c;工资应该不低吧&#xff1f;可真相往往出乎人们的意料。 事实上&#xff0c;一位刚入编的小学老师&#xff0c;月薪…

vue3使用echarts绘制地图

vue3使用echarts绘制地图 安装echarts npm install echarts下载地图的json数据【我这里是把json数据单独粘出来然后新建了一个文件china.json】 下载中国及各个省份的地图数据引入 import chinaJson from ./china.json绘制地图 <template><div ref"myChart&q…

AI短视频矩阵运营软件|抖音视频矩阵控制工具

【罐头鱼AI传单功能介绍】 罐头鱼AI传单是一款专为短视频矩阵运营而设计的智能软件&#xff0c;旨在帮助用户高效管理和运营多个抖音账号&#xff0c;并提供一系列强大的功能来优化视频内容创作和发布流程。QQ:290615413以下是软件框架&#xff0c;详细介绍其功能和特点&#…

iOS开发-绘制圆圈circle

话不多说&#xff0c;直接上代码 CAShapeLayer *circleLayer [[CAShapeLayer alloc] init]; [circleLayer setFillColor:[UIColor clearColor].CGColor]; [circleLayer setStrokeColor:[UIColor redColor].CGColor]; [circleLayer setLineWidth:1.5f]; UIBezierPath *circle…

kvm虚拟机修改网络模式

kvm修改网络模式可以直接使用virsh命令进行修改 一、查看主机 virsh list --all 二、查看需要修改主机的网络模式 virsh domiflist mysql 三、vim进行修改 cd /etc/libvirt/qemu/ vim mysql.xml 四、找到要修改的网卡部分 五、重新定义虚拟机 virsh define mysql_install.xml…

rust枚举类和可以为None值的枚举对象

枚举类在 Rust 中并不像其他编程语言中的概念那样简单&#xff0c;但依然可以十分简单的使用&#xff1a; #[derive(Debug)]enum Book {Papery, Electronic }fn main() {let book Book::Papery;println!("{:?}", book); } 运行结果&#xff1a; 书分为纸质书&am…

异常网络下TCP的可靠服务机制(慢启动、拥塞避免、快重传、快恢复)

目录 TCP超时重传拥塞控制概述慢启动和拥塞避免下面讲解发送端如何判断拥塞发生。 快速重传和快速恢复 本文描述TCP在异常网络下的处理方式 以保证其可靠的数据传输的服务 TCP超时重传 tcp服务能够重传其超时时间内没有收到确认的TCP报文段&#xff0c;tcp模块为每一个报文段都…

OpenAI最新发布的文生视频模型Sora到底强在哪?

文章目录 1.Sora到底强在哪&#xff1f;2. 不足3. 结尾 2024年2月16日&#xff0c;当大家沉浸在过年的喜庆氛围中&#xff0c;OpenAI发布首款文生成视频大模型 Sora &#xff0c;其炸裂登场让人感到惊艳。 Sora官网介绍&#xff1a;https://openai.com/sora 说起文生视频工具…

openGauss学习笔记-230 openGauss性能调优-系统调优-配置并行查询功能

文章目录 openGauss学习笔记-230 openGauss性能调优-系统调优-配置并行查询功能230.1 适用场景与限制230.2 资源对SMP性能的影响230.3 其他因素对SMP性能的影响230.4 配置步骤 openGauss学习笔记-230 openGauss性能调优-系统调优-配置并行查询功能 openGauss的SMP并行技术是一…

使用面向对象思想去封装实现canvas功能

前言 各种插件/库和一些常规的业务代码,最大的区别就在于编程的思路与方法。 比如我们现在想写一段业务代码,使用js实现一个矩形,那很简单,几行代码就可以了 const canvas document.getElementById(canvas)const mode canvas.getContext(2d)mode.rect(200,200,200,200)mode…

CIM的基本概念知识,以及应用场景介绍

CIM的理念 CIM基本理念总结为&#xff1a;依托先进技术、面向具体需求、融合动态信息、描述实体单元、支撑各类应用。 首先要依托于对 BIM、GIS、IOT技术的透彻理解和深度应用&#xff0c;并与云计算、大数据等技术充分融合。 同时&#xff0c;针对不同区域、不同运行管理对象、…

【dc-dc】AP5101C 高压线性恒流IC 9-19V 500ma LED电源驱动方案 过压保护 抗浪涌线路

产品描述 AP5101C 是一款高压线性 LED 恒流芯片 &#xff0c; 外围简单 、 内置功率管 &#xff0c; 适用于6- 100V 输入的高精度降压 LED 恒流驱动芯片。最大电流2.0A。AP5101C 可实现内置MOS 做 2.0A,外置 MOS 可做 3.0A 的。AP5101C 内置温度保护功能 &#xff0c;温度保护…

拜登:“一切非 Rust 项目均为非法”,开发界要大变天?

文章目录 科技巨头应为安全漏洞负起责任使用其他语言的开发者​该何去何从&#xff1f; 白宫国家网络总监办公室&#xff08;ONCD&#xff0c;以下简称网总办&#xff09;在本周一发布的报告中说道&#xff1a;“程序员编写代码并非没有后果&#xff0c;他们的⼯作⽅式于国家利…

练习 2 Web [ACTF2020 新生赛]BackupFile 1

[ACTF2020 新生赛]BackupFile 1 Web常规题目 首先尝试查找常见的前端页面index.php之类的&#xff0c;没找到 题目有个“BackupFile”——备份文件 尝试用工具遍历查找相关的文件 御剑没扫出来&#xff0c;搜索搭建好dirsearch后&#xff0c;扫出来的index.php.bak 扫描工…

我又上来啦!湖人胜率反超勇士升至第九 勇士降第十

nba直播吧 02月29日讯 湖人今日在洛杉矶德比中116-112逆转击沉快船&#xff01; 赛后&#xff0c;湖人的战绩来到32胜28负&#xff0c;胜率反超勇士&#xff08;30胜27负&#xff09;&#xff0c;升至西部第九&#xff0c;勇士降到西部第十。

eBay美国站怎么样?eBay跨境电商卖家开店必知!

在众多跨境电商平台之中&#xff0c;eBay作为全球知名的电商平台之一&#xff0c;为卖家提供了跨境电商的机会。对于中国卖家而言&#xff0c;这是一个充满机遇的市场。那么&#xff0c;eBay美国站怎么样&#xff1f;如何顺利在美国eBay上开店呢&#xff1f;让我们一起来了解一…

Apache SeaTunnel 及 Web 功能部署指南(小白版)

在大数据处理领域&#xff0c;Apache SeaTunnel 已成为一款备受青睐的开源数据集成平台&#xff0c;它不仅可以基于Apache Spark和Flink&#xff0c;而且还有社区单独开发专属数据集成的Zeta引擎&#xff0c;提供了强大的数据处理能力。随着SeaTunnel Web的推出&#xff0c;用户…

证明StringBuilder不是现性安全的

1 理论证明 StringBuilder存放字符串的属性是char value[], 这在其父类AbstractStringBuilder里面可以查看&#xff1a; 数组都是创建在堆中&#xff0c;堆中的内存任意线程都可以访问。而且这个字符数组没有像String类那样用final修饰&#xff0c;所以任意线程都可以修改&am…