python爬虫实战零基础(3)——某云音乐

爬取某些云网页音乐,无需app

  • 分析网页
  • 第二种方式
    • 批量爬取

声明:仅供参考学习,参考,若有不足,欢迎指正

你是不是遇到过这种情况,在pc端上音乐无法下载,必须下载客户端才能下载?
那么,爬虫可以解决这个麻烦!继续实战利用request和xpath爬取网上音乐。

本文主要是在网页端下载音乐,如果你有客户端也可以,太高级的笔者也不会。这是一个基础皮毛的练习

分析网页

定位目标网址:(你也可以在浏览器打开某云之后随便进入一个歌单)
https://music.163.com/#/playlist?id=26467411

对于网页上的音乐在进行下载时,经常会弹出提示页面:请前往客户端下载!!!
非常讨厌了也是,好好的下载一首歌曲,非要弄得这么麻烦。甚至,有些音乐在下载了软件后,需要付费或者VIP,万恶的资本家。

本次实战就可以通过简单的爬虫解决以上问题,直接下载歌曲。

  • 首先,检查—> Network —> 刷新
  • 点击 文档(Doc),可以看到它的标头里面的请求网址为:
    https://music.163.com/playlist?id=26467411 这跟最开始是不一样的。

这是因为我们所请求的网址并非是浏览器地址栏上的网址,通过这张截图,很清晰的发现我们所请求的网址是哪个了。

  • 通过对每首歌曲打开,进行网页源代码分析不难发现,本网页的歌曲都有一个共同的特点:即前面的网址为 https://music.163.com/#/song?id= 加每首歌曲的 id 号。
    在这里插入图片描述
    然而,目前为止,我们仅仅是找到了些许规律,并没有找到歌曲的真正链接,要真正下载到每一首歌曲,还遥不可及。

音乐文件一般为mpeg,mp3,mpeg-4,midi,mwa,m4a等

到现在为止还没有请求音乐,当我们在进行点击播放时会发现:
在这里插入图片描述
当我们在进行播放音乐时,请求数量增多,说明该网页又重新进行了对网页的请求。通过重新查找发现(只需查看后面新的内容)这次有了一些 .m4a 文件。

当点击这些文件打开时会发现,有一个新的 Request URL:,当你将该网址复制在新的网页下进行打开,会出现如下图所示(打开时浏览器会自动进行下载该音乐)
在这里插入图片描述

结合上面的情况来说,我们是不是已经成功了呢?但很难过的告诉你,这个网址在短时间内打开,的确会有用,但是,它是有时间限制的,不信的话,你可以过五分钟(或许还不需要这么久)再重新打开该网址,试一下。
所以这种方式行不通,由于是初学者,我们就需要点外援了。

第二种方式

  • 这里介绍一个新的URL:(不要问这个怎么来的)

http://music.163.com/song/media/outer/url?id=

在之前的分析中,我们发现了一个很重要的一点,便是这10首歌曲都是一个网址加每首歌曲的id所在的新页面。

我们有了上面的这个网址,便可以为所欲为了。你现在便可以立马复制上面的链接,在网页上找到一首歌曲的id号添加至网址后面进行打开(如:http://music.163.com/song/media/outer/url?id=36897723),是不是得到了如下的界面:
在这里插入图片描述
通过这个页面就可以直接下载。

批量爬取

首先,每首音乐可以通过这个网址id 进行下载,所以,我们第一步便是想办法获取每首音乐的 id 。根据之前的分析,不难发现,每首音乐的 id 都在一个<a>标签内,我们只要获取这个<a>就可以了。

一步一步来开始写代码

  1. 根据真正的目标网址(注意真正的)获取源码信息
import requests
from lxml import etree

# 真实地址在Network--Doc
url = 'https://music.163.com/playlist?id=26467411'

# 请求(requests) 图片,视频,音频  content  | 字符串 text
html_str = requests.get(url).text
print(html_str)
print(type(html_str))    # 字符串类型

result = etree.HTML(html_str) 
  1. 从源码中用 xpath 找到每首歌的id和name
song_ids = result.xpath('//a[contains(@href,"/song?")]/@href')   # 歌曲id
song_names = result.xpath('//a[contains(@href,"/song?")]/text()')     # 歌名
# print(song_ids)
# print(song_names)     #列表
for song_id,song_name in zip(song_ids,song_names):
    print(song_id)
    print(song_name)

整理一下
通过打印发现,前面多了一些 /song?id= ,这时,便使用下面这行代码,进行删减,仔细观察打印结果发现后面多了三个无用的,这三个必须删掉才行,不然在进行后面的 URL 拼接,肯定会报错,因为压根就找不到这样的一个网址。

count_id = song_id.strip('/song?id=')   # 去掉/song?id=
    # print(count_id)
    # 过滤含有“$”符号
    if ('$' in count_id) == False:
        print(count_id)
  1. 拼接URL后,在浏览器里打开上面的任意链接 song_url,即可获取该音乐的链接,并进行下载。但是,我们最终的目的是让爬虫自动帮我们全部下载并进行保存至文件夹,利用 for 循环就可以啦
song_url = base_url + count_id      # 拼接url
print(song_url)
mp3 = requests.get(song_url).content
# 保存数据
with open('yinyue/{}.mp3'.format(song_name),'wb') as file:
	file.write(mp3)

如需完整代码,请自行查看。某云音乐爬取

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/91167.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

开源与数据科学:一个完美的组合?

&#x1f337;&#x1f341; 博主猫头虎 带您 Go to New World.✨&#x1f341; &#x1f984; 博客首页——猫头虎的博客&#x1f390; &#x1f433;《面试题大全专栏》 文章图文并茂&#x1f995;生动形象&#x1f996;简单易学&#xff01;欢迎大家来踩踩~&#x1f33a; &a…

JMeter性能测试(上)

一、基础简介 界面 打开方式 双击 jmeter.bat双击 ApacheJMeter.jsr命令行输入 java -jar ApacheJMeter.jar 目录 BIN 目录&#xff1a;存放可执行文件和配置文件 docs目录&#xff1a;api文档&#xff0c;用于开发扩展组件 printable-docs目录&#xff1a;用户帮助手册 li…

Springboot_Redis

Springboot默认使用lettuce操作redis,底层是netty jdeis并发差些 Redis的Template 分为两种, 一种是StringRedisTemplate&#xff0c;另一种是RedisTemplate 根据不同的数据类型&#xff0c;大致的操作也分为这5种&#xff0c;以StringRedisTemplate为例 stringRedisTempla…

阿里云将关停代销业务

我是卢松松&#xff0c;点点上面的头像&#xff0c;欢迎关注我哦&#xff01; 阿里云自从逐渐分拆独立之后&#xff0c;做了很多调整。最近它又做了一个大动作&#xff1a;据DoNews消息&#xff0c;阿里云将会在今年9月30日之前&#xff0c;全面关停代销业务。 这件事实际上…

MyBatis 动态SQL的标签有哪些?如何使用?

目录 1. MyBatis 动态SQL标签有什么用&#xff1f; 2. if 标签 3. where 标签 4. trim 标签 5. choose&#xff0c;when&#xff0c;otherwise 6. foreach 1. MyBatis 动态SQL标签有什么用&#xff1f; 我来说一个场景大家就明白了&#xff0c;如下图&#xff0c;大家应该…

【3D激光SLAM】LOAM源代码解析--laserOdometry.cpp

系列文章目录 【3D激光SLAM】LOAM源代码解析–scanRegistration.cpp 【3D激光SLAM】LOAM源代码解析–laserOdometry.cpp 【3D激光SLAM】LOAM源代码解析–laserMapping.cpp 【3D激光SLAM】LOAM源代码解析–transformMaintenance.cpp 写在前面 本系列文章将对LOAM源代码进行讲解…

什么是回调函数(callback function)?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ 回调函数&#xff08;Callback Function&#xff09;⭐ 示例⭐ 写在最后 ⭐ 专栏简介 前端入门之旅&#xff1a;探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦 几何带你启航前端之旅 欢迎来到前端入门之旅&#xff01;这…

Unity中实现获取InputField选中的文字

一&#xff1a;前言 获取到选中的文字&#xff1a;哈哈 二&#xff1a;实现 UGUI的InputField提供了selectionAnchorPosition和selectionFocusPosition&#xff0c;开始选择时的光标下标和当前光标下标 using UnityEngine; using UnityEngine.EventSystems; using UnityEngin…

记录一个诡异的bug

将对接oa跳转到会议转写的项目oa/meetingtranslate项目发布到天宫&#xff0c;结果跳转到successPage后报错 这一看就是successPage接口名没对上啊&#xff0c;查了一下代码&#xff0c;没问题啊。 小心起见&#xff0c;我就把successPage的方法请求方式从Post改为Get和POST都…

第61步 深度学习图像识别:多分类建模(TensorFlow)

基于WIN10的64位系统演示 一、写在前面 截至上期&#xff0c;我们一直都在做二分类的任务&#xff0c;无论是之前的机器学习任务&#xff0c;还是最近更新的图像分类任务。然而&#xff0c;在实际工作中&#xff0c;我们大概率需要进行多分类任务。例如肺部胸片可不仅仅能诊断…

元矿山下的音视频应用

// 近年来&#xff0c;矿业的技术和管理模式随着元宇宙的火爆和自动驾驶技术的发展逐渐变化、升级&#xff0c;进而衍生出元矿山的概念&#xff0c;音视频技术也在其中成为了关键一环。LiveVideoStackCon 2023 上海站邀请了来自希迪智驾的任思亮&#xff0c;为大家分享希迪智…

算法通过村第三关-数组黄金笔记|数组难解

文章目录 前言数组中出现超过一半的数字数组中只出现一次的数字颜色的分类问题(荷兰国旗问题)基于冒泡排序的双指针&#xff08;快慢指针&#xff09;基于快排的双指针&#xff08;对撞指针&#xff09; 总结 前言 提示&#xff1a;苦不来自外在环境中的人、事、物&#xff0c;…

yolov8热力图可视化

安装pytorch_grad_cam pip install grad-cam自动化生成不同层的bash脚本 # 循环10次&#xff0c;将i的值从0到9 for i in $(seq 0 13) doecho "Running iteration $i";python yolov8_heatmap.py $i; done热力图生成python代码 import warnings warnings.filterwarn…

使用秘籍|如何实现图数据库 NebulaGraph 的高效建模、快速导入、性能优化

本文整理自 NebulaGraph PD 方扬在「NebulaGraph x KubeBlocks」meetup 上的演讲&#xff0c;主要包括以下内容&#xff1a; NebulaGraph 3.x 发展历程NebulaGraph 最佳实践 建模篇导入篇查询篇 NebulaGraph 3.x 的发展历程 NebulaGraph 自 2019 年 5 月开源发布第一个 alp…

【Spring MVC】

目录 &#x1f36e;1 什么是 MVC &#xff1f; &#x1f381;2 Spring MVC 的连接 &#x1f358;2.1 RequestMapping 实现 POST 和 GET 请求 &#x1f963;2.2 GetMapping 只支持 GET 请求 &#x1fad6;2.3 PostMapping 只支持 POST 请求 &#x1f36c;3 Spring MVC 获取参数的…

创建本地镜像

通过前面文章的阅读&#xff0c;读者已经了解到所谓的容器实际上是在父镜像的基础上创建了一个可读写的文件层级&#xff0c;所有的修改操作都在这个文件层级上进行&#xff0c;而父镜像并未受影响&#xff0c;如果读者需要根据这种修改创建一个新的本地镜像&#xff0c;有两种…

Smartbi电子表格软件版本更新,首次推出Excel轻应用和语音播放

Smartbi电子表格软件又又又更新啦&#xff01; 此次更新&#xff0c;首次推出了新特性——Excel轻应用和语音播报。另外&#xff0c;还对产品功能、Demo示例、配套文档进行了完善和迭代。 低代码开发Excel轻应用 可实现迅速发布web应用 业务用户的需求往往都处于“解决问题”…

APP调用bindService的跨进程调用过程

app执行bindService时会经过如下8次跨系统进程调用过程&#xff1a; 第1步&#xff1a;通过AMS.getService跨进程调用 第2步&#xff1a;AMS返回它的IBinder 第3步&#xff1a;通过AMS的IBinder调用AMS的bindService方法 第4步&#xff1a;而AMS存放有Server端的IBinder&…

ChatGPT在医疗系统的应用探索动态

注意&#xff1a;本信息仅供参考&#xff0c;发布该内容旨在传递更多信息的目的&#xff0c;并不意味着赞同其观点或证实其说法。 生成式人工智能&#xff0c;如OpenAI开发的ChatGPT&#xff0c;被认为是可以颠覆医疗行业的工具。尽管该技术刚刚起步&#xff0c;但已有许多医…