AI网络爬虫:用GraphQL查询爬取动态网页数据

任务:爬取网站www.skillshare.com搜索结果页面数据:

查看网站的请求信息:

请求网址:

https://www.skillshare.com/api/graphql

请求方法:

POST

状态代码:

200 OK

远程地址:

127.0.0.1:10809

引荐来源网址政策:

strict-origin-when-cross-origin

请求载荷:

{"operationName":"GetClassesQuery","variables":{"query":"ChatGPT","where":{"level":["ALL_LEVELS","BEGINNER","INTERMEDIATE","ADVANCED"]},"analyticsTags":["src:browser","src:browser:search","disc_cls_idx_mig","user-agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36"],"after":"191","first":24},"query":"fragment ClassFields on Class {\n badges {\n type\n __typename\n }\n durationInSeconds\n id\n publishTime\n largeCoverUrl\n sku\n sourceLanguage\n studentCount\n teacher {\n id\n name\n username\n vanityUsername\n __typename\n }\n title\n url\n viewer {\n hasSavedClass\n __typename\n }\n __typename\n}\n\nquery GetClassesQuery($query: String!, $where: SearchFiltersV2!, $analyticsTags: [String!], $after: String!, $first: Int!, $sort: SortParameters) {\n search: searchV2(query: $query, where: $where, analyticsTags: $analyticsTags, after: $after, first: $first, sort: $sort) {\n totalCount\n searchId\n algorithmId\n pageInfo {\n startCursor\n endCursor\n hasNextPage\n hasPreviousPage\n __typename\n }\n edges {\n cursor\n node {\n ...ClassFields\n __typename\n }\n __typename\n }\n __typename\n }\n}\n"}

{"operationName":"GetClassesQuery","variables":{"query":"ChatGPT","where":{"level":["ALL_LEVELS","BEGINNER","INTERMEDIATE","ADVANCED"]},"analyticsTags":["src:browser","src:browser:search","disc_cls_idx_mig","user-agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36"],"after":"167","first":24},"query":"fragment ClassFields on Class {\n badges {\n type\n __typename\n }\n durationInSeconds\n id\n publishTime\n largeCoverUrl\n sku\n sourceLanguage\n studentCount\n teacher {\n id\n name\n username\n vanityUsername\n __typename\n }\n title\n url\n viewer {\n hasSavedClass\n __typename\n }\n __typename\n}\n\nquery GetClassesQuery($query: String!, $where: SearchFiltersV2!, $analyticsTags: [String!], $after: String!, $first: Int!, $sort: SortParameters) {\n search: searchV2(query: $query, where: $where, analyticsTags: $analyticsTags, after: $after, first: $first, sort: $sort) {\n totalCount\n searchId\n algorithmId\n pageInfo {\n startCursor\n endCursor\n hasNextPage\n hasPreviousPage\n __typename\n }\n edges {\n cursor\n node {\n ...ClassFields\n __typename\n }\n __typename\n }\n __typename\n }\n}\n"}

这段请求载荷是一个GraphQL查询,用于获取与搜索查询 "ChatGPT" 相关的不同方面的数据(facets)。下面是对这段查询的详细解释:

- `operationName`: "GetFacets",这指定了操作的名称,用于标识这个特定的查询操作。

- `variables`: 这是一个对象,包含了查询所需的变量:

- `analyticsTags`: 一个包含多个字符串的数组,用于分析目的。

- `query`: 搜索查询的关键字,这里是 "ChatGPT"。

- `where_type`, `where_language`, `where_level`, `where_length`, `where_with`, `where_publish`, `where_rating`: 这些字段包含了搜索过滤条件,每个字段都设置为相同的值,即包含所有级别("ALL_LEVELS", "BEGINNER", "INTERMEDIATE", "ADVANCED")的数组。这些过滤条件用于指定搜索的不同维度。

- `query`: 这是GraphQL查询的主体,它定义了要获取的数据:

- `fragment FacetsData on SearchResultItemConnectionV2`: 这是一个片段,定义了搜索结果项连接的类型,包括总数量(totalCount)和方面(facets)。

- `totalCount`: 搜索结果的总数。

- `facets`: 一个包含不同方面选项的对象数组,每个选项都有计数(count)和名称(name)。

- 接下来的部分定义了多个 `searchV2` 查询,每个查询都针对不同的搜索维度(type, language, level, length, with, publish, rating),并使用上面定义的片段 `FacetsData` 来获取每个维度的总数量和方面数据。

这个查询的主要目的是为搜索 "ChatGPT" 提供一个多维度的概览,包括不同类别(如类型、语言、难度级别等)的统计信息和选项。通过这种方式,用户可以了解每个维度下的课程分布情况,从而帮助他们进行更精确的搜索和选择。

找了两段不同的请求载荷,主要区别在于`variables`对象中的`after`字段的值不同。

两个请求载荷的共同点:

- `operationName`:两个请求都使用了相同的操作名称 `"GetClassesQuery"`。

- `variables`中的其他字段:`query`、`where`、`analyticsTags`、`first` 在两个请求中都是相同的。

- `query`:两个请求中的GraphQL查询字符串是相同的。

以下是两个请求载荷的不同点:

- `variables`中的`after`字段:

- 第一个请求的`after`字段值是 `"191"`。

- 第二个请求的`after`字段值是 `"167"`。

`after`字段通常用于分页,它指定了从哪个点开始获取数据。在这个GraphQL查询中,它决定了从搜索结果的哪一条记录开始返回数据。因此,第一个请求将从记录191开始获取数据,而第二个请求将从记录167开始获取数据。

这意味着两个请求将返回不同的数据集,即使它们都是基于相同的查询和过滤条件。第一个请求可能是为了获取第一页或后续某页的数据,而第二个请求可能是为了获取另一页的数据。其他字段如`first`指定了每页返回的记录数,在这种情况下,都是24条记录。

再继续查看其他请求载荷的after字段:-1、47、 71、95

搜索结果是205 个,显然`after`字段值是从-1开始,每次递增24,以215结束

在chatgpt中输入提示词:

你是一个Python专家,要完成一个编写爬虫的Python脚本,具体步骤:

请求网址:

https://www.skillshare.com/api/graphql

请求方法:

POST

状态代码:

200 OK

远程地址:

127.0.0.1:10809

引荐来源网址政策:

strict-origin-when-cross-origin

请求标头:

Accept:

*/*

Accept-Encoding:

gzip, deflate, br, zstd

Accept-Language:

zh-CN,zh;q=0.9,en;q=0.8

Content-Length:

1302

Content-Type:

application/json

Origin:

https://www.skillshare.com

Priority:

u=1, i

Referer:

https://www.skillshare.com/en/search/classes?query=ChatGPT

Sec-Ch-Ua:

"Google Chrome";v="125", "Chromium";v="125", "Not.A/Brand";v="24"

Sec-Ch-Ua-Mobile:

?0

Sec-Ch-Ua-Platform:

"Windows"

Sec-Fetch-Dest:

empty

Sec-Fetch-Mode:

cors

Sec-Fetch-Site:

same-origin

User-Agent:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36

请求载荷:

{"operationName":"GetClassesQuery","variables":{"query":"ChatGPT","where":{"level":["ALL_LEVELS","BEGINNER","INTERMEDIATE","ADVANCED"]},"analyticsTags":["src:browser","src:browser:search","disc_cls_idx_mig","user-agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36"],"after":"{pagenumber}","first":24},"query":"fragment ClassFields on Class {\n badges {\n type\n __typename\n }\n durationInSeconds\n id\n publishTime\n largeCoverUrl\n sku\n sourceLanguage\n studentCount\n teacher {\n id\n name\n username\n vanityUsername\n __typename\n }\n title\n url\n viewer {\n hasSavedClass\n __typename\n }\n __typename\n}\n\nquery GetClassesQuery($query: String!, $where: SearchFiltersV2!, $analyticsTags: [String!], $after: String!, $first: Int!, $sort: SortParameters) {\n search: searchV2(query: $query, where: $where, analyticsTags: $analyticsTags, after: $after, first: $first, sort: $sort) {\n totalCount\n searchId\n algorithmId\n pageInfo {\n startCursor\n endCursor\n hasNextPage\n hasPreviousPage\n __typename\n }\n edges {\n cursor\n node {\n ...ClassFields\n __typename\n }\n __typename\n }\n __typename\n }\n}\n"}

其中,"after"键对应的字段值"{pagenumber}"是从-1开始,每次递增24,以215结束。

获取网页响应的json数据,打印出来;

提取"data"键中嵌套的"search"键嵌套的"edges"键的内容;

"edges"键对应的值是一个json数据;

将这个json数据所有的键名作为Excel表格的表头,键对应的值作为Excel表格的列数据,全部写入Excel表格中;

保存Excel表格到文件夹“F:\AI自媒体内容\AI行业数据分析”,文件名为:skillshareChatgptcourse20240604.xlsx

注意:每一步信息都要输出到屏幕上

ChatGPT生成的Python源代码:

import requests

import json

import pandas as pd

# 请求网址和请求头

url = "https://www.skillshare.com/api/graphql"

headers = {

'Accept': '*/*',

'Accept-Encoding': 'gzip, deflate, br, zstd',

'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',

'Content-Length': '1302',

'Content-Type': 'application/json',

'Origin': 'https://www.skillshare.com',

'Priority': 'u=1, i',

'Referer': 'https://www.skillshare.com/en/search/classes?query=ChatGPT',

'Sec-Ch-Ua': '"Google Chrome";v="125", "Chromium";v="125", "Not.A/Brand";v="24"',

'Sec-Ch-Ua-Mobile': '?0',

'Sec-Ch-Ua-Platform': '"Windows"',

'Sec-Fetch-Dest': 'empty',

'Sec-Fetch-Mode': 'cors',

'Sec-Fetch-Site': 'same-origin',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36'

}

# 定义请求载荷的模板

payload_template = {

"operationName": "GetClassesQuery",

"variables": {

"query": "ChatGPT",

"where": {

"level": ["ALL_LEVELS", "BEGINNER", "INTERMEDIATE", "ADVANCED"]

},

"analyticsTags": [

"src:browser",

"src:browser:search",

"disc_cls_idx_mig",

"user-agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36"

],

"after": "",

"first": 24

},

"query": """

fragment ClassFields on Class {

badges {

type

__typename

}

durationInSeconds

id

publishTime

largeCoverUrl

sku

sourceLanguage

studentCount

teacher {

id

name

username

vanityUsername

__typename

}

title

url

viewer {

hasSavedClass

__typename

}

__typename

}

query GetClassesQuery($query: String!, $where: SearchFiltersV2!, $analyticsTags: [String!], $after: String!, $first: Int!, $sort: SortParameters) {

search: searchV2(query: $query, where: $where, analyticsTags: $analyticsTags, after: $after, first: $first, sort: $sort) {

totalCount

searchId

algorithmId

pageInfo {

startCursor

endCursor

hasNextPage

hasPreviousPage

__typename

}

edges {

cursor

node {

...ClassFields

__typename

}

__typename

}

__typename

}

}

"""

}

# 初始化数据列表

all_data = []

# 循环请求每一页的数据

for i in range(-1, 216, 24):

payload = payload_template.copy()

payload['variables']['after'] = str(i)

response = requests.post(url, headers=headers, json=payload)

if response.status_code == 200:

print(f"Page {i//24 + 1} data fetched successfully.")

data = response.json()

print(json.dumps(data, indent=2)) # 打印响应的JSON数据

# 提取我们需要的部分

edges = data.get('data', {}).get('search', {}).get('edges', [])

all_data.extend([edge['node'] for edge in edges])

else:

print(f"Failed to fetch page {i//24 + 1}. Status code: {response.status_code}")

break

# 将数据转换为DataFrame

df = pd.DataFrame(all_data)

print(df.head()) # 打印表格的前几行

# 保存DataFrame到Excel

output_path = "F:/AI自媒体内容/AI行业数据分析/skillshareChatgptcourse20240604.xlsx"

df.to_excel(output_path, index=False)

print(f"Data saved to {output_path}")

Vscode中运行程序,获取所有查询结果数据:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/679971.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Go 群发邮件Redis 实现邮件群发

一、安装 go get github.com/go-redis/redis/v8 go get gopkg.in/gomail.v2 二、使用"gopkg.in/gomail.v2"群发 package mainimport (gomail "gopkg.in/gomail.v2" )func main() {// 邮件内容m : gomail.NewMessage()m.SetHeader("From", &qu…

实验11 OSPF协议配置

实验11 OSPF协议配置 一、OSPF单区域配置(一)原理描述(二)实验目的(三)实验内容(四)实验配置(五)实验步骤 二、OSPF多区域配置(一)原理…

44-5 waf绕过 - SQL注入绕WAF方法

环境准备: 43-5 waf绕过 - 安全狗简介及安装-CSDN博客然后安装sqlilabs靶场:构建完善的安全渗透测试环境:推荐工具、资源和下载链接_渗透测试靶机下载-CSDN博客 一、双写绕过 打开sql靶场的第一关:http://127.0.0.1/sqli-labs-master/Less-1/?id=1 验证一下waf是否开启防…

创新指南|2024企业如何开启生成式AI创新?从5大应用场景和6步抓手

想要了解如何采用生成式AI来提高企业效率和竞争力?本指南将介绍如何采用生成式AI来实现数字化转型,并打造智能化商业模式。从5大应用场景和6大步骤切入,让您了解如何开启生成式AI创新。立即连线创新专家咨询或观看创新战略方案视频进一步了解…

具有可编程电流限制的1.5A电源开关LPW5210用于5V或USB供电输出过流保护只要3毛

前言 适合要求反应时间较快的保护电路,保险丝或自恢复保险丝也能起到保护作用,但断开电流是额定电流的一倍,过流较小时,甚至需要数秒或更长的时间才能保护,因此半导体的过流保护开关更合适,相对成本要高一…

ABC318-E

挺有意思的一题&#xff0c;就当积累一下吧。 做法 枚举i和k会超时&#xff0c;那就只枚举j。 #include<bits/stdc.h> using namespace std; int n; int a[300010]; vector<int> v[300010]; int main(){ scanf("%d",&n); map<int,int&…

MQ之初识kafka

1. MQ简介 1.1 MQ的诞生背景 以前网络上的计算机&#xff08;或者说不同的进程&#xff09;传递数据&#xff0c;通信都是点对点的&#xff0c;而且要实现相同的协议&#xff08;HTTP、 TCP、WebService&#xff09;。1983 年的时候&#xff0c;有个在 MIT 工作的印度小伙突发…

Android AAudio——C API控制音频流(四)

上一篇文章我们介绍了 C API 中音频流的创建流程,以及打开音频流操作,这里我们再来看一下音频流的其他操作流程 一、音频流操作介绍 1、操作流程图 下图是状态变化流程图,虚线框表示瞬时状态,实线框表示稳定状态。 2、操作函数 上图中主要包含下面几个操作函数: aaudio…

AI-WEB-1 vulnhub靶场

AI-WEB-1 端口扫描 仅开放80端口 访问80端口 啥也没有 目录扫描 查看robots.txt 发现两个新目录 Disallow: /m3diNf0/ Disallow: /se3reTdir777/uploads/全都无权限访问 加入路径后再次扫描目录 发现/m3diNf0/目录下存在info.php&#xff0c;/se3reTdir777/目录下存在ind…

大文件上传处理:分卷压缩

大文件上传处理&#xff1a;分卷压缩 大文件上传处理&#xff1a;分卷压缩1、分卷压缩&#xff08;1&#xff09;Bandizip压缩工具&#xff1a;&#xff08;2&#xff09;分卷压缩后&#xff1a; 2、分卷压缩解压3、解压缩工具下载 大文件上传处理&#xff1a;分卷压缩 1、分卷…

将单列数据帧转换成多列数据帧

文章目录 1. 查看数据文件2. 读取数据文件得到单例数据帧3. 将单列数据帧转换成多列数据帧 在本次实战中&#xff0c;我们的目标是将存储在HDFS上的以逗号分隔的文本文件student.txt转换为结构化的Spark DataFrame。首先&#xff0c;使用spark.read.text读取文件&#xff0c;得…

Python | Leetcode Python题解之第132题分割回文串II

题目&#xff1a; 题解&#xff1a; class Solution:def minCut(self, s: str) -> int:n len(s)g [[True] * n for _ in range(n)]for i in range(n - 1, -1, -1):for j in range(i 1, n):g[i][j] (s[i] s[j]) and g[i 1][j - 1]f [float("inf")] * nfor …

TCP 建链(三次握手)和断链(四次握手)

TCP 建链&#xff08;三次握手&#xff09;和断链&#xff08;四次挥手&#xff09; 背景简介建链&#xff08;三次握手&#xff09;断链&#xff08;四次挥手&#xff09;序号及标志位延伸问题为什么建立连接需要握手三次&#xff0c;两次行不行&#xff1f;三次握手可以携带数…

【Vue】Vue生命周期

Vue生命周期&#xff1a;就是一个Vue实例从创建&#xff08;new一个Vue实例&#xff09; 到 销毁&#xff08;关闭网页&#xff09; 的整个过程。 生命周期四个阶段&#xff1a;① 创建 ② 挂载 ③ 更新 ④ 销毁 创建阶段&#xff1a;创建响应式数据 通过data给当前的Vue实例提…

【设计模式】结构型-适配器模式

前言 在软件开发中&#xff0c;经常会遇到需要将一个类的接口转换成另一个类的接口的情况。这可能是因为新旧系统之间的接口不兼容&#xff0c;或者是因为需要使用的第三方库的接口与当前系统的接口不匹配。为了解决这类问题&#xff0c;设计模式中的适配器模式应运而生。 一…

Leetcode3164. 优质数对的总数 II

Every day a Leetcode 题目来源&#xff1a;3164. 优质数对的总数 II 解法1&#xff1a;统计因子 遍历 nums1&#xff0c;统计所有元素的因子个数&#xff0c;记录到哈希表 cnt 中。 遍历 nums2&#xff0c;那么有 cnt[nums2[i]*k] 个数可以被 nums2[i]*k 整除&#xff0c;…

容器化部署Pig微服务快速开发框架

系统说明 基于 Spring Cloud 、Spring Boot、 OAuth2 的 RBAC 企业快速开发平台&#xff0c; 同时支持微服务架构和单体架构 提供对 Spring Authorization Server 生产级实践&#xff0c;支持多种安全授权模式 提供对常见容器化方案支持 Kubernetes、Rancher2 、Kubesphere、E…

南昌代理记账公司的收费标准及咨询服务

随着现代商业的快速发展&#xff0c;对于财务管理的需求也在不断增加&#xff0c;作为一家专业的会计代理公司&#xff0c;我们的目标是为各类企业提供全面、高效的财务管理服务&#xff0c;任何服务都应以公平合理的价格为基础&#xff0c;我们一直坚持这一原则。 关于常州代…

NDIS网络接口

在windows发行版本中&#xff0c;真的存在一个 ndis.sys 的驱动文件&#xff0c;和我们认知的不太一样&#xff0c;它真的是一个DLL&#xff0c;NDIS 库打包在 Ndis.sys&#xff08;一个内核模式导出库&#xff09;中&#xff0c;作为一组函数&#xff0c;强调宏以获得最佳性能…

0基础学习区块链技术——链之间数据同步样例

我们可以在https://blockchaindemo.io/体验这个过程。 创建区块 默认第一个链叫Satoshi(中本聪)。链上第一个区块叫“创世区块”——Genesis Block。后面我们会看到创建的第二条链第一个区块也是如此。 新增链 新创建的链叫Debby。默认上面有一个创世区块。 然后我们让这…