目录
1 什么是excel 爬虫
2 EXCEL爬虫
2.1 excel 爬虫的入口
2.2 需要配置的信息
2.2.1 如何获得 ua信息
2.3 获取的信息
2.3.1 获取信息的基本内容
2.3.2 获取过程
2.3.3 我们只用关注“表视图 ” 即可
2.4 EXCEL获得的爬虫数据 加载到excel里
2.5 数据到了excel表后可以加工
2.6 如何处理已经下载到excel里的 爬虫table数据呢?
2.6.1 点击 “查询和连接” 或者 “现有链接” 可以重新呼出 table0 等原始的下载数据表和链接(右键呼出属性)
2.6.2 右键table对应区域,选择 “从表格/区域 获取数据” 可以重新打开 power query来处理数据
2.7 设置table表自动更新
2.7.1 设置自动更新
2.7.2 自动更新作用
1 什么是excel 爬虫
excel也可以爬虫,我是一本书上看到的,还有点意思
好处:
- 而且可以不用写代码,纯界面操作
- 理解起来,对新手还是比较友好的
- 功能还不少
- 但是如果懂爬虫,懂html,js等,对理解excel爬虫还是有好处的,比如,
2 EXCEL爬虫
2.1 excel 爬虫的入口
2.2 需要配置的信息
- url
- 网页请求相关,比如 ua,cookies 等 headers信息
- 然后点击确定即可
2.2.1 如何获得 ua信息
- 网页检查
- 刷新网页
- 网页url对应的选项
- networks /request headers 可以找到 UA信息 User-Agent:
2.3 获取的信息
2.3.1 获取信息的基本内容
- 网页url
- docment
- table
- 可能因为excel 主要用来处理 表格,所以excel 爬虫着重突出了 table
- 其实就是html里的 <table></table>的tag
2.3.2 获取过程
- 快的网页一瞬间就完成了
- 如果反映慢则可能看到如下过程
- 正在连接url
- 获取数据
- 数据下载完成
2.3.3 我们只用关注“表视图 ” 即可
- 表视图
- web视图,没啥用
2.4 EXCEL获得的爬虫数据 加载到excel里
- 点击 加载,存储到excel, 用新的sheet 存档当前excel里
- 点击 加载到
- 点击 转换数据,会跳转到 power query 处理数据
2.5 数据到了excel表后可以加工
- 数据到了excel表后可以加工
- 也可以使用 power query 加工(暂时不熟悉,留白)
2.6 如何处理已经下载到excel里的 爬虫table数据呢?
2.6.1 点击 “查询和连接” 或者 “现有链接” 可以重新呼出 table0 等原始的下载数据表和链接(右键呼出属性)
2.6.2 右键table对应区域,选择 “从表格/区域 获取数据” 可以重新打开 power query来处理数据
- 入口:右键table对应区域,选择 “从表格/区域 获取数据” 可以重新打开 power query来处理数据
- 左上角 侧边栏 会显示多个爬取的table0 表(默认下载的表名)
- 右下角会显示 爬取的时间
2.7 设置table表自动更新
2.7.1 设置自动更新
-
点击 “查询和连接” 或者 “现有链接” 可以重新呼出 table0
-
然后,点击右边侧边栏的table0 右键呼出属性
-
属性窗口里的设置
2.7.2 自动更新作用
- 可以定时,循环监控网页内容,爬取下来