旧版说明文档《头条号文章批量采集软件4.0版本说明文档!头条/微头条文章批量采集》 头条的采集软件已经更新了好多个版本了,一直没有做详细的介绍文档,最近更新了一些功能进去,一块来写一下说明文档。
1、主界面
2、头条作者采集
网址文件选择txt ,使用选择按钮选择,不要手动复制路径进去
保存目录选择一个文件夹
保存的格式有:
url:网址放在一个txt中去)、txt:一篇文章一个txt,图片自动下载到images目录下面、docx:保存成word、保存成html、数据存储成csv只存网址
最小阅读量:小于这个阅读量的文章不采集
翻页数量:作者列表的下拉次数
字数限制:文章内容低于这个数值不采集
时间限制:一定要按照给的示例进行填写,年-月-日 时:分:秒 个位数的数字补零,比如2025-01-02 03:04:12 这里面的01 02 03 04都补零了
下载图片的宽高限制,可以是200,意思宽高小于200不保存,也可以填200,300 宽小于200高小于300不下载
延迟时间:采集一篇之后的暂停时间
屏蔽图片:0不屏蔽图片下载,1屏蔽图片下载(意思就是不下载图片了)
裁剪像素:下载图片的时候,从底部往上裁剪图片像素,设置30-50即可
图文同目录:只对txt采集模式有效,设置1,txt保存的时候会保存到文章图片目录下面,0就是常规模式
屏蔽词:一行一个,文章中包含里面的关键词不采集,不要有空行
头条cookie:我提供的cookie有效尽量不要换,换了可能采集不到
强制监控采集:无限循环作者列表进行采集,慎用,可能会被反爬
采集头条文章/微头条文章,这里不做说明了。
2、头条链接采集
这里是我们整理好头条网址或者微头条网址,放到txt中,软件调用进行采集,比如:有些客户可以从易撰这种网站下载爆文网址,那么可以用这个功能,把文章和图片下载到本地。
这里要说明一点,如果是我们下载的微头条网址中,不带/w/我们需要把下载的网址改动一下,比如我们从易撰下载下来的微头条网址是https://www.toutiao.com/item/123/,我们需要改成https://www.toutiao.com/w/123/这种个样式的,把item改成w,这样软件才能识别。
网址文件:调用txt文件,使用选择按钮进行选择
保存目录:使用选择按钮,选择一个保存目录
保存txt:把数据保存成txt
保存docx:把数据保存成docx
裁剪像素:和上面的原理一样,裁剪图片。
txt图文同目录:只针对txt数据,把txt保存到文章图片目录下面去
采集模式:爬虫模式是直接爬取源码,网页模式是驱动谷歌浏览器进行采集,使用网页模式爬取的时候,一定要使用自己头条账号的cookie,很多链接只有登录才会看的到,否则会出现一个头条的登录页面。
3、头条热点采集
采集最新热点资讯关键词,注意使用频次,不要太快。
保存关键词:保存热点关键词
保存txt:根据热点关键词采集相关文章保存txt
保存docx:根据热点关键词采集相关文章保存成docx
文章下载数量:一个关键词采集相关文章的数量
时间间隔:采集一篇之后的暂停时间
4、按照百家作者采集
UK文件存放是百家作者的UK id,打开百家作者主页,右键查看源代码,ctrl+f 搜索 uk ,匹配上的第一个字段值,就是百家作者的uk id,一行一个,放到txt中,使用选择按钮调用该文件。
百家的一些设置项目和头条作者的基本是一致的,其中有一个不同是:生成竖图,这个地方是为了发布百家的时候方便调用竖图缩略图设置的,这个功能是从作者百家号发布软件迁移过来的,可以选择生成,也可以选择不生成,自定义即可。
标题禁止包含关键词:一行一个,标题中包含这些关键词,就不采集该文章。
百度cookie:使用自己百度账号的cookie 即可。
5、百家链接采集
把整理好的百家号文章链接,百度动态文章链接,整理好,放到txt中让软件调用,软件就可以自动以采集了,设置选项和头条按照链接采集的基本一致。
采集模式也是两种 ,爬虫模式、网页模式
6、软件下载链接:
百度网盘下载链接: https://pan.baidu.com/s/1C9nt4NHr49jzSY-J6pF0ZQ?pwd=e2cb 提取码: e2cb
蓝奏云下载地址:https://wwyl.lanzouv.com/b0r9o03qf密码:4zdg