头条百度批量采集软件说明文档

  旧版说明文档《头条号文章批量采集软件4.0版本说明文档!头条/微头条文章批量采集》 头条的采集软件已经更新了好多个版本了,一直没有做详细的介绍文档,最近更新了一些功能进去,一块来写一下说明文档。

1、主界面

2、头条作者采集

 网址文件选择txt ,使用选择按钮选择,不要手动复制路径进去

保存目录选择一个文件夹

保存的格式有:

url:网址放在一个txt中去)、txt:一篇文章一个txt,图片自动下载到images目录下面、docx:保存成word、保存成html、数据存储成csv只存网址

最小阅读量:小于这个阅读量的文章不采集

翻页数量:作者列表的下拉次数

字数限制:文章内容低于这个数值不采集

时间限制:一定要按照给的示例进行填写,年-月-日 时:分:秒 个位数的数字补零,比如2025-01-02 03:04:12  这里面的01 02 03 04都补零了

下载图片的宽高限制,可以是200,意思宽高小于200不保存,也可以填200,300 宽小于200高小于300不下载

延迟时间:采集一篇之后的暂停时间

屏蔽图片:0不屏蔽图片下载,1屏蔽图片下载(意思就是不下载图片了)

裁剪像素:下载图片的时候,从底部往上裁剪图片像素,设置30-50即可

图文同目录:只对txt采集模式有效,设置1,txt保存的时候会保存到文章图片目录下面,0就是常规模式

屏蔽词:一行一个,文章中包含里面的关键词不采集,不要有空行 

头条cookie:我提供的cookie有效尽量不要换,换了可能采集不到

强制监控采集:无限循环作者列表进行采集,慎用,可能会被反爬

采集头条文章/微头条文章,这里不做说明了。

2、头条链接采集

这里是我们整理好头条网址或者微头条网址,放到txt中,软件调用进行采集,比如:有些客户可以从易撰这种网站下载爆文网址,那么可以用这个功能,把文章和图片下载到本地。

这里要说明一点,如果是我们下载的微头条网址中,不带/w/我们需要把下载的网址改动一下,比如我们从易撰下载下来的微头条网址是https://www.toutiao.com/item/123/,我们需要改成https://www.toutiao.com/w/123/这种个样式的,把item改成w,这样软件才能识别。

网址文件:调用txt文件,使用选择按钮进行选择

保存目录:使用选择按钮,选择一个保存目录

保存txt:把数据保存成txt

保存docx:把数据保存成docx

裁剪像素:和上面的原理一样,裁剪图片。

txt图文同目录:只针对txt数据,把txt保存到文章图片目录下面去

采集模式:爬虫模式是直接爬取源码,网页模式是驱动谷歌浏览器进行采集,使用网页模式爬取的时候,一定要使用自己头条账号的cookie,很多链接只有登录才会看的到,否则会出现一个头条的登录页面。

3、头条热点采集

采集最新热点资讯关键词,注意使用频次,不要太快。

 保存关键词:保存热点关键词

保存txt:根据热点关键词采集相关文章保存txt

保存docx:根据热点关键词采集相关文章保存成docx

文章下载数量:一个关键词采集相关文章的数量

时间间隔:采集一篇之后的暂停时间

4、按照百家作者采集

UK文件存放是百家作者的UK id,打开百家作者主页,右键查看源代码,ctrl+f 搜索 uk ,匹配上的第一个字段值,就是百家作者的uk id,一行一个,放到txt中,使用选择按钮调用该文件。

百家的一些设置项目和头条作者的基本是一致的,其中有一个不同是:生成竖图,这个地方是为了发布百家的时候方便调用竖图缩略图设置的,这个功能是从作者百家号发布软件迁移过来的,可以选择生成,也可以选择不生成,自定义即可。

标题禁止包含关键词:一行一个,标题中包含这些关键词,就不采集该文章。

百度cookie:使用自己百度账号的cookie 即可。 

5、百家链接采集

把整理好的百家号文章链接,百度动态文章链接,整理好,放到txt中让软件调用,软件就可以自动以采集了,设置选项和头条按照链接采集的基本一致。

采集模式也是两种 ,爬虫模式、网页模式

6、软件下载链接:

百度网盘下载链接: https://pan.baidu.com/s/1C9nt4NHr49jzSY-J6pF0ZQ?pwd=e2cb 提取码: e2cb
蓝奏云下载地址:https://wwyl.lanzouv.com/b0r9o03qf密码:4zdg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/967420.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Wpf美化按钮,输入框,下拉框,dataGrid

Wpf美化按钮&#xff0c;输入框&#xff0c;下拉框&#xff0c;dataGrid 引用代码后 引用资源 <ControlTemplate x:Key"CustomProgressBarTemplate" TargetType"ProgressBar"><Grid><Border x:Name"PART_Track" CornerRadius&q…

DeepSeek从入门到精通:全面掌握AI大模型的核心能力

文章目录 一、DeepSeek是什么&#xff1f;性能对齐OpenAI-o1正式版 二、Deepseek可以做什么&#xff1f;能力图谱文本生成自然语言理解与分析编程与代码相关常规绘图 三、如何使用DeepSeek&#xff1f;四、DeepSeek从入门到精通推理模型推理大模型非推理大模型 快思慢想&#x…

从MySQL优化到脑力健康:技术人与效率的双重提升

文章目录 零&#xff1a;前言一&#xff1a;MySQL性能优化的核心知识点1. 索引优化的最佳实践实战案例&#xff1a; 2. 高并发事务的处理机制实战案例&#xff1a; 3. 查询性能调优实战案例&#xff1a; 4. 缓存与连接池的优化实战案例&#xff1a; 二&#xff1a;技术工作者的…

大语言模型实践——基于现有API的二次开发

基于现有的API平台做一些实用的AI小应用。 API服务商&#xff1a;阿里云百炼 云服务器&#xff1a;阿里云&#xff08;2核2GB&#xff09; 部署框架&#xff1a;gradio 调用框架&#xff1a;openai 语言&#xff1a;Python &#xff08;注&#xff1a;若搭建网站或API接口…

Windows逆向工程入门之进制拓展(BIN OCT DEC HEX)

公开视频 -> 链接点击跳转公开课程博客首页 -> ​​​链接点击跳转博客主页 目录 一、进制基础 1. 什么是进制&#xff1f; 二、二进制、八进制、十六进制的定义和规则 1. 二进制 (Binary) 示例&#xff1a; 2. 八进制 (Octal) 示例&#xff1a; 3. 十六进制 (H…

【数据结构】_堆的实现

目录 1. 堆的实现 1.1 Heap.h 1.2 Heap.c 1.3 Test_Heap.c 专栏前文中&#xff0c;已经介绍了入堆及向上调整算法&#xff0c;出堆及向下调整算法&#xff0c;详情见下文&#xff1a; 【数据结构】_堆的结构及向上、向下调整算法-CSDN博客文章浏览阅读352次&#xff0c;点…

重启电脑之后vscode不见了

某天重启电脑之后发现vscode被删除 双击发现是 后面追溯到文件夹下面发现有一个文件夹的名字叫_ 把这个文件夹打开发现之前的包全在这里面 只需要把这个包里面的文件全部移到上一级即可

高级加密标准AES候选算法之一Crypton

目录 (1)轮密钥加 (2)列混合变换 (3)字节替代变换 (4)字节置换变换 Crypton的加密算法 Crypton的解密算法 密钥扩展算法 高级加密标准AES候选算法之一Crypton Crypton算法是由Chae Hoon Lim于1998年设计的,它是被接受为AES侯选者的15种分组密码之一。该算法是…

2025最新主流深度学习算法全解析

深度学习&#xff1a;开启智能时代的钥匙 在当今数字化时代&#xff0c;深度学习无疑是人工智能领域中最为耀眼的明星。它如同一把神奇的钥匙&#xff0c;开启了智能时代的大门&#xff0c;让计算机从简单的数据处理迈向了复杂的智能决策。深度学习通过构建具有多个层次的神经网…

51单片机(国信长天)矩阵键盘的基本操作

在CT107D单片机综合训练平台上&#xff0c;首先将J5处的跳帽接到1~2引脚&#xff0c;使按键S4~S19按键组成4X4的矩阵键盘。在扫描按键的过程中&#xff0c;发现有按键触发信号后(不做去抖动)&#xff0c;待按键松开后&#xff0c;在数码管的第一位显示相应的数字:从左至右&…

如何在浏览器中搭建开源Web操作系统Puter的本地与远程环境

文章目录 前言1.关于Puter2.本地部署Puter3.Puter简单使用4. 安装内网穿透5.配置puter公网地址6. 配置固定公网地址 前言 嘿&#xff0c;小伙伴们&#xff01;是不是每次开机都要像打地鼠一样不停地点击各种网盘和应用程序的登录按钮&#xff0c;感觉超级麻烦&#xff1f;更让…

【JavaScript】this 指向由入门到精通

this 的概念 this 在JavaScript 及其其他面向对象的编程语言中&#xff0c;存在的目的是为了提供一种在对象方法中引用当前对象的方式。 它为方法提供了对当前实例的引用&#xff0c;使得方法能够访问或者修改实例的成员变量。 注意点&#xff1a; this 的绑定和定位的位置…

javaEE-10.CSS入门

目录 一.什么是CSS ​编辑二.语法规则: 三.使用方式 1.行内样式: 2.内部样式: 3.外部样式: 空格规范 : 四.CSS选择器类型 1.标签选择器 2.类选择器 3.ID选择器 4.通配符选择器 5.复合选择器 五.常用的CSS样式 1.color:设置字体颜色 2.font-size:设置字体大小 3…

数据中台是什么?:架构演进、业务整合、方向演进

文章目录 1. 引言2. 数据中台的概念与沿革2.1 概念定义2.2 历史沿革 3. 数据中台的架构组成与关键技术要素解析3.1 架构组成3.2 关键技术要素 4. 数据中台与其他平台的对比详细解析 5. 综合案例&#xff1a;金融行业数据中台落地实践5.1 背景5.2 解决方案5.3 成果与价值 6. 方向…

Linux磁盘空间使用率100%(解决删除文件后还是显示100%)

本文适用于&#xff0c;删除过了对应的数据文件&#xff0c;查看还是显示使用率100%的情况 首先使用df -h命令查看各个扇区所占用的情况 一、先对系统盘下所有文件大小进行统计&#xff0c;是否真的是数据存储以达到了磁盘空间 在对应的扇区路径下使用du -sh * | sort -hr 命…

DeepSeek--教师备课效能100%

关键功能深度解析 深度思考&#xff08;R1&#xff09; 开启这个功能&#xff0c;就如同为 DeepSeek 赋予了深度思考的 “大脑”。当你向它咨询备课问题时&#xff0c;它会像经验丰富的教师一样&#xff0c;在 “脑海” 中梳理思路&#xff0c;不仅给出答案&#xff0c;还会展…

基于Java的自助多张图片合成拼接实战

目录 前言 一、图片合成需求描述 二、图片合成设计与实现 1、编程语言 2、基础数据准备 3、图片合成流程 4、图片合成实现 三、总结 前言 在当今数字化时代&#xff0c;图像处理技术在各个领域都发挥着至关重要的作用。从社交媒体到电子商务&#xff0c;从在线教育到虚拟…

大模型基本原理(四)——如何武装ChatGPT

传统的LLM存在几个短板&#xff1a;编造事实、计算不准确、数据过时等&#xff0c;为了应对这几个问题&#xff0c;可以借助一些外部工具或数据把AI武装起来。 实现这一思路的框架包括RAG、PAL、ReAct。 1、RAG&#xff08;检索增强生成&#xff09; LLM生成的内容会受到训练…

电控--PWM

理论知识 脉宽调制&#xff08;Pulse Width Modulation&#xff0c;PWM&#xff09; 对脉冲信号的宽度改变并输出出来高频的PWM波可以让设备进行频繁开关、通断 PWM波形的参数 周期(T)&#xff1a;完整脉冲循环时间&#xff08;单位&#xff1a;秒&#xff09;频率(f)&…

CNN卷积神经网络多变量多步预测,光伏功率预测(Matlab完整源码和数据)

代码地址&#xff1a;CNN卷积神经网络多变量多步预测&#xff0c;光伏功率预测&#xff08;Matlab完整源码和数据) 标题&#xff1a;CNN卷积神经网络多变量多步预测&#xff0c;光伏功率预测 一、引言 1.1 研究背景及意义 随着全球能源危机的加剧和环保意识的提升&#xff…