5分钟制作可直接导入GPTs知识库中的自动爬虫

它能从一个或多个网址爬取网站内容,然后生成JSON文件格式。这样爬取的内容可以直接导入到GPTs知识库中,方便你创建自定义知识库的GPTs。比如你有自己的网站或者资料库,但是整理起来太麻烦,就可以使用这个工具。

主要功能:

  • 爬取网站内容:用户通过配置文件设置目标网址和选择器,GPT-Crawler 自动从这些网站上收集信息。

  • 生成知识文件:爬取的内容被整理成 JSON 文件,这个文件包含了从网站上获取的所有知识。

  • 创建自定义 GPT:利用这个知识文件,用户可以在 OpenAI 平台上创建自己定制的 GPT 聊天机器人。

  • 也可以使用爬取的内容创建Assistant自定义助手,这样你就可以通过一个 API来访问这些生成的知识。可以将这些知识集成到你自己的产品或应用中去。

简单来说,就是提供了一种方式,让你能够在你的软件或产品中使用这些爬取并整理好的知识。

具体步骤:

确保您已安装 Node.js 版本大于等于 16

克隆存储库

git clone https://github.com/builderio/gpt-crawler

安装依赖项

npm i


如果您没有安装 Playwright:

npx playwright install

配置爬虫

打开 config.ts 文件并编辑 url 和 selectors 属性以满足您的需求。

例如,要爬取 Builder.io 文档以创建我们自定义的 GPT,您可以使用:

export const config: Config = {url: "https://www.builder.io/c/docs/developers",match: "https://www.builder.io/c/docs/**",selector: `.docs-builder-container`,maxPagesToCrawl: 50,outputFileName: "output.json",};

查看文件顶部的类型定义,了解您可以配置的内容:

type Config = {/** URL to start the crawl */url: string;/** Pattern to match against for links on a page to subsequently crawl */match: string;/** Selector to grab the inner text from */selector: string;/** Don't crawl more than this many pages */maxPagesToCrawl: number;/** File name for the finished data */outputFileName: string;/** Optional function to run for each page found */onVisitPage?: (options: {page: Page;pushData: (data: any) => Promise<void>;}) => Promise<void>;/** Optional timeout for waiting for a selector to appear */waitForSelectorTimeout?: number;};

运行爬虫

npm start

上传你的数据到OpenAI

爬取将在项目的根目录生成一个名为 output.json 的文件。将其上传到 OpenAI 以创建您的自定义助手或自定义 GPT。

创建自定义 GPT 使用此选项可以通过用户界面访问您生成的知识,并轻松与他人共享

注意:您可能需要一个付费的 ChatGPT 计划来创建和使用自定义 GPT。

1.前往https://chat.openai.com/

2.单击左下角的您的姓名

3.在菜单中选择“我的 GPT”

4.选择“创建一个 GPT”

5.选择“配置”

6.在“知识”下选择“上传文件”并上传您生成的文件

5c7db691851b16c737653dc5435d16ae.jpeg


创建自定义助手

使用此选项可以通过 API 访问生成的知识,以便将其集成到您的产品中。

1.前往https://platform.openai.com/assistants

2.单击“+ 创建”

3.选择“上传”并上传您生成的文件

203471cf19f38a5d23c1b009332f199a.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/176305.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

webshell之无扩展免杀

1.php加密 这里是利用phpjiami网站进行加密&#xff0c;进而达到加密效果 加密前&#xff1a; 查杀效果 可以看到这里D某和某狗都查杀 里用php加密后效果 查杀效果 可以看到这里只有D某会显示加密脚本&#xff0c;而某狗直接绕过 2.dezend加密 可以看到dezend加密的特征还是…

Java实现堆算法

堆是一种特殊的数据结构&#xff0c;它是一棵完全二叉树&#xff0c;且满足堆的性质&#xff1a;对于每个节点&#xff0c;它的值都不小于&#xff08;或不大于&#xff09;它的孩子节点的值。根节点的值就是堆中的最大值&#xff08;或最小值&#xff09;。 Java中提供了一个…

解决Spring Boot应用在Kubernetes上健康检查接口返回OUT_OF_SERVICE的问题

现象 在将Spring Boot应用部署到Kubernetes上时&#xff0c;健康检查接口/actuator/health返回的状态为{"status":"OUT_OF_SERVICE","groups":["liveness","readiness"]}&#xff0c;而期望的是返回正常的健康状态。值得注…

jetpack compose中实现丝滑的轮播图效果

写在前面 最近在翻Jetpack库&#xff0c;发现了DataStore&#xff0c;官方是这么说的&#xff1a; Jetpack DataStore 是一种数据存储解决方案&#xff0c;允许您使用协议缓冲区存储键值对或类型化对象。DataStore 使用 Kotlin 协程和 Flow 以异步、一致的事务方式存储数据。 …

听说90%的人都没搞定手撕协程池这道面试题!

特别的缘分 听说90%的人都没搞定手撕协程池这道面试题&#xff01; 能看到这篇文章一定是特殊的缘分&#xff0c;请务必珍惜&#xff0c;请详细看看吧&#xff0c;哈哈。 不止上图&#xff0c;最近 Go就业训练营 中不少小伙伴说&#xff0c;面试中碰到了好几次手撕协程池的问题…

Arcgis中通过函数实现字符串截取

效果 从字符串中提取最右侧的符号&#xff0c;如“/”后面的字符串 步骤 1、VB dim bbindexinstrrev( [WGCJ] ,"/")bbright( [WGCJ] ,len( [WGCJ] )- index )2、python def bb(aa):index(aa.rfind("/"))bbaa[index1:]return bb

《QT从基础到进阶·三十七》QWidget实现左侧导航栏效果

NavigationBarPlugin插件类实现了对左侧导航栏的管理&#xff0c;我们可以在导航栏插件中添加界面&#xff0c;并用鼠标点击导航栏能够切换对应的界面。 源码在文章末尾 实现效果如下&#xff1a; NavigationBarPlugin实现的接口如下&#xff1a; class NAVIGATIONBAR_EXP…

企业数字化建设诊断报告

市场竞争越来越激烈 不管是初创企业&#xff0c;还是面临转型的发展型企业 亦或是稳定发展突破瓶颈的传统企业 或多或少都面临着企业数字化建设的问题...... 联系亿达四方限时免费领取&#xff0c; “企业数字化建设诊断报告”。

C语言获取win11新版终端WindowsTerminal窗口句柄

随着Win11的普及&#xff0c;越来越多的人都能发现获取控制台窗口不能再使用以下两种传统方法了&#xff1a; HWND hwnd GetConsoleWindow();HWND hwnd FindWindowA("ConsoleWindowClass",NULL);那是因为win11换了新的终端窗口&#xff0c;叫做WindowsTerminal&am…

如何用CHAT写励志文章?

问CHAT&#xff1a;写一篇以《过了60岁要积极面对身体疾病的坎儿》为题目&#xff0c;写一篇300字励志文章 CHAT回复&#xff1a; 标题&#xff1a;《过了60岁要积极面对身体疾病的坎儿》 人生&#xff0c;有时会像一趟不期而遇的旅程&#xff0c;各自带着乐观或悲观、阳光或…

区间第k小数 (可持久化线段树、主席树)

题意&#xff1a;多次询问&#xff0c;每次询问某区间的第k小数。 可持久化线段树&#xff1a; 掺杂了一点前缀和的思想&#xff0c;对于每一个1 ~ i 的区间都建一个树&#xff0c;每个节点存的都是一个线段树&#xff0c;值存的是当前区间中初始数组按大小排序后[l, r]之间的…

生产订单自动下达

文章目录 1 Introduction2 Detail2.1 input MM02 3 Summary 1 Introduction Production order is released order by automation . We can set the material for it . The method is the detial . 2 Detail 2.1 input MM02 please choose work Scheduling please choose S…

算法分析-三壶谜题

一.题目需求 有一个充满水的8品脱的水壶和两个空水壶&#xff08;容积分别是5品脱和3品脱&#xff09;。 通过将水壶完全倒满水和将水壶的水完全倒空这两种方式&#xff0c;在其中的一个水壶中得到4品脱的水。 二、算法思想 1.算法分析 1.1. 采用的算法思想是将某个时刻水壶…

9.3 Windows驱动开发:内核解析PE结构节表

在笔者上一篇文章《内核解析PE结构导出表》介绍了如何解析内存导出表结构&#xff0c;本章将继续延申实现解析PE结构的PE头&#xff0c;PE节表等数据&#xff0c;总体而言内核中解析PE结构与应用层没什么不同&#xff0c;在上一篇文章中LyShark封装实现了KernelMapFile()内存映…

priority_queue简单实现(优先级队列)(c++)

priority_queue priority_queue介绍逻辑实现框架调整算法adjust_up()adjust_down() 仿函数/比较函数仿函数特性 构造函数迭代器区间构造 完整优先级队列代码 priority_queue介绍 pri_que是一个容器适配器&#xff0c;它的底层是其他容器&#xff0c;并由这些容器再封装而来。类…

Win10之bandicam录音无声音问题(七十六)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 人生格言&#xff1a; 人生…

分布式进阶-链路追踪SpringCloudSleuth、Zipkin【实战篇】

一、前言 我们在使用微服务的时候&#xff0c;往往设计到各个微服务之间的调用&#xff0c;肯定会存在深度的调用链路&#xff0c;如果出现BUG或者异常&#xff0c;就会让问题定位和处理效率非常低。 有了Sleuth &#xff0c;就可以帮助我们记录、跟踪应用程序中的请求和操作。…

C++:哈希表的模拟实现

文章目录 哈希哈希冲突哈希函数 解决哈希冲突闭散列&#xff1a;开散列 哈希 在顺序结构和平衡树中&#xff0c;元素的Key和存储位置之间没有必然的联系&#xff0c;在进行查找的时候&#xff0c;要不断的进行比较&#xff0c;时间复杂度是O(N)或O(logN) 而有没有这样一种方案…

数据库基本操作-----数据库用户管理和授权

一、数据库用户管理 1&#xff0e;新建用户 CREATE USER 用户名来源地址 [IDENTIFIED BY [PASSWORD] 密码];‘用户名’&#xff1a;指定将创建的用户名 ‘来源地址’&#xff1a;指定新创建的用户可在哪些主机上登录&#xff0c;可使用IP地址、网段、主机名的形式&#xff0c…

linux下流媒体压力测试工具的使用

前言 因为领导要求做linux的推拉流时服务器压力测试&#xff0c;于是在网上找了找。一顿操作下来&#xff0c;发现很多软件盗用一款名为srs-bench的开源软件。 该代码仓库有详细的使用说明&#xff0c;而且可以在issues中找到可能会遇到的问题的解决办法 需要下载该仓库的源…