开箱即用的ChatGPT替代模型,还可训练自己数据

一、普遍关注是什么?

OpenAI 是第一个在该领域取得重大进展的公司,并且使围绕其服务构建抽象变得更加容易。然而,便利性带来了集中化、通过中介的成本、数据隐私和版权问题。

而数据主权和治理是这些新的LLM服务提供商如何处理商业秘密或敏感信息的首要问题,用户数据已被用于预训练以增强LLM模型能力。越来越多的人担心,大公司可能会为了既得利益而垄断此类模型,而这可能不符合你的最佳利益。

当 ChatGPT 最初推出时,这个问题是核心的中心讨论问题之一,并且仍然是。此外,对事实准确性、偏见、冒犯性反应和迷惑性的担忧,有时会困扰 ChatGPT,尽管这在版本 4 中已被最小化。虽然有问题,我相信利大于弊。

我们不能忽视 ChatGPT,LLM 之所以成为今天的样子,是因为像你我这样的用户间接提供了在各种论坛和渠道上共享的所有数据的集体智慧。

二、为什么要建立自己的模型?

我们可以将原因归结为完全的所有权和控制权。 鉴于此类语言模型的影响,必须很好地理解这些模型的构建方式、它们的功能以及如何改进它们。对于集中式服务,很难获取信息,但我们可以研究开源解决方案,了解它们是如何做到的。

熟悉可用的选项总是好的。下面的列表可以作为一个起点,看看它们是否是构建类似对话式聊天机器人(如 ChatGPT)的替代更便宜的方法。

三、开箱即用的模型,免费!

下面的一些模型可以在你的笔记本电脑上运行;你还可以选择通过 Google Colab 运行其中一些,它带有 51 GB RAM 选项。一般来说,如果目标不是与许多人的想法相反,那么训练开源模型的成本相对较低。

3.1 OpenChatKit

OpenChatKit使用经过 4300 万条指令训练的 200 亿参数聊天模型,支持推理、多轮对话、知识和生成答案。OpenChatkit 专为对话和指令而设计。通常,机器人擅长汇总和生成表格、分类和对话。

OpenChatKit 0.15 版是在 Apache-2.0 许可下发布的,该许可授予您对源代码、模型权重和训练数据集的完全访问权限,因为该计划是由社区驱动的。

OpenChatKit 开箱即用的一项值得注意的功能是用于实时更新答案的检索系统,允许聊天机器人将更新或定制的内容(例如来自维基百科、新闻提要或体育比分的信息)集成到其响应中。访问互联网是最近通过插件集成到 ChatGPT-4 中的一项功能,但它可以在旧的 GPT 模型上轻松完成。

体验地址:

https://huggingface.co/spaces/togethercomputer/OpenChatKit

我的评价:它虽然有类似GPT功能,能理解中文,但是回答全是英文。响应速度非常.
在这里插入图片描述

3.2 Vicuna

Vicuna 是一个开源聊天机器人,具有 13B 参数,通过微调 LLaMA 对从 ShareGPT.com 收集的用户对话数据进行训练,社区网站用户可以共享他们的 ChatGPT 对话。根据所做的评估,该模型具有超过 90% 的质量率,可与 OpenAI 的 ChatGPT 和谷歌的 Bard 相媲美,这使得该模型在与 ChatGPT 的功能对等方面成为顶级开源模型之一。它还能够编写在其他开源 LLM 聊天机器人中不太常见的代码,如下图所示。
在这里插入图片描述
根据公开信息,训练Vicuna-13B 的费用估计约为 300 美元。仓库地址:

https://github.com/lm-sys/FastChat

体验地址:

https://chat.lmsys.org/

在这里插入图片描述

3.3 Alpaca

Alpaca建立在 Meta 的 LLaMA 之上,其唯一目标是使 LLM 更便宜。基于斯坦福大学研究中心所做的先前研究和基准。羊驼模型可以低至 600 美元进行再训练,考虑到由此带来的好处,这很便宜。

它们也是另外两个羊驼变种模型Alpaca.cpp和Alpaca-LoRA。使用 cpp 变体,您可以使用具有 4GB 权重的 M2 Macbook Air 在笔记本电脑上本地运行类似 Fast ChatGPT 的模型,当今大多数笔记本电脑都应该能够处理。CPP 变体结合了 Facebook 的 LLaMA、Stanford Alpaca、alpaca-Lora 以及相应的权重。您可以在此处找到有关如何进行微调的数据。

体验地址:

https://huggingface.co/spaces/tloen/alpaca-lora

在这里插入图片描述

3.4 GPTall

GPT4all是一个社区驱动的项目,在大量精选的辅助交互书面文本集上进行训练,包括代码、故事、描述和多轮对话。该团队提供了数据集、模型权重、数据管理流程和训练代码来推广开源模型。还有一个量化的 4 位版本的模型可以在你的笔记本电脑上运行,因为所需的内存和计算能力更少.

仓库地址:

https://github.com/nomic-ai/gpt4all

体验地址(似乎不能用了,需要自己部署下):

https://huggingface.co/spaces/rishiraj/GPT4All

3.5 ChatRWKV

ChatRWKV是由 RWKV 驱动的开源聊天机器人,RWKV 是一种具有 Transformer 级 LLM 性能语言模型的 RNN。模型结果与 ChatGPT 的结果相当。该模型使用 RNN。模型的微调是使用 Stanford Alpaca 和其他数据集完成的。

仓库地址:

https://github.com/BlinkDL/ChatRWKV

体验地址:

https://huggingface.co/spaces/BlinkDL/ChatRWKV-gradio

在这里插入图片描述

3.6 BLOOM

BLOOM 是一个开源 LLMS,拥有超过 1760 亿个参数。相比之下,它与ChatGPT相当,能够处理46种语言和13种编程语言的任务。进入的障碍之一是它需要 350~ GB 的 RAM 才能运行。您可以在此处找到一个较轻的版本。

支持文字和图片!

BLOOM 的开发由 BigScience 协调,BigScience 是一个充满活力的开放研究合作组织,其使命是公开发布 LLM。可以通过GitHub 自述文件找到有关如何开始使用 Bloom 的更多详细信息。

仓库地址:

https://github.com/bigscience-workshop/bigscience/tree/master/train/tr11-176B-ml#readme

ipython:

https://github.com/aws/amazon-sagemaker-examples/blob/main/inference/nlp/realtime/llm/bloom_176b/djl_deepspeed_deploy.ipynb

体验地址:

https://huggingface.co/spaces/huggingface/bloom_demo

在这里插入图片描述

3.7 goppt4All

GPT4All Chat 是一个本地运行的人工智能聊天应用程序,由 GPT4All-J Apache 2 许可的聊天机器人提供支持。该模型在您的计算机 CPU 上运行,无需互联网连接即可工作,并且不会向外部服务器发送聊天数据(除非您选择使用您的聊天数据来改进未来的 GPT4All 模型)。它允许您与大型语言模型 (LLM) 进行通信,以获得有用的答案、见解和建议。GPT4All Chat 适用于 Windows、Linux 和 macOS。在您的本地计算机上运行,​​此模型不如那些 GPT 模型强大,可以通过将数据发送到功能强大的大型服务器来通过互联网与之聊天,并且不隶属于它们。

下载地址(我下载了一夜…)

https://gpt4all.io/index.html

仓库地址:

https://github.com/nomic-ai/gpt4all

总结

如果在上面的开源列表中注意到,有一个通用主题,LLM 模型的大多数变体要么源自 Meta AI 的 Llama 作为基础模型,要么源自 Bloom。如果有足够的文献可以帮助入门,那么创建自己的变体相对简单。

如果你想要自己训练,一定要预估好成本。我正在思考如何训练一个专业性的模型(虽然可能不会太好,但总想尽可能去尝试)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/16095.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

VS Code C++ 输出窗口中文乱码问题解决

VS Code C 输出窗口中文乱码问题解决 系统cmd终端乱码 的情况:原因解决方法:(仅针对cmd终端输出的情况)方法一:更改代码文件的编码方法二 :更改cmd默认终端的编码方式 系统cmd终端乱码 的情况: …

Go官方指南(五)并发

Go 程 Go 程(goroutine)是由 Go 运行时管理的轻量级线程。 go f(x, y, z) 会启动一个新的 Go 程并执行 f(x, y, z) f, x, y 和 z 的求值发生在当前的 Go 程中,而 f 的执行发生在新的 Go 程中。 Go 程在相同的地址空间中运行&#xff0c…

HTML学习笔记一

目录 HTML学习笔记 一、HTML标签 1、HTML语法规范 1.1标签的语法概述 1.2标签关系 2、HTML基本结构标签 2.1第一个HTML 2.2基本结构标签总结 3、开发工具 4、HTML常用标签 4.1标签的语义 4.2标题标签 4.3段落和换行标签 4.4文本格式化标签 4.5div和span标签 4.…

光缆线路网的组网结构是怎样的

1 引言 根据GB 51158-2015《通信线路工程设计规范》,通信线路网包括长途线路、本地线路和接入线路,如图1所示。 图1 通信线路网的组成 根据传输媒质的不同,通信线路分为光缆线路和电缆线路。通信线路也经历了从架空明线到电缆线路再到光缆线路…

WRF模式的移植、运行、后处理及在多领域的应用

1、WRF模式的各个组成部分; 2、自主完成该模式的移植;3、自主完成模式运行; 4、自主完成模式后处理;5、通过多领域案例分析、实践,熟悉在多领域中的应用。 随着生态文明建设和“碳中和”战略的持续推进,我…

探索深度学习世界:掌握PyTorch,成为AI领域的行家

探索深度学习世界:掌握PyTorch,成为AI领域的行家 PyTorch的背景介绍PyTorch的基本概念与特点PyTorch的基本应用张量和自动求导神经网络搭建训练和测试模型 模型的保存和加载模型保存:模型加载:模型使用: PyTorch与其他…

前端开发在本地开发与后台进行联调阶段时,接口自动重定向https、HSTS 与 307 状态码

开发者在本地开发与后台进行联调阶段时,Chrome 浏览器上出现 307 状态码,并跳转到 https 版 但是 307 代码是什么含义呢?页面又为何会出现 307 状态码呢?我之前都没见过这个状态码,查了才知道原来它也是一种重定向。 …

C++-FFmpeg-8-(1)基本概念与原理-rtsp-I、P、B 帧-DTS、PTS-

目录 1.rtsp是什么? 2. I、P、B 帧 3.DTS、PTS 4.rtsp协议抓包分析? 1.rtsp是什么? 流程: 鉴权: 2种 :basice64 Digest 哈希值 哈希值不可逆。nonce 做的单项散列(MD5,SHA512&#xff0…

【AI工具】bing chat 使用--三种模式+撰写功能

bing chat:三种模式撰写功能 以下为点击复制后粘贴的内容 Bing Chat提供三种对话模式可选择:创造力、平衡和精确。更多创造力(Creative):Bing Chat回答的内容将带有更多语气和情绪,更像一个真实的人类与用户对话。更多…

HTML(三) -- 表单设计

目录 1. 基本语法 2. 表单控件 2.1 input控件 input 常用属性: input type的表单项: 2.2 select 控件 2.3 textarea控件 2.4 label 控件 为什么需要表单? 在我们网页中, 无论是提交搜索的信息,还是网上注…

前端web3入门脚本五:decode input data

一、前言 作为一个前端,在调用合约调试的时候,在区块浏览器里拿到一串 hex 格式的 input data,我们应该怎么decode呢? 二、举例 解码交易需要拥有 对应合约的 abi 以及 input data 下面举例介绍怎么获得这两个信息: 参…

python中snap-stanford指导手册(主要用于做图网络)

文章目录 RequirementSnap操作手册Basic TypesVector TypesHash Table TypesPair TypesGraph and Networks Types(graph和network类型)Node and Edge Operation Requirement 需要提前安装用于操作图网络的snap库,这个库中有很多现成的图数据…

字节后端入门 - Go 语言原理与实践

1.1什么是Go语言 1.2Go语言入门 环境 1.3基础语法 1.3.1变量 var name"value" 自己推断变量类型; 也可以显式类型 var c int 1 name: type(value) 常量: const name "value" g : a"foo" 字符串拼接 1.3.2 if else {}花括号…

通过身份个性化网络(IPM)实现真实世界的自动化妆

来源:投稿 作者:小灰灰 编辑:学姐 论文标题: Real-World Automatic Makeup via Identity Preservation Makeup Net 论文链接:https://www.ijcai.org/proceedings/2020/0091.pdf论文代码:https://github.co…

商城订单模块实战 - 数据库设计、ABA问题处理、读写分离分库分表

引言 订单系统可以说是整个电商系统中最重要的一个子系统,因此订单数据可以算作电商企业最重要的数据资产。这篇文章我们来看看在我们的商城系统中订单服务是如何实现的,特别是在设计和实现一个订单系统的过程中有哪些问题是需要特别考虑的。 业务分析…

【笔记】cuda大师班1-4

一.基本概念 进程(process)一个正在被执行的计算机程序的实例 上下文(context):待处理数据的集合,允许处理器暂停,保持处理的执行和恢复处理 并发:上下文切换,主要应用于…

二叉搜索树中的众数

1题目 给你一个含重复值的二叉搜索树(BST)的根节点 root ,找出并返回 BST 中的所有 众数(即,出现频率最高的元素)。 如果树中有不止一个众数,可以按 任意顺序 返回。 假定 BST 满足如下定义&…

用Python分析周杰伦歌曲并进行数据可视化

大家好,今天我们用python分析下周杰伦歌曲。为了尽量完整地呈现从原始数据到可视化的过程,接下来我们会先简单讲解数据的预处理过程,即如何将 JSON 数据转化为Excel 格式,以及如何对周杰伦的歌曲进行分词。 本案例中的歌词数据来…

对顶堆模板!!【DS对顶堆】ABC281 E - Least Elements

我想的思路和正解是差不多的 就是滑动窗口,每过去一个用DS维护一下前k个元素和sum 本来想的是用优先队列维护前k个 然后想着multiset维护前k个,但是具体不知道怎么操作 这里用的是multiset维护对顶堆 关于对顶堆,我在寒假的时候总结过 …

从根本上理解Synchronized的加锁过程

作为一个Java开发,对于Synchronized这个关键字并不会陌生,无论是并发编程,还是与面试官对线,Synchronized可以说是必不可少。 在JDK1.6之前,都认为Synchronized是一个非常笨重的锁,就是在之前的《谈谈Java…