[国产大模型简单使用介绍] 开源与免费API

个人博客:Sekyoro的博客小屋
个人网站:Proanimer的个人网站
随着大模型技术蓬勃发展和开源社区越来越活跃,国内的大模型也如雨后春笋一般.这时,一些就会问了,有了llama3,Mistral还有Gemma等等,国外大厂接连发力,一些开源社区也会有一些不错的模型,国内怎么比?对一个人使用,ollama或者gpt4all直接本地使用,对于一个组,使用1panel+ollama+maxKBHome · 1Panel-dev/MaxKB Wiki (github.com)部署在内网 也成了最佳搭配. 国内大模型怎么比?

我想说的是,确实. 国内厂商也纷纷意识到了这些问题,这些大模型彷佛一夜之间成了garbage,因为一个人根本没有必要同时使用多个功能类似的大模型,除非搞多Agent工作流,也就是给一个任务,任务分步骤的让多个大模型解决,这些大模型之间还能互相协作. 当然,这方面还需要继续发展.

但不可否认的是,国内大模型能力貌似并没有超过国外大厂,此外审查力度不能说更宽松, 国内大模型根据一些报告已经达到了200多个,有高校研究所的,也就大厂的. 这些大模型比来比去, 现在看来已经意义不大的,对于它们来说,目前能否找到好的场景和建立良好的社区,才是能实现盈利的第一步,没有大厂背书的模型,等着开源然后期待在社区中焕发第二春吧.

国内商用目前最出名效果也最好的应该是GLM4了,可惜不开源,我目前对于不开源的模型不太感兴趣,一个是目前API价格还没有完全打下来,没有必要支付这些,如果真要付钱为啥不用GPT4呢? 说到付钱,可以考虑OpenRouter,Azure等平台使用GPT4.

image-20240522120523939

所以对于国内大模型来说,我会首选开源,其次免费API的模型.

后者作为开发者来说非常方便,直接调用就是(但是可能限制比较大),不需要自己搞个VPS部署,即使硬件要求不高.

OpenSource

下面介绍几个国内开源大模型,主要用途就是跟ollama搭配进行部署本地,不过我猜测这些模型应该进行过国内特色微调,所以不要过于期待比较diverse的结果.

通义千问

QwenLM/Qwen: The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud. (github.com)

阿里旗下的,目前开源的最大110B,非常不错.

ChatGLM3

清华的THUDM/ChatGLM3: ChatGLM3 series: Open Bilingual Chat LLMs | 开源双语对话语言模型 (github.com),目前有商用的GLM4,但是ollama截止目前貌似没有支持.

零一万物

yi (ollama.com)

开源最大的34B,勉强能用.

DeepSeek-V2

DeepSeek | 深度求索

模型开源/闭源总分中文推理中文语言
gpt-4-1106-preview闭源8.017.738.29
DeepSeek-V2 Chat (RL)开源7.917.458.36
erniebot-4.0-202404 (文心一言)闭源7.897.618.17
DeepSeek-V2 Chat (SFT)开源7.747.308.17
gpt-4-0613闭源7.537.477.59
erniebot-4.0-202312 (文心一言)闭源7.366.847.88
moonshot-v1-32k-202404 (月之暗面)闭源7.226.428.02
Qwen1.5-72B-Chat (通义千问)开源7.196.457.93
DeepSeek-67B-Chat开源6.435.757.11
Yi-34B-Chat (零一万物)开源6.124.867.38
gpt-3.5-turbo-0613闭源6.085.356.71
DeepSeek-V2-Lite 16B Chat开源6.014.717.32

这是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由 236B 个参数组成,其中 21B 个参数用于激活每个标记。与 DeepSeek 67B 相比,DeepSeek-V2 性能更强,同时节省了 42.5% 的训练成本,减少了 93.3% 的 KV 缓存,最大生成吞吐量提高到 5.76 倍。

讯飞星火

讯飞星火开源-13B

在iFlytekSpark-13B中,使用Rotary Embedding作为位置编码方法,GELU作为激活函数,其中layer_num为40,head_num为40,hidden_size为5120,ffn_hidden_size为28672

说真的,上面这些大模型吹来吹去,一般来说参数量一样的情况下真的有差别吗? 使用的时候不必太纠结.

免费API

主要得益于大模型如过街老鼠,哦不对,雨后春笋,实在太多,对于大厂来说又无法完全盈利. 一般主打AI大模型的公司可能并不会开源或者非常低的价格提供API服务,但是一些大厂可能就不一样了.

百度有ERNIE和千帆两款大模型,文心大模型ERNIEKit旗舰版 - ERNIE 3.0介绍 | 百度AI开放平台 (baidu.com)

img

目前ERNIE可以免费了,而阿里的Qwen也降价至0.0005/1K tokens. 对于开发者还是很友好的. 比如你如果害怕疯狂调用、IP频繁改变被OpenAI ban掉,那也可以考虑使用国产的大模型API.

在线服务

如果自己部署缺硬件性能也嫌麻烦,除了Poe之外,国内的大模型很多也都支持在线问答了,比如Kimi,GLM等.

参考资料

  1. Chat with Open Large Language Models (lmsys.org)
  2. 大概是最全的开源大模型LLM盘点了吧! - 知乎 (zhihu.com)
  3. CLiB中文大模型能力评测榜单(持续更新) - 知乎 (zhihu.com)

如有疑问,欢迎各位交流!

服务器配置
宝塔:宝塔服务器面板,一键全能部署及管理
云服务器:阿里云服务器
Vultr服务器
GPU服务器:Vast.ai

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/643326.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Debezium+Kafka:Oracle 11g 数据实时同步至 DolphinDB 解决方案

随着越来越多用户使用 DolphinDB,各式各样的应用场景对 DolphinDB 的数据接入提出了不同的要求。部分用户需要将 Oracle 11g 的数据实时同步到 DolphinDB 中来,以满足在 DolphinDB 中实时使用数据的需求。本篇教程将介绍使用 Debezium 来实时捕获和发布 …

03_前端三大件CSS

文章目录 CSS用于页面元素美化1.CSS引入1.1style方式1.2写入head中,通过写style然后进行标签选择器加载样式1.3外部样式表 2.CSS样式选择器2.1 元素选择器2.2 id选择器2.3 class选择器 3.CSS布局相关3.1 CSS浮动背景:先设计一些盒子因此,引出…

【Go专家编程——内存管理——垃圾回收】

垃圾回收 所谓的垃圾就上不在需要的内存块,垃圾如果不清理,这些内存块就没有办法再次被分配使用。在不支持垃圾回收的编程语言中,这些垃圾内存就上泄露的内存。 1. 垃圾回收算法 常见的垃圾回收算法有3种 引用计数:对每个对象…

Vue学习笔记3——事件处理

事件处理 1、事件处理器(1)内联事件处理器(2)方法事件处理器 2、事件参数3、事件修饰符 1、事件处理器 我们可以使用v-on 指令(简写为)来监听DOM事件,并在事件触发时执行对应的JavaScript。 用法: v-on:click"me…

牛客NC334 字典序第K小【困难 10叉树 Java/Go/PHP/C++】,力扣 440. 字典序的第K小数字

题目 题目链接: https://www.nowcoder.com/practice/670c2bda374241d7ae06ade60de33e8b https://leetcode.cn/problems/k-th-smallest-in-lexicographical-order/description/ 本答案核心 10叉树, 数学规律Java代码 import java.util.*;public class Solution {…

出题123

题目时限空间说明 无特殊均默认 1 s , 256 M B 1s,256MB 1s,256MB Problem a 最大化 在最大化目标值的基础上选择的操作越多越好,且输出操作应当按照顺序执行,即你的输出顺序就是你的执行顺序,当有多个执行顺序可以最大化目标值时&#xff0…

49 序列化和反序列化

本章重点 理解应用层的作用,初识http协议 理解传输层的作用,深入理解tcp的各项特性和机制 对整个tcp/ip协议有系统的理解 对tcp/ip协议体系下的其他重要协议和技术有一定的了解 学会使用一些网络问题的工具和方法 目录 1.应用层 2.协议概念 3. 网络计…

网络爬虫原理及其应用

你是否想知道Google 和 Bing 等搜索引擎如何收集搜索结果中显示的所有数据。这是因为搜索引擎对其档案中的所有页面建立索引,以便它们可以根据查询返回最相关的结果。网络爬虫使搜索引擎能够处理这个过程。 本文重点介绍了网络爬虫的重要方面、网络爬虫为何重要、其…

Docker学习(3):镜像使用

当运行容器时,使用的镜像如果在本地中不存在,docker 就会自动从 docker 镜像仓库中下载,默认是从 Docker Hub 公共镜像源下载。 一、列出镜像列表 可以使用 docker images 来列出本地主机上的镜像。 各个选项说明: REPOSITORY&am…

vue源码2

vue之mustache库的机理其实是将模板字符串转化为tokens 然后再将 tokens 转化为 dom字符串&#xff0c;如下图 对于一般的将模板字符串转化为dom字符串&#xff0c;这样不能实现复杂的功能 let data {name:小王,age:18 } let templateStr <h1>我叫{{name}},我今年{{ag…

MySQl创建数据库与管理表

创建数据库与管理表 基础知识 完整的数据存储过程 同时&#xff0c;数据库系统层次 数据库服务器 -》 数据库 -》 数据表 -》 行与列 数据库命名规则&#xff1a; 库名、表名不得超过30字符&#xff1b;变量名&#xff08;字段&#xff09;不超过29字符 只能包含A-Z、a-z、…

hive3从入门到精通(二)

第15章:Hive SQL Join连接操作 15-1.Hive Join语法规则 join分类 在Hive中&#xff0c;当下版本3.1.2总共支持6种join语法。分别是&#xff1a; inner join&#xff08;内连接&#xff09;left join&#xff08;左连接&#xff09;right join&#xff08;右连接&#xff09;…

AIGC001-latent-diffusion(SD)第一次让文生图如此生动有趣!

AIGC001-latent-diffusion(SD)第一次让文生图如此生动有趣&#xff01; 文章目录 0 论文工作1 论文方法2 效果 0 论文工作 通过将图像形成过程分解为去噪自编码器的连续应用&#xff0c;扩散模型&#xff08;DMs&#xff09;实现了对图像数据等方面的最先进的综合结果。这些方…

MySQL---通用语法及分类

目录 一、SQL通用语法 二、 SQL分类 1.DDL 1.1 DDL数据库操作 1.2 DDL表操作---查询 1.3 DDL表操作---创建​编辑 1.4 DDL表操作---数据类型 1.5 DDL表操作---修改 1.6 DDL表操作---删除 1.7 DDL总结 2. 图形化界面工具DataGrip 2.1 创建 2.2 使用 3. DML 3.1 DML介绍 3.2 DM…

C语言.数据结构.顺序表

1.顺序表的概念及结构 1.1线性表 线性表&#xff08;linear list&#xff09;是n个具有相同特性的数据元素的有限序列。 线性表是一种在实际中广泛使用的数据结构&#xff0c;常见的线性表&#xff1a;顺序表、链表、栈、队列、字符串… 线性表在逻辑上是线性结构&#xff0c;…

Golang net/http标准库常用方法(三)

大家好&#xff0c;针对Go语言 net/http 标准库&#xff0c;将梳理的相关知识点分享给大家~~ 围绕 net/http 标准库相关知识点还有许多章节&#xff0c;请大家多多关注。 文章中代码案例只有关键片段&#xff0c;完整代码请查看github仓库&#xff1a;https://github.com/hltfa…

面试八股之JVM篇3.6——垃圾回收——强引用、弱引用、虚引用、软引用

&#x1f308;hello&#xff0c;你好鸭&#xff0c;我是Ethan&#xff0c;一名不断学习的码农&#xff0c;很高兴你能来阅读。 ✔️目前博客主要更新Java系列、项目案例、计算机必学四件套等。 &#x1f3c3;人生之义&#xff0c;在于追求&#xff0c;不在成败&#xff0c;勤通…

LVS精益价值管理系统 LVS.Web.ashx SQL注入漏洞复现

0x01 产品简介 LVS精益价值管理系统是杭州吉拉科技有限公司研发的一款专注于企业精益化管理和价值流优化的解决方案。该系统通过集成先进的数据分析工具、可视化的价值流映射技术和灵活的流程改善机制,帮助企业实现高效、低耗、高质量的生产和服务。 0x02 漏洞概述 LVS精益…

全国数据库管理系统设计赛-人大金仓内核实训安排正式发布

作为数据库领域国家队&#xff0c;人大金仓积极响应国家战略&#xff0c;通过赛题设计、内核技术支撑及赛前培训等多方面&#xff0c;大力支持全国大学生计算机系统能力大赛-数据库管理系统设计大赛成功举办。目前第二届全国大赛正在火热报名中&#xff0c;各种奖项等你来拿&am…

RabbitMQ 发布订阅

RabbitMQ 发布订阅视频学习地址&#xff1a; 简单模式下RabbitMQ 发布者发布消息 消费者消费消息 Publist/Subscribe 发布订阅 在 RabbitMQ 中&#xff0c;发布订阅模式是一种消息传递方式&#xff0c;其中发送者&#xff08;发布者&#xff09;不会将消息直接发送到特 定的…