国产大模型基础能力大比拼 - 计数:通义千文 vs 文心一言 vs 智谱 vs 讯飞-正经应用场景的 LLM 逻辑测试

在大语言模型(LLM)不断涌现的时代,如何评估这些国产大模型的逻辑推理能力,尤其是在处理基础计数问题上的表现,成为了一个备受关注的话题。随着越来越多的国产大模型进入市场,比较它们在不同任务中的表现尤为重要。本文聚焦于计数这一基础能力,对通义千文、文心一言、智谱以及讯飞的多个版本进行了对比测试,探索它们在处理简单逻辑题时的表现,并特别考察了推理链(Chain-of-Thought,COT)方法的必要性,以揭示这些模型在实际应用场景中的逻辑推理深度。

主要是非娱乐的业务场景,对于准确性、基础逻辑能力和理解能力要求较高,如果一个模型通过提示也无法变得更好,就很难在生产环境使用了

计数测试场景:“一一遇见给一个小孩子一个冰淇淋和一个糖果”

在测试中,我们使用了一道简单的计数题:“一一遇见给一个小孩子一个冰淇淋和一个糖果”,要求模型回答这句话中一共有几个“一”。正确答案是 5,其中包含了“一一遇见”、“一个小孩子”、“一个冰淇淋”以及“一个糖果”。这种类型的题目虽然简单,但对于大语言模型来说,能否正确回答却反映了模型对文本细节的理解能力。

第一轮测试结果

  • GPTo1-mini:5(正确)
    GPTo1-mini
    GPTo1-mini 成功给出了正确答案“5”。这说明它在处理基础计数任务时表现非常稳定,展示了较强的文本细节理解能力。

  • GPT4o:4(错误)
    GPT4o
    GPT4o 在这次测试中错误地给出了答案“4”。这表明它在处理重复性计数的细节时可能存在一些不足。

  • 通义千文2.5:3(错误)
    通义千文2.5
    通义千文2.5 给出了错误答案“3”,并详细解释了其原因,显然对于“一一”的解释存在偏差。这也反映出它在识别特定表达时缺乏对上下文的全面理解。

  • 文心一言3.5:5(正确)
    文心一言3.5
    文心一言3.5 成功给出了正确的答案,展示了它在基础计数和对“一”的理解方面的优异表现。

  • 智谱GLM-4-plus:3(错误)
    智谱GLM-4-plus
    智谱GLM-4-plus 在这一轮中错误地给出了答案“3”。这表明它在处理计数时对相似的重复元素的识别存在一定的挑战。

  • 讯飞4.0Ultra:5(正确)
    讯飞4.0Ultra
    讯飞4.0Ultra 准确地回答了“5”,这说明它具备良好的文本理解和计数能力,能够正确分析和识别句中的重复元素。

  • 讯飞4.0-Lite:2(错误)
    讯飞4.0-Lite
    讯飞4.0-Lite 显然未能正确理解题意,只给出了答案“2”,这表明其在处理细节分析方面存在明显的不足。

败者组再战:COT 提示的效果

为了进一步考察这些模型的推理能力,我们对未能通过第一轮测试的模型进行了提示调整,引导它们使用链式推理(COT)的方法,即“请仔细思考”。这一提示的目的在于测试模型在获得引导和提示后的表现是否有所改善,从而验证 COT 的有效性。

  • GPT4o:5(正确)
    GPT4o-COT
    经过提示引导,GPT4o 成功得出了正确答案“5”。这表明链式推理的提示能够帮助 GPT4o 更好地理解和分析文本细节。

  • 讯飞4.0-Lite:2(错误)
    讯飞4.0-Lite-COT
    尽管提示了仔细思考,讯飞4.0-Lite 依然没有改变其错误答案。这说明即使有 COT 提示,该模型在处理类似计数任务时仍然存在不足,可能与其整体推理能力的局限性有关。

  • 智谱GLM-4:5(正确)
    智谱GLM-4-COT
    在 COT 提示下,智谱GLM-4 成功得出了正确答案,这说明链式推理提示能够帮助其更好地逐步分析文本,从而提高正确率。

  • 通义千文2.5:5(正确)
    通义千文2.5-COT
    通义千文2.5 在链式推理提示下也得出了正确答案“5”,进一步表明该模型在获得适当提示时,其逻辑推理能力得到了有效激发。

总结:COT 能力的重要性

在这次测试中,GPTo1-mini、文心一言3.5、讯飞4.0Ultra 成功通过了第一轮测试,而 GPT4o、智谱GLM-4、通义千文2.5 则在经过 COT 提示后取得了正确答案。这说明大多数大模型在面临逻辑推理和计数任务时,借助 COT 提示能够显著提高其正确率。链式推理提示可以让模型逐步分析问题,从而减少犯错的概率。

唯一的失败者是 讯飞4.0-Lite,即使在提示下也未能改善其答案,这反映了其在推理链方面的不足。这表明该模型在面对需要复杂推理的任务时,仍有待提高,这可能需要进一步的算法优化和训练改进。

其实大模型还有不少,比如扣子等,但效果不是很理想

补充:免费模型

目前文心、讯飞、智谱都有免费版本,正如这次的测试结果一样,免费版本下的glm比较靠谱,相对来说文心和讯飞的免费版本性能就一般,除非娱乐或简单场景,难以应用。

待改善部分

  • 更多的大模型 - 因为某些原因,有些大模型无法体验或使用,尤其是比较想用到的盘古大模型
  • 更好的比对方式 - 如果国产大模型有类似竞技场的就好了,但国外的那个因为网络和接入原因并不能够很好的测试国产商用大模型
  • 更多的测试项目 - 本文只是给新人提一个思路,具体的可以扩散性思维发挥

最后强调一下,这个测试并不是很严谨,仅仅是一次简单的测试,不构成任何的商业建议,如果使用免费版本,glm挺不错,开源的模型llama3.2:3b在提示一步步计算时就可以胜任了,还是希望过程大模型越来越好吧

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/897196.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

群晖通过 Docker 安装 Gitea

1. 准备工作 1.1 安装 docker 套件 2.2 安装MySQL(可选) 群晖通过 Docker 安装 MySQL-CSDN博客 如果安装了MySQL,可以创建gitea用户和gitea_db数据库,并且赋予权限 #创建数据库 CREATE DATABASE gitea_db; #确认数据库已创建…

【Jenkins】2024 最新版本的 Jenkins 权限修改为 root 用户启动,解决 permission-denied 报错问题

最新版本的 Jenkins 修改 /etc/sysconfig/jenkins 中的 JENKINS_USERroot不会再生效,需要按照以下配置进行操作: vim /usr/lib/systemd/system/jenkins.service然后重启就可以了 systemctl daemon-reload # 重新加载 systemd 的配置文件 systemctl res…

JavaEE 多线程第三节 (lambda方法实现多线程/Thread属性和方法/前台线程后台线程)

欢迎阅读前序课程JavaEE 多线程第二节 (多线程的简单实现Thread/Runable)-CSDN博客 1. lambda方法实现多线程 public class Test {public static void main(String[] args) throws InterruptedException {Thread t new Thread(()->{while (true){System.out.println("…

探索云边缘与边缘云:技术革新与应用前景

#1024程序员节|征文# 在当今数字化快速发展的时代,云计算已经成为了企业和个人处理和存储数据的重要手段。然而,随着物联网(IoT)设备的爆炸式增长以及对低延迟、高带宽和实时处理的需求不断增加,云边缘和边…

简单介绍市面上的四款录屏软件!!!!

数字化时代,无论是工作还是生活中,录屏已经成为一个不可或缺的工具。然而,选择一款适合自己需求的录屏软件却并不容易。今日来为大家推荐四款超好用的录屏软件,分析这些软件的优缺点,让你在各种场景下都能轻松捕捉精彩…

vue3 解决背景图与窗口留有间隙的问题

需要实现一个登录界面&#xff0c;login.vue的代码如下&#xff1a; <script> import { ref } from vue;export default {setup() {return {};}, }; </script><template><div id"login-container" class"login-container"><di…

Tcp协议讲解与守护进程

TCP协议&#xff1a;面向链接&#xff0c;面向字节流&#xff0c;可靠通信 创建tcp_server 1.创建套接字 域&#xff1a;依旧选择AF_INET 连接方式&#xff1a; 选择SOCK_STREAM 可靠的 2.bind 3.监听装置 client要通信&#xff0c;要先建立连接&#xff0…

Allegro怎么批量将弧形线改成45度角的线?

Allegro如何将弧形线改成45度角的线? 在用Allegro进行PCB设计时,有时候需要将弧形线改为45度角的线。 具体操作方法如下: 1、选择菜单栏Route 选择Unsupported Prototypes(不支持的原型)→AICC 2、在Options选项卡选择45度 3、在Find选项卡选择Nets,选择网络可以批量转换…

浮动练习(3)

##每台电脑分辨率不同&#xff0c;数值高度宽度需要自己调&#xff0c;仅供参考 <!DOCTYPE html> <html> <head> <meta charset"UTF-8"> <title></title> <style> div{ …

JMeter详细介绍和相关概念

JMeter是一款开源的、强大的、用于进行性能测试和功能测试的Java应用程序。 本篇承接上一篇 JMeter快速入门示例 &#xff0c; 对该篇中出现的相关概念进行详细介绍。 JMeter测试计划 测试计划名称和注释&#xff1a;整个测试脚本保存的名称&#xff0c;以及对该测试计划的注…

《使用Gin框架构建分布式应用》阅读笔记:p108-p126

《用Gin框架构建分布式应用》学习第8天&#xff0c;p108-p126总结&#xff0c;总计18页。 一、技术总结 1.Redis eviction policy (1)什么是 eviction policy? The eviction policy determines what happens when a database reaches its memory limit. (2)配置示例 在r…

Dockerfile样例

一、基础jar镜像制作 ## Dockerfile FROM registry.openanolis.cn/openanolis/anolisos:8.9 RUN mkdir /work ADD jdk17.tar.gz fonts.tar.gz /work/ RUN yum install fontconfig ttmkfdir -y && yum clean all && \chmod -R 755 /work/fonts ADD fonts.conf …

docker配置mysql8报错 ERROR 2002 (HY000)

通过docker启动的mysql&#xff0c;发现navicat无法连接&#xff0c;后来进入容器内部也是无法连接&#xff0c;产生以下错误 root9f3b90339a14:/var/run/mysqld# mysql -u root -p Enter password: ERROR 2002 (HY000): Cant connect to local MySQL server through socket …

二叉树中的最长交错路径

题目链接 二叉树中的最长交错路径 题目描述 注意点 每棵树最多有 50000 个节点每个节点的值在 [1, 100] 之间起点无需是根节点 解答思路 要找到最长交错路径&#xff0c;首先想到的是深度优先遍历因为起点无需是根节点&#xff0c;所以对于任意一个节点&#xff0c;其可以…

4个在线音频剪辑工具,让你的声音更加动听。

最近我开始接触音乐剪辑&#xff0c;想把一些歌曲进行剪辑创作&#xff1b;于是在网上好多了很多的音频剪辑软件进行试用&#xff0c;一番下来&#xff0c;发现了4款使用起来体验感比较好的专业剪辑工具&#xff0c;在这里跟大家分享分享。这些工具都可以被应用于歌曲创作&…

Linux系统基础-进程间通信(3)_模拟实现匿名管道

个人主页&#xff1a;C忠实粉丝 欢迎 点赞&#x1f44d; 收藏✨ 留言✉ 加关注&#x1f493;本文由 C忠实粉丝 原创 Linux系统基础-进程间通信(3)_模拟实现匿名和命名管道 收录于专栏[Linux学习] 本专栏旨在分享学习Linux的一点学习笔记&#xff0c;欢迎大家在评论区交流讨论&a…

【优先算法】--双指针1

“一念既出&#xff0c;万山无阻。”加油陌生人&#xff01; 目录 1.双指针--移动零 2.双指针-复写零 ok&#xff0c;首先在学习之前&#xff0c;为了方便大家后面的学习&#xff0c;我们这里需要补充一个知识点&#xff0c;我这里所谓的指针&#xff0c;不是之前学习的带有…

dolphinscheduler创建工作流及工作流中DataX的使用(简单操作)

一、在项目管理中创建项目&#xff1a;点击创建项目 用哪个用户登录的&#xff0c;所属用户就是哪个&#xff0c;直接输入项目名即可 二、点击项目&#xff0c;在项目中创建工作流&#xff0c;用DataX同步数据 按照图片的步骤依次填写完成&#xff0c;注意 图片中的第九步是写…

2024年双十一腾讯阿里云香港服务器优惠活动汇总

2024年双11狂欢节终于来了&#xff0c;按照往年的惯例&#xff0c;各大云服务器厂商通常会在10月20号左右开始上线新的活动&#xff0c;今年双11期间国内各大云服务器厂商都有哪些活动呢&#xff1f;有哪些活动包括香港云服务器呢&#xff1f;是否有海外服务器的优惠折扣呢&…

HelpLook联合MarketUP发布《2024企业内容营销实战》白皮书!(内附下载链接)

B2B内容营销为什么值得反复讲&#xff1f; 这是一个技术创新、客户聚焦、回归内容的B2B时代&#xff0c;B2B市场源源不断地诞生新故事&#xff0c;从短视频到AIGC&#xff0c;从新产品到新技术&#xff0c;内容始终是所有B2B活动的核心&#xff0c;需要更新更深的内容营销塑造…