OpenCompass:大模型测评工具

大模型相关目录

大模型,包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容
从0起步,扬帆起航。

  1. 大模型应用向开发路径:AI代理工作流
  2. 大模型应用开发实用开源项目汇总
  3. 大模型问答项目问答性能评估方法
  4. 大模型数据侧总结
  5. 大模型token等基本概念及参数和内存的关系
  6. 大模型应用开发-华为大模型生态规划
  7. 从零开始的LLaMA-Factory的指令增量微调
  8. 基于实体抽取-SMC-语义向量的大模型能力评估通用算法(附代码)
  9. 基于Langchain-chatchat的向量库构建及检索(附代码)
  10. 一文教你成为合格的Prompt工程师
  11. 最简明的大模型agent教程
  12. 批量使用API调用langchain-chatchat知识库能力
  13. langchin-chatchat部分开发笔记(持续更新)
  14. 文心一言、讯飞星火、GPT、通义千问等线上API调用示例
  15. 大模型RAG性能提升路径
  16. langchain的基本使用
  17. 结合基础模型的大模型多源信息应用开发
  18. COT:大模型的强化利器
  19. 多角色大模型问答性能提升策略(附代码)
  20. 大模型接入外部在线信息提升应用性能
  21. 从零开始的Dify大模型应用开发指南
  22. 基于dify开发的多模态大模型应用(附代码)
  23. 基于零一万物多模态大模型通过外接数据方案优化图像文字抽取系统
  24. 快速接入stable diffusion的文生图能力
  25. 多模态大模型通过外接数据方案实现电力智能巡检(设计方案)
  26. 大模型prompt实例:知识库信息质量校验模块
  27. 基于Dify的LLM-RAG多轮对话需求解决方案(附代码)
  28. Dify大模型开发技巧:约束大模型回答范围
  29. 以API形式调用Dify项目应用(附代码)
  30. 基于Dify的QA数据集构建(附代码)
  31. Qwen-2-7B和GLM-4-9B:大模型届的比亚迪秦L
  32. 文擎毕昇和Dify:大模型开发平台模式对比
  33. Qwen-VL图文多模态大模型微调指南
  34. 从零开始的Ollama指南:部署私域大模型
  35. 基于Dify的智能分类方案:大模型结合KNN算法(附代码)
  36. OpenCompass:大模型测评工具

文章目录

  • 大模型相关目录
  • 简介
  • 下载安装
  • 使用
  • 测评结果


简介

OpenCompass,也称为“司南”,是由上海人工智能实验室发布的一个开源的大模型评测体系,已经成为目前权威的大型模型评估平台。作为一站式的大模型评估平台,它不仅量化了模型在知识、语言、理解、推理等方面的能力,还推动了模型的迭代和优化。其主要特点包括:
在这里插入图片描述

对模型和数据集支持丰富:支持20+HuggingFace和API模型,70+数据集的模型评估方案,约40万个问题,从五个维度全面评估模型的能力
分布式高效评测:提供了分布式评测方案,支持了本机或集群上的计算任务并行分发,实现评测并行式的提速
评估范式多样化:支持Zero-Shot、Few-Shot、思维链,内置多种Prompt模板,最大程度激发大模型潜能
模块化设计和可拓展性强:支持对用户自定义的的新模型或者数据集进行测评,各模块可高效复用和拓展
实验管理和报告机制:有完备的实验管理和报告结果跟踪,并且有多种可视化方案,输出到终端、文件、飞书
引用:https://www.jianshu.com/p/bdc151e458f6

下载安装

1.创建conda虚拟环境
2.拉取OpenCompass项目源码
3.安装项目目录下所需的依赖

conda create --name opencompass python=3.10 pytorch torchvision pytorch-cuda -c nvidia -c pytorch -y
conda activate opencompass
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -r ./requirements/runtime.txt
pip install -e .

使用

下载评测数据集

wget https://github.com/open-compass/opencompass/releases/download/0.1.8.rc1/OpenCompassData-core-20231110.zip
unzip OpenCompassData-core-20231110.zip

输入模型路径和评测集路径即可开始评测

python run.py \
--datasets ceval_gen \
--hf-path /home/model/chatglm2-6b \
--tokenizer-path /home/model/chatglm2-6b \
--model-kwargs device_map='auto' trust_remote_code=True \
--tokenizer-kwargs padding_side='left' truncation='left' use_fast=False trust_remote_code=True \
--max-out-len 100 \
--max-seq-len 2048 \
--batch-size 8 \
--no-batch-padding \
--num-gpus 1

测评结果

OpenCompass会将评测信息写入本地文件,默认在项目的outputs/default下,进入对应的评测版本号,一共有5个文件夹

drwxr-xr-x 2 root root 4096 2月 20 14:37 configs
drwxr-xr-x 4 root root 4096 2月 20 14:45 logs
drwxr-xr-x 3 root root 4096 2月 20 14:38 predictions
drwxr-xr-x 3 root root 4096 2月 20 14:45 results
drwxr-xr-x 2 root root 4096 2月 20 14:48 summary

configs:记录了每个科目的数据配置信息,包括Prompt模板,标签名称等
logs:程序运行日志,又包括eval日志和infer日志,其中eval日志记录了每个科目的正确率和运行耗时,infer日志记录了推理日志,包括运行进度,报错信息等
predictions:记录每个科目的模型回答结果,其中包含了模型的最终输入和输出,通过该文件可以追溯每一条问题的回答结果。以一条信息为例
results:记录了每个科目的正确率结果
summary:记录了最终评测结果,以csv表格的形式呈现,结果如下
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/738936.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

FW Activity跳转动画源码解析(一)

文章目录 跳转动画实际操作的是什么?窗口怎么知道应该执行什么动画,是透明,还是平移,还是缩放,旋转? 跳转动画实际操作的是什么? startActivity调用之后进行页面跳转,会有一系列的涉及到ActivitStar,ActivityTask,ActivityManager等类的操作,最终在执行动画会调用到Surface…

数字化营销与传统营销的完美协奏曲!

在这个数字化的时代,营销的世界正在发生着巨大的变革!数字化营销如火箭般崛起,但传统营销也并未过时。那么,如何让它们携手共进,创造出无与伦比的营销效果呢?今天,就让我们讲述一下蚓链数字化营…

已经被驳回的商标名称还可以申请不!

看到有网友在问,已经驳回的商标名称还可以申请不,普推商标知产老杨觉得要分析看情况,可以适当分析下看可不可以能申请,当然最终还是为了下证 ,下证概率低的不建议申请。 先看驳回理由,如果商标驳回是绝对理…

【U8+】修改客户端自动清退时间

【需求描述】 用友U8软件中, 客户端自动清退时间目前最少只能设置为20分钟无操作自动清退, 不能再比20分钟少,例如10分钟无操作自动清退。 【解决方法】 打开注册表,找到下述路径, 【计算机\HKEY_LOCAL_MACHINE\SOFT…

漂亮!身体恢复正常水准!一个家庭幸不幸福,看能量流动的方向——早读(逆天打工人爬取热门微信文章解读)

美洲杯这个时间也太绝了,早上9点比赛,乌拉圭VS巴拿马 引言Python 代码第一篇 洞见 一个家庭幸不幸福,看能量流动的方向第二篇结尾 引言 今天起床 有种神奇的感觉 就是精神很不错 明明昨天晚上还是12点多才睡觉 早上6点20有意识 在头脑里面演…

【SpringMVC】第8-14章

第8章 文件上传与下载 8.1 文件上传 使用SpringMVC6版本&#xff0c;不需要添加以下依赖&#xff0c;Spring5以及之前版本需要&#xff1a; <dependency><groupId>commons-fileupload</groupId><artifactId>commons-fileupload</artifactId>&…

成都城市低空载人交通完成首航,沃飞助力航线运行实践!

6月20日&#xff0c;成都市低空交通管理服务平台开启首次实战检验&#xff0c;并进行了城市低空载人出行验证飞行。沃飞长空作为成都本地低空出行企业代表和执飞单位&#xff0c;与政府各部门通力合作&#xff0c;圆满完成了此次飞行任务。 上午9:30&#xff0c;随着塔台发出指…

确保群发短信发送成功的有效方法

群发短信是众多商家和企业宣传和推广的常用手段。然而&#xff0c;市场上短信群发服务参差不齐&#xff0c;存在“不实发”或“扣量”的情况&#xff0c;这让客户对短信的到达率产生了担忧。那么&#xff0c;我们该如何确保群发的短信已经成功发送呢&#xff1f; 首先&#xff…

十大排序算法之->计数排序

一、计数排序简介 计数排序是一种非比较排序算法&#xff0c;适用于整数数组&#xff0c;时间复杂度为O(nk)&#xff0c;其中n为待排序数组的长度&#xff0c;k为待排序数组中最大值与最小值之差。 计算排序的原理是通过计算每个元素的出现次数或位置&#xff0c;而不是通过比…

上榜 Gartner丨中国领先数据基础设施代表厂商 DolphinDB

近日&#xff0c;Gartner 发布了 Innovation Insight: Data Infrastructure Evolves as the Foundation of D&A Ecosystem in China 这一深度研究报告&#xff0c;分析了当前企业使用数据基础设施的现状以及未来发展趋势。DolphinDB 凭借协同生态建设、云边一体架构和 AI 应…

C++的智能指针 RAII

目录 产生原因 RAII思想 C11的智能指针 智能指针的拷贝与赋值 shared_ptr的拷贝构造 shared_ptr的赋值重置 shared_ptr的其它成员函数 weak_ptr 定制删除器 简单实现 产生原因 产生原因&#xff1a;抛异常等原因导致的内存泄漏 int div() {int a, b;cin >> a…

@ControllerAdvice:你可以没用过,但是不能不了解

1.概述 最近在梳理Spring MVC相关扩展点时发现了ControllerAdvice这个注解&#xff0c;用于定义全局的异常处理、数据绑定、数据预处理等功能。通过使用 ControllerAdvice&#xff0c;可以将一些与控制器相关的通用逻辑提取到单独的类中进行集中管理&#xff0c;从而减少代码重…

前端开发接单公司做到哪些点,客户才愿意把项目包给你。

作为前端外包接单公司&#xff0c;你知道客户选择和你合作都看中哪些因素吗&#xff1f;单纯是价格吗&#xff1f;未必&#xff0c;本位给大家列举7个要素&#xff0c;并对每个要素做了定位&#xff0c;大家查缺补漏吧。 作为前端外包接单公司&#xff0c;要吸引同行客户将前端…

优秀的“抗霾”神器:气膜体育馆—轻空间

随着空气污染问题日益严重&#xff0c;尤其是雾霾天气频发&#xff0c;体育运动的场地环境质量受到越来越多的关注。气膜体育馆作为一种新型的体育场馆解决方案&#xff0c;以其独特的设计和多重优势&#xff0c;成为了优秀的“抗霾”神器。轻空间将深入探讨气膜体育馆的特点和…

pycharm不能安装包的解决方法

一直使用VScode写python&#xff0c;最近使用pycharm&#xff0c;但是pycharm不能安装包&#xff0c;类似这种 后面直接使用ALT F12跳转终端&#xff1a; pip install 需要添加的包 -i https://pypi.tuna.tsinghua.edu.cn/simple不报错了

Gitee 的公钥删不掉

公钥管理里已经没有公钥了&#xff0c; 仓库里还有&#xff0c;这是怎么回事&#xff1f; 这两个好像又没什么关系。 那为啥要搞两处呢&#xff1f; 个人信息里的公钥一直就没有仓库里使用的公钥&#xff0c; 删掉个人信息里的也没什么影响。 在仓库管理页面导入新公钥提示已…

【shell脚本速成】mysql备份脚本

文章目录 案例需求脚本应用场景&#xff1a;解决问题脚本思路实现代码 &#x1f308;你好呀&#xff01;我是 山顶风景独好 &#x1f388;欢迎踏入我的博客世界&#xff0c;能与您在此邂逅&#xff0c;真是缘分使然&#xff01;&#x1f60a; &#x1f338;愿您在此停留的每一刻…

大数据集群数据传输

简单的服务器间的通信示例 netcat&#xff0c;简写为 nc&#xff0c;是 unix 系统下一个强大的命令行网络通信工具&#xff0c;用于在两台主机之间建立 TCP 或者 UDP 连接&#xff0c;并提供丰富的命令进行数据通信。nc 在网络参考模型属于应用层。使用 nc 可以做很多事情&…

探索Elastic Search:强大的开源搜索引擎,详解及使用

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 引入 全文搜索属于最常见的需求&#xff0c;开源的 Elasticsearch &#xff08;以下简称 Elastic&#xff09;是目前全文搜索引…

如何使用手机号查快递?2个方法,包裹信息全掌握

无论是网购、亲友间寄送礼物还是工作中的文件传递&#xff0c;快递都扮演着至关重要的角色。然而&#xff0c;有时候我们可能会忘记自己的快递单号&#xff0c;或者在收到快递时没有留意保存相关信息。 这时候&#xff0c;如果能通过手机号查询快递&#xff0c;无疑会大大方便…