OpenCompass大模型评估

OpenCompass大模型评估

article2025/2/21 15:41:15/文章来源:https://blog.csdn.net/qq_19859865/article/details/138669965

作业链接： Tutorial/opencompass/homework.md at camp2 · InternLM/Tutorial · GitHub

项目链接： GitHub - open-compass/opencompass: OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.

模型评估实战

* 环境配置

studio-conda -o internlm-base -t opencompass
source activate opencompass

安装opencompass

git clone -b 0.2.4 https://github.com/open-compass/opencompass
cd opencompass
pip install -e .

准备数据

cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/
unzip OpenCompassData-core-20231110.zip

启动评测

```
python run.py --datasets ceval_gen --hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 1024 --max-out-len 16 --batch-size 2 --num-gpus 1 --debug
```

过程截图如下

评测结果显示如下

可以看到 summary 和csv被分别写入。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/612031.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

Docker快速搭建NAS服务——FileBrowser

Docker快速搭建NAS服务——FileBrowser

Docker快速搭建NAS服务——FileBrowser 文章目录前言FileBrowser的搭建docker-compose文件编写运行及访问总结前言本文主要讲解如何使用docker在本地快速搭建NAS服务，这里主要写如下两种： FileBrowser1：是一个开源的Web文件管理器&…

阅读更多...

【吊打面试官系列】Java高并发篇 - 为什么 wait(), notify()和 notifyAll ()必须在同步方法或者同步块中被调用？

【吊打面试官系列】Java高并发篇 - 为什么 wait(), notify()和 notifyAll ()必须在同步方法或者同步块中被调用？

大家好，我是锋哥。今天分享关于【为什么 wait(), notify()和 notifyAll ()必须在同步方法或者同步块中被调用？】面试题，希望对大家有帮助； 为什么 wait(), notify()和 notifyAll ()必须在同步方法或者同步块中被调用？…

阅读更多...

这3种深拷贝实现，你都知道吗？

这3种深拷贝实现，你都知道吗？

目录： 1、JSON.parse 2、structuredClone 3、cloneDeep

阅读更多...

【竞技宝jjb.lol】MSI：换线战术或将成为BLG命门

【竞技宝jjb.lol】MSI：换线战术或将成为BLG命门

北京时间2024年5月10日,英雄联盟2024MSI季中赛继续进行,昨日迎来胜败分组赛首轮BLG对阵PSG。本以为这场比赛没有任何悬念,BLG将会非常轻松地击败PSG,没想到最终PSG两度扳平比分,BLG决胜局抗住压力才艰难取胜。虽然赢下了比赛,但BLG低迷的状态还是在比赛结束后遭到网友们的热议。…

阅读更多...

超全MySQL锁机制介绍

超全MySQL锁机制介绍

前言 MySQL作为关系型数据库管理系统中的佼佼者，为了保证数据的一致性和完整性，在并发控制方面采用了锁机制。锁机制是数据库管理系统用于控制对共享资源的访问，避免多个事务同时修改同一数据造成的数据不一致问题。了解MySQL的锁机制对于数…

阅读更多...

【组合博弈】介绍

【组合博弈】介绍

本文为学习笔记，详细内容参考"Lessons in Play,Michael H. Albert Richard J. Nowakowski David Wolfe" 文章目录组合博弈介绍(Combinatorial Games)DOMINEERING游戏组合游戏选手介绍Options博弈树（game tree） 组合博弈介绍(Combi…

阅读更多...

*****水上飞机:继承,虚函数,虚继承

*****水上飞机:继承,虚函数,虚继承

一题目请设计以下航行器、飞机、船、水上飞机等 4 个类。 CRAFT 为航行器类，是公共基类，提供航行器的基本特性。包括： 一个保护数据成员：speed(速度)。三个公有成员函数：构造函数(初始化速度)、析构函数和 Show 函数…

阅读更多...

ASP.NET学生成绩管理系统

ASP.NET学生成绩管理系统

摘要本系统依据开发要求主要应用于教育系统，完成对日常的教育工作中学生成绩档案的数字化管理。开发本系统可使学院教职员工减轻工作压力，比较系统地对教务、教学上的各项服务和信息进行管理，同时，可以减少劳动力的使用&#xf…

阅读更多...

操作系统实战（三）（linux+C语言实现）

操作系统实战（三）（linux+C语言实现）

实验目的加深对进程调度概念的理解，体验进程调度机制的功能，了解Linux系统中进程调度策略的使用方法。练习进程调度算法的编程和调试技术。实验说明 1.在linux系统中调度策略分为3种 SCHED_OTHER：默认的分时调度策略，值为0…

阅读更多...

通俗的理解网关的概念的用途（四）：什么是网关设备？（网络层面）

通俗的理解网关的概念的用途（四）：什么是网关设备？（网络层面）

任何一台Windows XP操作系统之后的个人电脑、Linux操作系统电脑都可以简单的设置，就可以成为一台具备“网关”性质的设备，因为它们都直接内置了其中的实现程序。MacOS有没有就不知道，因为没用过。简单的理解，就是运行了具备第二…

阅读更多...

使用nmcli命令在Linux系统上配置各种网络（有线、无线、vlan、vxlan、路由、网桥等）

使用nmcli命令在Linux系统上配置各种网络（有线、无线、vlan、vxlan、路由、网桥等）

前言：原文在我的博客网站中，持续更新数通、系统方面的知识，欢迎来访！ 使用nmcli命令在Linux系统上配置各种网络（有线、无线、vlan、vxlan、路由、网桥等）https://myweb.myskillstree.cn/123.html 你是否会…

阅读更多...

使用GitLab自带的CI/CD功能在远程服务器部署项目（三）

使用GitLab自带的CI/CD功能在远程服务器部署项目（三）

前置内容： 通过Docker Compose部署GitLab和GitLab Runner（一） 使用GitLab自带的CI/CD功能在本地部署项目（二） 目录一、在GitLab服务器上生成私钥与公钥二、将公钥拷贝到应用服务器上三、将私钥给到Docker Exec…

阅读更多...

Windows系统下通过nginx配置多项目

Windows系统下通过nginx配置多项目

文章目录前言大概思路实际操作记录：查看nginx 错误日志问下AI注意点： 当访问域名根路径时，重定向到/pc总结前言在windows电脑启动一个nginx 测试配置多前端项目，一个pc端（vue3tsvite ，history路由&…

阅读更多...

【SAP ME 36】NetWearver数据源重定向（Oracle）

【SAP ME 36】NetWearver数据源重定向（Oracle）

禁止废话，直接上图！！！

阅读更多...

Vue3专栏项目 -- 二、自定义From组件（下）

Vue3专栏项目 -- 二、自定义From组件（下）

需求分析： 现在我们还需要一个整体的表单在单击某个按钮的时候可以循环的验证每个input的值，最后我们还需要有一个事件可以得到最后验证的结果，从而进行下一步的操作如下，我们应该有一个form表单包裹着全部的input表单&#xf…

阅读更多...

【C语言】整数和浮点数在内存中的存储

【C语言】整数和浮点数在内存中的存储

大家可能在学习的时候会经常疑惑数据在内存中是怎样存储的，今天用一篇博客给你讲清楚！！！从此不再疑惑！！！ 文章目录 1. 整数在内存中的存储2. 大小端字节序和字节序判断2.1 什么是大小端2.2 为什…

阅读更多...

[VulnHub靶机渗透] Hackademic: RTB1

[VulnHub靶机渗透] Hackademic: RTB1

🍬 博主介绍👨‍🎓 博主介绍：大家好，我是 hacker-routing ，很高兴认识大家~ ✨主攻领域：【渗透领域】【应急响应】【Java、PHP】【VulnHub靶场复现】【面试分析】 🎉点赞➕评论➕收…

阅读更多...

day2_greedyIntervalsLRU/LFU

day2_greedyIntervalsLRU/LFU

二、贪心算法之区间调度问题 0.计算一个区间集合中无重复的区间的最大数量(模板) public int intervalSchedule(int[][] intvs) {if (intvs.length 0) return 0;// 按 end 升序排序Arrays.sort(intvs, (a, b) -> Integer.compare(a[1], b[1]));// 至少有一个区间不相交in…

阅读更多...

Baidu Comate 编程插件：提升开发效率的利器

Baidu Comate 编程插件：提升开发效率的利器

文章目录引言简介目的 Baidu Comate插件概述定义与功能市场现状竞品分析安装与配置VsCode 安装：注意事项版本选择核心特性详解功能介绍代码生成实时续写错误纠正使用体验体验地址引言简介基于文心大模型，结合百度积累多年的编程现场大数据和外…

阅读更多...

专业做护眼灯的有哪些品牌？几款专业儿童卧室灯品牌分享

专业做护眼灯的有哪些品牌？几款专业儿童卧室灯品牌分享

在当今时代，我们观察到一个不容忽视的现象：孩子们的视力问题日益增多，这无疑向众多家长发出了警示。它提醒着我们，除了追求学术成就之外，孩子们的视觉健康同样重要，不容忽视。因此，选择一款适合…

阅读更多...

最新文章