AI大模型：启动参数总结整理

article2025/2/21 21:58:42/文章来源:https://blog.csdn.net/weixin_43945983/article/details/134833114

虽然通过调整启动大模型的参数，对生成效果的提升是有限的，但适当的调整，还是能满足一些常用的场景的~

一. 【max_length】令牌生成最大数

用于控制生成文本的最大长度，默认为 20。它的值对应于输入提示的长度加上max_new_tokens。
如果同时设置了max_new_tokens，则它的效果将被覆盖。
例如，在使用ChatGLM3大模型的时候，如果设置这个参数为2048，一旦你请求的上下文长度超过这个数值，
服务会直接抛出如下图的异常。

在这里插入图片描述

二.【min_length】令牌生成最小数

控制生成序列的最小长度，具体使用方式跟max_length类似

三.【repetition_penalty】重复处罚的参数

1.0意味着没有惩罚

四.【temperature】输出答案的创造力发散程度

temperature 介于 0 和 1 之间，用于决定模型输出的 "创造力"。值越高，对相似问题的回答越多样化。
值越低，输出越确定性。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/224637.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

10_企业架构NOSQL数据库之MongoDB

企业架构NOSQL数据库之MongoDB 学习目标和内容 1、能够简单描述MongoDB的使用特点 2、能够安装配置启动MongoDB 3、能够使用命令行客户端简单操作MongoDB 4、能够实现基本的数据操作 5、能够实现MongoDB基本安全设置 6、能够操作安装php的MongoDB扩展一、背景描述及其方案设计…

【AI】以大厂PaaS为例，看人工智能技术方案服务能力的方向（1/2）

目录一、深度学习能力二、计算框架 2.1 语音 2.2 OCR 2.3 人脸/体识别 2.4 图像审核 2.5 图像识别 2.6 视频 2.7 自然语言理解 2.8 知识图谱今天以百度智能云为例，梳理下人工智能技术方案服务能力，主要有哪些方向的应用和拓展。纯属学习&…

JDK 9 模块化系统 (Module System) 和多版本兼容 Jar (Multi-Release Jar)

博文目录文章目录 Module System原因JDK 模块化模块描述文件关键字启用模块化测试结论 Multi-Release jar (MRJAR)原因原理结论用 IDEA 创建多版本兼容 Jar项目结构pom.xml测试 Module System 原因 Java 9引入了模块化系统的主要原因是为了解决Java平台面临的复杂性和可维…

OpenCV图像相似性比对算法

背景在做图像处理或者计算机视觉相关的项目的时候，很多时候需要我们对当前获得的图像和上一次的图像做相似性比对，从而找出当前图像针对上一次的图像的差异性和变化点，这需要用到OpenCV中的一些图像相似性和差异性的比对算法，在O…

C练习题13

单项选择题(本大题共20小题,每小题2分,共40分。在每小题给出的四个备选项中,选出一个正确的答案,并将所选项前的字母填写在答题纸的相应位置上。) 1.结构化程序由三种基本结构组成、三种基本结构组成的算法是() A.可以完成任何复杂的任务 B. 只能完成部分复杂的任务 C. 只能完…

打破常规思维：Scrapy处理豆瓣视频下载的方式

概述 Scrapy是一个强大的Python爬虫框架，它可以帮助我们快速地开发和部署各种类型的爬虫项目。Scrapy提供了许多方便的功能，例如请求调度、数据提取、数据存储、中间件、管道、信号等，让我们可以专注于业务逻辑，而不用担心底层的…

TrustZone之物理地址空间

除了两个安全状态外，该体系结构还提供了两个物理地址空间：安全和非安全。在非安全状态下，虚拟地址始终转换为非安全物理地址。这意味着在非安全状态下的软件只能看到非安全资源，但永远看不到安全资源。如图所示： 在安…

准确！！！在 CentOS 8 上配置 PostgreSQL 14 的主从复制

在 CentOS 8 上配置 PostgreSQL 14 的主从复制，并设置 WAL 归档到特定路径 /home/postgres/archive 的步骤如下： 主服务器配置（主机） 配置 PostgreSQL： 编辑 postgresql.conf 文件： vim /data/postgres/p…

Java二阶知识点总结（一）Maven

一、Maven概念 Maven是一个项目管理工具，其主要作用有2点依赖管理：管理项目依赖的各种jar包自动构建：项目构建的过程，从编译、测试、运行、打包到安装的过程可以一键执行二、Maven工程的目录结构 src/main/java：…

H5ke13-1浏览器处理异常

window对应的error没有event对象 window对应的error他接收三个参数,msg,url,行号 return false return true 1就不会返回错误 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><title>Title</title>&…

使用 MITRE ATTCK® 框架缓解网络安全威胁

什么是MITRE ATT&CK框架 MITRE Adversarial Tactics， Techniques， and Common Knowledge（ATT&CK）是一个威胁建模框架，用于对攻击者用来入侵企业、云和工业控制系统（ICS）并发起网络攻击…

探索人工智能领域——每日20个名词详解【day10】

目录前言正文总结 🌈嗨！我是Filotimo__🌈。很高兴与大家相识，希望我的博客能对你有所帮助。 💡本文由Filotimo__✍️原创，首发于CSDN📚。 📣如需转载，请事先与我联系以…

正则表达式（5）：常用符号

正则表达式（5）：常用符号小结本博文转载自在本博客中，”正则表达式”为一系列文章，如果你想要从头学习怎样在Linux中使用正则，可以参考此系列文章，直达链接如下： 在Linux中使用正…

Leetcode刷题详解——最长湍流子数组

1. 题目链接：978. 最长湍流子数组 2. 题目描述： 给定一个整数数组 arr ，返回 arr 的最大湍流子数组的长度。如果比较符号在子数组中的每个相邻元素对之间翻转，则该子数组是湍流子数组。更正式地来说，当 arr 的子…

简单易懂：Axios 如何取消请求的两种方法

在前端开发中，网络请求是非常常见的操作。而有时候，我们可能需要在发送请求后取消它，比如用户在请求还未完成时离开了当前页面或者执行了其他操作，本文将介绍如何在使用 Axios 发送请求时取消这些请求。基本概念在 Axios 中&am…

一、编写脚本 echo 取日期、时间变量值 set yy%date:~0,4% set mm%date:~5,2% set dd%date:~8,2% if /i %time:~0,2% lss 10 set hh0%time:~1,1% if /i %time:~0,2% geq 10 set hh%time:~0,2% set mn%time:~3,2% set ss%time:~6,2% set date%yy%%mm%%dd% set time%hh%%mn%%ss…

DAPP开发【10】express.js的使用

Express.js 是一种流行、轻量级的开源 Web 应用程序框架，用于开发基于 Node.js 的服务器端 Web 应用程序。它提供了强大的功能集，适用于 Web 和移动应用程序。Express.js 旨在支持单页、多页和混合式 Web 应用程序的开发。Express.js 提供了广泛的功能&a…

2022年第十一届数学建模国际赛小美赛A题翼龙如何飞行解题全过程文档及程序

2022年第十一届数学建模国际赛小美赛 A题翼龙如何飞行原题再现： 翼龙是翼龙目中一个已灭绝的飞行爬行动物分支。它们存在于中生代的大部分时期：从三叠纪晚期到白垩纪末期。翼龙是已知最早进化出动力飞行的脊椎动物。它们的翅膀是由皮肤、肌肉和其他组…

python学习之JSON数据处理在Python中的应用：从解析到生成

JSON文件是一种轻量级的数据交换格式，它采用了一种类似于JavaScript语法的结构，可以方便地在不同平台和编程语言之间进行数据交换。在Python中，我们可以使用内置的json模块来读取和写入JSON文件。下面是一个简单的示例，展示了如…