大模型字典中加入特殊字符

大模型字典中加入特殊字符

在微调大模型的时候会遇到添加特殊字符,例如在微调多轮的数据的时候需要加入人和机器等特殊标识字符,如用这个特殊字符表示人,用这个特殊字符表示机器,从而实现了人机对话。一般在大模型中base字典中不包含这些特殊字符,然后在关于大模型的chat模型中字典会有这几个特殊字符的,只不过每一个大模型的特殊字符表示不一样。接下来我会介绍LLama2-7b模型添加特殊字符。

from transformers import LlamaConfig
from transformers import LlamaForCausalLM
from transformers import LlamaTokenizer

pretrain_model_path = "./pretrained_models/chinese-gsllama-2-7B-round-float16"
config = LlamaConfig.from_pretrained(pretrain_model_path)
tokenizer = LlamaTokenizer.from_pretrained(pretrain_model_path)
model = LlamaForCausalLM.from_pretrained(pretrain_model_path, torch_dtype=torch.float16)

print("llama-7b 字典大小为: ".format(len(tokenizer)))

# 添加特殊字符
tokenizer.add_tokens('<human>')
tokenizer.add_tokens('<assistant>')
print("llama-7b 添加tokens后字典的大小为:",len(tokenizer))
# 修改模型中的embedding和lm_head这两层的维度。
model.resize_token_embeddings(len(tokenizer))

config.save_pretrained(output_model_path)
tokenizer.save_pretrained(output_model_path)
model.save_pretrained(output_model_path)

llama2-7b添加了特殊字符,保存后的模型路径下config.json中的vocab_size比原是模型的大了2。同时路径下多了一个added_tokens.json。如下图:
在这里插入图片描述

模型推理验证一下llama2-7b原始模型和添加tokens的模型生成是否一样。

import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0,1"
import json

import torch
from transformers import LlamaTokenizer
from transformers import LlamaForCausalLM
from transformers import GenerationConfig


if __name__ == "__main__":
    # llama2-7b原始模型路径
    # pretrain_model_path = "./pretrain_model/chinese-llama-2-7b/"
    # 添加token后模型路径
    pretrain_model_path = "./pretrained_model/chinese-llama2-7b-add/"
    model = LlamaForCausalLM.from_pretrained(pretrain_model_path, device_map="auto", torch_dtype=torch.float32) # 
    tokenizer = LlamaTokenizer.from_pretrained(pretrain_model_path)
    print("load model and load tokenizer")

    gene_config = {
        "pad_token_id": tokenizer.pad_token_id,
        "bos_token_id": tokenizer.bos_token_id,
        "eos_token_id": tokenizer.eos_token_id,
        "max_new_tokens": 128,
        "temperature": 0.3,
        "repetition_penalty": 1.06,
        "do_sample": False
        }
    print(gene_config)
    model.generation_config = GenerationConfig.from_dict(gene_config)
    # model.generation_config = GenerationConfig.from_pretrained(pretrain_model_path)
    model.eval()

    while True:
        text = input("输入数据>>>")
        features = tokenizer(text, return_tensors='pt')
        features = {key: value.to('cuda:0') for key, value in features.items()}

        position_ids = [i for i in range(len(features['input_ids'][0]))]
        position_ids = torch.tensor([position_ids], dtype=torch.long).to('cuda:0')
        print(position_ids)

        output = model.generate(inputs=features['input_ids'], attention_mask=features["attention_mask"], 
                                generation_config=model.generation_config)
        # print(output)

        pred = tokenizer.decode(output[0][len(features['input_ids'][0]):], skip_special_tokens=True)
        print("模型推理>>>", pred)

输入为中国的首都是北京,英国的首都是伦敦,法国的首都是
输出为:

1. llama2-7b 原始模型推理结果
巴黎,意大利的首都是罗马。中国和意大利都是世界四大文明古国之一,两国在历史上有过多次交往,都留下了许多珍贵的历史遗迹。下面就让我们一起来欣赏一下中国和意大利之间的那些历史遗迹吧! 1、长城 长城是中国古代伟大的防御工程,它横贯中国北方地区,东起山海关,西至嘉峪关,全长约6700公里,是世界上最长的城墙。长城始建于春秋战国时期,到秦始皇统一六国后才得以大规模修筑。长城的修建主要是为了抵御北方游牧民族的
2. llama2-7b 添加字符的模型推理结果
巴黎,意大利的首都是罗马。中国和意大利都是世界四大文明古国之一,两国在历史上有过多次交往,都留下了许多珍贵的历史遗迹。下面就让我们一起来欣赏一下中国和意大利之间的那些历史遗迹吧! 1、长城 长城是中国古代伟大的防御工程,它横贯中国北方地区,东起山海关,西至嘉峪关,全长约6700公里,是世界上最长的城墙。长城始建于春秋战国时期,到秦始皇统一六国后才得以大规模修筑。长城的修建主要是为了抵御北方游牧民族的

这里以llama2-7b为例介绍了添加字符的过程,有时候会碰到预训练模型的config.json中的vocab_size的值和tokenizer的字典的值大,可能是由于预训练的时候使用了megatron中的tp导致的,可以先把embedding和lm_header的这两层权重的维度截取到和tokenizer的字典的值一样大再进行添加tokens。以上内容如有表述有误,欢迎指证。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/447979.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

二次供水无人值守解决方案

二次供水无人值守解决方案 二次供水系统存在一定的管理难题和技术瓶颈&#xff0c;如设备老化、维护不及时导致的水质安全隐患&#xff0c;以及如何实现高效运行和智能化管理等问题。在一些地区&#xff0c;特别是老旧小区或农村地区&#xff0c;二次供水设施建设和改造滞后&a…

【go语言开发】redis简单使用

本文主要介绍redis安装和使用。首先安装redis依赖库&#xff0c;这里是v8版本&#xff1b;然后连接redis&#xff0c;完成基本配置&#xff1b;最后测试封装的工具类 文章目录 安装redis依赖库连接redis和配置工具类封装代码测试 欢迎大家访问个人博客网址&#xff1a;https://…

初学Vue——Vue路由

0 什么是Vue路由 类似于Html中的超链接(<a>)一样&#xff0c;可以跳转页面的一种方式。 前端路由&#xff1a;URL中hash(#号之后的内容)与组件之间的对应关系&#xff0c;如下图&#xff1a; 当我们点击左侧导航栏时&#xff0c;浏览器的地址栏会发生变化&#xff0c;路…

hutool,真香!

大家好&#xff0c;我是苏三&#xff0c;又跟大家见面了。 前言 今天给大家介绍一个能够帮助大家提升开发效率的开源工具包&#xff1a;hutool。 Hutool是一个小而全的Java工具类库&#xff0c;通过静态方法封装&#xff0c;降低相关API的学习成本&#xff0c;提高工作效率&…

IOT的发展历程及其优势——青创智通

工业互联网-物联网-设备改造-IOT-青创智通 ​随着科技的不断发展&#xff0c;物联网&#xff08;IoT&#xff09;已经逐渐成为了我们生活中不可或缺的一部分。IoT是指通过互联网将各种物理设备连接起来&#xff0c;实现设备之间的数据交换和智能化控制。IoT的发展不仅改变了我们…

四管齐下 共建发展 | 七巧低代码助力零售行业打造一体化协同解决方案

行业背景 随着互联网和移动技术的普及&#xff0c;零售行业的销售渠道日趋多元化和融合化&#xff0c;传统线下渠道和新兴线上渠道相互竞争和协作&#xff0c;形成了新零售和全渠道的格局。快消品新零售模式下&#xff0c;企业需要通过数字化和智能化的手段&#xff0c;实现对…

Flask python 开发篇:项目布局

一、背景简介 Flask应用程序可以像单个文件一样简单。就像上一篇简单实现一个接口一样&#xff0c;所有的东西都在一个python文件内&#xff1b; 然而&#xff0c;当项目越来越大的时候&#xff0c;把所有代码放在单个文件中就有点不堪重负了。 Python 项目使用 包 来管理代码…

携手亚信安慧AntDB,在数智化浪潮中乘风破浪

随着大数据时代的到来&#xff0c;对数据库的需求愈发强烈。在这一背景下&#xff0c;国产数据库逐渐崭露头角&#xff0c;亚信安慧AntDB作为重要的代表产品之一正积极参与到激烈的市场竞争中。亚信安慧AntDB不仅追求技术的革新和突破&#xff0c;同时也致力于满足用户日益增长…

【Python】conda 命令报错解决:Example: conda --no-plugins install <package>

目录 报错效果&#xff1a;解决方法总结 欢迎关注 『Python』 系列&#xff0c;持续更新中 欢迎关注 『Python』 系列&#xff0c;持续更新中 报错效果&#xff1a; An unexpected error has occurred. Conda has prepared the above report. If you suspect this error is bei…

OD_2024_C卷_200分_9、园区参观路径【JAVA】【动态规划】

package odjava;import java.util.Scanner;public class 九_园区参观路径 {public static void main(String[] args) {Scanner sc new Scanner(System.in);int n sc.nextInt(); // 长 -> 行数int m sc.nextInt(); // 宽 -> 列数int[][] matrix new int[n][m]; // 地图…

HAproxy反向代理与负载均衡

目录 一、HAproxy介绍 1. 概述 2. 关于4/7层负载均衡 2.1 无负载均衡 2.1.1 图示 2.1.2 说明 2.2 四层负载均衡 2.2.1 图示 2.2.2 说明 2.3 七层负载 2.3.1 图示 2.3.2 说明 3. 特性 4. HAProxy负载均衡常见策略 5. 处理模式 二、HAproxy安装 1. yum安装 2. 第…

算法---双指针练习-7(三数之和)

三数之和 1. 题目解析2. 讲解算法原理3. 编写代码 1. 题目解析 题目地址&#xff1a;三数之和 2. 讲解算法原理 首先对输入的数组进行排序&#xff0c;以便后续使用双指针法。初始化一个空的二维向量 ret&#xff0c;用于存储结果。使用一个循环遍历数组中的每个元素&#xff…

Spark性能优化指南——高级篇

调优概述 有的时候&#xff0c;我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜&#xff0c;此时Spark作业的性能会比期望差很多。数据倾斜调优&#xff0c;就是使用各种技术方案解决不同类型的数据倾斜问题&#xff0c;以保证Spark作业的性能。 数据倾斜发生时的现…

【Idea】八种Debug模式介绍

1.行断点 在对应的代码行左侧边栏点击鼠标左键&#xff0c;会出现一个红色圆圈&#xff0c;以debug模式执行时当代码运行到此处则会停止&#xff0c;并可以查询相关上下文参数 2.方法断点 在方法左侧点击创建断点,在方法进入时会停止&#xff0c;同时可以右键断点&#xff0c;…

Jenkins Pipeline实现Golang项目的CI/CD

Jenkins Pipeline实现Golang项目的CI/CD 背景 最近新增了一个Golang实现的项目&#xff0c;需要接入到现有的流水线架构中。 流程图 这边流程和之前我写过的一篇《基于Jenkins实现的CI/CD方案》差不多&#xff0c;不一样的是构建现在是手动触发的&#xff0c;没有配置webho…

在 Python 中从键盘读取用户输入

文章目录 如何在 Python 中从键盘读取用户输入input 函数使用input读取键盘输入使用input读取特定类型的数据处理错误从用户输入中读取多个值 getpass 模块使用 PyInputPlus 自动执行用户输入评估总结 如何在 Python 中从键盘读取用户输入 原文《How to Read User Input From t…

Elixir and Pylons 中多态继承和自关联关系的创建

我们知道&#xff0c;在Elixir和Pylons中&#xff0c;多态继承和自关联关系是两个独立的概念&#xff0c;分别用于处理不同的情况。而在Pylons中&#xff0c;多态继承通常由SQLAlchemy提供的 polymorphic 关系来实现。下面分别介绍在Elixir和Pylons中如何创建多态继承和自关联关…

vue之性能优化

1.路由懒加载 所谓路由懒加载&#xff0c;其实就是路由通过import动态引入&#xff0c;而不是在文件最上面一个个全部引入&#xff0c;因为JS执行的时候会优先执行引入的文件&#xff0c;如果一次性引入过多&#xff0c;则会增加处理时长。 2.图片懒加载 图片在网页加载过程…

从零搭建React18.2+ReactRoute6.22+TS5+RTK2.2搭配antd5+antd-style书写All in Js完整体验项目规范

1. 使用CRA创建项目 全局设置npm淘宝镜像源 npm config set registry https://registry.npmmirror.com -g使用最新版create-react-app初始化项目结构 npx create-react-app custom-template --template typescript初始化项目之后在package.json文件中配置使用node>18.0.0…

路径总和00

题目链接 路径总和 题目描述 注意点 树中节点的数目在范围 [0, 5000] 内-1000 < Node.val < 1000 解答思路 要判断是否有一条从根节点开始到叶子节点节点总和为targetSum的路径&#xff0c;首先想到使用深度优先遍历&#xff0c;不断递归找到叶子节点且保存该路径的…