HuggingFace踩坑记录-连不上,根本连不上

学习 transformers 的第一步,往往是几句简单的代码

from transformers import pipeline

classifier = pipeline("sentiment-analysis")
classifier("We are very happy to show you the 🤗 Transformers library.")
"""
[{'label': 'POSITIVE', 'score': 0.9998}]
"""

但等你配好环境然后简单运行一下,你就会发现一点也不简单!
在这里插入图片描述
直接报错ConnectionError,一查原来是被huggingface被和谐了啊,科学上网都救不了,然后报错里提到是:
https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english
连不上。

但方法肯定是有的,网上大多数方法都是照搬
https://hf-mirror.com/
的主页,又是改环境变量又是下载下载工具的,给的例子也一点不具体。实际根本不好用,命令行配置太多,然后名字有太长,实际上它的作用也就是把
https://hf-mirror.com/distilbert/distilbert-base-uncased-finetuned-sst-2-english
下面所有的东西都下下来。。。 这些东西并非全都用得到吧,下下来是需要好很长时间的吧,那假设我只是使用pytorch而已的话,需要下哪些东西呢?(附注:你当然可以通过代码或者命令行指定匹配规则进行过滤来指定下什么东西,但是这样看着太冗长,感觉不如自己手下来的方便直观)
在这里插入图片描述
经过各种查阅和总结试错,假如你只是想使用pytorch下的模型,你只需要下载:

pytorch_model.bin
config.json
tokenizer_config.json
vocab.txt

即可,那么好,接下来要怎么加载这个模型并使用它呢?这个问题得到了很快的解决,通过报错的提示,还有命名,大概就能猜出来。一般来说,先指定根路径,也就是刚刚下载好的那4个文件的路径,然后指定模型基类和tokenizer基类,最后才可以顺利调用pipleline.总结如下:

import transformers
from transformers import pipeline, DistilBertForSequenceClassification, DistilBertTokenizer

# 1. 手动下载好上面说的四个文件并存到指定目录
bert_path = "D:/datasets/huggingface/models/distilbert-base-uncased-finetuned-sst-2-english"
# 2. 使用正确的基类(鸡肋)来加载 model tokenizer 
#    (DistilBertTokenizer, DistilBertForSequenceClassification)也都是尝试出来的
tokenizer = DistilBertTokenizer.from_pretrained(bert_path)
model = DistilBertForSequenceClassification.from_pretrained(bert_path)
classifier = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)

随后,就可以进行玩耍了
比如这里我给了一个长长的句子,大概描述了我刚刚踩的坑(你也知道这是negative啊)

classifier("It is a bad experience when I try to access hugging face, "+
           "I have to downald them in mirror website and analyze which files shoud I downald!")
           
[{'label': 'NEGATIVE', 'score': 0.999805748462677}]

再来个句子,带点转折意味

classifier("However, method always exists, although it takes too much time!")

[{'label': 'POSITIVE', 'score': 0.9861053824424744}]

再来个,断章取义取自不要断章取义!

classifier("although it takes too much time!")
[{'label': 'NEGATIVE', 'score': 0.9921171069145203}]

看得出来还是挺准的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/518330.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Vue - 1( 13000 字 Vue 入门级教程)

一:Vue 1.1 什么是 Vue Vue.js(通常称为Vue)是一款流行的开源JavaScript框架,用于构建用户界面。Vue由尤雨溪在2014年开发,是一个轻量级、灵活的框架,被广泛应用于构建单页面应用(SPA&#xf…

golang设计模式图解——模板方法模式

设计模式 GoF提出的设计模式有23个,包括: (1)创建型(Creational)模式:如何创建对象; (2)结构型(Structural )模式:如何实现类或对象的组合; (3&a…

移动WEB开发之flex布局

一、flex布局体验 传统布局兼容性好,布局繁琐,局限性,不能再移动端很好布局 flex弹性布局操作方便,布局极为简单,移动端应用广泛,PC端浏览器支持情况较差 建议:如果是PC端页面布局&#xff0…

07-app端文章搜索

app端文章搜索 1) 今日内容介绍 1.1)App端搜索-效果图 1.2)今日内容 文章搜索 ElasticSearch环境搭建 索引库创建 文章搜索多条件复合查询 索引数据同步 搜索历史记录 Mongodb环境搭建 异步保存搜索历史 查看搜索历史列表 删除搜索历史 联想词查询 联想词的来源 联…

外围极简便携式T12电烙铁(CH32X035)-第二篇

文章目录 系列文章目录前言一、pandas是什么?二、使用步骤 1.引入库2.读入数据总结 一、工程简介 原理图: PCB: 外壳: BOM: 二、功能模块介绍 1、 |----系统初始化 0:填写系统初值 …

推荐使用AI开源平台:搭建GA领域案件分类的自动化处理

引言 公安和消防机构面临着日益复杂的案件处理任务。为了提高案件管理和分派的效率,自然语言处理(NLP)和文本分类技术的应用变得尤为重要。本文将探讨如何通过自动化处理技术快速识别案件性质和关键特征,从而优化资源分配&#x…

9Proxy,跨境电商一站式解决方案

文章目录 跨境电商什么是跨境电商跨境电商的机遇跨境电商技术支撑 海外代理IP什么是海外代理IP海外代理IP的作用如何选择海外代理IP 9Proxy9Proxy的优势9Proxy的解决方案价格汇总搜索引擎优化市场调查多重核算数据抓取广告技术 价格上手体验注册登录下载安装数据采集 总结福利 …

Oracle中实现一次插入多条数据

一、需求描述 在我们实际的业务场景中,由于单条插入的效率很低(每次都需要数据库资源连接关闭的开销),故需要实现一次性插入多条数据,用以提升数据插入的效率; 如下图是常见的单条插入数据: 二…

stable diffsuinon生成动漫美女

anything-v5-PrtRE.safetensors [7f96a1a9ca]模型 delicate, masterpiece, beautiful detailed, colourful, finely detailed,detailed lips, intricate details, (50mm Sigma f/1.4 ZEISS lens, F1.4, 1/800s, ISO 100,(photograpy:1.1), (large breast:1.0),(a b…

【APUE】网络socket编程温度采集智能存储与上报项目技术------多进程编程

作者简介: 一个平凡而乐于分享的小比特,中南民族大学通信工程专业研究生在读,研究方向无线联邦学习 擅长领域:驱动开发,嵌入式软件开发,BSP开发 作者主页:一个平凡而乐于分享的小比特的个人主页…

优先队列c++

内容&#xff1a; priority_quene是一个优先队列&#xff0c;优先级别高的先入队&#xff0c;默认最大值优先 因此出队和入队的时间复杂度均为O&#xff08;logn&#xff09;,也可以自定义优先级 头文件<quene> 函数&#xff1a; 构建优先队列 priority_queue<in…

C语言中的字符与字符串:魔法般的函数探险(续)

七、字符数组与字符串的关系 在C语言中&#xff0c;字符串实际上是以字符数组的形式存在的。了解这一关系&#xff0c;对于深入理解字符串函数和字符操作至关重要。 字符数组与字符串字面量&#xff1a;当我们定义一个字符串字面量&#xff0c;如char str[] "Hello"…

【资源分享】Eclipse最新版本免费安装下载

::: block-1 “时问桫椤”是一个致力于为本科生到研究生教育阶段提供帮助的不太正式的公众号。我们旨在在大家感到困惑、痛苦或面临困难时伸出援手。通过总结广大研究生的经验&#xff0c;帮助大家尽早适应研究生生活&#xff0c;尽快了解科研的本质。祝一切顺利&#xff01;—…

C++之函数提高(HM)

目录 1.函数默认参数&#xff08;缺省参数&#xff09; 2.占位参数 3.函数重载 4.类和对象--封装 &#xff08;1&#xff09;圆类&#xff1a; &#xff08;2&#xff09;访问权限 &#xff08;3&#xff09;struct&&class &#xff08;4&#xff09;立方体类的…

OAuth 2.0 的四种方式

RFC 6749 OAuth 2.0 的标准是 RFC 6749 文件。该文件先解释了 OAuth 是什么。 OAuth 引入了一个授权层&#xff0c;用来分离两种不同的角色&#xff1a;客户端和资源所有者。…资源所有者同意以后&#xff0c;资源服务器可以向客户端颁发令牌。客户端通过令牌&#xff0c;去请…

爬虫 新闻网站 并存储到CSV文件 以红网为例 V1.0

爬虫&#xff1a;红网网站&#xff0c; 获取当月指定关键词新闻&#xff0c;并存储到CSV文件 V1.0 目标网站&#xff1a;红网 爬取目的&#xff1a;为了获取某一地区更全面的在红网已发布的宣传新闻稿&#xff0c;同时也让自己的工作更便捷 环境&#xff1a;Pycharm2021&#…

Cisco交换机安全配置

Cisco交换机安全配置 前提 我们以下命令一般都要先进入Config模式 S1> enable S1# conf t S1(config)#端口安全保护 禁用未使用的端口 以关闭fa0/1到fa0/24的端口为例 S1(config)# interface range fa0/1-24 S1(config-if-range)# shutdown缓解MAC地址表攻击 防止CAM…

关联规则(理论及实例)

目录 一、啤酒和尿布的故事 二、理论 三、实例 1. 自定义数据集 2. 数据需转换成one-hot编码 3.电影题材关联分析 一、啤酒和尿布的故事 在美国&#xff0c;一些年轻的父亲下班后经常要到超市去购买婴儿尿布&#xff0c;超市因此发现一个规律&#xff0c;在购买婴儿尿布的…

微信小程序上传到gitee

共三步 1、新建gitee仓库 点号&#xff0c;新建仓库&#xff0c;填入仓库信息新建即可 2、修改版本管理参数 微信开发者工具中点开版本管理&#xff0c;未初始化&#xff0c;需要先点初始化 接下来将设置中的通用、网络认证、远程3个部分的参数填写好 通用&#xff1a;核对…

idea的后端环境配置

首先&#xff0c;在你刚打开idea时红色箭头所指的是你进行配置的地方&#xff0c;接下来我把具体步骤说一下 1&#xff0c;直接点击箭头所指的地方就会出现如图界面&#xff0c;然后点击Tomcat server,使其展开点击第一个 第二步取消勾选&#xff0c;第三步选择bin的上一级然后…