Transformer:开源机器学习项目,上千种预训练模型 | 开源日报 No.66

picture

huggingface/transformers

Stars: 113.5k License: Apache-2.0

这个项目是一个名为 Transformers 的开源机器学习项目,它提供了数千种预训练模型,用于在文本、视觉和音频等不同领域执行任务。该项目主要功能包括:

  • 文本处理:支持超过 100 种语言的文本分类、信息抽取、问答、摘要生成和翻译等任务。
  • 图像处理:支持图像分类、目标检测和分割等任务。
  • 音频处理:支持语音识别和音频分类等任务。

此外,Transformer 模型还可以对多个领域进行联合操作,例如表格问答、光学字符识别以及从扫描文件中提取信息等。该项目具有以下关键特点和核心优势:

  • 提供 API 快速下载并使用预训练模型,可根据自己的数据集进行微调,并与社区共享。
  • 支持 Jax,PyTorch 和 TensorFlow 三大流行深度学习库之间无缝集成,在加载推理前轻松地训练您的模型。

microsoft/TypeScript

Stars: 94.8k License: Apache-2.0

TypeScript 是一种用于应用规模 JavaScript 的语言。它为 JavaScript 添加了可选类型,支持大型 JavaScript 应用程序的工具,在任何浏览器、任何主机和任何操作系统上都可以使用。TypeScript 编译成易读且符合标准的 JavaScript 代码。

kubernetes/autoscaler

Stars: 7.1k License: Apache-2.0

这个项目是 Kubernetes Autoscaler,它包含了用于自动扩展的组件。
主要功能有:

  • Cluster Autoscaler:根据需要调整 Kubernetes 集群的大小,以确保所有 pod 有运行空间且没有不必要的节点。支持多个公共云提供商。
  • Vertical Pod Autoscaler:一套组件,可以自动调整在 Kubernetes 集群中运行的 pod 所请求的 CPU 和内存数量。当前状态为 beta 版本。
  • Addon Resizer:Vertical Pod Autoscaler 的简化版本,在基于 Kubernetes 集群中节点数目来修改 deployment 的资源需求量。当前状态为 beta 版本。

oceanbase/oceanbase

Stars: 6.3k License: NOASSERTION

picture

OceanBase Database 是一个分布式关系型数据库,完全由蚂蚁集团开发。它构建在通用的服务器集群上,并基于 Paxos 协议和其分布式结构,提供高可用性和线性扩展性。OceanBase Database 不依赖特定的硬件架构。

  • 透明伸缩性:可以将 OceanBase 集群无缝地扩展到 1500 个节点,处理 PB 级数据和万亿行记录。
  • 超快速度:唯一刷新了 TPC-C 纪录 (707 百万 tmpC) 以及 TPC-H 纪录 (1526 万 QphH @30000GB) 的分布式数据库。
  • 实时运营分析:统一系统支持事务处理与实时运营分析工作负载。
  • 持续可用性:采用 Paxos 共识算法实现零 RPO 且低于8秒 RTO;支持城际/远程灾难恢复,在多个位置进行多活动并避免数据丢失
  • 兼容 MySQL:高度兼容 MySQL,迁移过程中几乎没有或者只需要少量修改。
  • 成本效益:前沿压缩技术节省 70%-90% 存储成本而不影响业务表现。多租户体系结构能够更好利用资源。

uBlockOrigin/uAssets

Stars: 2.9k License: GPL-3.0

uAssets 是用于 uBlock Origin (uBO) 资源的存储库。它接收有关新过滤器或导致网页破坏的现有过滤器的所有报告,并欢迎任何贡献者。

stas00/ml-engineering

Stars: 1.0k License: CC-BY-SA-4.0

这个项目是一个开放的方法论集合,旨在帮助成功训练大型语言模型和多模态模型。

  • 提供了调试软件和硬件故障、容错性、性能优化等方面的指导
  • 支持多节点网络通信和模型并行计算
  • 包含有关张量精度/数据类型、训练超参数和初始化以及可重现性等内容的信息

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/116418.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

(附源码)基于SSM 车险事故自助理赔小程序-计算机毕设 84607

车险事故自助理赔小程序 摘要 随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱,车险事故自助理赔小程序被用户普遍…

C++二分查找算法的应用:最小好进制

本文涉及的基础知识点 二分查找 题目 以字符串的形式给出 n , 以字符串的形式返回 n 的最小 好进制 。 如果 n 的 k(k>2) 进制数的所有数位全为1,则称 k(k>2) 是 n 的一个 好进制 。 示例 1: 输入:n “13” 输出:“3” …

Linux 实现文件后半部分的复制

继上次实现文件从后往前数2k的数据进行复制,此次要求是文件的一半且是后半部分。 即复制源文件sour_file的后半部分到dest_file 除了数据上从后2K变化到后一半之外,其他的几乎没有什么变化。 这道题的关键点就在于后一半怎么求,在经历了用 …

玩转AIGC:如何选择最佳的Prompt提示词?

🌷🍁 博主猫头虎 带您 Go to New World.✨🍁 🦄 博客首页——猫头虎的博客🎐 🐳《面试题大全专栏》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺 &a…

LangChain+LLM实战---如何训练大模型(LLM)

英文原文:How to train your own Large Language Models 概要介绍 大型语言模型,如OpenAI的GPT-4或Google的PaLM,已经席卷了人工智能领域。然而,大多数公司目前没有能力训练这些模型,并且完全依赖于只有少数几家大型…

0基础学习PyFlink——时间滑动窗口(Sliding Time Windows)

在《0基础学习PyFlink——时间滚动窗口(Tumbling Time Windows)》我们介绍了不会有重复数据的时间滚动窗口。本节我们将介绍存在重复计算数据的时间滑动窗口。 关于滑动窗口,可以先看下《0基础学习PyFlink——个数滑动窗口(Sliding Count Windows&#x…

【Midjourney入门教程2】Midjourney的基础操作和设置

文章目录 Midjourney的常用命令和基础设置1、 /imagine2、 /blend3、 /info4、 /subscribe5、 /settings(Midjourney的基础设置)6、 /shorten 有部分同学说我不想要英文界面的,不要慌: 点击左下角个人信息的设置按钮,找…

CoT: 思路链提示促进大语言模型的多步推理

CoT 总览摘要1 引言2 Chain-of-Thought Prompting3 算术推理 (Arithmetic Reasoning)3.1 实验设置3.2 结果3.3 消融实验3.4 CoT的鲁棒性 4 常识推理 (Commonsense Reasoning)5 符号推理 (Symbolic Reasoning&#xff0…

SystemC入门之测试平台编写完整示例:全加器

导读: 本文将完整演示基于systemC编写一个全加器的测试平台。具体内容包括:激励平台,监控平台,待测单元的编写,波形文件读取。 1,main函数模块 搭建一个测试平台主要由:Driver, Monitor, DUT(design under …

Nginx编译安装和配置

官网:http://nginx.org/ 这里以1.20.2为例 Nginx是C语言写的 如果Linux系统上没有安装C编译环境 先执行下面命令 yum install -y gcc automake autoconf libtool make 如果不确定 可以使用命令查看 命令格式 rpm -q xxx 例如 说明有C编译环境 安装前需要安装4个依赖包…

基因组WGD的鉴定与分化时间

1. WGD 简介 全基因组复制(Whole genome duplications, WGD)是生物进化的重要因素之一(导致基因组扩增的因素包括全基因组复制和转座子TEs), 所以WGD分析也是基因组分析经常用到的一种分析方法。 古 WGD 检测有两种方法,一种是共线性分析&a…

Spring Boot创建多模块项目

创建一个普通的Spring Boot项目, 然后只留下 pom.xml 剩下的都删掉 删除多余标签 标识当前为父模块 创建子模块 删除子模块中多余标签 声明父模块 在父模块中声明子模块

体验SOLIDWORKS旋转反侧切除增强 硕迪科技

大家在设计中经常使用的旋转切除命令在solidworks2024版本中迎来了新的增强,添加了旋转反侧切除选项。在设计过程中不必修改复杂的草图即可切除掉我们不需要的部分。使设计工作更加方便快捷。 打开零部件后,点击键盘上的S键并输入旋转切除以搜索该命令&a…

[极客大挑战 2019]Knife 1(两种解法)

题目环境: 这道题主要考察中国菜刀和中国蚁剑的使用方法 以及对PHP一句话木马的理解 咱们先了解一下PHP一句话木马,好吗? **eval($_POST["Syc"]);** **eval是PHP代码执行函数,**把字符串按照 PHP 代码来执行。 $_POST P…

使用HttpClient库的爬虫程序

使用HttpClient库的爬虫程序,该爬虫使用C#来抓取内容。 using System; using System.Net.Http; using System.Threading.Tasks; ​ namespace CrawlerProgram {class Program{static void Main(string[] args){// 创建HttpClient对象using (HttpClient client new…

【蓝桥杯基础题】门牌制作

👑专栏内容:蓝桥杯刷题⛪个人主页:子夜的星的主页💕座右铭:前路未远,步履不停目录 一、题目描述二、题目分析三、代码汇总1、C++代码2、Java 代码四、总结1、枚举思想2、取余判断每位数字一、题目描述 题目链接:门牌制作 小蓝要为一条街的住户制作门牌号。这条街一共…

Powercli批量修改分布式交换机端口组

背景 需求&#xff1a; 批量修改虚拟机的分布式端口组 解决方式一&#xff1a; 三条命令解决&#xff1a;先获取目标虚拟机、获取目标端口组、修改虚拟机端口组、检查虚拟机状态。 $vm Get-VM -Name <虚拟机名称> $portGroup Get-VirtualPortGroup -Name <端口…

视频编码转换技巧:视频批量转码H264转H265,高效且顺畅

随着数字媒体的广泛应用&#xff0c;视频编码转换已成为一种普遍的需求。不同的视频格式和编码标准使得在不同设备上播放视频成为可能&#xff0c;同时也带来了兼容性和传输效率的问题。本文讲解引用云炫AI智剪使视频编码转换技巧&#xff0c;即批量将H264编码转换为H265编码&a…

【CIO人物展】黄淮学院副CIO周鹏:构建数智化平台赋能学校高质量发展

周鹏 本文由黄淮学院副CIO周鹏投递并参与《2023中国数智化转型升级优秀CIO》榜单/奖项评选。丨推荐企业—锐捷网络 大数据产业创新服务媒体 ——聚焦数据 改变商业 黄淮学院是2004年经教育部批准成立的一所省属全日制普通本科高校。学校位于素有“豫州之腹地、天下之最中”之美…

关于ROS的网络通讯方式TCP/UDP

一、TCP与UDP TCP/IP协议族为传输层指明了两个协议&#xff1a;TCP和UDP&#xff0c;它们都是作为应同程序和网络操作的中介物。 **TCP&#xff08;Transmission Control Protocol&#xff09;协议全称是传输控制协议&#xff0c;是一种面向连接的、可靠的、基于字节流的传输…