探索高效智能:AI 模型的优化工具盘点 | 开源专题 No.43

picture

openai/evals

Stars: 12.3k License: NOASSERTION

OpenAI Evals 是一个用于评估 LLMs (大型语言模型) 或使用 LLMs 作为组件构建的系统的框架。它还包括一个具有挑战性 evals 的开源注册表。Evals 现在支持通过 Completion Function Protocol 评估任何系统,包括 prompt chains 或 tool-using agents 的行为。通过 Evals,我们旨在尽可能简单地构建 eval,并编写尽量少的代码。“Eval” 是用于评估系统行为质量的任务。

  • 支持运行和创建 evals
  • 提供了现有 eval 模板以及如何运行已存在 eval 的指南
  • 可以自定义实施特定逻辑来进行个性化 eval 逻辑

mit-han-lab/streaming-llm

Stars: 5.3k License: MIT

picture

这个项目是关于使用 Attention Sinks 的高效流式语言模型。它解决了在多轮对话等流式应用中部署大规模语言模型 (LLMs) 时遇到的两个主要挑战:缓存之前标记的键和值状态 (KV) 消耗大量内存,而且常见的 LLMs 无法推广到比训练序列长度更长的文本上。该项目提出了 StreamingLLM 框架,通过保留初始令牌和注意力池来实现窗口化注意机制,并能够将有限长度注意窗口进行泛化以处理无限序列长度而不需要微调。核心优势包括:

  • 可以使 Llama-2、MPT、Falcon 和 Pythia 稳定高效地执行具有 400 万以上标记数目的语言建模。
  • 在流媒体设置下,相较于滑动窗口重新计算基线可以加速 22.2 倍。

songquanpeng/one-api

Stars: 4.4k License: MIT

picture

One API 是一个开源的接口管理和分发系统,旨在支持多种大型模型 (如 OpenAI ChatGPT、Anthropic Claude、Google PaLM2 等),并提供简单易用的界面。该项目具有以下关键特性和核心优势:

  • 支持多种大模型:OpenAI ChatGPT 系列模型、Anthropic Claude 系列模型、Google PaLM2 系列模型等。
  • 提供配置镜像以及众多第三方代理服务,包括 OpenAI-SB 和 AI Proxy。
  • 可通过负载均衡方式访问不同渠道,并支持流式传输实现打字机效果。
  • 支持多机部署,在令牌管理中设置过期时间和额度,并且可以进行兑换码管理批量生成与导出充值功能。

InternLM/InternLM

Stars: 3.4k License: Apache-2.0

picture

InternLM 是一个开源的轻量级训练框架,旨在支持模型预训练而无需大量依赖。它通过单一代码库实现了对具有数千个 GPU 的大规模集群进行预训练,并在单个 GPU 上进行微调,同时实现了显著的性能优化。InternLM 在 1024 个 GPU 上的训练过程中达到近 90% 的加速效率。

  • 出色整体表现
  • 强大工具调用能力
  • 支持 16k 上下文长度 (通过推理外推)
  • 更好地价值对齐

NVIDIA/TensorRT-LLM

Stars: 2.7k License: Apache-2.0

TensorRT-LLM 是一个用于大型语言模型的 TensorRT 工具箱,它提供了易于使用的 Python API 来定义和构建包含最先进优化的 TensorRT 引擎,用于在 NVIDIA GPU 上高效执行推理。该项目还包括创建 Python 和 C++ 运行时环境以及与 NVIDIA Triton Inference Server 集成的后端。其核心优势和主要功能如下:

  • 支持从单个 GPU 到多节点多 GPU 配置
  • Python API 类似于 PyTorch API,并提供常用函数 (如 einsumsoftmaxmatmul 或者 view) 和有用组件 (例如 Attention 块、MLP 或整个 Transformer 层)
  • 内置支持 INT4/INT8 权重量化和 SmoothQuant 技术
  • 提供预定义模型并可轻松修改扩展适应自定义需求

cpacker/MemGPT

Stars: 1.8k License: Apache-2.0

MemGPT 是一个智能地管理 LLM 中不同内存层的系统,以在有限上下文窗口内有效提供扩展上下文。它可以创建具有自编辑记忆的永久聊天机器人,并且可以与 SQL 数据库和本地文件进行对话。其核心优势包括:

  • 可以将关键信息推送到向量数据库并在后续对话中检索
  • 支持通过 CLI 模式作为会话代理运行
  • 允许加载本地文件或者 API 文档到归档内存中进行交互查询

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/142978.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Ubuntu之apt更换国内镜像源

一、需求说明 Ubuntu系统默认使用的是Ubuntu官网镜像源http://archive.ubuntu.com,网站位于境外,我们使用apt安装软件包的时候经常出现无法连接的情况,如下图所示。所以建议将系统apt安装的镜像源切换为国内镜像源。 二、更新apt镜像源步骤…

Linux常用命令——bzip2命令

在线Linux命令查询工具 bzip2 将文件压缩成bz2格式 补充说明 bzip2命令用于创建和管理(包括解压缩)“.bz2”格式的压缩包。我们遇见Linux压缩打包方法有很多种,以下讲解了Linux压缩打包方法中的Linux bzip2命令的多种范例供大家查看&…

P37[11-2]W25Q64介绍

W25Q64内部是FLASH芯片,可存储8M字节数据,掉电不丢失。 4根SPI通信线,通过STM32操作引脚电平,实现SPI通信时序,实现读取存储器芯片的目的 易失性存储器:SRAM,DRAM等(数据掉电丢失) 非易失性存储器:E2PROM,Flash等(数据掉电不丢失) 字库存储(应用在显示屏上,存储点阵…

浅谈消防设备电源监控系统在大型建筑内的应用

【摘要】:当建筑内火灾发生时,各类消防设备能否正常运行、能否发挥作用是初期火灾扑救是否成功的重要条件之一,而稳定可靠的消防设备电源则是消防设备正常工作的保障。因此针对消防设备电源的监测系统至关重要。 【关键词】:消防…

代码随想录算法训练营第五十三天丨 动态规划part14

1143.最长公共子序列 思路 本题和动态规划:718. 最长重复子数组 (opens new window)区别在于这里不要求是连续的了,但要有相对顺序,即:"ace" 是 "abcde" 的子序列,但 "aec" 不是 &quo…

https:/myproject.git did not send all necessary objects

事情是由于在git push 的时候,电脑突然蓝屏了,再打开电脑的时候,git pull git push都失效了, 粗暴的解决方式是重新在拉取代码,可以暂时解决,但是考虑到可能以后还会遇到这个问题,所以在不紧急…

代码随想录 Day44 动规12 LeetCode T300 最长递增子序列 T674 最长连续递增序列 T718 最长重复子数组

前言 本期我们来解决动规的经典题型------ 子数组问题 我们还是会使用动规五部曲来解决问题,下面我们仍然列出动规五部曲 1.明确dp数组含义 2.明确dp数组如何推导-递推公式 3.初始化dp数组 4.确定遍历顺序 5.打印dp数组排错 LeetCode T300 最长递增子序列 题目链接:300. 最长…

从C语言到C++_40(多线程相关)C++线程接口+线程安全问题加锁(shared_ptr+STL+单例)

目录 1. C多线程 1.1 thread库 1.2 mutex库 1.3 RAII锁 1.4 atomicCAS 1.5 condition_variable 1.6 分别打印奇数和偶数 2. shared_ptr线程安全 2.1 库里面的shared_ptr使用 2.2 shared_ptr加锁代码 3. 单例模式线程安全 3.1 懒汉模式线程安全问题 3.2 懒汉模式最…

OpenAI API-KEY如何获取购买,推荐使用卡密自助发货更方便

在信息爆炸的时代,人们面临海量信息的洪流,其中蕴含了无尽的知识和见解。AI垂直问答技术的兴起,应运而生于这一背景下。与传统的搜索引擎不同,垂直问答聚焦于特定领域,通过深度学习和自然语言处理技术,为用…

UWB应用于金属工具管理

超宽带(Ultra-Wideband,UWB)技术在金属工具管理方面有许多应用案例,它可以帮助提高工具管理的效率、安全性和精确度。以下是一些UWB在金属工具管理中的应用案例: 工具定位和跟踪:UWB技术可以用于实时定位和…

你知道王者荣耀是怎么实现技能范围指示器的吗?

引言 一文教会你实现类似王者荣耀的技能范围指示器。 技能范围指示器是许多游戏中常见的一个元素,特别是在MOBA(多人在线战斗竞技场)游戏中,如《王者荣耀》、《英雄联盟》等。 本文将介绍如何在Cocos Creator中实现一个技能范围…

Programming Abstractions in C阅读笔记:p196

《Programming Abstractions in C》学习第63天,p196总结。涉及到编程之外的知识,依然是读起来很费劲,需要了解作者在书中提到的人物(Edouard Lucas)、地点(Benares)、神话传说(Brahma)等等。虽然深知自己做不到对人文知识,历史知识…

RT-DETR算法优化改进:PPHGNetV2 Backbone改进 | RepConv、GhostConv优化HGBlock

🚀🚀🚀本文内容:1)RT-DETR原理介绍;2)RepConv、GhostConv优化HGBlock 🚀🚀🚀RT-DETR改进创新专栏:http://t.csdnimg.cn/vuQTz 学姐带你学习YOLOv8,从入门到创新,轻轻松松搞定科研; RT-DETR模型创新优化,涨点技巧分享,科研小助手; 1.RT-DETR介绍 论文…

什么叫做云安全?云安全有哪些要求?

云安全(Cloud Security)是一种基于云计算的安全防护策略,旨在保护企业数据和应用程序的安全性和完整性。云安全利用云计算的分布式处理和存储能力,以更高效、更灵活的方式提供安全服务。 云安全的要求主要包括以下几个方面: 数据安全和隐私保…

【中国知名企业高管团队】系列67:华帝Vatti

前两天,华研荟介绍了中国厨房电器领域的领头羊——方太和老板,今天为您介绍另一个专注于厨房电器的公司——华帝Vatti。 一、关于华帝 根据官网介绍: 华帝股份有限公司自1992年创立至今,专注厨电领域,始终以产品创新…

自然语言处理实战项目21-两段文本的查重功能,返回最相似的文本字符串,可应用于文本查重与论文查重

大家好,我是微学AI,今天给大家介绍一下自然语言处理实战项目21-两段文本的查重功能,返回最相似的文本字符串,可应用于论文查重。本文想实现一种文本查重功能,通过输入两段文本,从中找出这两段文本中最相似的句子。这项技术有助于检测抄袭、抄袭的论文和文章,提高知识创新…

【教3妹学编程-算法题】阈值距离内邻居最少的城市

3妹:好冷啊, 冻得瑟瑟发抖啦 2哥 : 立冬之后又开始降温了, 外面风吹的呼呼的。 3妹:今天还有雨,2哥上班记得带伞。 2哥 : 好的 3妹:哼,不喜欢冬天,也不喜欢下雨天,要是我…

从5亿行数据中,筛选出重复次数在1000行的数据行,也爆内存了

点击上方“Python爬虫与数据挖掘”,进行关注 回复“书籍”即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 独在异乡为异客,每逢佳节倍思亲。 大家好,我是皮皮。 一、前言 前几天在Python最强王者交流群【巭孬🕷】问了一个问…

【Linux】Linux基础IO(上)

​ ​📝个人主页:Sherry的成长之路 🏠学习社区:Sherry的成长之路(个人社区) 📖专栏链接:Linux 🎯长路漫漫浩浩,万事皆有期待 上一篇博客:【Linux】…

嵌入式软件工程师面试题——2025校招社招通用(十三)

说明: 面试题来源于网络书籍,公司题目以及博主原创或修改(题目大部分来源于各种公司);文中很多题目,或许大家直接编译器写完,1分钟就出结果了。但在这里博主希望每一个题目,大家都要…