2024年大型语言模型(LLMs)的发展回顾

2024年对大型语言模型(LLMs)来说是充满变革的一年。以下是对过去一年中LLMs领域的关键进展和主题的总结。
在这里插入图片描述

GPT-4的壁垒被打破

去年,我们还在讨论如何构建超越GPT-4的模型。如今,已有18个组织拥有在Chatbot Arena排行榜上超越原始GPT-4的模型,共计70个模型。其中,Google的Gemini 1.5 Pro和Anthropic的Claude 3系列尤为突出,它们不仅达到了GPT-4的水平,还引入了新功能,如更长的输入上下文和视频输入能力。

LLMs价格大幅下降

得益于竞争和效率提升,运行顶级托管LLMs的成本在过去一年中大幅下降。OpenAI的最贵模型价格从GPT-3时代的100倍降低到现在的1/100。这种价格下降直接关系到运行提示所消耗的能量,对环境影响的担忧有所减轻。

多模态视觉成为常态,音频和视频开始兴起

2024年,几乎所有重要的模型供应商都发布了多模态模型。这些模型能够处理图像、音频和视频,为用户提供了新的应用方式。

语音和实时摄像头模式让科幻成为现实

语音和实时视频模式的发展尤为引人注目。GPT-4o和Google的Gemini等模型现在可以接受音频输入并输出非常逼真的语音,而不需要单独的TTS或STT模型。

提示驱动的应用生成已成为商品

LLMs在2023年已经能够生成代码,而2024年它们能够生成完整的交互式应用程序。Anthropic的Claude Artifacts和GitHub的GitHub Spark等功能允许用户直接在界面中使用生成的应用程序。

最佳模型的普遍访问仅持续了几个月

今年初,GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro等最佳模型对大多数人免费开放。然而,随着OpenAI推出ChatGPT Pro订阅服务,免费访问最佳模型的时代可能已经结束。

“代理”仍未真正实现

“代理”一词缺乏明确且广泛理解的含义。尽管如此,代理的概念仍然让人感觉“即将到来”,但基于LLMs的代理在实用性上仍存在挑战。

评估(Evals)至关重要

为LLM驱动的系统编写良好的自动化评估是构建有用应用程序的关键技能。拥有强大的评估套件可以帮助你更快地采用新模型,更好地迭代,并构建比竞争对手更可靠和有用的产品特性。

Apple Intelligence不佳,但Apple的MLX库表现出色

Apple的MLX库为在Mac上运行各种MLX兼容模型提供了极好性能。然而,Apple自己的“Apple Intelligence”功能大多令人失望。

推理扩展“推理”模型的崛起

OpenAI的o1模型是这类模型的代表,它们通过在模型内部花费“推理令牌”来思考问题,然后输出最终结果。这种模型为扩展模型性能提供了新的方式。

最佳可用LLM是否在中国以不到600万美元训练而成?

DeepSeek v3是一个拥有685B参数的大型模型,其训练成本仅为5,576,000美元,这是一个非常积极的迹象,表明训练成本可以且应该继续下降。

环境影响有所改善

模型效率的提高导致运行提示的能量使用和环境影响大幅下降。OpenAI的提示费用比GPT-3时代降低了100倍。

环境影响变得更糟

大型科技公司正在花费数十亿美元建设新数据中心,对电网和环境产生实质性影响。这种基础设施建设是否必要,还是一个未知数。

“slop”成为行业术语

“slop”一词被用来描述未经请求且未经审查的AI生成内容。这个概念已经成为讨论现代AI的简洁方式。

合成训练数据效果显著

尽管有关模型崩溃的讨论,但AI实验室越来越多地在训练中使用合成内容,以引导模型朝着正确的方向发展。

LLMs变得更加难以使用

LLMs是复杂的工具,需要深入了解和经验才能充分利用并避免陷阱。随着系统的增多,用户需要了解不同系统的工具和限制。

知识分布极不均匀

大多数人可能听说过ChatGPT,但对其他模型如Claude的了解甚少。这种知识差距对社会发展不利。

LLMs需要更好的批评

LLMs确实值得批评,我们需要讨论这些问题,找到缓解方法,并帮助人们学习如何负责任地使用这些工具。

以上是对2024年LLMs发展的总结,这一年在LLMs领域发生了很多变化,从技术进步到环境影响,再到社会接受度,LLMs正以前所未有的速度发展和影响着我们的世界。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/949837.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Visual Studio 2022 C++ gRPC 环境搭建

文章目录 1、gRPC 安装2、创建项目2.1、创建 “空的解决方案”2.2、新建 gRPCServer 和 gRPCClient 项目2.3、创建 proto 文件 2、为 gRPC 服务端和客服端项目配置 protobuf 编译2.1、protobuf 配置2.2、gRPCServer 项目配置2.3、gRPCClient 项目配置 3、测试3.1、启动服务端程…

Wasm是什么

WebAssembly 是什么? 1.1 WebAssembly 的定义 WebAssembly(简称 Wasm)是一种二进制指令格式,设计用于在现代 Web 浏览器中高效运行程序。它可以被认为是一种低级的、接近硬件的编程语言,是一种介于字节码和机器码之间…

使用深度学习来实现图像超分辨率 综述!

今天给大家介绍一篇图像超分辨率邻域的综述,这篇综述总结了图像超分辨率领域的几方面:problem settings、数据集、performance metrics、SR方法、特定领域应用以结构组件形式,同时,总结超分方法的优点与限制。讨论了存在的问题和挑…

直播预告|StarRocks 3.4,打造 AI 时代的智能数据基座,应用场景全面扩展

随着新年的到来,StarRocks 3.4 即将上线,为 AI Workload 和更多应用场景提供强大支持!此次升级聚焦于提升 AI 场景支持,并扩展更多应用场景,全方位提升数据分析体验。 更强的 AI 场景支持: 引入 Vector In…

【GOOD】A Survey of Deep Graph Learning under Distribution Shifts

深度图学习在分布偏移下的综述:从图的分布外泛化到自适应 Northwestern University, USA Repository Abstract 图上的分布变化——训练和使用图机器学习模型之间的数据分布差异——在现实世界中普遍存在,并且通常不可避免。这些变化可能会严重恶化模…

【微服务】5、服务保护 Sentinel

Sentinel学习内容概述 Sentinel简介与结构 Sentinel是Spring Cloud Alibaba的组件,由阿里巴巴开源,用于服务流量控制和保护。其内部核心库(客户端)包含限流、熔断等功能,微服务引入该库后只需配置规则。规则配置方式有…

神经网络的进展与挫折

神经网络的概念可追溯到上世纪40年代,当时被认为是一种模拟大脑神经元网络的计算系统。 1940年代,麦卡洛克(McCulloch)和沃尔特皮茨(Walter Pitts)率先提出了受人类大脑和生物神经网络启发的人工神经网络。 1951年,马文明斯基(Marvin Minsky)的SNARC系统标志着第一个…

搭建企业AI助理的创新应用与案例分析

在大健康零售行业,企业面临着日益增长的市场需求和复杂的供应链管理挑战。AI助理的应用不仅能够提升客户服务效率,还能优化供应链管理,降低运营成本。 一、AI助理在大健康零售行业的创新应用 个性化健康咨询 AI助理可以通过分析客户的健康…

一文读懂「LoRA」:大型语言模型的低秩适应

LoRA: Low-Rank Adaptation of Large Language Models 前言 LoRA作为大模型的微调框架十分实用,在LoRA出现以前本人都是通过手动修改参数、优化器或者层数来“炼丹”的,具有极大的盲目性,但是LoRA技术能够快速微调参数,如果LoRA…

接口项目操作图-thinkphp6-rabbitmq

一、用户开户流程 用户首次需要联系商务开通账户,需要提供手机号及来访问的IP。开好户之后,平台方将提供用户访问的key值及header头部参数的公钥加密文件、body访问参数以及返回数据的公私钥加解密文件。 二、用户请求流程 用户将拿到的key值进行rsa公钥…

程序环境及预处理

一.程序的翻译环境和执行环境 在ANSI C(标准c)的任何一种实现中,存在两个不同的环境。 计算机是能够执行二进制指令的,但是我们写出的c语言代码是文本信息,计算机不能直接理解 第1种是翻译环境,在这个环境…

回顾 Tableau 2024 亮点功能,助力 2025 数据分析新突破

2024 年,Tableau 用更智能、更高效的工具,重新定义了数据分析的可能性。 回顾 2024 年,Tableau 凭借一系列创新功能,在数据可视化与分析领域再次引领潮流。无论是深度整合 AI 技术,还是优化用户体验的细节,…

【姿态估计实战】使用OpenCV和Mediapipe构建锻炼跟踪器【附完整源码与详细说明】

《------往期经典推荐------》 一、AI应用软件开发实战专栏【链接】 项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体检测系统开发】5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】7.【…

快速上手Python,制作趣味猜数字游戏

在编程学习的旅程中,游戏是一个极佳的切入点。今天,我们将一起创建一个简单而有趣的猜数字游戏,借此机会深入学习Python编程的基础知识和一些实用的编程技巧。无论你是初学者还是有一定基础的开发者,相信你都能从中获得乐趣和收获…

AI驱动的可演化架构与前端开发效率

1. 引言 在当今快节奏的数字时代,软件系统需要具备强大的适应能力才能在瞬息万变的市场需求中保持竞争力。软件可演化架构的重要性日益凸显,它能够让软件系统在面对需求变更、技术升级以及市场波动时,能够快速、高效地进行调整和升级&#x…

用豆包MarsCode IDE打造精美数据大屏:从零开始的指南

原标题:用豆包MarsCode IDE,从0到1画出精美数据大屏! 豆包MarsCode IDE 是一个云端 AI IDE 平台,通过内置的 AI 编程助手,开箱即用的开发环境,可以帮助开发者更专注于各类项目的开发。 作为一名前端开发工…

基于RK3568/RK3588大车360度环视影像主动安全行车辅助系统解决方案,支持ADAS/DMS

产品设计初衷 HS-P2-2D是一款针对大车盲区开发的360度全景影像 安全行车辅助系统,通过车身四周安装的超广角像机,经算法合成全景鸟瞰图,通过鸟瞰图,司机非常清楚的看清楚车辆四周情况,大大降低盲区引发的交通事故。 产…

pygame飞机大战

飞机大战 1.main类2.配置类3.游戏主类4.游戏资源类5.资源下载6.游戏效果 1.main类 启动游戏。 from MainWindow import MainWindow if __name__ __main__:appMainWindow()app.run()2.配置类 该类主要存放游戏的各种设置参数。 #窗口尺寸 #窗口尺寸 import random import p…

c++ 两线交点计算程序(Program for Point of Intersection of Two Lines)

给定对应于线 AB 的点 A 和 B 以及对应于线 PQ 的点 P 和 Q,找到这些线的交点。这些点在 2D 平面中给出,并带有其 X 和 Y 坐标。示例: 输入:A (1, 1), B (4, 4) C (1, 8), D (2, 4) 输出:给定直线 AB 和…

Taro+react 开发第一节创建 带有redux状态管理的项目

Taro 项目基于 node,请确保已具备较新的 node 环境(>16.20.0),推荐使用 node 版本管理工具 nvm 来管理 node,这样不仅可以很方便地切换 node 版本,而且全局安装时候也不用加 sudo 了。 1.安装 npm inf…