文献阅读 250125-Accurate predictions on small data with a tabular foundation model

Accurate predictions on small data with a tabular foundation model

Accurate predictions on small data with a tabular foundation model | Nature

使用一种基于表格的模型来对小型数据实现准确预测

## Abstract:

基于其他列来填充标签列中缺失值的基本预测任务对于各种应用至关重要。

## Main:

然而,这些传统的机器学习模型有几个缺点。未经重大修改,它们在分布外的预测表现较差,并且难以将知识从一个数据集转移到另一个数据集。最后,由于它们不传播梯度,因此很难与神经网络结合使用

这种新的监督式表格学习方法可以应用于任何小型到中等规模的数据集,并且在样本数量最多为 10,000 个和特征数量最多为 500 个的数据集中表现出色。

## Result:

## Methods:

## 表格的结构设计

## 基于因果模型合成数据

TabPFN 的性能依赖于生成合适的合成训练数据集,这些数据集能够捕捉真实世界表格数据的特征和挑战。为了生成这样的数据集,我们开发了一种基于结构因果模型(SCMs)的方法。SCMs 提供了一个正式的框架,用于表示数据背后的因果关系和生成过程

  • 生成流程首先采样高级超参数,例如数据集大小、特征数量和难度级别,以控制每个合成数据集的整体属性。
  • 基于这些超参数,我们构建一个结构因果模型,该模型编码生成数据集的计算函数。每个节点包含一个向量,计算图中的每条边根据连接类型实现一个函数。
  • 在第一步中,使用随机噪声变量生成初始化数据,并将其输入到图的根节点中,然后通过计算图传播以生成每个样本
  • 在第二步中,我们在图中随机采样特征和目标节点的位置,分别标记为F和T
  • 在第三步中,我们提取在采样的特征和目标节点位置处的中间数据表示。
  • 在第四步中,我们对提取的数据进行后处理。
  • 我们检索最终的数据集。
  • 我们绘制特征对之间的交互图,节点颜色表示样本的类别。
  • 首先,由于transformer是为序列设计的,它们将输入数据视为单个序列,而不是利用表格结构。
  • 其次,机器学习模型通常用于拟合-预测模型中,在这种模型中,模型仅在训练集上拟合一次,然后重复用于多个测试数据集。
  • 然而,基于transformer的ICL算法在一个步骤中接收训练和测试数据,因此同时执行训练和预测。因此,当重新使用已拟合的模型时,它必须重新计算训练集上的计算
  • transformer架构是灵活的深度学习和基础模型的首选架构。使用所谓的注意力机制在序列项之间结合信息,从而使它们能够有效地捕捉长程依赖性并学习数据中的复杂关系
  • TabPFN解决了其中两个关键限制。
  • 数据生成: 定义了一个生成过程(称为我们的先验),用于合成具有不同特征与目标变量关系的多样化表格数据集,旨在捕捉模型可能遇到的各种潜在情景。定义了一个生成过程(称为我们的先验),用于合成具有不同特征与目标变量关系的多样化表格数据集,旨在捕捉模型可能遇到的各种潜在情景。
  • 预训练:我们训练一个变换器模型,即我们的 PFN,来预测所有合成数据集中被掩盖的目标值,输入特征和未掩盖的样本作为上下文提供给模型。此步骤仅在模型开发期间执行一次,学习一个通用的学习算法,以便预测任何数据集。
  • 真实世界预测:经过训练的模型现在可以应用于任意未见过的真实世界数据集。训练样本作为上下文提供给模型,模型通过 ICL(in-context learning,即上下文学习)预测这些未见数据集的标签。
  • TabPFN 利用上下文学习(ICL,这是导致大型语言模型表现出惊人性能的相同机制,生成了一种完全学习的强大表格预测算法。尽管 ICL 最初是在大型语言模型中观察到的,但最近的研究表明,通过 ICL,转换器可以学习诸如逻辑回归等简单算法。先验数据拟合网络(PFNs)表明,即使是复杂的算法,如高斯过程和贝叶斯神经网络,也可以通过 ICL 进行近似。ICL 使我们能够学习更广泛的可能算法空间,包括那些不存在封闭形式解的情况。
  •  TabPFN 的核心思想是生成大量的合成表格数据集,然后训练基于 transformer 的神经网络来学习解决这些合成预测任务。这种方法利用了 ICL 作为基于示例的声明式编程框架,用于算法的设计。
  • ICL方法与标准的监督深度学习有着根本性的区别。通常,模型是根据数据集进行训练,在单个样本或批次上根据手工设计的权重更新算法(如Adam24)更新模型参数。在推理时,学习到的模型被应用于测试样本。相比之下,我们的方法是在多个数据集上进行训练,并且在推理时应用于整个数据集,而不是单个样本。在应用于实际数据集之前,模型会在数百万个代表不同预测任务的合成数据集上进行一次预训练。在推理时,模型接收一个包含标注训练样本和未标注测试样本的未见过的数据集,并在一个单一的神经网络前向传递中对这个数据集进行训练和预测。
  • 引入了 TabPFN,这是一种针对小型到中型表格数据的基础模型。
  • 在人工智能的历史上,手动创建的算法组件已经被性能更好的端到端学习组件所取代。在计算机视觉中,如SIFT(尺度不变特征变换)和HOG(方向梯度直方图)等手工设计的特征已被学习到的卷积所取代。在自然语言处理中,基于语法的方法已被学习到的转换器所取代。在游戏中使用的定制开局和终局库的设计已被端到端学习策略所取代。在这里,我们将这种端到端学习扩展到无处不在的表格数据领域。
  • 表格数据的多样性使它们与未处理的文本和图像等模态区分开来。例如,在语言模型中,一个词的意义在不同文档中是一致的,而在表格数据集中,相同的值可能意味着完全不同的东西。这种专业化导致了大量较小的、独立的数据集和相关模型的激增。举例来说,在流行的表格基准测试网站 openml.org 上,截至撰写时,76% 的数据集包含不到 10,000 行。
  •  深度学习方法在处理表格数据时传统上一直面临困难,因为数据集之间以及原始数据本身的异质性:表格包含各种尺度和类型的列,也称为特征(布尔型、分类型、有序型、整型、浮点型),还有不平衡或缺失的数据、不重要的特征、异常值等。这使得非深度学习方法,如基于树的模型,成为迄今为止最强有力的竞争者
  • 在2.8秒内,TabPFN在一个分类设置中超越了一个经过4小时调优的强大基线组合。
  • 作为一种生成式变换器基础模型,该模型还允许微调、数据生成、密度估计和学习可重用嵌入。
  • TabPFN是一种通过在数百万个合成数据集上学习而来的学习算法,展示了这种方法在算法开发中的强大能力。
  • 通过提高不同领域的建模能力,TabPFN有潜力加速科学发现并在各个领域中增强重要决策。
  • 尽管深度学习已经革新了从原始数据中的学习,并带来了众多高调的成功案例,但在过去的20年里,梯度提升决策树在表格数据领域占据主导地位
  • 在这里,我们介绍了表格先验拟合网络(TabPFN),这是一种表格基础模型,它在多达10,000个样本的数据集上显著优于所有先前的方法,并且训练时间大大减少。
  • 表格数据,即按行列组织的电子表格,在从生物医学到粒子物理、经济学和气候科学等各个科学领域中无处不在。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/959865.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

shiro学习五:使用springboot整合shiro。在前面学习四的基础上,增加shiro的缓存机制,源码讲解:认证缓存、授权缓存。

文章目录 前言1. 直接上代码最后在讲解1.1 新增的pom依赖1.2 RedisCache.java1.3 RedisCacheManager.java1.4 jwt的三个类1.5 ShiroConfig.java新增Bean 2. 源码讲解。2.1 shiro 缓存的代码流程。2.2 缓存流程2.2.1 认证和授权简述2.2.2 AuthenticatingRealm.getAuthentication…

【QT】 控件 -- 显示类

🔥 目录 [TOC]( 🔥 目录) 1. 前言 2. 显示类控件2.1 Label 1、显示不同文本2、显示图片3、文本对齐、自动换行、缩进、边距4、设置伙伴 3.2 LCD Number 3.3 ProgressBar 3.4 Calendar Widget 3. 共勉 🔥 1. 前言 之前我在上一篇文章【QT】…

location的使用规则

1、基于URL的location 负责均衡配置 后端集群中的web服务器,必须要有对应的目录和文件才能被访问到 http {include mime.types;default_type application/octet-stream;sendfile on;keepalive_timeout 65;upstream default_pool {server 10.0.0.7:…

如何制作浪漫风格的壁纸

制作浪漫风格的壁纸需要营造出温馨、柔和、梦幻的氛围,通过色彩、元素和构图来传达浪漫的情感。以下是一个详细的步骤指南,帮助你制作浪漫风格的壁纸: 一、明确设计目标 确定用途: 个人使用:如果是为了个人设备&#…

SpringBoot支持动态更新配置文件参数

前言 博主介绍:✌目前全网粉丝3W,csdn博客专家、Java领域优质创作者,博客之星、阿里云平台优质作者、专注于Java后端技术领域。 涵盖技术内容:Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。 博主所有博客文件…

题海拾贝:P2085 最小函数值

Hello大家好&#xff01;很高兴我们又见面啦&#xff01;给生活添点passion&#xff0c;开始今天的编程之路&#xff01; 我的博客&#xff1a;<但凡. 我的专栏&#xff1a;《编程之路》、《数据结构与算法之美》、《题海拾贝》 欢迎点赞&#xff0c;关注&#xff01; 1、题…

企业微信SCRM开创客户管理新纪元推动私域流量高效转化

内容概要 在当今瞬息万变的数字化时代&#xff0c;企业面临着前所未有的客户管理挑战。消费者的需求日益多样化&#xff0c;他们希望能够随时随地与品牌沟通。因此&#xff0c;越来越多的企业意识到&#xff0c;传统的客户管理方式已无法满足市场的需求。在这样的背景下&#…

电子应用设计方案104:智能家庭AI弹簧床系统设计

智能家庭 AI 弹簧床系统设计 一、引言 智能家庭 AI 弹簧床系统旨在为用户提供更加舒适、个性化的睡眠体验&#xff0c;通过结合人工智能技术和先进的床垫设计&#xff0c;实时监测和调整睡眠环境&#xff0c;以满足不同用户的需求。 二、系统概述 1. 系统目标 - 自动适应用户…

【25考研】人大计算机考研复试该怎么准备?有哪些注意事项?

人大毕竟是老牌985&#xff0c;复试难度不会太低&#xff01;建议同学认真复习&#xff01;没有机试还是轻松一些的&#xff01; 一、复试内容 由公告可见&#xff0c;复试包含笔试及面试&#xff0c;没有机试&#xff01; 二、参考书目 官方无给出参考书目&#xff0c;可参照…

随着监测技术的不断升级,将为智能决策提供强大的数据支持和智能帮助的智慧能源开源了

简介 AI视频监控平台, 是一款功能强大且简单易用的实时算法视频监控系统。愿景在最底层打通各大芯片厂商相互间的壁垒&#xff0c;省去繁琐重复的适配流程&#xff0c;实现芯片、算法、应用的全流程组合&#xff0c;减少企业级应用约 95%的开发成本&#xff0c;用户仅需在界面上…

vim如何设置自动缩进

:set autoindent 设置自动缩进 :set noautoindent 取消自动缩进 &#xff08;vim如何使设置自动缩进永久生效&#xff1a;vim如何使相关设置永久生效-CSDN博客&#xff09;

字节跳动发布UI-TARS,超越GPT-4o和Claude,能接管电脑完成复杂任务

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

使用eNSP配置GRE VPN实验

实验拓扑 实验需求 1.按照图示配置IP地址 2.在R1和R3上配置默认路由使公网区域互通 3.在R1和R3上配置GRE VPN&#xff0c;使两端私网能够互相访问&#xff0c;Tunne1口IP地址如图 4.在R1和R3上配置RIPv2来传递两端私网路由 实验步骤 GRE VPN配置方法&#xff1a; 发送端&#x…

机器学习-线性回归(对于f(x;w)=w^Tx+b理解)

一、&#x1d453;(&#x1d499;;&#x1d498;) &#x1d498;T&#x1d499;的推导 学习线性回归&#xff0c;我们那先要对于线性回归的表达公示&#xff0c;有所认识。 我们先假设空间是一组参数化的线性函数&#xff1a; 其中权重向量&#x1d498; ∈ R&#x1d437; …

Swing使用MVC模型架构

什么是MVC模式? MVC是一组英文的缩写,其全名是Model-View-Controller,也就是“模型-视图-控制器”这三个部分组成。这三个部分任意一个部分发生变化都会引起另外两个发生变化。三者之间的关系示意图如下所示: MVC分为三个部分,所以在MVC模型中将按照此三部分分成三…

Windows 环境下 Docker Desktop + Kubernetes 部署项目指南

Windows 环境下 Docker Desktop Kubernetes 部署项目指南 一、环境准备二、安装与配置 Kubernetes安装 windows 版的 docker启动 kubernetes安装 windows 版的 kubectl 工具下载 k8s-for-docker-desktop启动 Kubernetes Dashboard 二、在 Kubernetes 上部署项目创建一个 demo …

redis实现lamp架构缓存

redis服务器环境下mysql实现lamp架构缓存 ip角色环境192.168.242.49缓存服务器Redis2.2.7192.168.242.50mysql服务器mysql192.168.242.51web端php ***默认已安装好redis&#xff0c;mysql 三台服务器时间同步&#xff08;非常重要&#xff09; # 下载ntpdate yum -y install…

【Excel】【VBA】Reaction超限点筛选与散点图可视化

【Excel】【VBA】Reaction超限点筛选与散点图可视化 功能概述 这段代码实现了以下功能&#xff1a; 从SAFE输出的结果worksheet通过datalink获取更新数据从指定工作表中读取数据检测超过阈值的数据点生成结果表格并添加格式化创建可视化散点图显示执行时间 流程图 #mermaid-…

Java导出通过Word模板导出docx文件并通过QQ邮箱发送

一、创建Word模板 {{company}}{{Date}}服务器运行情况报告一、服务器&#xff1a;总告警次数&#xff1a;{{ServerTotal}} 服务器IP:{{IPA}}&#xff0c;总共告警次数:{{ServerATotal}} 服务器IP:{{IPB}}&#xff0c;总共告警次数:{{ServerBTotal}} 服务器IP:{{IPC}}&#x…

智能化加速标准和协议的更新并推动验证IP(VIP)在芯片设计中的更广泛应用

作者&#xff1a;Karthik Gopal, SmartDV Technologies亚洲区总经理 智权半导体科技&#xff08;厦门&#xff09;有限公司总经理 随着AI技术向边缘和端侧设备广泛渗透&#xff0c;芯片设计师不仅需要考虑在其设计中引入加速器&#xff0c;也在考虑采用速度更快和带宽更高的总…