切忌 SELECT *,就算表只有一列

原文地址

尽量避免 SELECT *,即使在单列表上也是如此 – 如果你现在不同意这一点,读完这篇文章,你可能就要动摇了。

2012年的一个故事

这是我 12 年前(约 2012-2013 年)在客户后台应用程序中遇到的一个真实故事。

当时,后端 API 一直稳定运行,速度仅为个位数毫秒。但突然有一天,应用程序变得非常迟钝。

我们检查了提交,没发现明显的问题,大部分改动都是良性的。即使恢复了所有提交(有人会懂,作这样无意义的尝试,就说明走投无路了),程序仍然很慢,API 响应时间从原先的几毫秒暴增到 500 毫秒至 2 秒不等。

鉴于后台没有导致速度变慢的变更,我们检查了数据库查询,发现 3 个具有超大文件的 blob 字段,它们表上的 SELECT * 正在返回到后台应用程序。

原来,这个表只有两个整数列,API 运行 SELECT * 来返回并使用这两个字段。但后来管理员添加了三个 blob 字段,由另一个应用程序使用和填充。这些 blob 字段没有返回给客户端,后端 API 却需要拉取其他应用程序填充的额外字段,造成数据库、网络和协议序列化开销。

数据库读取如何进行

在行存储数据库引擎中,行以「页面」为单位存储。每页有一个固定的页眉,包含多条记录;每条记录有一个记录页眉,后面跟着各自的列。例如 PostgreSQL 中的示例:

在这里插入图片描述

当数据库获取一个页面并将其放入共享缓冲池,我们就可以访问该页面中的所有行和列。如果内存中所有列都是现成的,那么 SELECT * 真的又慢又费钱吗?如果是,为什么会这样?以下将展开探讨这些问题。

跟仅索引扫描说拜拜

使用 SELECT * 意味着数据库优化器不能选择只扫描索引。

例如,假设需要 90 分以上学生的 ID,而成绩列上有一个索引包含作为非键的学生 ID,这个索引就非常适合查询。

但是由于需要所有字段,数据库需要访问堆数据页来获取剩余字段,从而增加了随机读取次数,进而增加 I/O。相对地,不使用 SELECT *,数据库只需扫描成绩索引并返回 ID 即可。

反序列化成本

反序列化或解码是将原始字节转换为数据类型。这包括获取字节序列(通常来自文件、网络通信等),并将其转换回结构化更强的数据格式,如编程语言中的对象或变量。

执行 SELECT * 查询时,数据库需要反序列化所有列,即使是特定使用情况下可能不需要的列。这会增加计算开销,降低查询性能。只选择必要的列,可以降低反序列化成本,提高查询效率。

并非所有列都是内联的

SELECT * 查询的一个重要问题是,并非所有列都存储在页面内。文本或 blob 等大型列可能存储在外部表中,只有请求时才会检索(例如 Postgres TOAST 表)。这些列通常都经过压缩,因此在执行包含大量文本字段、几何数据或 blob 的 SELECT * 查询时,会给数据库带来额外负担,即从外部表中获取值、解压缩并将结果返回给客户端。

网络成本

将查询结果发送到客户端前,必须根据数据库支持的通信协议对其序列化。需要序列化的数据越多,CPU 工作量越大。字节被序列化后通过 TCP/IP 传输,需要发送的段越多,传输成本越高,最终会影响网络延迟。

返回所有列可能需要反序列化字符串或 blob 等大列,即使客户可能永远不会使用这些列。

客户端反序列化

客户端收到原始字节后,应用程序必须将数据反序列化为客户端使用的任何语言,增加了整体处理时间。管道中的数据越多,这一过程就越慢。

不可预测性

即使只有一个字段,在客户端使用 SELECT * 也会带来不可预测性。

例如,对于含一到两个字段的表,程序会执行 SELECT * 快速处理两个整数字段;但是一旦添加 XML、JSON、blob 等新字段,它们就会被其他应用程序填充和使用。代码没有变化,但速度会突然变慢,因为现在程序要处理所有额外的字段。

代码搜索

显式 SELECT 的另一个优点是,可以在代码库中搜索正在使用的列,以防要重命名或删除某个列。这使得数据库 schema 变更(DDL)更加容易。

总结

总之,SELECT * 查询涉及许多复杂的过程,最好只选择需要的字段,以避免无谓的开销。如果表中的列很少,数据类型简单,SELECT * 查询的开销也许可以忽略不计;但一般来说,在查询中选择性地检索列是一种更好的做法。


💡 更多资讯,请关注 Bytebase 公号:Bytebase

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/950080.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

了解RabbitMQ中的Exchange:深入解析与实践应用

在分布式系统设计中,消息队列(Message Queue)扮演着至关重要的角色,而RabbitMQ作为开源消息代理软件的佼佼者,以其高性能、高可用性和丰富的功能特性,成为了众多开发者的首选。在RabbitMQ的核心组件中&…

【linux系统之redis6】redis的基础命令使用及springboot连接redis

redis的基础命令很多,大部分我们都可以在官网上找到,真的用的时候可以去官网找,不用全部记住这些命令 redis通用的基础命令的使用 代码测试 string类型常见的命令 key值的结构,可以区分不同的需求不同的业务名字 hash类型 创建…

基于FPGA的交通信号灯实现 (verilog极简实现)

本文分享利用FPGA实现的交通信号灯,FPGA型号为野火征途Pro开发板,具体功能如下: 此项目旨在模拟东西和南北两路口交通信号灯,初始态两路口均为红灯亮,接着,东西路口绿灯亮,南北路口红灯亮&…

在K8S上部署OceanBase的最佳实践

在K8S上部署OceanBase的最佳实践 目录 1. 背景与选型 1.1 为什么选择OB1.2 为什么选择ob-operator实现OB on K8S 2. 部署实操 2.1 环境准备2.2 安装 ob-operator2.3 配置 OB 集群2.4 配置 OBProxy 集群2.5 Headless Service 和 CoreDNS 配置2.6 监控与运维 2.6.1 Promethues部…

unity开发之shader 管道介质流动特效

效果 shader graph 如果出现下面的效果,那是因为你模型的问题,建模做贴图的时候没有设置好UV映射,只需重新设置下映射即可

【JavaWeb】2. 通用基础代码

以下内容来源:编程导航。 无论在任何后端项目中,都可以复用的代码。 1、自定义异常 自定义错误码,对错误进行收敛,便于前端统一处理。 💡 这里有 2 个小技巧: 自定义错误码时,建议跟主流的错…

Excel 技巧04 - 如何计算两个时间之差 (★)

本文讲了如何通过Excel计算两个时间的时间差。 1,计算两个时间的时间差 比如 5:50 ~ 19:40 a),用公式 相减 这样默认算出来的是机械的时间加减,即它们之间相差了 13小时50分钟 b),…

win下搭建elk并集成springboot

一、ELK 是什么? ELK 实际上是三个工具的集合,Elasticsearch Logstash Kibana,这三个工具组合形成了一套实用、易用的监控架构,很多公司利用它来搭建可视化的海量日志分析平台。 ElasticSearch ElasticSearch 是一个基于 Lucen…

JUC--线程池

线程池 七、线程池7.1线程池的概述7.2线程池的构建与参数ThreadPoolExecutor 的构造方法核心参数线程池的工作原理 Executors构造方法newFixedThreadPoolnewCachedThreadPoolnewSingleThreadExecutornewScheduledThreadPool(int corePoolSize) 为什么不推荐使用内置线程池&…

Java到底是值传递还是引用传递????

在搞懂这个问题之前, 我们要首先了解什么是值传递, 什么是引用传递? 值传递: 传递的是数据的副本,修改副本不会影响原始数据。引用传递: 传递的是数据的引用(地址),修改引用会直接影响原始数据. 也就是说,值传递和引…

屏幕显示技术再突破!海信RGB- Mini LED,让色彩“活”起来

文 | 智能相对论 作者 | 佘凯文 在今天,屏幕显示技术的日新月异,让每次技术革新都引领行业迈向新的高度。 从黑白到彩色,从标清到高清,再到超高清,回顾曾经彩电显示的技术升级,不仅都极大地提升了观众的…

豆包ai 生成动态tree 增、删、改以及上移下移 html+jquery

[豆包ai 生成动态tree 增、删、改以及上移下移 htmljquery) 人工Ai 编程 推荐一Kimi https://kimi.moonshot.cn/ 推荐二 豆包https://www.doubao.com/ 实现效果图 html 代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF…

基于SMT32U575RIT单片机-中断练习

任务 查看手册对所有的拓展板上和相对应的底板的引脚对应的端口找到以下结论 通过STM32MX软件对各个引脚进行相应的配置 1.第一种切换模式电脑发送 #include "main.h" #include "icache.h" #include "usart.h" #include "gpio.h"/*…

HNU人工智能期末复习知识点整理

考纲 选择题 ( 30 分 ) (30分) (30分)&#xff1a; 15 15 15个单选 选择题范围为 PPT 内容&#xff0b;课本内容 计算、简答、推理题 ( 70 分 ) (70分) (70分)&#xff1a; 4 4 4个大题&#xff0c;每个大题 2 ∼ 3 2 \sim 3 2∼3小问 4 4 4个大题分别为&#xff1a;机器学习、…

设计DCDC的 Layout的秘诀

很多DCDC芯片的手册都有对应的PCB Layout设计要求&#xff0c;有些还会提供一些Layout示意图&#xff0c;都是大同小异的。 比如我随便列几点buck的设计要点&#xff1a; 1、输入电容器和二极管在与IC相同的面&#xff0c;尽可能在IC最近处。 2、电感靠近芯片的SW&#xff0c;输…

自动驾驶控制与规划——Project 6: A* Route Planning

目录 零、任务介绍一、算法原理1.1 A* Algorithm1.2 启发函数 二、代码实现三、结果分析四、效果展示4.1 Dijkstra距离4.2 Manhatten距离4.3 欧几里德距离4.4 对角距离 五、后记 零、任务介绍 carla-ros-bridge/src/ros-bridge/carla_shenlan_projects/carla_shenlan_a_star_p…

单纯形法的学习笔记

文章目录 A. 单纯形法概述1. 优化模型示例 B. 理论基础C. 算法思想D. 实现算法1. 线性规划的标准型2. 顶点解的理解及表示2.1 在标准型中变量取值为零的意义2.2 顶点解的表示 3. 最优性判断4. 解的更新5. 完成迭代过程 E. 单纯形法的基本概念与本文对照F. 文档源码 前言&#x…

ArmSoM RK3588/RK3576核心板,开发板网络设置

ArmSoM系列产品都搭配了以太网口或WIFI模块&#xff0c;PCIE转以太网模块、 USB转以太网模块等&#xff0c;这样我们的网络需求就不止是上网这么简单了&#xff0c;可以衍生出多种不同的玩法。 1. 网络连接​ 连接互联网或者组成局域网都需要满足一个前提–设备需要获取到ip&a…

[Linux]线程概念与控制

目录 一、线程概念 1.什么是线程 2.线程的轻量化 3.LWP字段 4.局部性原理 5.线程的优缺点 6.进程VS线程 二、线程的控制 1.线程创建 2.获取线程id 3.线程退出与等待 4.创建轻量级进程 三、线程的管理 1.pthread库管理线程 2.线程局部存储 四、C线程库 1.构造函…

cmake--库链接--RPATH--RUNPATH

RPATH--RUNPATH RPATH 是一种嵌入到二进制文件(可执行文件/库文件)中的路径信息&#xff0c;也就是存在于可执行文件或者库文件中的&#xff0c; 用RPATH(旧)或者RUNPATH(新)参数记录的路径信息&#xff0c; 指示动态链接器在运行时查找共享库的位置。 查看二进制文件的RPATH或…