Python番外篇之代码编译与字节码

引言

关于字节码,不太想讲,不影响实际使用,对新手不友好……
但是,涉及到新手经常碰到的问题的解惑,似乎又不得不讲。
最终,还是打算以番外篇的形式,稍微提一下。
不过,关于字节码的内容,我觉得在脑海里有以下几个观念,应该就够了,至于字节码的细节,能了解最好,实在不了解也不影响使用:

  • 1、Python中一切皆对象
  • 2、对象分为可变对象和不可变对象
  • 3、区分重新赋值操作,还是对象本身发生变化
  • 4、新手困惑的不可变对象的所谓的“对象修改”操作,一定是重新赋值操作,通过观察id()前后的变化,即可
  • 5、看似简单的一行代码一般都不是一步完成,而所谓字节码指令是能看到Python一行代码背后的实现步骤

生成字节码

Python解释器为了加速执行的速度,避免从Python源代码到字节码的重复编译工作。通常来说,Python会在模块首次导入时,执行对该模块的编译工作,并保存编译结果到对应的.pyc文件中。
所以,如果没有作为模块进行到如,只是执行一个普通的脚本,是不会涉及到.pyc文件的生成的,因为Python解释器判定没有涉及模块复用,没有必要执行该项操作。

当然,除了通过import导入模块的方式,会自动生成该模块对应的.pyc文件外,我们还有其他方式,来更加灵活地控制生成.pyc文件,从而实现没有定义为模块的普通代码,也可以生成.pyc文件。

.pyc文件,一般会存储在源代码文件所在目录中的__pycache__目录中。
.pyc文件的命名,一般是:

{源代码文件名}.{Python解释器类型}_{Python版本号}.pyc

以下简单列举,除了import导入模块之外,两种生成.pyc文件的方法:

通过Python代码:

可以在代码中通过内建的模块py_compile/compileall来生成.pyc文件
比如,通过py_compile生成指定Python脚本对应的字节码文件

import py_compile

py_compile.compile('./faker_test.py')

会发现脚本所在目录中多了一个__pycache__目录,目录中多了一个名为:faker_test.cpython-311.pyc的字节码文件。
根据实际环境的Python版本,文件名后面部分可能会有些差异。

通过compileall生成指定源码目录中所有源码脚本对应的.pyc文件:

import compileall

compileall.compile_dir('./')

脚本执行完成,会对当前目录中的所有Python脚本文件,生成其对应的.pyc文件。

通过Python -m 命令

也可以通过命令的形式,进行.pyc文件的生成,如同通过Python代码的方式,也可以指定单个文件,或者指定目录:

# 生成单个脚本文件的.pyc文件
python3 -m py_compile faker_test.py
# 生成当前目录中所有脚本文件对应的.pyc文件
python3 -m compileall ./

查看字节码

关于字节码文件的结构,这里简单描述一下。
需要说明的是,Python字节码文件中,除了包含源代码对应的字节码指令、对象外,还涉及到一些元数据信息,通常作为文件头存储,主要有以下信息,不同的Python版本可能会有差异。

文件头

文件头的元数据部分,共计16个字节,主要内容有:

  • 魔数(magic number):用于标识当前的Python版本和字节码的格式,占用4个字节;
  • 空字节padding:占用4个字节,当前默认均为0;
  • 源代码最后更新时间戳:占用4个字节;
  • 源代码文件的大小:占用4个字节,单位为byte
字节码

16字节的文件头元数据之后,就是字节码的主体部分了。主要的内容有:

  • co_code:字节码指令序列,每个指令都由操作码(opcode)和操作数(operand)组成;
  • co_consts:常量元组,包含代码中所有使用到的常量,整数、字符串、元组等;
  • co_names:名称元组,包含代码中使用的所有变量名、函数名等;
  • co_filename:源代码的文件名;
  • co_name:code对象的名称,通常是函数或者模块名;
  • co_firstlineno:代码对象的第一行行号,通常从1开始;
  • co_lnotab:代码行号表,用于将字节码偏移量映射到源代码中的行号

还有其他部分,就不再展开了。
下面通过代码实例,查看一个真实的.pyc文件的结构及相关内容:
首先是用于生成.pyc文件的代码示例,名为code_test.py

a = 10
b = 5
c = a + b


def my_sum(n1, n2):
    return n1 + n2

我们通过执行命令生成对应的.pyc文件:

 python3 -m compileall ./code_test.py

接下来,通过代码查看.pyc文件的内容,这部分代码可以不看,只看执行的输出结果,验证我们上面关于字节码文件结构的描述即可。

import dis
import marshal
import struct
import time
from rich import inspect

fp = open('./__pycache__/code_test.cpython-311.pyc', 'rb')
# 以下读取并输出文件头的元数据
# magic code
print(f"magic code: {struct.unpack('<l', fp.read(4))[0]}")
# padding
print(f"padding: {struct.unpack('<l', fp.read(4))[0]}")
# 源码最后更新时间
t = struct.unpack('<l', fp.read(4))[0]
print(f"last modified time: {time.asctime(time.localtime(t))}")
# 源码文件大小
print(f"file size: {struct.unpack('<l', fp.read(4))[0]} Bytes")
# 构造字节码code对象
code_obj = marshal.load(fp)
# 查看字节码对象类型
print(f"type: {type(code_obj)}")
# 通过前面介绍的rich的inspect()进行code对象的检视:
inspect(code_obj)
# 查看字节码指令序列
dis.dis(code_obj)

首先看文件头部分代码的输出:


前面4行,分别输出了4个字节的元数据内容,共计16个字节;
最后一行,为输出的code对象的类型。
对照笔者系统中的文件属性:

接下来是我们重点需要了解的字节码对象部分,这里我们使用了之前介绍过的rich模块中的inspect()函数,用于更加直观的查看该对象的结构:

最后,是我们后续查看代码执行的细节的字节码指令序列,这里我们通过内置的dis模块,来进行反编译查看:

简单说明一下字节码指令序列的输出:

  • 第一列:源代码中的行号
  • 第二列:字节码指令序列中的偏移,可以看出每个字节码指令长度都是两个字节
  • 第三列:字节码操作符,如LOAD_CONST、STORE_NAME等
  • 第四列:字节码操作数,0、1等分别为操作数在co_const或者co_names元组中的索引,()中的部分为该操作数的真实内容

我们后续的重点,主要是查看Python代码被编译为的字节码指令的查看。感兴趣的可以自行研究。

总结

其实,在真实场景中,我们需要用到字节码的地方比较少。更多的场景可能反而是在新手学习Python的过程中,遇到不理解的代码运行结果,通过查看字节码指令序列,从而更清晰地理解其中的细节。
字节码本身并不复杂,甚至关于字节码的格式、字节码指令,在不同的编程语言虚拟机中的定义,也都是大同小异的,比如Java字节码和Python字节码。关于虚拟机的实现、内存管理机制,也都是基于比较通用的垃圾回收算法的不同实现而已。
对字节码感兴趣的,可以查找更多的官网相关资料,进行进一步的研究。
说明:关于本文代码中用到的dis模块、marshal模块、struct模块、time模块等,也可以通过help()查看使用文档,或者直接查看对应的模块定义。本文的重点在于字节码文件的描述,所以就没有就这些模块的使用展开讲述,后续如果有使用的场景,再另行展开。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/771209.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

RabbitMQ入门教程(精细版二带图)

目录 六 RabbitMQ工作模式 6.1Hello World简单模式 6.1.1 什么是简单模式 6.1.2 RabbitMQ管理界面操作 6.1.3 生产者代码 6.1.4 消费者代码 6.2 Work queues工作队列模式 6.2.1 什么是工作队列模式 6.2.2 RabbitMQ管理界面操作 6.2.3 生产者代码 6.2.4 消费者代码 …

RAID详解

一、RAID存储是什么&#xff1f; RAID 存储&#xff08;Redundant Arrays of Independent Disks&#xff0c;独立磁盘冗余阵列&#xff09;是一种通过将多个独立的物理磁盘组合在一起&#xff0c;以实现更高的存储性能、数据可靠性和容错能力的技术。其主要目的是解决单个磁盘…

tapd 与国内外主流的8大项目管理软件大对比

对比Tapd与8大项目管理工具&#xff1a;PingCode、Worktile、Redmine、Teambition、广联达、Jira、禅道、飞书。 Tapd 是腾讯推出的一款敏捷开发管理工具&#xff0c;特别适合那些需要高效协作和快速迭代的敏捷开发团队。它支持多种敏捷方法论&#xff0c;包括Scrum和Kanban&am…

liunx文件系统,日志分析

文章目录 1.inode与block1.1 inode与block概述1.2 inode的内容1.3 文件存储1.4 inode的大小1.5 inode的特殊作用 2.硬链接与软链接2.1链接文件分类 3.恢复误删除的文件3.1 案例:恢复EXT类型的文件3.2 案例:恢复XFS类型的文件3.2.1 xfsdump使用限制 4.分析日志文件4.1日志文件4.…

Android10以上实现获取设备序列号功能

Android10以上实现获取设备唯一标识&#xff0c;目前只支持华为和荣耀设备。实现原理&#xff1a;通过无障碍服务读取序列号界面。 public class DeviceHelper implements Application.ActivityLifecycleCallbacks {static final String TAG "WADQ_DeviceHelper";s…

无人机智能追踪反制系统技术详解

随着无人机技术的飞速发展&#xff0c;无人机在各个领域的应用越来越广泛。然而&#xff0c;无人机的无序飞行和非法使用也带来了一系列安全隐患和威胁。因此&#xff0c;无人机智能追踪反制系统应运而生&#xff0c;成为维护公共安全和防止无人机滥用的重要工具。本文将详细介…

SPI四种模式--极性与相位

SPI的四种模式&#xff1a;相位和极性 极性 定义时钟空闲状态&#xff1a; CPOL0&#xff1a;时钟线在空闲状态为低电平 CPOL1&#xff1a;时钟线在空闲状态为高电平 这个设置决定了设备不进行通信时时钟线的状态。 兼容性&#xff1a; 不同的SPI设备可能需要不同的时钟极性…

Spring Boot 的机场投诉管理平台-计算机毕业设计源码22030

摘要 随着航空运输业的迅速发展&#xff0c;机场的客流量不断增加&#xff0c;旅客对机场服务的质量和效率也提出了更高的要求。为了提高机场的服务质量&#xff0c;及时处理旅客的投诉&#xff0c;建立一个高效、便捷的机场投诉管理平台显得尤为重要。 本项目旨在设计与实现一…

飞利浦的台灯值得入手吗?书客、松下多维度横评大分享!

随着生活品质的持续提升&#xff0c;人们对于健康的追求日益趋向精致与高端化。在这一潮流的推动下&#xff0c;护眼台灯以其卓越的护眼功效与便捷的操作体验&#xff0c;迅速在家电领域崭露头角&#xff0c;更成为了众多家庭书房中不可或缺的视力守护者。这些台灯以其精心设计…

AIGC对设计师积极性的影响

随着科技的迅猛发展&#xff0c;生成式人工智能&#xff08;AIGC&#xff09;工具正逐渐深入设计的每个角落&#xff0c;对设计师的工作方式和思维模式产生了深远的影响。AIGC不仅极大提升了设计师的工作效率&#xff0c;更激发了他们的创新思维&#xff0c;为设计行业带来了翻…

java 基础之 反射技术_java 程序src阶段 class对象阶段 run阶段3个阶段

System.out.println(in); } publicClass[] aa1(String name, int[] password){ returnnew Class[]{String.class} ; } privatestatic void aa1(int num){ System.out.println(num“静态方法”); } public static void main(String[] args){ System.out.println(“main”…

MySQL单表千万级数据查询优化大家怎么说(评论有亮点)

题图来自APOD 上次写了一篇MySQL优化实战的文章“MySQL千万级数据从190秒优化到1秒全过程”。 这篇文章主要还是在实战MySQL优化&#xff0c;所以从造数据到查询SQL优化SQL都没有业务或者其它依赖&#xff0c;优化的技巧也不涉及软件架构就是纯SQL优化。 由于笔者经验有限和…

mysql:部署MySQL 8.0 环境

mysql网址&#xff1a;MySQL 点击 MySQL Community Server 选择合适的版本 选择8.0版本 下载完成&#xff0c;点击mysql-installer-community-8.0.26.0.msi文件&#xff0c;打开安装向导。 选择自定义安装类型 打开“Select Products” 窗口&#xff0c;可以定制需要安装的产…

MySQL学习(8):约束

1.什么是约束 约束是作用于表中字段上的规则&#xff0c;以限制表中数据&#xff0c;保证数据的正确性、有效性、完整性 约束分为以下几种&#xff1a; not null非空约束限制该字段的数据不能为nullunique唯一约束保证该字段的所有数据都是唯一、不重复的primary key主键约束…

Oracle数据库中RETURNING子句

RETURNING子句允许您检索插入、删除或更新所修改的列&#xff08;以及基于列的表达式&#xff09;的值。如果不使用RETURNING&#xff0c;则必须在DML语句完成后运行SELECT语句&#xff0c;才能获得更改列的值。因此&#xff0c;RETURNING有助于避免再次往返数据库&#xff0c;…

EtherCAT通讯介绍

一、EtherCAT简介 EtherCAT&#xff08;Ethernet for Control Automation Technology&#xff09;是一种实时以太网技术&#xff0c;是由德国公司Beckhoff Automation在2003年首次推出的。它是一种开放的工业以太网标准&#xff0c;被设计用于满足工业自动化应用中的高性能和低…

【JVM排查问题】JProfiler性能分析工具连接远程服务器Docker容器中的Java服务

1、下载JProfiler https://www.ej-technologies.com/download/jprofiler/version_13 下载Windows版本以及Linux版本 Windows用于可视化、Linux用于在Docker容器中启动 2、将Linux版本的JProfiler上传到Docker容器中&#xff0c;宿主机cp命令到容器中 docker cp /home/data/s…

项目管理实用表格与应用【项目文件资料分享】

项目管理基础知识 项目管理可分为五大过程组&#xff08;启动、规划、执行、监控、收尾&#xff09;十大知识领域&#xff0c;其中包含49个子过程 项目十大知识领域分为&#xff1a;项目整合管理、项目范围管理、项目进度管理、项目成本管理、项目质量管理、项目资源管理、项目…

Nginx系列(二)---Mac上的快速使用

一、安装 前置软件&#xff1a;Homebrew 安装方法&#xff1a;终端输入/bin/bash -c "$(curl -fsSL <https://cdn.jsdelivr.net/gh/ineo6/homebrew-install/install.sh>)"更新&#xff1a; brew update 设置中科大镜像源&#xff1a;git -C "$(brew --r…

蓝牙模块的使用01,OOOLMF蓝牙模块HC05调试使用01AT设置从机,手机用软件对接

参考资料 https://blog.csdn.net/xia3976/article/details/122199162 1、实验目的 验证蓝牙模块是不是好的&#xff0c;能不能AT指令改变查询配置&#xff1b; 验证设置从机模式&#xff0c;成功之后&#xff0c;用手机现成的蓝牙软件&#xff08;实验室大群里面有&#xff09…