IAR 编译优化等级详解

目录

1.编译时优化器何时介入

2.编译优化等级汇总

3.优化项解读

3.1 代码移动

3.2 函数内联

3.3 循环交换

3.4 循环展开

3.5 公用表达式消除

3.6 链接阶段的优化

4 小结


大家好,这里是快乐的肌肉。

最近在迁移工程到IAR编译器上,发现编译优化等级变成了Low\Medium\High等,这与之前GCC优化等级-O1\2\3等有什么不同呢?

因此简单总结一下。

1.编译时优化器何时介入

首先回顾一下编译原理,编译器首先通过解析器把C代码生成中间代码,紧接着将中间代码通过代码生成器生成汇编代码,然后由汇编器Assmber将汇编代码转换成目标机器码,最后通过链接器Linker将所有的目标机器码链接成elf格式等的可执行二进制代码文件,如下图:

而所谓的优化也就是在每个过程中例如中间代码生成、汇编代码生成、机器码链接等等进行size、运行速度等不同方向上的优化, 如下图所示:

2.编译优化等级汇总

这里将GCC和IAR的优化等级进行汇总。

以GCC的优化等级为例,具体的优化内容主要包括:

  • O0:几乎不优化,目的是减少编译时间,保证代码调试顺畅;
  • O1:编译器优化代码大小和执行时间,但是不执行任何需要大量编译时间的优化。简单的包括分支优化、堆栈调整、敞亮合并等等
  • O2:执行大部分优化,但不会考虑时间和空间互换的优化,它在O1等级基础上增加了新的优化项,包括函数对齐、窥视孔优化等;
  • 03:在O2基础上,新增函数克隆、循环交换等;
  • Os:专门为大小进行优化,该优化方式采用了O2除增加几个代码大小(如函数对齐等)的全部优化项;
  • Ofast:采用O3全部优化项,为运行时间做优化;
  • Og:提升调试体验,在保持快速编译和良好调试体验的同时提供合理的优化级别;比O0好一点

在IAR的编译优化选项里,总共提供了4个优化等级:None、Low、Medium、High;针对High等级又分为了不同子优化选项:Balanced、Size、Speed,如下图:

经测试,

None、Low只会做无用代码、冗余标签、冗余分支消除等优化,适合调试;

Medium主要优化代码逻辑、公共子表达式消除等,如下图:

High则几乎勾选了所有优化项,如下:

向量化仅在 High -> Speed有效。经IAR Help文档总结如下:

所以接下来,我们来逐步解析上述优化项具体含义。

3.优化项解读

3.1 代码移动

代码移动,移除了循环中不变表达式和公共子表达式的求值,以避免重复求值。这种优化在中等及以上优化级别执行,通常会减少代码大小和执行时间。例如代码

uint8 a=100;
while(a>0)
{
    b= x+y;
    if(a % b == 0)
    print(“a= %d;b=%d”,a,b);
    a--;
}

逻辑不管吧这种情况很明显,b=x+y,只需要在最开始计算一次就可以了,如果我们静态代码review不仔细,编译器就会帮我们把b=x+y移出循环,以减少程序计算和内存访问次数;当然这个只在Medium及以上优化等级出现。

3.2 函数内联

调Vector代码的时候,经常遇到local inline的函数调不了,有时候发现即使去掉inline修饰,仍然打不了断点,现在想可能就与这个优化等级有关。

所谓函数内联,就是编译时把已知的函数集成展开到调用者的函数体中,以消除调用的开销,但可能会增加code size。

一般来说,要看内联是否成功,需要到把反汇编出来,如下图:

3.3 循环交换

更改循环顺序,利用循环体里的cache使用效率,同时允许进一步循环优化,例如向量运算的时候,代码如下:

for (int i = 0; i < N; i++)
    for (int j = 0; j < N; j++)
        for (int k = 0; k < N; k++)
            c[i][j] = c[i][j] + a[i][k]*b[k][j];

开启循环交换优化后,代码优化如下:

for (int i = 0; i < N; i++)
    for (int k = 0; k < N; k++)
        for (int j = 0; j < N; j++)
            c[i][j] = c[i][j] + a[i][k]*b[k][j];

可以看到,k和j进行了交换,为啥会做这种优化?这是因为cache的空间局部性原理,我们来看:

在原代码里数组b[k][j]的访问顺序为b[ k ][ j ] -> b[ k+1 ][ j ]...,而数据是按字节顺序存储的,这个访问顺序和存储顺序不一致,导致了空间局部性差,因此编译器在优化时将k和j进行交换,使得b[k][j]的访问顺序变成了b[k][j] -> b[k][j+1]...。

这在矢量运算里可以有效提高cache命中率和使用性能。

3.4 循环展开

循环展开意味着循环的代码体是重复的,循环的迭代次数可以在编译时确定。循环展开通过在几个迭代中平摊循环开销来减少循环开销。
这种优化对于较小的循环最为有效,在较小的循环中,循环开销可能占整个循环主体的很大一部分。

3.5 公用表达式消除

这个我最开始还没看懂是啥意思。

其实就是在编译器优化阶段,消除了程序了重复计算的一些表达式,例如代码:

y = a*b +c;
z = a*b/d;

a*b属于上述两个等式共同表达式,只需要计算一次即可,变为如下:

tempVar = a*b;
y = tempVar +c;
z = tempVar/d;

看起来很简单,但如果是计算公式非常复杂,这个优化就比较有效果了。

 同样的,这个优化选项也只在medium以上有效。

3.6 链接阶段的优化

在IAR里的Linker里同样提供了一些优化选项,如下图所示:

inline small routines:内联小函数,对小函数的调用替换为函数的本体,无法打断点的定位方向又增加一个;

Merge duplicate sections:合并相同内容的只读段,保留副本,从而将对任何重复段的所有引用重定向到保留的段。

4 小结

可以看到,在IAR里这些编译优化选项基本都是针对代码性能进行优化,其中循环展开和函数内联会增加代码大小。

所以在量产阶段到底应该用什么样的优化选项,这个需要好好琢磨一下。

  • 从MCU的Flash容量来看,对于工程项目来说优化代码大小肯定是首先考虑的,这样可以节省硬件成本;
  • 从软件开发角度来看,对于调用频率很高的代码段甚至是源文件可以进行单独性能优化,在IAR源文件里提供了这样的配置方式:

  • 在一些低功耗应用,例如IBS每几分钟唤醒CPU检查汽车小电瓶有没有馈电,然后CPU重新回到深度睡眠状态。这时候IBS的功耗 = CPU深度睡眠的静态功耗 + 任务运行的动态功耗之和。一般来说,动态功耗在mA级别,因此如果对于功耗要求特别高的应用,把唤醒后要执行的任务进行性能优化,也可以减少功耗。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/790312.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【第27章】MyBatis-Plus之Mybatis X 插件

文章目录 前言一、安装指南二、核心功能1.XML 映射跳转2.代码生成3. 重置模板 三、JPA 风格提示四、常见问题解答1. JPA 提示功能无法使用&#xff1f;2. 生成的表名与预期不符&#xff1f; 五、代码生成模板配置1. 默认模板2. 重置默认模板3. 自定义模板内容3.1 实体类信息3.2…

虚拟机因断电进入./#状态解决办法

现象&#xff1a; 解决&#xff1a;先查看错误日志&#xff1a;journalctl -p err -b查看自己虚拟机中标黄部分的名字 之后运行&#xff1a;xfs_repair -v -L /dev/sda #这里sda用你自己标黄的 最后重启 reboot 即可。

基于Java技术的网吧管理系统

你好呀&#xff0c;我是计算机学姐码农小野&#xff01;如果有相关需求&#xff0c;可以私信联系我。 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;Java技术&#xff0c;B/S结构 工具&#xff1a;MyEclipse&#xff0c;MySQL 系统展示 首页 个人中…

WebRTC API接口教程:实现高效会议的步骤?

WebRTC api接口教程如何使用&#xff1f;WebRTC api接口的功能&#xff1f; WebRTC无需中间服务器即可传输音视频流&#xff0c;为视频会议、在线教育等应用提供了强大的支持。AokSend将详细介绍如何利用WebRTC API接口实现高效会议的步骤。 WebRTC API接口教程&#xff1a;获…

悠律凝声环开放式耳机体验:强劲低音、高颜值设计

最近发现了一款潮酷的开放式耳机&#xff0c;不仅颜值抗打&#xff0c;更重要的是能在嘈杂的环境中提供给我一份宁静的沉浸式音乐体验&#xff0c;号称是开放音频中的重低音之王&#xff0c;它就是悠律凝声环开放式耳机。 这款耳机无论其外观设计、音质效果、性价比以及续航能力…

MinIO - 服务端签名直传(前端 + 后端 + 效果演示)

目录 开始 服务端签名直传概述 代码实现 后端实现 前端实现 效果演示 开始 服务端签名直传概述 传统的&#xff0c;我们有两种方式将图片上传到 OSS&#xff1a; a&#xff09;前端请求 -> 后端服务器 -> OSS 好处&#xff1a;在服务端上传&#xff0c;更加安全…

【智能算法改进】一种混合多策略改进的麻雀搜索算法

目录 1.算法原理2.改进点3.结果展示4.参考文献5.代码获取 1.算法原理 【智能算法】麻雀搜索算法&#xff08;SSA&#xff09;原理及实现 2.改进点 精英反向学习策略 将精英反向学习策略应用到初始化阶段, 通过反向解的生成与精英个体的选择, 不仅使算法搜索范围得到扩大, 提…

DELTA: DEGRADATION-FREE FULLY TEST-TIME ADAPTATION--论文笔记

论文笔记 资料 1.代码地址 2.论文地址 https://arxiv.org/abs/2301.13018 3.数据集地址 https://github.com/bwbwzhao/DELTA 论文摘要的翻译 完全测试时间自适应旨在使预训练模型在实时推理过程中适应测试数据流&#xff0c;当测试数据分布与训练数据分布不同时&#x…

苹果笔记本电脑能玩哪些游戏 苹果电脑可以玩的单机游戏推荐

苹果笔记本有着优美的外观和强大的性能。用户不仅可以使用苹果笔记本办公、剪辑&#xff0c;越来越多的用户开始关注苹果笔记本在游戏领域的表现&#xff0c;尤其是在大型游戏方面。本文将为你详细介绍苹果笔记本都能玩什么游戏&#xff0c;以及为你推荐苹果电脑可以玩的单机游…

tesla p100显卡显示资源不足,api调用失败

&#x1f3c6;本文收录于《CSDN问答解惑-专业版》专栏&#xff0c;主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案&#xff0c;希望能够助你一臂之力&#xff0c;帮你早日登顶实现财富自由&#x1f680;&#xff1b;同时&#xff0c;欢迎大家关注&&收…

进程间的通信--管道

文章目录 一、进程通信的介绍1.1进程间为什么需要通信1.2进程如何通信 二、管道2.1匿名管道2.1.1文件描述符理解管道2.1.2接口使用2.1.3管道的4种情况2.1.4管道的五种特征 2.2管道的使用场景2.2.1命令行中的管道2.2.2进程池 2.命名管道2.1.1原理2.2.2接口2.2.3代码实例 一、进程…

C++初阶:类与对象(一)

✨✨所属专栏&#xff1a;C✨✨ ✨✨作者主页&#xff1a;嶔某✨✨ 类的定义 定义格式 • class为定义类的关键字&#xff0c;后面跟类的名字&#xff0c;{}中为类的主体&#xff0c;注意类定义结束时后⾯分号不能省略。类体中内容称为类的成员&#xff1b;类中的变量称为类的…

设计模式之职责链模式

1. 职责链模式&#xff08;Chain of Responsibility Pattern&#xff09; 在职责链模式中&#xff0c;多个处理器依次处理同一个请求。一个请求先经过 A 处理器处理&#xff0c;然后再把请求传递给 B 处理器&#xff0c;B处理器处理完后再传递给 C 处理器&#xff0c;以此类推&…

【Android组件】封装加载弹框

&#x1f4d6;封装加载弹框 ✅1. 构造LoadingDialog✅2. 调用LoadingDialog 效果&#xff1a; ✅1. 构造LoadingDialog 构造LoadingDialog类涉及到设计模式中的建造者模式&#xff0c;进行链式调用&#xff0c;注重的是构建的过程&#xff0c;设置需要的属性。 步骤一&#x…

基于考研题库小程序V2.0实现倒计时功能板块和超时判错功能

V2.0 需求沟通 需求分析 计时模块 3.1.1、功能描述←计时模块用于做题过程中对每一题的作答进行30秒倒计时&#xff0c;超时直接判错&#xff0c;同时将总用时显示在界面上;记录每次做题的总用时。 3.1.2、接口描述←与判定模块的接口为超时判定&#xff0c;若单题用时超过 …

C++:缺省参数|函数重载|引用|const引用

欢迎来到HarperLee的学习笔记&#xff01; 博主主页传送门&#xff1a;HarperLee的博客主页 想要一起进步的uu可以来后台找我哦&#xff01; 一、缺省参数 1.1 缺省参数的定义 缺省参数&#xff1a;是声明或定义函数时为函数的参数指定⼀个缺省值。在调用该函数时&#xff0c;…

MYSQL数据库建表规则及注意事项

数据类型以及应用场景 数值类型 TINYINT&#xff1a;使用在 0~1 SMALLINT&#xff1a;使用在2~10 INT&#xff1a;常用 BIGINT&#xff1a;使用在用户ID等更大范围的整数 DECIMAL&#xff1a;用于存储精确的小数。常用于需要高精度计算的场景&#xff0c;如金融数据处理。 日期…

【UE5.3】笔记10-时间轴的使用

时间轴 右键--Add Timeline(在最下面) --> 双击进入时间轴的编辑界面&#xff1a; 左上角可以添加不同类型的轨道&#xff0c;可以自定义轨道的长度&#xff0c;单位秒&#xff0c;一次可以添加多个 可以通过右键添加关键帧&#xff0c;快捷键&#xff1a;shift鼠标左键按…

JMH325【剑侠情缘3】第2版80级橙武网游单机更稳定亲测视频安装教学更新整合收集各类修改教学补丁兴趣可以慢慢探索

资源介绍&#xff1a; 是否需要虚拟机&#xff1a;是 文件大小&#xff1a;压缩包约14G 支持系统&#xff1a;win10、win11 硬件需求&#xff1a;运行内存8G 4核及以上CPU独立显卡 下载方式&#xff1a;百度网盘 任务修复&#xff1a; 1&#xff0c;掌门任务&#xff08…

MMII 的多模态医学图像交互框架:更直观地理解人体解剖结构和疾病

医生在诊断和治疗过程中依赖于人体解剖图像&#xff0c;如磁共振成像&#xff08;MRI&#xff09;&#xff0c;难以全面捕捉人体组织的复杂性&#xff0c;例如组织之间的空间关系、质地、大小等。然而&#xff0c;实时感知有关患者解剖结构和疾病的多模态信息对于医疗程序的成功…