计算机视觉——OpenCV Otsu阈值法原理及实现

算法简介

Otsu阈值法,也被称为大津算法,是一种在图像处理中广泛使用的自动阈值分割技术。这种方法由日本学者大津展之于1979年提出,旨在根据图像的灰度直方图来自动选择最佳全局阈值。Otsu阈值法的核心思想是最小化类内方差或最大化类间方差。

以下是Otsu阈值法的一般步骤:

  1. 预处理:对输入图像进行预处理,以减少噪声和增强图像特征。常见的预处理方法包括高斯平滑滤波,这有助于平滑图像,减少随机噪声。

  2. 灰度直方图:计算图像的灰度直方图,即统计图像中每个灰度级出现的频率。直方图可以提供图像的灰度分布信息。

  3. 阈值计算:这是Otsu算法的关键步骤。算法通过遍历所有可能的阈值,计算每个阈值对应的类间方差与类内方差之比。Otsu的目标是找到一个阈值,使得这个比值最大化。类内方差最小化意味着阈值两边的像素点尽可能相似,而类间方差最大化意味着阈值两边的像素点差异尽可能大。

  4. 二值化:使用计算得到的阈值T对原图像进行二值化处理。所有小于或等于阈值T的像素点被设置为背景像素(例如0),而所有大于阈值T的像素点被设置为前景像素(例如255)。

Otsu阈值法的优点在于它的简单性和有效性,特别是在对比度较高的图像中。然而,对于具有复杂背景或光照不均的图像,这种方法可能不够准确。在这些情况下,可能需要更高级的阈值技术或结合其他图像处理技术来获得更好的分割效果。

由于您提供的链接无法解析,如果您需要关于Otsu阈值法的更多信息或有其他相关问题,请告知,我会尽力帮助您。

算法的逻辑

双峰图像(bimodal images)的像素直方图具有两个明显的峰值,这通常意味着图像中存在两种明显不同的像素强度区域,这些区域分别对应于图像中的前景和背景。在这类图像中,前景和背景在灰度或颜色上有明显的区分,因此使用Otsu阈值法可以有效地将它们分开。

双峰直方图的特点是:

  1. 两个峰值:直方图有两个明显的峰值,分别代表图像中的前景和背景的像素强度分布。

  2. 低谷:在两个峰值之间存在一个低谷,这个低谷的位置可以作为潜在的阈值,用于区分前景和背景。

  3. 对比度:两个峰值之间的对比度越高,使用Otsu阈值法的效果通常越好,因为这意味着前景和背景之间的区分度更高。

Otsu算法的核心思想正是利用这种双峰分布的特性,通过最大化类间方差来确定最佳阈值。类间方差衡量的是前景和背景两个类别之间的差异性,而类内方差衡量的是类别内部的一致性。Otsu算法寻找的阈值能够最大化类间方差与类内方差的比值,从而实现最佳的前景和背景分离。

如下就是一个双峰图像的示例:


假设一副灰度图,像素值灰度级为,如我们常见的灰度图像,灰度级是256。

像素值为第个灰度级的像素点有个,则这幅图像总的像素点个数为 N = n 1 + n 2 + . . . n L N=n_1 + n_2 + ...n_L N=n1+n2+...nL

基于上述假设,某个像素点为灰度级的概率可表示为:
p i   =   n i N p_{i}\,=\,\frac{n_{i}}{N} pi=Nni

满足以下条件:
p i > 0 , ∑ i = 1 L p i = 1 p_{i}\gt 0,\sum_{i=1}^{L}p_{i}=1 pi>0,i=1Lpi=1

取灰度级为阈值将这幅图像的像素点分成 C 1 C_1 C1C_2和两簇,

  • C 1 C_1 C1包含像素级为[1,2,…,t]的像素
  • C 2 C_2 C2包含像素级为[t+1,…,L]的像素

对于图像中某个像素属于 C 1 / C 2 C_1/C_2 C1/C2类的概率可表示为:
ω 1 ( t ) = ∑ i = 1 t p i \omega_{1}(t)=\sum_{i=1}^{t}p_{i} ω1(t)=i=1tpi
ω 2 ( t ) = ∑ i = t + 1 L p i \omega_{2}(t)=\sum_{i=t+1}^{L}p_{i} ω2(t)=i=t+1Lpi

w 1 ( t ) , w 2 ( t ) w_1(t),w_2(t) w1(t),w2(t),满足关系 w 1 ( t ) = 1 − w 2 ( t ) w_1(t) = 1-w_2(t) w1(t)=1w2(t)

求每个簇对应的像素均值:
在这里插入图片描述
同样可推导:
μ 2 ( t ) = ∑ i = t + 1 L i p i ω 2 ( t ) \mu_{2}(t)=\sum_{i=t+1}^{L}\frac{i p_{i}}{\omega_{2}(t)} μ2(t)=i=t+1Lω2(t)ipi

整幅图像的像素均值记为:
μ T = ∑ i L i ∗ p i = ω 1 ( t ) μ 1 ( t ) + ω 2 ( t ) μ 2 ( t ) \mu_{T}=\sum_{i}^{L}i*p_{i}=\omega_{1}(t)\mu_{1}(t)+\omega_{2}(t)\mu_{2}(t) μT=iLipi=ω1(t)μ1(t)+ω2(t)μ2(t)

C 1 / C 2 C_1/C_2 C1/C2每个簇对应的像素值方差:
σ 1 2 ( t ) = ∑ i = 1 t [ i − μ 1 ( t ) ] 2 ∗ n i ∑ i = 1 t n i = ∑ i = 1 t [ i − μ 1 ( t ) ] 2 ∗ n i N ∑ i = 1 t n i = ∑ i = 1 t [ i − μ 1 ( t ) ] 2 p i ω 1 ( t ) \sigma_{1}^{2}(t)=\frac{\sum_{i=1}^{t}[i-\mu_{1}(t)]^{2}*n_{i}}{\sum_{i=1}^{t}n_{i}}=\frac{\sum_{i=1}^{t}\frac{[i-\mu_{1}(t)]^{2}*n_{i}}{N}}{\sum_{i=1}^{t}n_{i}}=\frac{\sum_{i=1}^{t}[i-\mu_{1}(t)]^{2}p_{i}}{\omega_{1}(t)} σ12(t)=i=1tnii=1t[iμ1(t)]2ni=i=1tnii=1tN[iμ1(t)]2ni=ω1(t)i=1t[iμ1(t)]2pi

同样可推导:
σ 2 2 ( t ) = ∑ i = t + 1 L [ i − μ 2 ( t ) ] 2 p i ω 2 ( t ) \sigma_{2}^{2}(t)=\frac{\sum_{i=t+1}^{L}[i-\mu_{2}(t)]^{2}p_{i}}{\omega_{2}(t)} σ22(t)=ω2(t)i=t+1L[iμ2(t)]2pi

为了衡量所取阈值的二值化效果,作者定义了三种方差,分别是:

类内方差:
σ W 2 = ω 1 σ 1 2 + ω 2 σ 2 2 \sigma_{W}^{2}=\omega_{1}\sigma_{1}^{2}+\omega_{2}\sigma_{2}^{2} σW2=ω1σ12+ω2σ22
类间方差:
σ B 2 = ω 1 ( μ 1 − μ T ) 2 + ω 2 ( μ 2 − μ T ) 2 = ω 1 ω 2 ( μ 1 − μ 2 ) 2 \sigma_{B}^{2}=\omega_{1}(\mu_{1}-\mu_{T})^{2}+\omega_{2}(\mu_{2}-\mu_{T})^{2}=\omega_{1}\omega_{2}(\mu_{1}-\mu_{2})^{2} σB2=ω1(μ1μT)2+ω2(μ2μT)2=ω1ω2(μ1μ2)2
图像总的像素值方差:
σ T 2 = ∑ i = 1 L ( i − μ T ) 2 p i \sigma_{T}^{2}=\sum_{i=1}^{L}(i-\mu_{T})^{2}p_{i} σT2=i=1L(iμT)2pi
可以推导三者之间有如下关系:
σ W 2 + σ B 2 = σ T 2 \sigma_{W}^{2}+\sigma_{B}^{2}=\sigma_{T}^{2} σW2+σB2=σT2
从上面的定义可以发现 σ W 2 / σ B 2 \sigma_{W}^{2}/\sigma_{B}^{2} σW2/σB2,于阈值t有关,而 σ T 2 \sigma_{T}^{2} σT2与阈值无关。
上面是的二阶函数,是的一阶函数,更易优化。最后,求阈值可以变成最大化类间方差
σ B 2 ( t ∗ ) = max ⁡ 1 ≤ t ≤ L σ B 2 ( t ) \sigma_{B}^{2}(t^{*})=\operatorname*{max}_{1\le t\le L}\sigma_{B}^{2}(t) σB2(t)=1tLmaxσB2(t)

C++ 源码实现

// Include Libraries
#include <iostream>
#include <opencv2/opencv.hpp>
#include <opencv2/imgproc.hpp>

using namespace std;
using namespace cv;

int main() {
    // Read the image in grayscale format
    Mat testImage = imread("boat.jpg", IMREAD_GRAYSCALE);
    int bins_num = 256;

    // Get the histogram
    long double histogram[256];

    // Initialize all intensity values to 0
    for (int i = 0; i < bins_num; i++) {
        histogram[i] = 0;
    }

    // Calculate the number of pixels for each intensity value
    for (int y = 0; y < testImage.rows; y++) {
        for (int x = 0; x < testImage.cols; x++) {
            histogram[(int)testImage.at<uchar>(y, x)]++;
        }
    }

    // Calculate bin edges and bin mids
    long double bin_edges[256];
    bin_edges[0] = 0.0;
    long double increment = 0.99609375;
    for (int i = 1; i < bins_num; i++) {
        bin_edges[i] = bin_edges[i - 1] + increment;
    }

    long double bin_mids[256];
    for (int i = 0; i < bins_num; i++) {
        bin_mids[i] = (bin_edges[i] + bin_edges[i + 1]) / 2;
    }

    // Calculate weights for each class
    long double weight1[256];
    weight1[0] = histogram[0];
    for (int i = 1; i < bins_num; i++) {
        weight1[i] = histogram[i] + weight1[i - 1];
    }

    int total_sum = 0;
    for (int i = 0; i < bins_num; i++) {
        total_sum += histogram[i];
    }

    long double weight2[256];
    weight2[0] = total_sum;
    for (int i = 1; i < bins_num; i++) {
        weight2[i] = weight2[i - 1] - histogram[i - 1];
    }

    // Calculate class means
    long double histogram_bin_mids[256];
    for (int i = 0; i < bins_num; i++) {
        histogram_bin_mids[i] = histogram[i] * bin_mids[i];
    }

    long double cumsum_mean1[256];
    cumsum_mean1[0] = histogram_bin_mids[0];
    for (int i = 1; i < bins_num; i++) {
        cumsum_mean1[i] = cumsum_mean1[i - 1] + histogram_bin_mids[i];
    }

    long double cumsum_mean2[256];
    cumsum_mean2[0] = histogram_bin_mids[255];
    for (int i = 1, j = bins_num - 1; i < bins_num; i++, j--) {
        cumsum_mean2[i] = cumsum_mean2[i - 1] + histogram_bin_mids[j];
    }

    long double mean1[256];
    for (int i = 0; i < bins_num; i++) {
        mean1[i] = cumsum_mean1[i] / weight1[i];
    }

    long double mean2[256];
    for (int i = 0, j = bins_num - 1; i < bins_num; i++, j--) {
        mean2[j] = cumsum_mean2[i] / weight2[j];
    }

    // Calculate Inter_class_variance
    long double Inter_class_variance[255];
    long double dnum = 10000000000.0; // Scaling factor to avoid overflow
    for (int i = 0; i < 255; i++) {
        Inter_class_variance[i] = ((weight1[i] * weight2[i] * (mean1[i] - mean2[i + 1])) / dnum) * (mean1[i] - mean2[i + 1]);
    }

    // Maximize interclass variance to find the threshold
    long double maxi = 0;
    int getmax = 0;
    for (int i = 0; i < 255; i++) {
        if (maxi < Inter_class_variance[i]) {
            maxi = Inter_class_variance[i];
            getmax = i;
        }
    }

    cout << "Otsu's algorithm implementation thresholding result: " << bin_mids[getmax] << endl;

    return 0;
}

Python 代码实现

import cv2
import numpy as np

def otsu_thresholding(image_path):
    # 读取图像
    image = cv2.imread(image_path, cv2.IMREAD_GRAYSCALE)
    
    if image is None:
        print("Error: 图像未找到.")
        return
    
    # 获取直方图
    hist = cv2.calcHist([image], [0], None, [256], [0, 256])
    
    # 计算总像素
    total_pixels = image.size
    
    # 初始化类间方差
    inter_class_variance = 0
    
    # 初始化权重和
    w0 = w1 = 0
    
    # 初始化类内总和
    sum0 = np.sum(image[image < inter_class_variance])
    sum1 = np.sum(image[image > inter_class_variance])
    
    # 初始化类内平方和
    var0 = np.sum((image[image < inter_class_variance] - sum0 / w0) ** 2)
    var1 = np.sum((image[image > inter_class_variance] - sum1 / w1) ** 2)
    
    # 寻找最佳阈值
    max_variance = 0
    threshold = 0
    
    for threshold in range(1, 256):
        w0 += hist[threshold - 1]
        w1 = total_pixels - w0
        sum0 += threshold * hist[threshold - 1]
        sum1 -= threshold * hist[threshold - 1]
        
        var0 = w0 / (w0 + w1) * np.sum((image[image <= threshold] - (sum0 / w0)) ** 2)
        var1 = w1 / (w0 + w1) * np.sum((image[image > threshold] - (sum1 / w1)) ** 2)
        
        inter_class_variance = var0 + var1
        
        if inter_class_variance > max_variance:
            max_variance = inter_class_variance
            threshold = threshold
        
    # 使用最佳阈值二值化图像
    _, binary_image = cv2.threshold(image, threshold, 255, cv2.THRESH_BINARY)
    
    return binary_image, threshold

# 使用函数
image_path = 'boat.jpg'  # 请确保路径正确
binary_image, threshold = otsu_thresholding(image_path)

# 显示结果
cv2.imshow('Original Image', cv2.imread(image_path, cv2.IMREAD_GRAYSCALE))
cv2.imshow('Binary Image', binary_image)
cv2.waitKey(0)
cv2.destroyAllWindows()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/601289.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Leetcode167两数之和

题目链接&#xff1a; 167两数之和 解题思路: 缩减空间法 // 167 两数之和 缩减搜索空间方法 vector<int> twoSum(vector<int>& numbers, int target) {int i 0;int j numbers.size() - 1;while (i < j){int tmp numbers[i] numbers[j];if (tmp tar…

【PX4-AutoPilot教程-TIPS】MAVROS2运行px4.launch文件报错ValueError无法启动的解决方法

MAVROS2运行px4.launch文件报错ValueError无法启动的解决方法 问题描述解决方法 环境&#xff1a; Ubuntu &#xff1a;20.04 LTS ROS &#xff1a;ROS2 Foxy PX4 &#xff1a;1.13.0 问题描述 在使用命令ros2 launch mavros px4.launch命令启动MAVROS2与PX4之间的连接时报…

python从0开始学习(五)

目录 前言 1、顺序结构 2、选择结构 2.1双分支结构 2.2多分枝结构 2.3嵌套使用 2.4多个条件的链接 总结 前言 在上篇文章中&#xff0c;我们学习了python中的运算符&#xff0c;本篇文章继续往下讲解。本篇文章主要讲解程序的组织结构。 1、顺序结构 顺序结构是程序按照…

一篇迟来的未来展望的博客

各位大佬好 &#xff0c;这里是阿川的博客 &#xff0c; 祝您变得更强 个人主页&#xff1a;在线OJ的阿川 大佬的支持和鼓励&#xff0c;将是我成长路上最大的动力 阿川水平有限&#xff0c;如有错误&#xff0c;欢迎大佬指正 老师布置的任务&#xff0c;叫写一篇博客&…

elementplus

npm install element-plus --save下载 按需引入 自动引入 npm install -D unplugin-vue-components unplugin-auto-import

2024爆火的AI设备Rabbit R1到底是什么?有人说它是AI的iPhone时刻,有人说它是套壳的安卓

大家好&#xff0c;我是木易&#xff0c;一个持续关注AI领域的互联网技术产品经理&#xff0c;国内Top2本科&#xff0c;美国Top10 CS研究生&#xff0c;MBA。我坚信AI是普通人变强的“外挂”&#xff0c;所以创建了“AI信息Gap”这个公众号&#xff0c;专注于分享AI全维度知识…

论文阅读-THE GENERALIZATION GAP IN OFFLINE REINFORCEMENT LEARNING(ICLR 2024)

1.Motivation 本文希望比较online RL、offline RL、序列决策和BC等方法的泛化能力(对于不同的初始状态、transition functions、reward functions&#xff0c;现阶段offline RL训练的方式都是在同一个环境下的数据集进行训练)。实验发现offline的算法相较于online算法对新环境…

扭蛋机小程序在互联网浪潮中的崛起与发展

随着互联网的快速发展&#xff0c;各种线上娱乐方式层出不穷&#xff0c;其中扭蛋机小程序凭借其独特的魅力&#xff0c;在互联网浪潮中迅速崛起并发展壮大。扭蛋机小程序不仅打破了传统扭蛋机的地域限制和操作不便&#xff0c;还融入了丰富的互动元素和便捷性&#xff0c;满足…

C语言——联合体和枚举

1. 联合体 联合体和结构体类似。 联合体类型的声明&#xff1a; 联合体的特点&#xff1a; 像结构体⼀样&#xff0c;联合体也是由⼀个或者多个成员构成&#xff0c;这些成员可以是不同的类型。 但是编译器只为最⼤的成员分配⾜够的内存空间。联合体的特点是所有成员共⽤同⼀…

关于2024年东北教育装备展示会(沈阳)参展通知

2024年东北教育装备展示会 邀请函 数字赋能新时代 共创教育新未来 时间&#xff1a;2024年6月28-30日 地点&#xff1a;沈阳国际展览中心&#xff08;沈阳市苏家屯-会展路9号&#xff09; 展览面积&#xff1a;30000平方米 参展商数&#xff1a;260家 预计观众&#xff1…

Flink 部署模式

目录 概述 部署模式 会话模式&#xff08;Session Mode&#xff09; 单作业模式(Per-Job Mode) 应用模式(Application Mode) 运行模式&#xff08;资源管理模式&#xff09; Standalone运行模式 会话模式部署 应用模式部署 Yarn运行模式 会话模式部署 单作业模式部…

pdf转word,结果为什么是图片?怎么才能转成可编辑的文字?

PDF转Word为何会变成图片&#xff1f;这是许多人在使用文件格式转换工具时经常遇到的问题。为了解答这个疑问&#xff0c;我们需要从多个方面来探讨这个问题。 首先&#xff0c;PDF文件本身的特点是一个重要的因素。PDF&#xff0c;即Portable Document Format&#xff0c;是一…

云计算技术发展趋势详解

云计算最全详解(图文全面总结) 云计算是技术趋势的未来&#xff0c;掌握它至关重要。从基础到高级&#xff0c;本文深入探讨云计算的方方面面&#xff0c;为您提供全面的理解。 云计算 云计算将计算转移到远程数据中心&#xff0c;让用户灵活、经济地访问资源。就像水电一样&…

激光雕刻优化:利用RLE压缩技术提高雕刻效率与节省能源成本

什么是 RLE &#xff1f;RLE 在激光雕刻应用实现代码&#xff1a;总结 什么是 RLE &#xff1f; RLE 是 Run-Length Encoding&#xff08;游程长度编码&#xff09;的缩写。这是一种数据压缩技术&#xff0c;它通过减少连续重复的数据来减小文件的大小。RLE 在图像处理、无损…

VS调试技巧

1. 什么是bug bug本意是“昆⾍”或“⾍⼦”&#xff0c;现在⼀般是指在电脑系统或程序中&#xff0c;隐藏着的⼀些未被发现的缺陷或 问题&#xff0c;简称程序漏洞。 “Bug” 的创始⼈格蕾丝赫柏&#xff08;Grace Murray Hopper&#xff09;&#xff0c;她是⼀位为美国海军⼯…

C 语言文件输入/输出(I/O)函数大全

C 语言文件输入/输出&#xff08;I/O&#xff09;函数大全 1. fopen() 函数2. fclose() 函数3. fread() 函数4. fwrite() 函数5. fseek() 函数6. ftell() 函数7. rewind() 函数8. feof() 函数9. ferror() 函数10. clearerr() 函数 &#x1f60a; C 语言文件输入/输出&#xf…

gradio图像复原界面改进

图像复原界面展示需要输入图像和复原图像在界面的清晰对比&#xff0c;修改两张图像为同样大小。 默认情况&#xff1a; intreface代码如下&#xff1a; interface gr.Interface(fnrestore, # 要调用的函数inputs[gr.Image(label"输入图像")], # 第一个输入&am…

AI大模型探索之路-训练篇16:大语言模型预训练-微调技术之LoRA

系列篇章&#x1f4a5; AI大模型探索之路-训练篇1&#xff1a;大语言模型微调基础认知 AI大模型探索之路-训练篇2&#xff1a;大语言模型预训练基础认知 AI大模型探索之路-训练篇3&#xff1a;大语言模型全景解读 AI大模型探索之路-训练篇4&#xff1a;大语言模型训练数据集概…

测试平台开发:Django开发实战之注册界面实现(上)

实现注册功能&#xff0c;大概包括以下几个步骤 1、设计ui ##字段 通过看数据库里面的user表里面的字段&#xff0c;可以大概知道需要几个字段&#xff1a; emailusernamepasswordpassword_confirm 生成简单的ui界面&#xff0c;复制这个html代码 然后在项目路径下面创建一…

22_Scala集合Seq

文章目录 Seq序列1.构建集合2.List集合元素拼接&&集合拼接3.可变Seq&&List3.1 ListBuffer创建3.2 增删改查3.3 相互转化 Appendix1.Scala起别名2.Seq底层3.关于运算符操作: :4.空集合的表示 Seq序列 –Seq表示有序&#xff0c;数据可重复的集合 1.构建集合 …