【深度学习】数据归一化/标准化 Normalization/Standardization

目录

一、实际问题

二、归一化 Normalization

三、归一化的类型

1. Min-max normalization (Rescaling)

2. Mean normalization

3.Z-score normalization (Standardization)

4.非线性归一化

4-1 对数归一化

4-2 反正切函数归一化

4-3 小数定标标准化(Demical Point Normalization)

四、如何选择归一化函数?

五、Java实现归一化工具类


一、实际问题

在数据分析、深度学习中,经常需要对数据进行处理,数据处理时,会发现一个问题:

不同维度的数据,数据范围偏差比较大,如

  • 距离地铁的距离——房价的关系
  • 海拔高度——氧气含量的关系

一个维度的数据范围大,一个小,导致以下问题:

【1】求解过程不平缓、函数收敛慢

【2】相关性展示不明显

如下图:

海拔越高、氧气含量越低,因为数据范围的原因,导致两者的相关性展示得不明显。

解决得方式就是归一化和标准化

二、归一化 Normalization

归一化,指将数据样本中的数据进行处理,使它们处于同一量级。

如 [0,1] 或者 [-1,1] 或者其它

归一化后,数据更具有可比性,如图

函数的求解过程也会比较平缓,更快求得最优解,如下图

左:未归一化的求解  右:归一化后的求解

三、归一化的类型

1. Min-max normalization (Rescaling)

最值归一化,公式如下:

\mathbf{​{x}'=\frac{x-min}{max-min}}

归一化后的数据范围为 [0, 1],其中min max分别求样本数据的最小值和最大值。

2. Mean normalization

均值归一化,公式如下:

\mathbf{​{x}'=\frac{x-mean}{max-min}}

归一化后的数据范围为 [-1, 1],其中mean、min、max为样本数据的平均值、最小值和最大值。

3.Z-score normalization (Standardization)

标准差归一化,也成为标准化(标准化其实就是归一化的一种),公式如下:

\boldsymbol{\mathbf{}\boldsymbol{\mathbf{}{x}'=\frac{x-mean}{\sigma}}}

归一化后的数据范围为实数集,其中mean、σ 分别为样本数据的均值和标准差。

4.非线性归一化

4-1 对数归一化

\boldsymbol{\mathbf{}{x}'=\frac{lg(x)}{lg(max)}}

4-2 反正切函数归一化

\boldsymbol{\mathbf{}{x}'=arctan(x)*\frac{2}{pi}}

归一化后的数据范围为 [-1, 1]

4-3 小数定标标准化(Demical Point Normalization)

\boldsymbol{\mathbf{}{x}'=\frac{x}{10^{j}}}

j为使

 \boldsymbol{\mathbf{}max(\left |{ x}' \right |)<1}

的最小整数,归一化后的数据范围为 [-1, 1]

四、如何选择归一化函数?

Min-Max归一化、Mean归一化适合

【1】最大最小值明确不变:如图像处理中,RGB值为0~255,可以使用Min-Max来处理。

【2】对数据范围有明确要求:如需要数据范围为-1~1

不适合:

【1】最大最小值不明确:每次有新的值加入,之前的结果就会发生改变,导致不稳定。

【2】有过大或过小的异常值存在:效果会较差

Z-score归一化适合:

【1】存在异常值、最大最小值不固定

缺点是:

【1】改变了数据的状态分布,但不会改变分布的种类:经过处理的数据呈均值为0,标准差为1的分布

非线性归一化适合

【1】数据分化程度较大的场景

五、Java实现归一化工具类

package com.potato.commonpro.util.math;

import java.util.ArrayList;
import java.util.List;

/**
 * 数据样本归一化工具类
 * 包含了多个归一化函数,提供了List/Array两种类型的输入输出,具体的归一化函数如下:
 * 【1】min-max normalization(Rescaling)
 * 【2】mean normalization
 * 【3】Z-score normalization (Standardization)
 * 【4】对数归一化
 * 【5】反正切函数归一化
 * 【6】小数定标标准化
 * <p>
 * Author:PotatoChan
 * Date:2023-12-30
 */
public class PotatoNormalization {


    /**
     * min-max normalization(Rescaling)
     * 归一化公式:x'=(x-min)/(max-min)
     * 归一化后的数据范围为 [0, 1],其中min 、max 分别求样本数据的最小值和最大值。
     *
     * @param data 数据样本
     * @return 归一化后的数据样本
     */
    public static List<Double> normalizationForMinToMax(List<Double> data) {
        List<Double> result = new ArrayList<>();
        //求取样本数据中的最大值与最小值
        double max = Double.MIN_VALUE;
        double min = Double.MAX_VALUE;
        for (Double item : data) {
            if (item > max) max = item;
            if (item < min) min = item;
        }
        //计算归一化后的数据
        double dis = max - min;
        for (Double item : data) {
            double num = (item - min) / dis;
            result.add(num);
        }
        return result;
    }

    /**
     * min-max normalization(Rescaling)
     * 归一化公式:x'=(x-min)/(max-min)
     * 归一化后的数据范围为 [0, 1],其中min 、max 分别求样本数据的最小值和最大值。
     *
     * @param data 数据样本
     * @return 归一化后的数据样本
     */
    public static double[] normalizationForMinToMax(double[] data) {
        double[] result = new double[data.length];

        //求取样本数据中的最大值与最小值
        double max = Double.MIN_VALUE;
        double min = Double.MAX_VALUE;
        for (Double item : data) {
            if (item > max) max = item;
            if (item < min) min = item;
        }
        //计算归一化后的数据
        double dis = max - min;
        for (int i = 0; i < data.length; i++) {
            result[i] = (data[i] - min) / dis;
        }

        return result;
    }

    /**
     * mean normalization
     * 归一化公式:x'=(x-mean)/(max-min)
     * 归一化后的数据范围为 [-1, 1],其中mean为样本数据的平均值,min 、max 分别求样本数据的最小值和最大值
     *
     * @param data 数据样本
     * @return 归一化后的数据样本
     */
    public static List<Double> normalizationForMean(List<Double> data) {
        List<Double> result = new ArrayList<>();
        //求取样本数据中的最大值与最小值、平均值
        double max = Double.MIN_VALUE;
        double min = Double.MAX_VALUE;
        double mean = 0;
        for (Double item : data) {
            if (item > max) max = item;
            if (item < min) min = item;
            mean += item;
        }
        mean = mean / data.size();

        //计算归一化后的数据
        double dis = max - min;
        for (Double item : data) {
            double num = (item - mean) / dis;
            result.add(num);
        }
        return result;
    }

    /**
     * mean normalization
     * 归一化公式:x'=(x-mean)/(max-min)
     * 归一化后的数据范围为 [-1, 1],其中mean为样本数据的平均值,min 、max 分别求样本数据的最小值和最大值
     *
     * @param data 数据样本
     * @return 归一化后的数据样本
     */
    public static double[] normalizationForMean(double[] data) {
        double[] result = new double[data.length];
        //求取样本数据中的最大值与最小值、平均值
        double max = Double.MIN_VALUE;
        double min = Double.MAX_VALUE;
        double mean = 0;
        for (Double item : data) {
            if (item > max) max = item;
            if (item < min) min = item;
            mean += item;
        }
        mean = mean / data.length;

        //计算归一化后的数据
        double dis = max - min;
        for (int i = 0; i < data.length; i++) {
            result[i] = (data[i] - mean) / dis;
        }
        return result;
    }

    /**
     * Z-score normalization (Standardization)
     * 归一化公式:x'=(x-mean)/σ
     * 归一化后的数据范围为实数集,其中μ、σ 分别为样本数据的均值和标准差
     *
     * @param data 数据样本
     * @return 归一化后的数据样本
     */
    public static List<Double> normalizationForZScore(List<Double> data) {
        List<Double> result = new ArrayList<>();
        //求取样本数据中的平均值
        double mean = 0;
        for (Double item : data) {
            mean += item;
        }
        mean = mean / data.size();

        //计算方差
        double variance = 0;
        for (Double item : data) {
            variance += (item - mean) * (item - mean);
        }
        variance = variance / data.size();
        //计算标准差
        double standardDeviation = Math.sqrt(variance);

        //计算归一化后的数据
        for (Double item : data) {
            double num = (item - mean) / standardDeviation;
            result.add(num);
        }
        return result;
    }

    /**
     * Z-score normalization (Standardization)
     * 归一化公式:x'=(x-mean)/σ
     * 归一化后的数据范围为实数集,其中μ、σ 分别为样本数据的均值和标准差
     *
     * @param data 数据样本
     * @return 归一化后的数据样本
     */
    public static double[] normalizationForZScore(double[] data) {
        double[] result = new double[data.length];
        //求取样本数据中的平均值
        double mean = 0;
        for (Double item : data) {
            mean += item;
        }
        mean = mean / data.length;

        //计算方差
        double variance = 0;
        for (Double item : data) {
            variance += (item - mean) * (item - mean);
        }
        variance = variance / data.length;
        //计算标准差
        double standardDeviation = Math.sqrt(variance);

        //计算归一化后的数据
        for (int i = 0; i < data.length; i++) {
            result[i] = (data[i] - mean) / standardDeviation;
        }
        return result;
    }

    /**
     * 对数归一化
     * 归一化公式:x'=ln(x)/ln(max)
     * 其中,max为数据样本的最大值
     *
     * @param data 数据样本
     * @return 归一化后的数据样本
     */
    public static List<Double> normalizationForlg(List<Double> data) {
        List<Double> result = new ArrayList<>();
        //求取样本数据中的最大值
        double max = Double.MIN_VALUE;
        for (Double item : data) {
            if (item > max) max = item;
        }
        //计算归一化后的数据
        for (Double item : data) {
            double num = Math.log10(item) / Math.log10(max);
            result.add(num);
        }
        return result;
    }

    /**
     * 对数归一化
     * 归一化公式:x'=ln(x)/ln(max)
     * 其中,max为数据样本的最大值
     *
     * @param data 数据样本
     * @return 归一化后的数据样本
     */
    public static double[] normalizationForlg(double[] data) {
        double[] result = new double[data.length];
        //求取样本数据中的最大值
        double max = Double.MIN_VALUE;
        for (Double item : data) {
            if (item > max) max = item;
        }
        //计算归一化后的数据
        for (int i = 0; i < data.length; i++) {
            result[i] = Math.log10(data[i]) / Math.log10(max);

        }
        return result;
    }

    /**
     * 反正切函数归一化
     * 归一化公式:x'=arctan(x)*(2/PI)
     * 归一化后的数据范围为 [-1, 1],PI表示圆周率Π
     *
     * @param data 数据样本
     * @return 归一化后的数据样本
     */
    public static List<Double> normalizationForArctan(List<Double> data) {
        List<Double> result = new ArrayList<>();
        //计算归一化后的数据
        for (Double item : data) {
            double num = Math.atan(item) * (2 / Math.PI);
            result.add(num);
        }
        return result;
    }


    /**
     * 反正切函数归一化
     * 归一化公式:x'=arctan(x)*(2/PI)
     * 归一化后的数据范围为 [-1, 1],PI表示圆周率Π
     *
     * @param data 数据样本
     * @return 归一化后的数据样本
     */
    public static double[] normalizationForArctan(double[] data) {
        double[] result = new double[data.length];
        //计算归一化后的数据
        for (int i = 0; i < data.length; i++) {
            result[i] = Math.atan(data[i]) * (2 / Math.PI);
        }
        return result;
    }


}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/367340.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

echarts中绘制3D三维地球

简介 echarts中的三维地球&#xff0c;需要用到世界地图json数据&#xff0c;我把json文件放到我的资源中&#xff0c;有需要的自行下载。 安装插件 // 安装echats npm install echarts --save npm install echarts-gl --save 项目中引用 1&#xff0c;引入安装的echarts…

Http请求Cookie失效问题

Http请求Cookie失效问题记录 一、问题现象 在开发功能的过程中&#xff0c;业务依赖cookie进行取之&#xff0c;项目进行交互时会对前端http请求携带的cookies进行解析操作&#xff0c;但在自测调试对过程中出现账户的授权失效的报错问题。 二、问题排查 用arthas进行代码方…

【国产MCU】-CH32V307-GPIO控制:输入与输出

GPIO控制:输入与输出 文章目录 GPIO控制:输入与输出1、GPIO简单介绍2、驱动API介绍3、GPIO配置代码实现3.1 GPIO配置为输出3.2 GPIO配置为输入CH32V307的GPIO口可以配置成多种输入或输出模式,内置可关闭的上拉或下拉电阻,可以配置成推挽或开漏功能。GPIO口还可以复用成其他…

【24美赛思路已出】2024年美赛A~F题解题思路已出 | 无偿自提

A题&#xff1a;资源可用性和性别比例 问题一&#xff1a; 涉及当灯鱼种群的性别比例发生变化时&#xff0c;对更大的生态系统产生的影响。为了分析这个问题&#xff0c;可以采用以下的数学建模思路&#xff1a;建立灯鱼种群模型&#xff1a; 首先&#xff0c;建立一个灯鱼种群…

冰冻天气恰逢春运,“观冰精灵”化身电力供应守护者

据中国路网&#xff0c;截至2月1日14时&#xff0c;受降雪及路面结冰影响&#xff0c;河北、山西、内蒙古、黑龙江、江苏、安徽、河南、山东、西藏、陕西、宁夏、甘肃、新疆共封闭路段66个&#xff08;涉及44条高速公路、5条普通国道、5条普通省道&#xff09;&#xff0c;关闭…

基于大数据的淘宝电子产品数据分析的设计与实现

&#xff08;1&#xff09;本次针对开发设计系统并设置了相关的实施方案&#xff0c;利用完整的软件开发流程进行分析&#xff0c;完成了设置不同用户的操作权限和相关功能模块的开发&#xff0c;最后对系统进行测试。 &#xff08;2&#xff09;框架可以帮助程序开发者快速构建…

2024 Flutter 重大更新,Dart 宏(Macros)编程开始支持,JSON 序列化有救

说起宏编程可能大家并不陌生&#xff0c;但是这对于 Flutter 和 Dart 开发者来说它一直是一个「遗憾」&#xff0c;这个「遗憾」体现在编辑过程的代码修改支持上&#xff0c;其中最典型的莫过于 Dart 的 JSON 序列化。 举个例子&#xff0c;目前 Dart 语言的 JSON 序列化高度依…

PHP集成开发 -- PhpStorm 2023

PhpStorm 2023是一款强大的PHP集成开发环境&#xff08;IDE&#xff09;&#xff0c;旨在提高开发人员的生产力和代码质量。以下是关于PhpStorm 2023软件的详细介绍&#xff1a; 首先&#xff0c;PhpStorm 2023提供了丰富的代码编辑功能&#xff0c;包括语法高亮、自动补全、代…

计算机网络自顶向下Wireshark labs-HTTP

我直接翻译并在题目下面直接下我的答案了。 1.基本HTTP GET/response交互 我们开始探索HTTP&#xff0c;方法是下载一个非常简单的HTML文件 非常短&#xff0c;并且不包含嵌入的对象。执行以下操作&#xff1a; 启动您的浏览器。启动Wireshark数据包嗅探器&#xff0c;如Wir…

版本管理git及其命令介绍-附带详细操作

前言 在版本管理时代之前&#xff0c;人们写软件的方式如下图1所示 图1 无版本管理的代码 其坏处就是软件版本随着时间越来越多&#xff0c;每个版本修改了什么内容&#xff0c;修改了哪些文件&#xff0c;如果没有详细记录也不知道。这样久会导致如果我们想回退到某个版本内…

LLM(3) | 自注意力机制 (self-attention mechanisms)

LLM(3) | 自注意力机制 (self-attention mechanisms) self-attention 是 transformer 的基础&#xff0c; 而 LLMs 大语言模型也都是 transformer 模型&#xff0c; 理解 self-attention, 才能理解为什么 LLM 能够处理好上下文关联性。 本篇是对于 Must-Read Starter Guide t…

Java学习day26:和线程相关的Object类的方法、等待线程和唤醒线程(知识点详解)

声明&#xff1a;该专栏本人重新过一遍java知识点时候的笔记汇总&#xff0c;主要是每天的知识点题解&#xff0c;算是让自己巩固复习&#xff0c;也希望能给初学的朋友们一点帮助&#xff0c;大佬们不喜勿喷(抱拳了老铁&#xff01;) 往期回顾 Java学习day25&#xff1a;守护线…

(十二)常见Linux命令——磁盘分区、进程线程、系统定时任务

文章目录 1、磁盘分区类命令1.1、df (disk free 空余硬盘)查看磁盘空间使用情况1.2、fdisk 查看分区1.3、mount/umount 挂载/卸载 2、进程线程类命令2.1、ps (process status 进程状态)查看当前系统进程状态2.2、kill终止进程 3、系统定时任务命令3.1、crond服务管理3.2、cront…

使用ngrok内网穿透

没有服务器和公网IP&#xff0c;想要其他人访问自己做好的网站&#xff0c;使用这款简单免费的内网穿透小工具——ngrok&#xff0c;有了它轻松让别人访问你的项目~ 一、下载ngrok 官网地址&#xff1a;ngrok | Unified Application Delivery Platform for Developers&#x…

前端开发者应该知道的TypeScript可区分联合

作为一个前端开发者&#xff0c;你的工作不仅仅是移动像素&#xff0c;前端的大部分复杂性来自于处理你的应用程序可能处于的所有不同状态。 它可能是加载数据&#xff0c;等待表单被填写&#xff0c;或者发送一个遥测事件 - 或者同时进行这三项。 如果不能正确处理状态&…

【PostgreSQL内核学习(二十五) —— (DBMS存储空间管理)】

DBMS存储空间管理 概述块&#xff08;或页面&#xff09;PageHeaderData 结构体HeapTupleHeaderData 结构 表空间表空间的作用&#xff1a;表空间和数据库关系表空间执行案例 补充 —— 模式&#xff08;Schema&#xff09; 声明&#xff1a;本文的部分内容参考了他人的文章。在…

深度学习入门笔记(七)卷积神经网络CNN

我们先来总结一下人类识别物体的方法: 定位。这一步对于人眼来说是一个很自然的过程,因为当你去识别图标的时候,你就已经把你的目光放在了图标上。虽然这个行为不是很难,但是很重要。看线条。有没有文字,形状是方的圆的,还是长的短的等等。看细节。纹理、颜色、方向等。卷…

C++学习Day01之namespace命名空间

目录 一、程序及输出1.1 命名空间用途&#xff1a; 解决名称冲突1.2 命名空间内容1.3 命名空间必须要声明在全局作用域下1.4 命名空间可以嵌套命名空间1.5 命名空间开放&#xff0c;可以随时给命名空间添加新的成员1.6 命名空间可以是匿名的1.7 命名空间可以起别名 二、分析与总…

洛谷 P1980 [NOIP2013 普及组] 计数问题

题目背景 NOIP2013 普及组 T1 题目描述 试计算在区间 1 到 n 的所有整数中&#xff0c;数字 x&#xff08;0≤x≤9&#xff09;共出现了多少次&#xff1f;例如&#xff0c;在 1 到 11 中&#xff0c;即在 1,2,3,4,5,6,7,8,9,10,11 中&#xff0c;数字 1 出现了 4 次。 输入…

基于Java SSM框架实现校园快领服务系统项目【项目源码+论文说明】

基于java的SSM框架实现校园快领服务系统演示 摘要 随着科学技术的飞速发展&#xff0c;各行各业都在努力与现代先进技术接轨&#xff0c;通过科技手段提高自身的优势&#xff1b;对于校园快领服务系统当然也不能排除在外&#xff0c;随着网络技术的不断成熟&#xff0c;带动了…