PyTorch][chapter 12][李宏毅深度学习][Semi-supervised Linear Methods-1]

 这里面介绍半监督学习里面一些常用的方案:

K-means ,HAC, PCA 等


目录:

  1.    K-means
  2.    HAC
  3.    PCA

一  K-means

    【预置条件】

          X=\begin{Bmatrix} x^1 &x^2 &... & x^N \end{Bmatrix}

         N 个样本分成k 个 簇

         step1:

                初始化簇中心点 c_i,i=1,2,..k(随机从X中抽取k个样本点作为)

         Repeat: 

                For  all x^n in X: 根据其到  C_i(i=1,2,..k)的欧式距离:

                 b_i^n=\left\{\begin{matrix}1:\, x^n\, most\, close \, c_i\\ 0: else \end{matrix}\right.(代表第n个样本属于第i簇)

                updating all c_i:

                 c_i=\frac{\sum_{x^n}b_i^nx^n}{\sum_{x^n}b_i^n}

          问题:

                 不同的初始化参数影响很大.可以通过已打标签的数据集作为c_i,

            未打标签的


二 Hierachical agglomerative Clustering(HAC)层次凝聚聚类算法

     流程

       1: build a tree (创建数结构)

       2  clustering by threshold (通过不同的阀值进行聚类)

     

   例   假设有5笔data:    x^1,x^2,x^3,x^4,x^5

       build a tree

       1  合并其中距离最近的两项  x^1,x^2

              

         2 基于合并后的数据集 (x^1,x^2,x^3,x^4),合并其中距离最小的两项  x^2,x^3

            

       1.3  基于 x^1,x^2,x^3 合并其中最小的两项 x^1,x^3

1.4 最后只剩下最后两项(N<=k),合并作为root

2  聚类(pick a threshold 选择不同的阀值进行分类)

  比如阀值在黑色虚线的位置:

x^1,x^2 为1类

x^3 为一类

 x^4,x^5为一类

  

# -*- coding: utf-8 -*-
"""
Created on Fri Jan 26 15:55:03 2024

@author: chengxf2
"""

import numpy as np
import math

def euler_distance(point1, point2):
    #计算欧几里德距离
    distance = 0.0
    c= point1-point2
    distance = np.sum(np.power(c,2))
    return math.sqrt(distance)


class tree:
    #定义一个节点
    def __init__(self, data, left= None,  right = None, distance=-1,idx= None,  count=1):
        
        self.x = data
        self.left = left
        self.right = right
        self.distance = distance
        self.id = idx
        self.count = count
        
        
def mergePoint(a,b):
    
    c= np.vstack((a,b))
    return c


class Hierarchical:
    
    
    
    def __init__(self, k=1):
        
        assert k>0
        self.k =k
        self.labels = None
        
    def getNearest(self, nodeList):
        #获取最邻近点
        
        N = len(nodeList)
        #print("\n N",N)
        min_dist = np.inf
       
        
        for i in range(N-1):
            for j in range(i+1, N):
                #print("\n i ",i,j)
                pointI = nodeList[i].x
                pointJ = nodeList[j].x
                d =  euler_distance(pointI, pointJ)
                if d <min_dist:
                    min_dist = d
                    closerst_point = (i, j)
        return closerst_point,min_dist
                
    def fit(self, data):
        N = len(data)
        nodeList = [ tree(data=x,idx = i) for i,x in enumerate(data)]
        currentclustid = -1
        self.labels =[-1]*N
        print(self.labels)
        
        
        while(len(nodeList)>self.k):
            
           closerest_point,min_dist = self.getNearest(nodeList)
           #print("\n closerest_point",closerest_point)
           id1, id2 = closerest_point
           node1, node2 = nodeList[id1], nodeList[id2]
           
           merge_vec =np.vstack((node1.x,node2.x))
           avg_vec = np.mean(merge_vec,axis=0)
           #print(node1.x, node2.x, avg_vec)
         
           new_node = tree(data=avg_vec, left=node1, right=node2, distance=min_dist, idx=currentclustid,
                                  count=node1.count + node2.count)
           currentclustid -= 1
           
           del nodeList[id2], nodeList[id1]
           nodeList.append(new_node)
        self.nodes = nodeList
        
           
    def calc_label(self):
         for i, node in enumerate(self.nodes):
             print("\b label",i)
             self.leaf_traversal(node, i)
             
    def leaf_traversal(self, node: tree, label):
         if node.left is None and node.right is None:
             self.labels[node.id] = label
             
         if node.left:
            
             self.leaf_traversal(node.left, label)
         if node.right:
             
             self.leaf_traversal(node.right, label)



if __name__ == "__main__":
    data = np.array([[1,1],
                     [1,1],
                     [2,2],
                     [3,3],
                     [3,4]] )
    
    net = Hierarchical(k=2)
    
    net.fit(data)
    net.calc_label()

三  PCA(Principle Component Analysis)

     PCA 是机器学习里面一种主要降维方案,深度学习里面常用的是AE编码器.

  如下图在3维空间里面,不同数据分布在不同的空间,通过PCA 降维到2D 

空间后,不同类别的数据分布依然分布在不同的空间,数据处理起来更方便.

原理推导:

    

已知:

     x \in R^{n,1} 为列向量

     数据集中有m笔该数据集

     W=[w_1,w_2,..w_k]w_1 \in R^{n,1} 列向量

      在第一个维度上面的投影为:

        z_1=w_1^Tx

       我们期望最大方差

        var(z_1)=\sum_{z_1} (z_1-\bar{z_1})^2 

        解:

            var(z_1)=\sum_x (w_1^Tx-w_1^T\bar{x})^2(利用(a^Tb)^2=a^Tbb^Ta)

                           =\sum_{x} w_1^T(x-\bar{x})(x-\bar{x}) w_1

                            =w_1^T(\sum_x(x-\bar{x})(x-\bar{x})^T)w_1

                             =w_1^TSw_1

           加上约束条件w_1^Tw_1=1,利用拉格朗日对偶算法求解

        L=-w_1^TSw_1+\alpha(w_1^Tw_1-1)(S是协方差矩阵,对称矩阵)

      对w_1求微分

   -Sw_1+\alpha w_1=0

   Sw_1=\alpha w_1

           w 就是特征向量

            \alpha  特征值

实对称矩阵S的重要性质,特征值一般只取前k个大于0的(负的只是方向问题)

                              

40:00

参考:

CV算法:K-means 、HAC、Mean Shift Clustering - 简书

13: Unsupervised Learning - Linear Methods_哔哩哔哩_bilibili

https://www.johngo689.com/549602/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/358414.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

仿真APP在金属波纹管液压胀形工艺设计中的应用

一、背景介绍 金属波纹管是带有波纹状截面的金属管状零件&#xff0c;在工业中应用广泛。金属波纹管特殊的截面形状使其具备较好的柔韧性&#xff0c;能够在一定范围内伸缩弯曲。这一特性赋予波纹管两大用途&#xff1a;一是作为变形补偿器&#xff0c;可用于补偿管道设备由于…

转盘寿司 - 华为OD统一考试

OD统一考试&#xff08;C卷&#xff09; 分值&#xff1a; 100分 题解&#xff1a; Java / Python / C 题目描述 寿司店周年庆&#xff0c;正在举办优惠活动回馈新老用户。 寿司转盘上总共有 n 盘寿司&#xff0c; prices[i] 是第 i 盘寿司的价格。 如果客户选择了第 i 盘寿…

【论文阅读】Long-Tailed Recognition via Weight Balancing(CVPR2022)附MaxNorm的代码

目录 论文使用方法weight decayMaxNorm 如果使用原来的代码报错的可以看下面这个 论文 问题&#xff1a;真实世界中普遍存在长尾识别问题&#xff0c;朴素训练产生的模型在更高准确率方面偏向于普通类&#xff0c;导致稀有的类别准确率偏低。 key:解决LTR的关键是平衡各方面&a…

网络原理-TCP/IP(1)

应用层 我们之前编写完了基本的java socket, 要知道,我们之前所写的所有代码都在应用层中,都是为了完成某项业务,如翻译等.关于应用层,后面会有专门的讲解,在此处先讲一下基础知识. 应用层对应着应用程序,是程序员打交道最多的一层,调用系统提供的网络api写出的代码都是应用层…

如何安装配置HFS并实现无公网ip远程访问本地电脑共享文件

文章目录 前言1.下载安装cpolar1.1 设置HFS访客1.2 虚拟文件系统 2. 使用cpolar建立一条内网穿透数据隧道2.1 保留隧道2.2 隧道名称2.3 成功使用cpolar创建二级子域名访问本地hfs 总结 前言 在大厂的云存储产品热度下降后&#xff0c;私人的NAS热度快速上升&#xff0c;其中最…

【webrtc】m98 : vs2019 直接构建webrtc及moduletest工程 2

字数有限制,我们继续 【webrtc】m98 : vs2019 直接构建webrtc及unitest工程 1modules_unittests 构建 Build started... 1>------ Build started: Project: modules_unittests, Configuration: GN Win32 ------ 1>ninja: Entering directory `G:\CDN\rtcCli\m98\src\o…

导出Mysql数据库表名和字段并合并成一个word

参考链接&#xff1a; 导出MySQL数据库所有库和字段注释及相关信息为word文档——工具类 java - Apache POI - How to copy tables from one docx to another docx - Stack Overflow 领导让我研究下一个低代码平台的代码&#xff0c;我就想着做一个把数据库字段直接导出来的…

STM32F407移植OpenHarmony笔记4

上一篇写到make menuconfig报错&#xff0c;继续开整。 make menuconfig需要/device/soc/*下面有对应的Kconfig文件。 直接去gitee下载stm32的配置文件拿来参考用。 先提取Kconfig文件&#xff0c;后面再添加其它文件。https://gitee.com/openharmony/device_soc_st/tree/Open…

【React教程】(1) React简介、React核心概念、React初始化

目录 ReactReact 介绍React 特点React 的发展历史React 与 Vue 的对比技术层面开发团队社区Native APP 开发 相关资源链接 EcmaScript 6 补充React 核心概念组件化虚拟 DOM 起步初始化及安装依赖Hello World React React 介绍 React 是一个用于构建用户界面的渐进式 JavaScrip…

day33WEB 攻防-通用漏洞文件上传中间件解析漏洞编辑器安全

目录 一&#xff0c;中间件文件解析漏洞-IIS&Apache&Nginx -IIS 6 7 文件名 目录名 -Apache 换行解析 配置不当 1、换行解析-CVE-2017-15715 2、配置不当-.htaccess 配置不当 -Nginx 文件名逻辑 解析漏洞 1、文件名逻辑-CVE-2013-4547 2、解析漏洞-nginx.conf …

LLM漫谈(四)| ChatDOC:超越ChatPDF性能并支持更多功能的阅读聊天工具

在过去的一年里&#xff0c;ChatGPT的兴起催生了许多基于GPT的人工智能工具&#xff0c;其中Chat PDF工具得到了广泛关注。这些工具对知识密集型专业人员来说尤其有价值&#xff0c;大大提高了生产力。随着Chat PDF工具的激增&#xff0c;选择正确的工具变得至关重要。 接下来&…

视频转GIF动图实践, 支持长视频转GIF

背景 找了很多GIF动图制作的工具&#xff0c;比如将视频转成GIF, 或者将一系列图片转成GIF, 增加背景文案等等功能。很多收费或者用的一些三方库有点点卡顿&#xff0c;或者需要安装一个软件&#xff0c;所以就自己做一款纯前端页面级别的 视频转 GIF 动图工具。 最开始找到一…

网站地址怎么改成HTTPS?

现在&#xff0c;所有类型的网站都需要通过 HTTPS 协议进行安全连接&#xff0c;而实现这一目标的唯一方法是使用 SSL 证书。如果您不将 HTTP 转换为 HTTPS&#xff0c;浏览器和应用程序会将您网站的连接标记为不安全。 但用户询问如何将我的网站从 HTTP 更改为 HTTPS。在此页…

米贸搜|如何“有效利用”Facebook动态广告?!

什么是动态广告&#xff1f; 在我们的日常在线购物经验中&#xff0c;我们经常遇到这样的情况&#xff1a;在某宝平台上浏览或搜索一款产品后&#xff0c;不久你就会发现&#xff0c;平台开始向你推荐与你之前浏览过的商品相似的其他商品。这种商品推荐通常非常符合你的口味&a…

用可视化表单设计轻松实现流程化办公!

在现代化职场办公中&#xff0c;低代码技术平台的利用程度越来越高&#xff0c;成为大家实现流程化办公和数字化转型的友好合作伙伴。作为专业的服务商&#xff0c;流辰信息潜心研发低代码技术平台产品及可视化表单设计工具&#xff0c;轻松助力越来越多行业的客户朋友提高办公…

C语言应用实例——贪吃蛇

&#xff08;图片由AI生成&#xff09; 0.贪吃蛇游戏背景 贪吃蛇游戏&#xff0c;最早可以追溯到1976年的“Blockade”游戏&#xff0c;是电子游戏历史上的一个经典。在这款游戏中&#xff0c;玩家操作一个不断增长的蛇&#xff0c;目标是吃掉出现在屏幕上的食物&#xff0c…

多线程事务如何回滚?

背景介绍 1&#xff0c;最近有一个大数据量插入的操作入库的业务场景&#xff0c;需要先做一些其他修改操作&#xff0c;然后在执行插入操作&#xff0c;由于插入数据可能会很多&#xff0c;用到多线程去拆分数据并行处理来提高响应时间&#xff0c;如果有一个线程执行失败&am…

Seata部署

1、下载seata wget https://github.com/apache/incubator-seata/releases/download/v1.4.2/seata-server-1.4.2.zip 2、执行服务端SQL -- -------------------------------- The script used when storeMode is db -------------------------------- -- the table to store Gl…

12306 真的很拉跨吗?春运是对它最大的误解!

春节降至&#xff0c;大家都抢到火车票了吗&#xff1f;马上就要迎来春节&#xff0c;是不是都在吐槽 12306 的种种不好&#xff0c;它真的有这么拉跨吗&#xff1f; 其实不然&#xff0c;每到各种节假日&#xff0c;都是对 12306 最大的误解&#xff01; 特别是春运&#xf…

多个微信号难管理?

很多客户都遇到了这几个问题&#xff1a; 1、公司分配给员工有很多个微信账号&#xff0c;但是管理起来很难&#xff1f; 2、多个微信号要不来回切换登录&#xff0c;要不需要挂在多台手机了&#xff1f; 3、每个号每天都需要发朋友圈&#xff0c;工作量大&#xff1f;有时还…