【机器学习】--- 自监督学习

在这里插入图片描述

1. 引言

机器学习近年来的发展迅猛,许多领域都在不断产生新的突破。在监督学习和无监督学习之外,自监督学习(Self-Supervised Learning, SSL)作为一种新兴的学习范式,逐渐成为机器学习研究的热门话题之一。自监督学习通过从数据中自动生成标签,避免了手工标注的代价高昂,进而使得模型能够更好地学习到有用的表示。

自监督学习的应用领域广泛,涵盖了图像处理、自然语言处理、音频分析等多个方向。本篇博客将详细介绍自监督学习的核心思想、常见的自监督学习方法及其在实际任务中的应用。我们还将通过具体的代码示例来加深对自监督学习的理解。

2. 自监督学习的核心思想

自监督学习的基本理念是让模型通过从数据本身生成监督信号进行训练,而无需人工标注。常见的方法包括生成对比任务、预测数据中的某些属性或部分等。自监督学习的关键在于设计出有效的预训练任务,使模型在完成这些任务的过程中能够学习到数据的有效表示。

2.1 自监督学习与监督学习的区别

在监督学习中,模型的训练需要依赖大量的人工标注数据,而无监督学习则没有明确的标签。自监督学习介于两者之间,它通过从未标注的数据中创建监督信号,完成预训练任务。通常,自监督学习的流程可以分为两步:

  1. 预训练:利用自监督任务对模型进行预训练,使模型学习到数据的有效表示。
  2. 微调:将预训练的模型应用到具体任务中,通常需要进行一些监督学习的微调。
2.2 常见的自监督学习任务

常见的自监督任务包括:

  • 对比学习(Contrastive Learning):从数据中生成正样本和负样本对,模型需要学会区分正负样本。
  • 预文本任务(Pretext Tasks):如图像块预测、顺序预测、旋转预测等任务。
2.3 自监督学习的优点

自监督学习具备以下优势:

  • 减少对人工标注的依赖:通过生成任务标签,大大降低了数据标注的成本。
  • 更强的泛化能力:在大量未标注的数据上进行预训练,使模型能够学习到通用的数据表示,提升模型在多个任务上的泛化能力。

3. 自监督学习的常见方法

在自监督学习中,研究者设计了多种预训练任务来提升模型的学习效果。以下是几种常见的自监督学习方法。

3.1 对比学习(Contrastive Learning)

对比学习是目前自监督学习中最受关注的一个方向。其基本思想是通过构造正样本对(相似样本)和负样本对(不同样本),让模型学习区分样本之间的相似性。典型的方法包括SimCLR、MoCo等。

SimCLR 的实现
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision.transforms as transforms
import torchvision.models as models
from torch.utils.data import DataLoader, Dataset
import numpy as np

# SimCLR数据增强
class SimCLRTransform:
    def __init__(self, size):
        self.transform = transforms.Compose([
            transforms.RandomResizedCrop(size=size),
            transforms.RandomHorizontalFlip(),
            transforms.ColorJitter(0.4, 0.4, 0.4, 0.4),
            transforms.RandomGrayscale(p=0.2),
            transforms.GaussianBlur(kernel_size=(3, 3)),
            transforms.ToTensor()
        ])

    def __call__(self, x):
        return self.transform(x), self.transform(x)

# 定义对比损失
class NTXentLoss(nn.Module):
    def __init__(self, temperature):
        super(NTXentLoss, self).__init__()
        self.temperature = temperature

    def forward(self, z_i, z_j):
        batch_size = z_i.size(0)
        z = torch.cat([z_i, z_j], dim=0)
        sim_matrix = torch.mm(z, z.t()) / self.temperature
        mask = torch.eye(2 * batch_size, dtype=torch.bool).to(sim_matrix.device)
        sim_matrix.masked_fill_(mask, -float('inf'))
        
        positives = torch.cat([torch.diag(sim_matrix, batch_size), torch.diag(sim_matrix, -batch_size)], dim=0)
        negatives = sim_matrix[~mask].view(2 * batch_size, -1)
        
        logits = torch.cat([positives.unsqueeze(1), negatives], dim=1)
        labels = torch.zeros(2 * batch_size).long().to(logits.device)
        
        loss = nn.CrossEntropyLoss()(logits, labels)
        return loss

# 定义模型架构
class SimCLR(nn.Module):
    def __init__(self, base_model, projection_dim=128):
        super(SimCLR, self).__init__()
        self.backbone = base_model
        self.projector = nn.Sequential(
            nn.Linear(self.backbone.fc.in_features, 512),
            nn.ReLU(),
            nn.Linear(512, projection_dim)
        )

    def forward(self, x):
        h = self.backbone(x)
        z = self.projector(h)
        return z

# 模型训练
def train_simclr(model, train_loader, epochs=100, lr=1e-3, temperature=0.5):
    optimizer = optim.Adam(model.parameters(), lr=lr)
    criterion = NTXentLoss(temperature)

    for epoch in range(epochs):
        model.train()
        total_loss = 0
        for x_i, x_j in train_loader:
            optimizer.zero_grad()
            z_i = model(x_i)
            z_j = model(x_j)
            loss = criterion(z_i, z_j)
            loss.backward()
            optimizer.step()
            total_loss += loss.item()
        
        print(f'Epoch [{epoch+1}/{epochs}], Loss: {total_loss/len(train_loader)}')

# 示例:在CIFAR-10上进行SimCLR训练
from torchvision.datasets import CIFAR10

train_dataset = CIFAR10(root='./data', train=True, transform=SimCLRTransform(32), download=True)
train_loader = DataLoader(train_dataset, batch_size=128, shuffle=True, num_workers=4)

resnet_model = models.resnet18(pretrained=False)
simclr_model = SimCLR(base_model=resnet_model)

train_simclr(simclr_model, train_loader)

以上代码展示了如何实现SimCLR对比学习模型。通过数据增强生成正样本对,使用NT-Xent损失函数来区分正负样本对,进而让模型学习到有效的数据表示。

3.2 预文本任务(Pretext Tasks)

除了对比学习,预文本任务也是自监督学习中的一种重要方法。常见的预文本任务包括图像块预测、旋转预测、Jigsaw拼图任务等。我们以Jigsaw拼图任务为例,展示如何通过打乱图像块顺序,让模型进行重新排序来学习图像表示。

Jigsaw任务的实现
import random

# 定义Jigsaw数据预处理
class JigsawTransform:
    def __init__(self, size, grid_size=3):
        self.size = size
        self.grid_size = grid_size
        self.transform = transforms.Compose([
            transforms.Resize((size, size)),
            transforms.ToTensor()
        ])

    def __call__(self, x):
        x = self.transform(x)
        blocks = self.split_into_blocks(x)
        random.shuffle(blocks)
        return torch.cat(blocks, dim=1), torch.tensor([i for i in range(self.grid_size ** 2)])

    def split_into_blocks(self, img):
        c, h, w = img.size()
        block_h, block_w = h // self.grid_size, w // self.grid_size
        blocks = []
        for i in range(self.grid_size):
            for j in range(self.grid_size):
                block = img[:, i*block_h:(i+1)*block_h, j*block_w:(j+1)*block_w]
                blocks.append(block.unsqueeze(0))
        return blocks

# 定义Jigsaw任务模型
class JigsawModel(nn.Module):
    def __init__(self, base_model):
        super(JigsawModel, self).__init__()
        self.backbone = base_model
        self.classifier = nn.Linear(base_model.fc.in_features, 9)

    def forward(self, x):
        features = self.backbone(x)
        out = self.classifier(features)
        return out

# 示例:在CIFAR-10上进行Jigsaw任务训练
train_dataset = CIFAR10(root='./data', train=True, transform=JigsawTransform(32), download=True)
train_loader = DataLoader(train_dataset, batch_size=128, shuffle=True, num_workers=4)

jigsaw_model = JigsawModel(base_model=resnet_model)

# 训练过程同样可以采用类似SimCLR的方式进行

Jigsaw任务通过打乱图像块并要求模型恢复原始顺序来学习图像的表示,训练方式与

普通的监督学习任务相似,核心是构建预训练任务并生成标签。

4. 自监督学习的应用场景

自监督学习目前在多个领域得到了成功的应用,包括但不限于:

  • 图像处理:通过预训练任务学习到丰富的图像表示,进而提升在图像分类、目标检测等任务上的表现。
  • 自然语言处理:BERT等模型的成功应用展示了自监督学习在文本任务中的巨大潜力。
  • 时序数据分析:例如在视频处理、音频分析等领域,自监督学习也展示出了强大的能力。

5. 结论

自监督学习作为机器学习中的一个新兴热点,极大地推动了无标注数据的利用效率。通过设计合理的预训练任务,模型能够学习到更加通用的数据表示,进而提升下游任务的性能。在未来,自监督学习有望在更多实际应用中发挥重要作用,帮助解决数据标注昂贵、难以获取的难题。

在这篇文章中,我们不仅阐述了自监督学习的基本原理,还通过代码示例展示了如何实现对比学习和Jigsaw任务等具体方法。通过深入理解这些技术,读者可以尝试将其应用到实际任务中,从而提高模型的表现。

参考文献

  1. Chen, Ting, et al. “A simple framework for contrastive learning of visual representations.” International conference on machine learning. PMLR, 2020.
  2. Gidaris, Spyros, and Nikos Komodakis. “Unsupervised representation learning by predicting image rotations.” International Conference on Learning Representations. 2018.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/878811.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

某思CMS V10存在SQL注入漏洞

Fofa: product"魅思-视频管理系统" 框架:ThinkPHP 5,6 1 漏洞分析&复现 位于 /controller/Api.php 控制器中的getOrderStatus 方法POST传入,然后直接拼接了 orderSn 变量到 where 查询中,导致漏洞产生. /** * 查询订单支付状态 */ pub…

服务器——装新的CUDA版本的方法

服务器——装新的CUDA版本 一、进入 CUDA 版本列表二、根据自己服务器,选择对应的版本和配置三、使用管理员用户,运行下载和安装命令四、查看显卡驱动是否安装4.1 若安装了显卡驱动4.2 若显卡驱动没安装 参考文章 一、进入 CUDA 版本列表 CUDA Toolkit …

sqlgun靶场攻略

步骤一:打开页面 步骤二:测试回显点 -1union select 1,2,3# 步骤三:查看数据库名 -1union select 1,2,database()# 步骤四:查看表名 -1union select 1,2,group_concat(table_name) from information_schema.tables where table…

Double Write

优质博文:IT-BLOG-CN 一、存在的问题 为什么需要Double Write: InnoDB的PageSize是16kb,其数据校验也是针对这16KB来计算的,将数据写入磁盘是以Page为单位的进行操作的。而计算机硬件和操作系统,写文件是以4KB作为基…

ASR(自动语音识别)识别文本效果的打分总结

ASR(自动语音识别)识别文本效果的打分总结 1. 词错误率(WER, Word Error Rate)2. 字正确率(W.Corr, Word Correct)3. 编辑距离(Edit Distance)4. 特定错误率5. 句子错误率(SER, Sentence Error Rate)6. 基于模型的评估方法对于ASR(自动语音识别)识别文本效果的打分…

SHT30温湿度传感器详解(STM32)

目录 一、介绍 二、传感器原理 1.原理图 2.引脚描述 3.工作原理 三、程序设计 main.c文件 sht30.h文件 sht30.c文件 四、实验效果 五、资料获取 项目分享 一、介绍 SHT30是一种常见的温湿度传感器,是一款完全校准的线性化的温湿度数字传感器&#xff0…

C++初阶:STL详解(三)——vector的介绍和使用

✨✨小新课堂开课了,欢迎欢迎~✨✨ 🎈🎈养成好习惯,先赞后看哦~🎈🎈 所属专栏:C:由浅入深篇 小新的主页:编程版小新-CSDN博客 前言: 前面我们刚刚了解了strin…

Jetpack Compose Side Effects in Details 副作用的详细信息

What is Side Effect’s? 副作用是什么? Side Effects is a change in the state of the application that occurs outside the scope of the composable function and is not related to the UI. In non-UI related state changes, our screen may recompose mor…

【C语言零基础入门篇 - 6】:数组、字符和字符串带你探索无限可能

文章目录 数组一维数组一维数组的定义一维数组的初始化 字符数组二维数组二维数组存汉字 字符串相关函数小结 数组 特点: 在同一个数组中,所有元素都是同一个类型。可以是int、char、float、double等类型。数组是一种构造类型,是一批数据的…

PCIe进阶之TL:Completion Rules TLP Prefix Rules

1 Completion Rules & TLP Prefix Rules 1.1 Completion Rules 所有的 Read、Non-Posted Write 和 AtomicOp Request 都需要返回一个 Completion。Completion 有两种类型:一种带数据负载的,一种不带数据负载的。以下各节定义了 Completion header 中每个字段的规则。 C…

腾讯百度阿里华为常见算法面试题TOP100(3):链表、栈、特殊技巧

之前总结过字节跳动TOP50算法面试题: 字节跳动常见算法面试题top50整理_沉迷单车的追风少年-CSDN博客_字节算法面试题 链表 160.相交链表

基于python+django+vue的外卖管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、SSM项目源码 系统展示 【2025最新】基于pythondjangovueMySQL的外…

word文档无损原样转pdf在windows平台使用python调用win32com使用pip安装pywin32

前提: windows环境下,并且安装了office套装,比如word,如果需要调用excel.也需要安装。在另外的文章会介绍。这种是直接调用word的。所以还原度会比较高。 需求: word文档转pdf,要求使用命令行形式,最终发布为api接口…

通过sshd_config限制用户登录

在CentOS Stream或其他现代的Linux发行版中,你可能会发现传统的hosts.deny和 hosts.allow文件已经不存在或不被使用。这是因为随着时间的推移,系统的安全策略和网络管理工具已经发生了演变,许多系统管理员和发行版维护者选择使用更现代、更灵…

鸿蒙next web组件和h5 交互实战来了

前言导读 鸿蒙next web组件这个专题之前一直想讲一下 苦于没有时间,周末把代码研究的差不多了,所以就趁着现在这个时间节点分享给大家。也希望能对各位读者网友工作和学习有帮助,废话不多说我们正式开始。 效果图 默认页面 上面H5 下面ArkU…

小米,B站网络安全岗位笔试题目+答案

《网安面试指南》http://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247484339&idx1&sn356300f169de74e7a778b04bfbbbd0ab&chksmc0e47aeff793f3f9a5f7abcfa57695e8944e52bca2de2c7a3eb1aecb3c1e6b9cb6abe509d51f&scene21#wechat_redirect 《Java代码审…

开源免费的工贸一体行业ERP管理系统

引言 在当今数字化浪潮汹涌澎湃的时代,中小企业面临着前所未有的挑战与机遇。如何实现数字化转型发展,成为了众多中小企业主心头的大事。 据相关数据显示,目前我国中小企业数量已经超过了 4000 万户,然而成功实现数字化转型的比例…

.NET 一款免杀的白名单工具可执行系统命令

01阅读须知 此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等(包括但不限于)进行检测或维护参考,未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失&#xf…

使用Mockito进行单元测试

1、单元测试介绍 Mockito和Junit是用于单元测试的常用框架。单元测试即:从最小的可测试单元(如函数、方法或类)开始,确保每个单元都能按预期工作。单元测试是白盒测试的核心部分,它有助于发现单元内部的错误。 单元测试…

【AcWing 158周赛】

5842. 拆树 主要思路: 如何分割? 深度遍历,当遍历的子数的sum为总sum的三分之一即是一个分割方法。 1其中要注意节点范围为 [ − 100 , 100 ] [-100,100] [−100,100],所以当 总树 s u m 0 总树sum0 总树…