半监督学习

2022-07-02 1660

半监督学习指的是结合了少量的有标记数据和大量无标记数据来完成训练的过程。

在某些特定领域，大量有标记的数据很少也很难标注。

比方说，我们现在有一个公开数据集，它全部都是有标注的。此时我们可以使用有监督的学习来看一下结果，再使用10%的有标注的数据集结合剩下90%的未标注的数据来使用半监督学习的方法，我们希望半监督学习的方法也能达到有监督学习的水平。

半监督学习的应用

视频理解，
自动驾驶
医疗影像分割
心脏信号分析

半监督前提假设

连续性假设(Continuity Assumption):

我们用一个分类问题来举例，当我们的Input是比较接近的时候，比如说进行猫狗分类，两张猫的图片是比较接近的时候，此时output(后验概率矩阵)也必须是比较接近的。

比如说，x1和x2比较接近，x1的后验概率是0.9和0.1，明显它是分成第一个类0.9的。x2有两组输出，一个是0.85和0.15，另一个是0.55和0.45。那么我们可以看到这两组的输出虽然都是把类别分到了第一个，但是第二组输出是不满足连续性假设的，因为它和距离比较大，差的比较多。

聚类假设(Cluster Assumption)

聚类假设指的是类类要内聚，类间要分开。就是说同一类的东西要非常相似，比较靠近，接近于一点。不同的类别要尽可能的分开。所以不能有模糊不清的图片，如

流行假设(Manifold Assumption)

所有数据点都可以被低维流行表达。
相同流行上的数据点，标签一样。

这里可以理解成降维，很多高维的数据的一些维度是不起作用的，它们的特点集中在一些低维度上。

半监督学习数学定义

上表是一个学术论文上，字符所代表的含义，x代表的是输入；y代表的是输出，它要么是个分类输出，要么是个回归输出；代表有标签的数据集；代表无标签的数据集；X就是整个的数据集，包含有标签的和无标签的；L指损失函数；G是生成器，半监督学习可以用到生成式模型；D是判别器；C是分类器；H是熵，一般指交叉熵；E是期望；R是正则项，半监督学习中一般指一致性正则，当然半监督学习也可以使用传统的L1和L2正则；是指标签。

半监督学习最核心的其实就是它的损失函数，它一般包含三个部分，第一部分就是有监督的loss(supervised loss)，第二部分就是无监督的loss(unsupervised loss)以及第三部分正则项(regularization)。因为半监督学习有少量的有标签的数据，那么第一部分就是这些有标签数据的loss;当然还有大量的未标注的数据，第二部分就是这些未标注数据的loss；第三部分可以用L1、L2正则，也可以是一致性正则。

第一部分的loss跟之前是一样的，一般是交叉熵损失函数，最主要的就是设计后面两部分的损失函数。

半监督学习实施方法

半监督学习模型可以分为五大方法，第一个是生成式模型，第二个是一致性损失正则，第三个是图神经网络，第四个是伪标签的方法，第五个是混合方法。现在用的最多的是混合方法，它可以结合前面四种方法的优点。

Generative Based:基于生成式网络

1、重用判别器(Re-using Discriminator)

在我们使用GAN的时候，我们知道，鉴别器充当的是二分类器的功能，对输入的真实的图片或者生成的图片来判定是真是假。重用鉴别器在半监督学习中是一个K分类的分类器，它不仅仅是对有标签的数据(x,y)进行分类，还有生成的数据(G(z))和未标注的数据x进行分类。通过这三块的损失来构建我们的K类别的分类器。这样就达到了我们的目的，联合了未标注的数据和有标签的数据。

2、用于正则化分类器的生成样本(Generated samples to regularize a classifier)

这里的鉴别器D依然是一个二分类器，生成器G生成数据的时候的输入包含了未标注数据x，还包含了某一分布的随机初始矩阵z，来共同生成，再由生成，生成的公式如下

这里的m是一个二值化的掩膜，即一个和x一样大的矩阵，它的值只有0和1。0乘以x中的像素点直接置为0，而1会保留x中的像素点的值。最后联合x和一同送入鉴别器D中来判别它们是否是一致的。我们希望我们的判别结果是一致的，这就意味着能驱动判别器D来识别到图片的某一块的特征。一旦该模型训练完备之后，就可以单独将鉴别器提取出来用在别的分类器中去。也可以用于构建别的loss设计的一部分，相当于一个表征或特征抽取器。

3、推理模型(inference model)

这是一个统称，不是指具体某一个模型的名字，有很多。

它跟第一种重用判别器很像，多了一个C(类别)。前面的步骤是相同的，只是在最后在判别器D这里多了一个类别，不是K个类别而是K+1个类别。多出来的这个类别就是生成器生成的G(z)的类别，它需要跟真实的K个类别的某一个类别要接近，这就是它的目的。

4、生成数据(Generate Data)

生成网络可以用在数据增强，生成更多的数据来。因为我们未标记的数据有很多，那我们干脆直接训练一个生成器，让它造更多数据出来。

Consistency Regularization:一致性正则

这种方式是半监督学习的核心。

设计思路：

这里θ是指模型参数，也就是模型。x是未标注的数据，指的是标签。

上图中，未标注数据x经过两种不同的随机数据增强Aug1和Aug2，也就是随机的翻转，旋转，平移，光照等等。然后送入模型中，让模型进行识别，会得到一个后验概率或者特征，我们希望输出的两个值是接近的。因为我们的输入是接近的，虽然x经过两种不同的扰动，但输出应该要接近。用公式表示为

这里的ζ指的是随机数据增强。ζ1和ζ2是两种不同的随机数据增强。

每个训练的epoch，会被前向推理两次，这两次虽然输入经过不同的随机增广，但是输出应该具有一致性。

其实这种扰动不单单是可以用随机数据增强，还可以使用很多的方法。

上表中是半监督学习经常刷榜的模型，它们的核心都在一致性正则上。比如说第三个，对于两种扰动，第二个扰动加了EMA(指数平均)；第四个是在第二种扰动中对模型参数加了EMA；最后一个对于同样的模型，不增广，而是直接在模型上加了扰动。

Pseudo-label：伪标签

半监督学习的大量数据是没有标签的，那么我们使用模型来预测一个标签，然后再送进模型训练。

伪标签的损失函数如下

其中第一部分是有标记数据的损失，是真实的标签，是有标记数据的前向推理值。第二部分是未标注数据的损失，是伪标签，也就是预测出来的标签，是未标记数据的前向推理值。伪标签看似是一个简单的思路，但其实涉及到的方法也很多，它可能跟一致性正则一样，在结构上做设计，或者在训练的流程上做设计以及伪标签预测的方法上做设计。

伪标签有一个弊端

伪标签选择不太容易，在模型训练初期，可能是一个不太好的模型，预测出来的标签极有可能是不正确的。如果此时再将预测出来的标签送进模型训练可能会引起进一步的崩溃。
在伪标签损失函数中第二部分有一个，它的意思代表伪标签损失值占整个损失函数多大的比重。而这个的权重值也是很难确定的。如果太小，则未标注数据就失去了作用；太大，如果预测出来的伪标签是不正确的，会导致损失结果难以收敛。

MixMatch半监督学习

MixMatch结合了之前说的几种方法，用了单个loss，将这几种方式进行合并，如一致性正则，最小化熵，传统正则。它有一个很重要的方法叫MixMatch，包含了标签的猜测以及锐化(Sharpening)，

它取的有标记数据和无标记数据的BatchSize是一样大的，不过无标记数据会经过K个增强。首先会对有标记数据进行增强，再对无标记数据进行K次增强，再将增强后的无标记数据送入模型，每一种增强的无标记数据会预测一个结果，将结果取均值，然后再锐化。之后会得到有标记的数据，和无标记数据以及猜测出的标记，然后将这两种数据给拼接(concat)起来，组合成一个大的数据，再随机打乱与有标记数据和带猜测标签的无标记数据进行混合。最后再送入模型，求损失函数。

代码实现

超参数设置

import torch

# ################################################################
#                             HyperParameters
# ################################################################
# semi-supervised learning:
#     1. model structure
#     2. hype setting are important!
class Hyperparameters:
    # ################################################################
    #                             Data
    # ################################################################
    device = 'cuda' if torch.cuda.is_available() else 'cpu'  # cuda for training, cpu/cuda for inference
    classes_num = 10  # 分类数
    n_labeled = 250  # 已标记数据总数
    seed = 1234

    # ################################################################
    #                             Model
    # ################################################################
    T = 0.5  # 锐化温度项(sharpen temperature)
    K = 2  # 数据增强次数
    alpha = 0.75  # 伪标签损失权值
    lambda_u = 75.  # 一致性损失权值
    # ################################################################
    #                             Exp
    # ################################################################
    batch_size = 8
    init_lr = 0.002
    epochs = 1000
    verbose_step = 300
    save_step = 300

HP = Hyperparameters()

数据集，这里使用的是cifar10数据集

import numpy as np
from torchvision import transforms
import torchvision
import torch


class TransformTwice:
    def __init__(self, transform):
        self.transform = transform

    def __call__(self, inp):
        out1 = self.transform(inp)
        out2 = self.transform(inp)
        return out1, out2


def get_cifar10(root, n_labeled,
                 transform_train=None, transform_val=None,
                 download=True):
    # 获取cifar10数据集
    base_dataset = torchvision.datasets.CIFAR10(root, train=True, download=download)
    # 将该数据集拆分成有标记的训练数据集，无标记的训练数据集和验证集
    train_labeled_idxs, train_unlabeled_idxs, val_idxs = train_val_split(base_dataset.targets, int(n_labeled / 10))
    # datasset->dataload
    train_labeled_dataset = CIFAR10_labeled(root, train_labeled_idxs, train=True, transform=transform_train)
    train_unlabeled_dataset = CIFAR10_unlabeled(root, train_unlabeled_idxs, train=True, transform=TransformTwice(transform_train))
    val_dataset = CIFAR10_labeled(root, val_idxs, train=True, transform=transform_val, download=True)
    test_dataset = CIFAR10_labeled(root, train=False, transform=transform_val, download=True)

    print(f"#Labeled: {len(train_labeled_idxs)} #Unlabeled: {len(train_unlabeled_idxs)} #Val: {len(val_idxs)}")
    return train_labeled_dataset, train_unlabeled_dataset, val_dataset, test_dataset
    

def train_val_split(labels, n_labeled_per_class):
    labels = np.array(labels)
    train_labeled_idxs = []
    train_unlabeled_idxs = []
    val_idxs = []

    for i in range(10):
        idxs = np.where(labels == i)[0]
        np.random.shuffle(idxs)
        train_labeled_idxs.extend(idxs[:n_labeled_per_class])
        train_unlabeled_idxs.extend(idxs[n_labeled_per_class:-500])
        val_idxs.extend(idxs[-500:])
    np.random.shuffle(train_labeled_idxs)
    np.random.shuffle(train_unlabeled_idxs)
    np.random.shuffle(val_idxs)

    return train_labeled_idxs, train_unlabeled_idxs, val_idxs


cifar10_mean = (0.4914, 0.4822, 0.4465)  # equals np.mean(train_set.train_data, axis=(0,1,2))/255
cifar10_std = (0.2471, 0.2435, 0.2616)  # equals np.std(train_set.train_data, axis=(0,1,2))/255


def normalise(x, mean=cifar10_mean, std=cifar10_std):
    x, mean, std = [np.array(a, np.float32) for a in (x, mean, std)]
    x -= mean*255
    x *= 1.0/(255*std)
    return x


def transpose(x, source='NHWC', target='NCHW'):
    return x.transpose([source.index(d) for d in target])


def pad(x, border=4):
    return np.pad(x, [(0, 0), (border, border), (border, border)], mode='reflect')


class RandomPadandCrop(object):
    """Crop randomly the image.

    Args:
        output_size (tuple or int): Desired output size. If int, square crop
            is made.
    """

    def __init__(self, output_size):
        assert isinstance(output_size, (int, tuple))
        if isinstance(output_size, int):
            self.output_size = (output_size, output_size)
        else:
            assert len(output_size) == 2
            self.output_size = output_size

    def __call__(self, x):
        x = pad(x, 4)

        h, w = x.shape[1:]
        new_h, new_w = self.output_size

        top = np.random.randint(0, h - new_h)
        left = np.random.randint(0, w - new_w)

        x = x[:, top: top + new_h, left: left + new_w]

        return x


class RandomFlip(object):
    """Flip randomly the image.
    """
    def __call__(self, x):
        if np.random.rand() < 0.5:
            x = x[:, :, ::-1]

        return x.copy()


class GaussianNoise(object):
    """Add gaussian noise to the image.
    """
    def __call__(self, x):
        c, h, w = x.shape
        x += np.random.randn(c, h, w) * 0.15
        return x


class ToTensor(object):
    """Transform the image to tensor.
    """
    def __call__(self, x):
        x = torch.from_numpy(x)
        return x


class CIFAR10_labeled(torchvision.datasets.CIFAR10):

    def __init__(self, root, indexs=None, train=True,
                 transform=None, target_transform=None,
                 download=False):
        super(CIFAR10_labeled, self).__init__(root, train=train,
                 transform=transform, target_transform=target_transform,
                 download=download)
        if indexs is not None:
            self.data = self.data[indexs]
            self.targets = np.array(self.targets)[indexs]
        self.data = transpose(normalise(self.data))

    def __getitem__(self, index):
        """
        Args:
            index (int): Index

        Returns:
            tuple: (image, target) where target is index of the target class.
        """
        img, target = self.data[index], self.targets[index]

        if self.transform is not None:
            img = self.transform(img)

        if self.target_transform is not None:
            target = self.target_transform(target)

        return img, target
    

class CIFAR10_unlabeled(CIFAR10_labeled):

    def __init__(self, root, indexs, train=True,
                 transform=None, target_transform=None,
                 download=False):
        super(CIFAR10_unlabeled, self).__init__(root, indexs, train=train,
                 transform=transform, target_transform=target_transform,
                 download=download)
        self.targets = np.array([-1 for i in range(len(self.targets))])


transform_train = transforms.Compose([
        RandomPadandCrop(32),
        RandomFlip(),
        ToTensor(),
    ])

transform_val = transforms.Compose([
    ToTensor(),
])

微信关注我们

原文链接：https://my.oschina.net/u/3768341/blog/5548134

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

JavaWeb 敏捷开发框架 EleVue 版本 v1.3.0 发布

v1.3.0 更新内容： 1、更新会员等级模块； 2、升级会员管理模块，新增马甲会员等身份角色； 3、修复近期用户反馈的问题；项目介绍一款 Java 语言基于 SpringBoot2.x、MybatisPlus、Vue、ElementUI、MySQL 等框架精心打造的一款前后端分离框架，致力于实现模块化、组件化、可插拔的前后端分离架构敏捷开发框架，可用于快速搭建前后端分离后台管理系统，本着简化开发、提升开发效率的初衷，目前框架已集成了完整的 RBAC 权限架构和常规基础模块，前端 Vue 端支持多主题切换，可以根据自己喜欢的风格选择想一个的主题，实现了个性化呈现的需求；为了敏捷快速开发，提升研发效率，框架内置了一键 CRUD 代码生成器，自定义了模块生成模板，可以根据已建好的表结构 (字段注释需规范) 快速的一键生成整个模块的所有代码和增删改查等等功能业务，真正实现了低代码开发，极大的节省了人力成本的同时提高了开发效率，缩短了研发周期，是一款真正意义上实现组件化、低代码敏捷开发框架。内置模块用户管理：用于维护管理系统的用户，常规信息的维护与账号设置。角色管理：角色菜单管理与...

2022-07-04

521

开源之夏走入第三个年头，积聚的星星之火，正遍撒开源世界。 2022年，449名年轻的高校开发者即将在开源社区导师的引领下，开启一段全新的项目开发之旅。相关阅读：开源之夏中选名单已公示，449名高校生将开启开源贡献之旅！目前，开源之夏专访专栏再次启动，欢迎已从开源之夏毕业以及正在参与的学生一起加入专栏行动，有兴趣的小伙伴请添加小编姐姐微信：damengshiye（备注“专栏投稿”加速通过）。本期专访嘉宾来自开源之夏的持续参与者，Apache IoTDB社区新晋Committer——谢其骏。 1、自我介绍我是谁？我来自哪里？关于开源和我大家好，我叫谢其骏，是北京航空航天大学计算机学院的一名研一学生，本科就读于西北工业大学软件学院。最初在大二的时候，就习惯把自己写的一些小软件开源到GitHub上，大三有和同学一起开发了中国机器人大赛的官方比赛平台，也放到了GitHub上开源，当时认为的开源就是简单的把代码公开出来。现在我觉得更重要的是“社区”，在开源的过程中，一些志同道合的开发者聚集在同一个社区里，大家的想法不断进行碰撞，在这个过程中，自己的能力也得到了很大的锻炼，同时社...

2022-07-04

566

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

半监督学习