个性化阅读
专注于IT技术分析

无监督机器学习

本文概要

在前一个主题中,我们学习了监督机器学习,在训练数据的监督下,使用标记数据对模型进行训练。但是,在许多情况下,我们可能没有标记数据,需要从给定的数据集中找到隐藏的模式。因此,为了解决机器学习中的这类情况,我们需要无监督学习技术。

什么是无监督学习?

顾名思义,无监督学习是一种机器学习技术,其中模型不使用训练数据集进行监督。相反,模型本身会从给定的数据中发现隐藏的模式和见解。它可以与学习新事物时在人脑中进行的学习相比较。它可以被定义为:

无监督学习是一种机器学习,在这种学习中,模型使用未标记的数据集进行训练,并允许在没有任何监督的情况下对数据进行操作。

非监督学习不能直接应用于回归或分类问题,因为与监督学习不同,我们有输入数据,但没有相应的输出数据。无监督学习的目标是发现数据集的底层结构,根据相似性对数据进行分组,并以压缩格式表示数据集。

例如: 假设无监督学习算法被给予一个包含不同类型的猫和狗的图像的输入数据集。该算法从未针对给定的数据集进行过训练,这意味着它对数据集的特性一无所知。无监督学习算法的任务是识别图像本身的特征。无监督学习算法将根据图像之间的相似性将图像数据集聚类到不同的组中。

为什么要使用无监督学习?

下面是描述无监督学习的重要性的主要原因:

  • 无监督学习有助于从数据中发现有用的见解。
  • 无监督学习非常类似于人类通过自己的经验来学习思考,这使得它更接近真正的人工智能。
  • 无监督学习对未标记和未分类的数据进行处理,使得无监督学习更加重要。
  • 在现实世界中,我们并不总是有输入数据和相应的输出,所以为了解决这种情况,我们需要无监督学习。

无监督学习的工作

无监督学习的工作可以用下图来理解:

这里,我们取了一个未标记的输入数据,这意味着它没有被分类,相应的输出也没有给出。现在,这个未标记的输入数据被输入到机器学习模型中以训练它。首先对原始数据进行解释,从数据中发现隐藏的模式,然后应用合适的算法,如k-means聚类、决策树等。

一旦应用了合适的算法,算法就会根据对象之间的相似性和差异性将数据对象分组。

神经网络算法的类型

在无监督学习算法可以进一步分为两类问题:

  • 聚类:聚类是一种将对象分组成集群的方法,使得具有最多相似性的对象保留在一个组中,而与另一个组的对象的相似性较少或没有。聚类分析发现数据对象之间的共性,并根据这些共性的存在与否对它们进行分类。
  • 关联:关联规则是一种无监督学习方法,用于在大型数据库中寻找变量之间的关系。它确定数据集中一起出现的项集。关联规则使营销策略更有效。例如,购买X商品(假设是面包)的人也倾向于购买Y商品(黄油/果酱)。关联规则的一个典型例子是市场篮子分析。

注意:我们将在后面的章节中学习这些算法。

无监督学习算法

下面是一些流行的无监督学习算法列表:

  • K-均值聚类
  • KNN(K近邻)
  • 分层聚类
  • 异常检测
  • 神经网络
  • 主成分分析
  • 独立成分分析
  • 先验算法
  • 奇异值分解

无监督学习的优点

  • 与有监督学习相比,无监督学习用于更复杂的任务,因为在无监督学习中,我们没有标记输入数据。
  • 无监督学习更可取,因为与有标签数据相比,无标签数据更容易获得。

无监督学习的缺点

  • 无监督学习本质上是比监督学习更加困难,因为它不具有相应的输出。
  • 作为输入数据未贴标签的无监督学习算法的结果可能不太准确,算法不预先知道精确的输出。

赞(0)
未经允许不得转载:srcmini » 无监督机器学习

评论 抢沙发

评论前必须登录!