分类算法的思想非常简单。我们通过分析训练数据集来预测目标类别。我们使用训练数据集获得更好的边界条件, 这些条件可用于确定每个目标类别。确定边界条件后, 下一个任务是预测目标类别。整个过程称为分类。
分类算法有一些要点:
- 分类器
它是一种将输入数据映射到特定类别的算法。 - 分类模型
分类模型试图从给出的用于训练的输入值中得出一些结论。该结论将预测新数据的类别标签/类别。 - 特征
它是正在观察的事件的单个可测量属性。 - 二进制分类
这是一项分类任务, 有两个可能的结果。例如性别分类, 只有两种可能的结果, 即男性和女性。 - 多类别分类
这是一个分类任务, 其中用两个以上的类进行分类。多类别分类的一个示例是:动物可以是狗或猫, 但不能同时是两者。 - 多标签分类
这是一个分类任务, 其中每个样本都映射有一组目标标签。多标签分类的一个示例是:可以同时涉及一个人, 一个位置和一个运动的新闻文章。
分类算法的类型
在R中, 分类算法大致分为以下几种类型:
线性分类器
在机器学习中, 统计分类的主要任务是使用对象的特征来查找对象所属的类。通过基于特征的线性组合的值进行分类决策来实现此任务。在R中, 存在三种线性分类算法, 如下所示:
- 逻辑回归
- 朴素贝叶斯分类器
- 费舍尔线性判别式
支持向量机
支持向量机是一种监督学习算法, 用于分析用于分类和回归分析的数据。在SVM中, 将每个数据项绘制为n维空间中的一个点, 其中包含每个属性的值, 即特定坐标的值。
最小二乘支持向量机是R中最常用的分类算法。
二次分类器
二次分类算法基于贝叶斯定理。这些分类器算法与逻辑回归的分类方法不同。在逻辑回归中, 可以直接得出特定观测值(X = x)的类别(Y = k)的观测概率。但是在二次分类中, 观察是通过以下两个步骤完成的:
- 在第一步中, 我们确定每个组或类的输入X的分布。
- 之后, 我们借助贝叶斯定理翻转分布以计算概率。
内核估计
核估计是一种估计连续随机变量的概率密度函数(PDF)的非参数方法。它是非参数的, 因为它不假定变量的隐式分布。本质上, 在每个基准面上都创建了一个以基准为中心的内核函数。它确保内核关于基准是对称的。然后通过添加所有这些内核函数并将其除以数据数量来估计PDF, 以确保它满足PDF的两个属性:
- PDF的所有可能值都应为非负数。
- PDF在其支持集上的固定积分应等于1。
在R中, k最近邻是用于分类的最常用的核估计算法。
决策树
决策树是一种监督学习算法, 用于分类和回归任务。在R中, 决策树分类器是在R机器学习插入符号包的帮助下实现的。随机森林算法是R中最常用的决策树算法。
神经网络
神经网络是另一种分类器算法, 受人脑启发, 可以执行特定任务或功能。这些算法主要用于R中的图像分类。要实现神经网络算法, 我们必须安装Neuronet软件包。
学习矢量量化
学习矢量量化是一种用于二元和多分类问题的分类算法。通过学习训练数据集, LVQ模型可以创建代表类区域的码本向量。它们包含根据其匹配级别放置在各个类周围的元素。如果该元素匹配, 则它移近目标类, 如果不匹配, 则它继续。
评论前必须登录!
注册