本文概述
到处都在谈论–机器学习!
那么, 这是什么”机器学习(ML)”?
让我们考虑一个实际的例子。如果你可以想象第一次完成某项任务的可能性, 那么可以说, 工作就是学习骑车。也就是说, 你将如何反馈自己?有不确定性吗?
另一方面, 经过几年的练习, 你想如何为同一任务拍拍自己呢?可能你会从不确定性参数或更确定的参数转变思维。那么, 你是如何获得这项任务的专业知识的呢?
最有可能的是, 你通过调整一些参数获得了经验, 从而提高了性能。对?这是机器学习。
据说一个计算机程序可以从经验(E)中学习某些任务(T), 以提供最佳的结果(P)。
同样, 机器通过一些复杂的数学概念学习, 并且它们的每个数据都采用0和1的形式。结果, 我们没有为程序编写逻辑代码;相反, 我们希望一台机器自行从数据中找出逻辑。
此外, 如果你想找到经验, 工作水平, 稀有技能和薪水之间的关系, 则需要教机器学习算法。
具有更多功能的复杂数据集
根据此案例研究, 你需要调整功能以获取标签。但是, 你无需编写算法代码, 而应将重点放在数据上。
因此, 概念是数据+算法=见解。其次, 已经为我们开发了算法, 我们需要知道用于解决问题的算法。让我们看一下回归问题和选择算法的最佳方法。
机器学习概述
根据拥有5年以上机器学习经验的德国科学家Andreybu的说法, “如果你能够了解机器学习任务是回归问题还是分类问题, 那么选择正确的算法就是小菜一碟。”
机器学习的不同分组
列举一下, 它们之间的主要区别在于回归中的输出变量是数字的(或连续的), 而分类的输出变量是分类的(或离散的)。
机器学习的回归
首先, 回归算法尝试估计从输入变量(x)到数值或连续输出变量(y)的映射函数(f)。现在, 输出变量可以是实数值, 可以是整数或浮点值。因此, 回归预测问题通常是数量或大小。
例如, 如果为你提供了有关房屋的数据集, 并且要求你预测房屋的价格, 则这是一项回归任务, 因为价格将是连续输出。
常见回归算法的示例包括线性回归, 支持向量回归(SVR)和回归树。
机器学习中的分类
相反, 在分类算法的情况下, y是映射函数预测的类别。为了详细说明, 对于单个或多个输入变量, 分类模型将尝试预测单个或多个结论的值。
例如, 如果为你提供了有关房屋的数据集, 则分类算法可以尝试预测房屋的价格”卖得比建议零售价高还是低”。这里有两个离散的类别:高于或低于上述价格。
常见分类算法的示例包括逻辑回归, 朴素贝叶斯, 决策树和K最近邻。
选择正确的算法
细致的数据挖掘, 用于正确的ML评估
了解你的数据
- 看一下汇总统计信息
- 使用”百分位数”参数确定数据范围
- 平均值和中位数描述了中心趋势
- 相关性可以表明牢固的关系
可视化数据
- 箱形图可以指示异常。
- 密度图和直方图显示数据的分布
- 散点图可以描述数量关系
清理数据
找出缺失的部分-待办事项列表上的优先级以找到正确的ML算法
- 处理缺失的值。在这种情况下, 结果会给出敏感的结果(缺少某些变量的数据可能会导致不正确的预测)
- 尽管树模型对异常值的存在不太敏感, 但是回归模型或其他使用方程式的模型对异常更为敏感
- 基本上, 离群值可能是不良数据收集的结果, 也可能是合法的极端值
整理数据
此外, 在将原始数据转换为符合模型的标准数据时, 必须注意以下事项:
- 使数据更易于解释。
- 捕获更复杂的数据。
- 专注于减少数据冗余和维度。
- 标准化变量值。
通过输入变量对问题进行分类
- 你已标记数据;这是有监督的学习问题。
- 如果你有未标记的数据并想要查找结构, 那么这是一个无监督的学习问题。
- 如果你想通过与环境互动来优化目标函数, 则这是一个强化学习问题。
通过输出变量对问题进行分类
- 模型的输出是数字;这是一个回归问题。
- 如果模型的输出是类, 则是分类问题。
- 模型的输出是一组输入组。这是集群问题。
约束因素
- 请注意不同型号的存储容量。
- 预测一定要快吗?例如, 在实时场景中, 如路标的分类应尽可能快, 以免发生事故。
最后, 找到算法
逻辑方法:按照步骤进行
既然你对数据有了清晰的了解, 就可以使用适当的工具来选择正确的算法。
同时, 为了做出更好的决定, 以下是适合你的因素清单:
- 查看模型是否符合你的业务目标
- 模型需要多少预处理
- 检查模型的准确性
- 模型的解释性
- 模型的速度:建立模型需要多长时间, 模型进行预测需要多长时间
- 模型的可扩展性
此外, 选择时必须注意算法的复杂性。
一般来说, 你可以使用以下参数来衡量模型的复杂性:
- 当需要两个或十多个功能来学习和预测目标时
- 它依赖于更复杂的要素工程(例如, 使用多项式项, 交互作用或主成分)
- 当方案具有更多的计算开销时(例如, 单个决策树与100个树的随机森林)
此外, 相同的算法可以手动变得更复杂。它仅取决于所放参数的数量和所考虑的方案。例如, 你可以设计具有更多功能或多项式项以及交互项的回归模型。或者, 你可以设计深度较小的决策树。
通用机器学习算法
线性回归
这些可能是最简单的。
使用线性回归的例子很少:
- 首先, 当需要将一个地点转到另一个地点时
- 预测下个月特定产品的销量
- 血液酒精含量对协调的影响
- 预测每月的礼品卡销售并改善年度收入预测
逻辑回归
显然, 此算法有很多优点-将更多功能与良好的解释功能集成在一起, 易于更新的功能可以附加新数据。
换句话说, 你可以将其用于:
- 预测客户流失。
- 信用评分或欺诈检测的特殊情况。
- 衡量营销活动的有效性。
决策树
显然, 很少使用单棵树, 但是在组成上, 与许多其他树一起, 它们可以构建有效的算法, 例如”随机森林”或”梯度树增强”。但是, 缺点之一是它们不支持在线学习, 因此, 当出现新示例时, 你必须重新构建树。
树木非常适合:
- 投资决策
- 银行贷款违约者
- 销售线索资格
朴素贝叶斯
最重要的是, 当CPU和内存资源成为限制因素时, 朴素贝叶斯是正确的选择。但是, 它的主要缺点是无法学习功能之间的交互。
它可以用于:
- 人脸识别
- 将电子邮件标记为垃圾邮件。
- 情感分析和文本分类。
总结
因此, 一般而言, 在实时情况下, 为此目的使用正确的机器学习算法有些困难。但是, 你可以在方便时使用此清单来列出一些算法。
此外, 选择正确的解决实际问题的方法需要专业的业务知识以及正确的算法。因此, 将数据教给正确的算法, 以并行或串行方式运行它们, 最后评估算法的性能, 以选择最佳算法。
如果你想专门研究深度学习, 则可以通过深度学习来学习本课程。
评论前必须登录!
注册