本文概述
数据挖掘涉及从大量数据中提取信息。数据挖掘是一种发现数据集中继承的不同类型的模式的技术, 这些模式是精确, 新的和有用的数据。数据挖掘是业务分析的子集, 类似于实验研究。数据挖掘的起源是数据库, 统计信息。
机器学习包括一种算法, 该算法可通过基于数据的体验自动提高。机器学习是一种从经验中寻找新算法的方法。机器学习包括对可以自动提取数据的算法的研究。机器学习利用数据挖掘技术和另一种学习算法来构建某些信息背后正在发生的事情的模型, 以便可以预测未来的结果。
数据挖掘和机器学习是相互影响的领域, 尽管它们有许多共同之处, 但它们具有不同的目的。
数据挖掘是由人类对某些数据集执行的, 以在数据集的各项之间找到有趣的模式。数据挖掘使用由机器学习创建的技术来预测结果, 而机器学习是计算机从有意识的数据集中学习的能力。
机器学习算法获取代表数据集中项目之间关系的信息, 并创建模型以预测未来的结果。这些模型无非是机器将要采取的行动来获得结果。
什么是数据挖掘?
数据挖掘是从大量数据中提取数据或以前未知的数据模式的方法。因此, 顾名思义, 我们从大型数据集中“挖掘特定数据”。数据挖掘也称为知识发现过程, 它是用于确定数据集属性的科学领域。 Gregory Piatetsky-Shapiro于1989年创立了术语“数据库中的知识发现”(KDD)。术语“数据挖掘”于1990年出现在数据库社区中。从数据仓库或复杂的数据集(例如时间序列, 空间数据集)收集的大量数据提取等, 以便提取数据项之间有趣的相关性和模式。对于机器学习算法, 数据挖掘算法的输出通常用作输入。
什么是机器学习?
机器学习与机器的开发和设计有关, 该机器可以从一组指定的数据中学习自身, 从而获得期望的结果, 而无需对其进行显式编码。因此, 机器学习意味着“一台自行学习的机器。 1959年, 亚瑟·塞缪尔(Arthur Samuel)发明了“机器学习”一词, 这是美国计算机游戏和人工智能领域的先驱。他说:“它使计算机无需经过明确编程即可学习。”
机器学习是一种为大数据处理创建复杂算法并为其用户提供结果的技术。它利用可以通过经验学习和做出预测的复杂程序。
通过频繁输入训练数据, 可以自己增强算法。机器学习的目的是了解信息并根据人类可以理解和使用的数据构建模型。
机器学习算法分为两种:
- 无监督学习
- 监督学习
1.无监督机器学习:
无监督学习并不依赖于经过训练的数据集来预测结果, 而是利用诸如聚类和关联之类的直接技术来预测结果。训练后的数据集定义为已知其输出的输入。
2.有监督的机器学习:
顾名思义, 监督学习是指监督者作为老师的存在。监督学习是一种学习过程, 在该过程中, 我们使用水平良好的数据来教学或训练机器, 这意味着某些数据已经用正确的响应进行了标记。之后, 机器将获得新的数据集, 以便监督学习算法分析训练数据并从标记的数据中给出准确的结果。
数据挖掘与机器学习之间的主要区别
1.两部分用于介绍数据挖掘技术, 第一个是数据库, 第二个是机器学习。数据库提供数据管理技术, 而机器学习提供数据分析方法。但是为了介绍机器学习方法, 它使用了算法。
2.数据挖掘利用更多的数据来获取有用的信息, 而特定的数据将有助于预测未来的结果。例如, 在一家营销公司中, 该公司使用去年的数据来预测销售, 但是机器学习并不太依赖数据。它使用算法。许多运输公司(例如OLA, UBER机器学习技术)都基于此技术来计算乘车的ETA(预计到达时间)。
3.数据挖掘无法自我学习。它遵循预定义的准则。它将为特定问题提供答案, 但是机器学习算法是自定义的, 可以根据情况更改其规则, 并找到特定问题的解决方案并以其方式解决。
4.数据挖掘和机器学习之间的主要和最重要的区别是, 如果没有人类的参与, 数据挖掘将无法进行, 但是在机器学习的情况下, 人类的努力只涉及在此之后定义算法的时间它将自行完成一切。一旦实现, 我们就可以永远使用它, 但是在数据挖掘的情况下是不可能的。
5.由于机器学习是自动化过程, 因此与数据挖掘相比, 机器学习产生的结果将更加精确。
6.数据挖掘利用数据库, 数据仓库服务器, 数据挖掘引擎和模式评估技术来获得有用的信息, 而机器学习则利用神经网络, 预测模型和自动化算法来做出决策。
数据挖掘与机器学习
因素 | 数据挖掘 | 机器学习 |
---|---|---|
Origin | 具有非结构化数据的传统数据库。 | 它具有现有的算法和数据。 |
Meaning | 从大量数据中提取信息。 | 从数据以及以前的经验中引入新的信息。 |
History | 1930年, 它被称为数据库中的知识发现(KDD)。 | 第一个程序, 即塞缪尔的跳棋游戏程序, 成立于1950年。 |
Responsibility | 数据挖掘用于从现有数据中获取规则。 | 机器学习向计算机教授如何学习和理解规则。 |
Abstraction | 数据仓库中的数据挖掘摘要。 | 机器学习读取机器。 |
Applications | 与机器学习相比, 数据挖掘可以在较少的数据量上产生结果。它也用于聚类分析。 | 它需要大量数据才能获得准确的结果。它具有各种应用程序, 用于Web搜索, 垃圾邮件过滤器, 信用评分, 计算机设计等。 |
Nature | 它更多地涉及到人为干预手册。 | 它是自动化的, 一旦设计和实施, 就无需人工。 |
技术涉及 | 数据挖掘更多地是使用诸如机器学习之类的技术进行的研究。 | 它是一个自学习和训练的系统, 可以精确地完成任务。 |
Scope | 适用于有限领域。 | 它可以在广阔的领域中使用。 |
评论前必须登录!
注册