大数据和数据挖掘的区别?

大数据是一个比较广泛的说法,范围非常广,涉及到很多的知识,也包括数据挖掘。数据挖掘是大数据领域里的一门技术,以数学理论为基础,以工具为实现的前提,如果想学习数据挖掘,可以参考一下智分析这个工具里的数据挖掘板块,基本囊括了数据挖掘里的所有知识。


不是一个级别的概念,不能比较。大数据是一个泛称,数据挖掘是大数据分析的一门技术或者学科。


两者有区别,也有重复。

大数据的应用有很多种,数据挖掘就是其中的一种;数据挖掘,是以大数据为基础的,没有大数据做不了数据挖掘,所以你能懂这两者的关系了吗?

但是这么和你说,很多圈子里的人不这么认为:在大数据这个词出来之前,数据挖掘的人就一直在做着现在的「大数据」的事情,而且远远更多。

是的,「大数据」就是把「数据挖掘」换了个叫法,而且包含的内容还不全。

你怎么看?


大数据是互联网的海量数据挖掘,而数据挖掘更多是针对内部企业行业小众化的数据挖掘,大数据需要分析的是趋势和发展,数据挖掘主要发现的是问题和诊断。具体分析如下:

1、大数据(bigdata):

指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)Veracity(真实性)。

2、数据挖掘(英语:Datamining):

又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

简而言之:

大数据是范围比较广的数据分析和数据挖掘。

按照数据分析的流程来说,数据挖掘工作较数据分析工作靠前些,二者又有重合的地方,数据挖掘侧重数据的清洗和梳理。

大数据概念更为广泛,是把创新的思维、信息技术、统计学等等技术的综合体,每个人限于学术背景、技术背景,概述的都不一样。


数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘流程:

定义问题:清晰地定义出业务问题,确定数据挖掘的目的。

数据准备:数据准备包括:选择数据–在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理–进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。

数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。

结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。

数据挖掘的技术,可粗分为:统计方法、机器学习方法、神经网络方法和数据库方法。统计方法,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、CBR、遗传算法、贝叶斯信念网络等。神经网络方法,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。


数据挖掘

数据挖掘是一项使用数据探索技术发现一些有趣(而不明显)的模式的技术。

什么模式?例如:根据某些特征对数据进行分组的方式、异常检测(罕见值)、某些观察值与其他值之间的相关性、某些事件的连续性、行为的识别等。

数据挖掘使用机器学习等方法。

大数据

这个解释起来就简单了:大数据就是大量的数据。

要定义大数据,通常会用3V来解释,这是产生大数据的3个主要原因:

·容量:收集的数据量每分钟都在巨幅增长,我们需要使用分布式解决方案(使用多台机器,而不是非常非常昂贵的超级计算机/主机)来调整我们的存储和处理工具以适应该容量。

·速度:处理数据的紧急程度与产生/获取数据的频率相关,还与决策中迫切使用数据的需求有关;即使是实时(或者几乎实时)。

·种类:数据不再(仅)是结构化的,所以我们得忘记适用于传统数据库的东西。我们必须为添加各种格式的新数据源做准备;纯文本和多媒体内容都包括在内。

之后更多V被添加进来:真实性(数据必须真实、可靠、可用)、价值(数据应有商业或社会价值)、易损性(数据必须合法、尊重隐私,并以安全的方式存储和访问)。

大数据可能是解决这些问题的方案。不要把它和本文解释的第一个概念混淆了:大数据就是实现或促进应用数据科学领域先进技术的事物,是数据的本质要求。例如,作为数据科学家,我们试图从数据集中得到答案。数据集不仅超过了RAM的大小,还超过了硬盘的大小。大数据为我们提供了跨多台机器承载数据的分布式存储技术,以及并行处理数据的分布式处理技术。

留言点赞关注

我们一起分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体“读芯术”


大数据是大数据集的术语。大数据集是那些超过早期使用的简单数据库和数据处理体系结构的数据集,当大数据更昂贵且更不可行时。例如,太大而无法在MicrosoftExcel电子表格中轻松处理的数据集可称为大数据集。

数据挖掘是指通过大数据集查找相关或相关信息的活动。这种类型的活动实际上是旧公理“寻找大海捞针”的一个很好的例子。这个想法是企业收集大量数据,这些数据可能是同质的或自动收集的。决策者需要从这些大型集合中访问更小,更具体的数据。他们使用数据挖掘来发现信息,这些信息将为领导层提供信息并帮助规划企业的课程。


原始地址:/jingpin/53978.html