大数据从字面上理解就是大量的数据,随着互联网的发展和传统行业不断深入的信息化,人类已经在计算机存储设备中积累了大量的结构化数据和非结构化数据,如何利用好这些数据获取信息是大数据技术发展的初衷,因为传统的方法和技术已经无法很好地使用这些数据:大数据也指与大数据相关的技术集合,包括数据的抽取转换加载技术,数据分布存储技术,数据挖掘分析技术,分布式计算技术等,如sqoop,hadoop,hbase,spark。
大数据的概念听起来很简单,但是其实还是有点复杂。如果想理解它,可以从它的五个特点来认识大数据概念。1、大量,这点比较简单,就是数据有足够多,也是大家最常理解的方式;2、高速,就是数据量还在不断增长,高速的增长,甚至是超过现有处理能力的增长;3、多样性,数据并不是单一某一方面的。4、真实性,这点后面展开讲;5、低价值密度,就是说这些数据某种意义上都是些垃圾,怎么在里面寻宝才是重要的。
首先,我们展开讲一下真实性。学过经济学的都知道,抽样调查或者叫随机分析法是现在经济社会必不可少的工具,但是这个工具真实性就要被怀疑,因为它不全面。比较常见的电视收视率数据,经常打架,各个平台调查方法不同得到的结论完全不同,因为它用的是抽样数据,怎么选择样本,就有很大学问。所以,要想得到真实可信的数据,就不能抽样,就要用完全调查法——就算不能完全,样本越大越有公信力。这时候就会引用到很大的数据,这些数据量之大到最后十分接近真实。
另外一点就是低价值密度,比方说城市天网监控视频,这个数据量是很大的,到今天为止,还没有哪个国家或城市敢说自己完全分析了监控数据,因为大部分时间内这些数据是没有价值的,一个摄像头在半夜数个小时只能拍到几条野狗逛街也许,这个就是大数据比较重要的一点,大,而价值密度低(严格来讲是目前看起来价值密度低)。而发掘这些数据里有用的信息,缺的就是方法,或是着眼点。
给大家举个例子。北京公交系统有着大家出行的基本路线记录,这些数据某种意义上说,根本没有什么价值。但北京公安用这个数据抓了很多小偷。怎么判断哪些地铁卡的持有人是有这方面嫌疑的呢?比方说,一条地铁上,ABCD四个站,如果你常常A-C-B-D这个顺序乘车,你就会被列入重点关注目标。很显然,正常人是没有这种乘车习惯的。这就是方法的重要性,你能想到这个着眼点,那你就能从这些看似无用的数据中找到有用的东西来。
大数据就是数据时代高速生产出来的垃圾,里面有很多宝贝,会挖,就能发财……
最直观了解认识什么大数据。
在现在的互联网领域里,大多数人对于大数据的理解,存在着巨大的误解。
大数据从字面上的理解是要多和大,但是实质上并不在于其大,而在于质量,换句话说就是有用靠谱的数据。
大家都知道大数据需要规模,所有外行人看到的就是,你有这么多数据,所以你这个就是精准营销。但是忽视了一点就是,真正到精准营销前还有一个在中间隔着的,不是规模而是质量,而最终落地在效果。
所有的数据都必须深度地与业务揉合。换句话说,创业者凭空想象的大数据模式一定都是虚假的。没有做过这个具体业务的人去谈合作,说如何帮到别人,这都是忽悠。
大数据领域,精准营销是一个被提及到最多的概念,没有之一,理论是大数据可以支持精准营销。
这里面大家很容易忽视一点,就是大数据要做到支持精准营销,这里面对大数据是有约定的,数据的质量和规模同比都能达到的情况下,才可以实现。
以游戏行业为例,在游戏里做大数据营销,或者放大一点在移动互联网做大数据的精准营销,其实收集的不外乎是人的一些行为数据。但真正能支撑你到后面变现的行为才是有效的,但这点并不是每个行为都能支持的。
大数据是一个比较宽泛的概念,有用的数据才能称得上是大数据,包括了规模、质量等各种综合性属性。所以要依靠大数据支持精准营销,必须是数据的质量和规模同比都能达到的情况下。
所以在大数据行业里,无效数据和数据质量的监测是很重要的。
现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。阿里巴巴创办人马云来台演讲中就提到,未来的时代将不是IT时代,而是DT的时代,DT就是DataTechnology数据科技,显示大数据对于阿里巴巴集团来说举足轻重。
有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。
大数据的价值体现在以下几个方面:
对大量消费者提供产品或服务的企业可以利用大数据进行精准营销
做小而美模式的中小微企业可以利用大数据做服务转型
面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值
在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。
例如,通过结合大数据和高性能的分析,下面这些对企业有益的情况都可能会发生:
1)及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美元。
2)为成千上万的快递车辆规划实时交通路线,躲避拥堵。
3)分析所有SKU,以利润最大化为目标来定价和清理库存。
4)根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。
5)从大量客户中快速识别出金牌客户。
6)使用点击流分析和数据挖掘来规避欺诈行为。
大数据BigData,据说源出自AlvinToffler,上世纪70年代的作品《第三次浪潮》。数据已经被使用了十几年了,比如它们总是被用于各种分析,所以为什么说是「大数据」呢?主要是因为我们现在可用数据的数据量(Volume)、处理速度(Velocity)以及数据种类(Variety),所以它具有如下三个特点:三个特点:大容量、高速度、多种类。数据并不新,只是比之前大得多。
当然,大数据也有其缺陷。啪菠萝·毕加索说,大数据就是多,就是多。原来的设备存不下、算不动。Schönberger说,大数据,不是随机样本,而是所有数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。
世界刚刚来到一场变革的起点,它将影响各行各业以及每个人生活。不过,很多人仍将大数据视为一个可以忽略的事情。以下二十个事实相信会让你对大数据的认识更具体一些:
1.数据量正在爆炸,过去两年生产的数据量比之前整个人类历史生产的数据还要多。
2.数据正以更快的速度猛增,到2020年,每人每秒将会生产1.7兆字节新信息。
3.到那时,累积数字信息量会从今天的4.4泽字节增长到约44泽字节。
4.我们每秒都在生产新数据。比如,每秒进行4万次搜索查询(仅谷歌),每天3.5次搜索,每年1.2万亿次搜索。
5.2015年8月,一天内有超过10亿人使用FB。
6.FB用户平均每分钟发送3125万条信息,观看277万条视频。
7.我们目睹了视频与图片数据量的巨增,仅每分钟上传至YouTube的视频就达300小时。
8.2015年,人们将会拍摄一万亿张照片,在线分享数以亿计的照片.到2017年,近80%的照片将由智能手机拍摄。
9.今年,14亿多部智能手机将满载能够搜集各种数据的传感器,更别提用户自己生产的数据了。
10.到2020年,全球将有超过61亿智能手机用户(超基本固话用户)。
11.五年内,世界将有超过500亿个智能连接设备,都被设计用来搜集、分析和分享数据。
12.到2020年,至少三分之一的数据将通过云端传输。
13.分布式计算机(使用云端的计算机网络来执行计算任务)非常真实。谷歌每天使用它,约有1千台计算机来回答单个搜索查询,耗时不超过0.2秒。
14.预测Hadoop(分布式计算机开源软件)市场将以复合年增长率58%增长。
15.估计显示,通过更好地吸收大数据,医疗保健每年能节约3千亿美元,相当于毎年削减1千美元的人均成本(男人、女人和小孩)。16.白宫在大数据项目上的投入已超2亿美元。
17.对一家典型的《财富》一千强公司来说,数据存取可能性增加10%,就会带来超过6500万美元的额外净收入。
18.充分开发大数据的零售商能将营业毛利提高60%。
19.到2016年,73%的组织巳经投资或计划投资大数据。
20.我最喜欢的事实之一:现在,得到分析使用的数据还不到总量的0.5%,试想一下这里的潜力。
大数据(BigData)又称为巨量资料,指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。“大数据”概念最早由维克托·迈尔·舍恩伯格和肯尼斯·库克耶在编写《大数据时代》中提出,指不用随机分析法(抽样调查)的捷径,而是采用所有数据进行分析处理。
但是,巨量或者海量并非大数据的核心特性!最需要重视的三个方面是:大数据的预测功能,大数据的全量性质,大数据的相关性分析。
多谢邀请!
大数据是一个概念词,它是指一个庞大的量,如信息,如数据,如概率,如模式化板块等,大数据是一个新生词,是伴随网络化而产生的,因为大数据涉及面很广,所以它是广义的,多层面的一个综合性词语体现。
大数据(BigData)又称为巨量资料,指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。“大数据”概念最早由维克托·迈尔·舍恩伯格和肯尼斯·库克耶在编写《大数据时代》中提出,指不用随机分析法(抽样调查)的捷径,而是采用所有数据进行分析处理。大数据有4V特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
对于“大数据”(Bigdata)研究机构Gartner给出了定义,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
随着云时代的来临,大数据(Bigdata)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Bigdata)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
大数据,是当今公众津津乐道的一个热词,人们纷纷在探讨大数据所带来的科技进步及所蕴含的巨大价值,甚至有人把大数据形容为未来世界的石油,更有人宣称掌握了大数据的人,就可以像上帝一样来俯瞰整个世界。《大数据》一书的作者维克托认为,2020年世界将进入大数据时代。那么,到底什么是大数据?它将带给相关产业、特别是普通公众什么样的影响?
世界是一部战争史、货币史、金融史,同时世界也是一部信息史。数据或者信息技术的每一次革命都必然会迎来人类的一次革命性变化。
国家图书馆的藏书量有2600万册,如果从数据来看的话,一个家庭一年产生的数据相当于半个国家图书馆的数据总量。当一个时代的人没有办法用那个时代的工具来处理的数据就可以称为大数据。而大数据并非现在才出现,现在的大数据是现代人用现代工具处理不了的数据。其实古人也会遇到同样的问题,比如人口普查,中国在东汉时期就有几千万人,这显然是大数据。
在谈到大数据的时候,人们往往知道的就是数据很大,但是它具体有什么特征呢?大数据的特征应该有以下几个方面(4V)。首先是量特别大(Volume),现在的数据计算单位,已经从到达了TB、PB,甚至是EB了;其次是多样性(Variety),绝大多数大数据是非结构性的,其种类十分复杂,我们现在的技术手段还没法对此进行处理;再次是速度(Velocity),数据产生和传送的频率非常快;最后是价值(Value),从大量的低质量、低价值的数据中获取知识,犹如从大海中捞针,获取数据成本很高,但有待挖掘价值大。
大数据给企业和商业带来了巨大的价值,比如在互联网金融领域降低了不良贷款率,减少了交易成本。谷歌利用大数据预测季节性流感的爆发和传播。AT&T将用户在WiFi网络中的地理位置、网络浏览历史记录以及使用的应用等数据销售给广告客户。当用户距离商家很近时,就有可能收到该商家提供的折扣很大的电子优惠券,等等。
我们现在所说的大数据革命发生在2008年之后,所谓大数据革命是指我们需要更多的是数据,用数据来描述一个世界。从本质上来说,科学实际是不断将自然界或者人体量化,用数据来描述世界的过程。比如早期有人口迁徙的大数据,后来有用数据表示的长度、重量、体积、面积,用数据表示的时间、空间、颜色,还有电流、电压、声音、图像的数据化,再到今天基因数据化研究、物理学、量子力学、以及其他数据的研究。2013年的化学诺贝尔奖获得主实际上做的是大数据者的分析,用计算机的数学模型,压缩海量化学反应的数据,从而准确的用数据或者大数据方式描述医学或者遗传学。
在大数据时代我们如何保护自己的隐私呢?专家们也给出了一些具体的建议:首先,国家相关的法律也对个人隐私的保护问题进行了相应的规定和约束,2013年1月份全国人大通过了关于个人用户隐私保护的决定,同时工信部根据全国人大的决定,出台了关于互联网和电信网个人信息保护的条例以保护用户的隐私,这些都对个人隐私的保护具有一定的作用。其次,企业要履行自己的社会责任,通过特定的技术手段对用户信息进行不可逆的处理。一旦发生用户信息外泄,企业要承担相应的责任。最后,用户也需要注意保护自己的隐私。一些信息泄露事件的出现,也与广大用户本身对个人信息的保护意识不足有一定关系。所以,在大数据时代,迫切需要向用户开展加强自身信息保护意识的教育,也就是安全上网的知识普及和教育。
对此话题没兴趣
这就叫大数据不多解释
大数据最简单的理解就是从海量的数据中寻找数据之间的关联关系,寻找数据的价值。例如,可以通过大家对电影的评论确定一部电影的票房,在哪些地方票房比较高。
大数据是一个新的泡沫,是个伪概念,所以无法辨伪或无法辨真。
当人们认真思考一个泡沫的时候,泡沫就大了。如:FDC。
本质在于:大是相对的。
首先,大数据是什么?
引用3个比较常用的大数据定义:
(1)需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
——Gartner
(2)海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。
——IDC
(3)或称巨量数据、海量数据、大资料,指所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。
——Wiki
其他关于大数据的定义也大抵类似,我们可以用几个关键词对大数据做一个界定。
首先,“规模大”,这种规模可以从两个维度来衡量,一是从时间序列累积大量的数据,二是在深度上更加细化的数据。
其次,“多样化”,可以是不同的数据格式,如文字、图片、视频等,可以是不同的数据类别,如人口数据,经济数据等,还可以有不同的数据来源,如互联网、传感器等。
第三,“动态化”。数据是不停地变化的,可以随着时间快速增加大量数据,也可以是在空间上不断移动变化的数据。
这三个关键词对大数据从形象上做了界定。
但还需要一个关键能力,就是“处理速度快”。如果这么大规模、多样化又动态变化的数据有了,但需要很长的时间去处理分析,那不叫大数据。从另一个角度,要实现这些数据快速处理,靠人工肯定是没办法实现的,因此,需要借助于机器实现。
最终,我们借助机器,通过对这些数据进行快速的处理分析,获取想要的信息或者应用的整套体系,才能称为大数据。
我们可以用下面的图示给大数据定义:
对大数据概念有了界定后,那大数据可以做什么呢?
想要应用大数据,从流程上来说,大概是这样。
首先我们要有数据源,然后对数据进行收集和存储,在这基础上,再进行分析和应用,形成我们的产品和服务,而产品和服务也会产生新的数据,这些新数据会循环进入我们的流程中。
当这整个循环体系成为一个智能化的体系,通过机器可以实现自动化,那也许就会成为一种新的模式,不管是商业的,或者是其他。
然后具体到实际的应用中,我认为,大数据能够实现的应用,可以概括为两个方向,一是精准化定制,二是预测。
首先,精准化定制。
主要是针对供需两方的,获取需方的个性化需求,帮助供方定准定位目标,然后依据需求提供产品,最终实现供需双方的最佳匹配。
具体应用举例,也可以归纳为三类。
一是个性化产品,比如智能化的搜索引擎,搜索同样的内容,每个人的结果都不同。或者是一些定制化的新闻服务,或者是网游等。
第二种是精准营销,现在已经比较常见的互联网营销,百度的推广,淘宝的网页推广等,或者是基于地理位置的信息推送,当我到达某个地方,会自动推送周边的消费设施等。
第三种是选址定位,包括零售店面的选址,或者是公共基础设施的选址。
这些全都是通过对用户需求的大数据分析,然后供方提供相对定制化的服务。
应用的第二个方向,预测。
预测主要是围绕目标对象,基于它过去、未来的一些相关因素和数据分析,从而提前做出预警,或者是实时动态的优化。
从具体的应用上,也大概可以分为三类。
一是决策支持类的,小到企业的运营决策,证券投资决策,医疗行业的临床诊疗支持,以及电子政务等。
二是风险预警类的,比如疫情预测,日常健康管理的疾病预测,设备设施的运营维护,公共安全,以及金融业的信用风险管理等。
第三种是实时优化类的,比如智能线路规划,实时定价等。
以上呢,是各种文献资料里,对于大数据可以用来做什么的一些畅想,事实上也许大数据可以做的事情,可以扩展到方方面面。
大数据本身并不复杂,互联网界习惯于每年炒作一些概念,今年被炒的就是大数据。
大数据,跟大不大无关,有些非常简单的数据,却能作出十分复杂的运用,比如前几天火到不行的Alphgo。
所以根本上,大数据还是指的是数据分析与挖掘,所不同的只是数据源更广、数据分析维度更多、数据分析工具更牛,仅此而已。
相反,现在的大数据由于多了政府鼓励,很多之前还有所顾忌的应用,现在反而大张其鼓,比如征信,因为它搜集了太多本应保密的私人信息。下面文章应对大数据是什么有所帮助。
声明:本文仅为大数据应用的探讨性交流,非对所提及企业之评价,如有问题,请联系扯蛋家,扯蛋家将在第一时间删除。
先从芝麻信用说起,对,就是支付宝里的那个芝麻信用。
芝麻信用应该是目前私营企业里,在个人征信上做的最好的了。从扯蛋家平时使用情况看,它的模型是比较容易猜出来的,应该是基于以下数据的分析运用:淘宝天猫数据、其它平台使用支付宝购物数据(如各类电商网站、12306等)、支付宝上的金融数据(余额、余额宝、转入/转出等)、支付宝的应用(如还信用卡、水电等缴费),以及可能涉及到一些三方数据(快递、银行工资流水等),等等。
芝麻信用为消费者带来了一些便利,如共享单车评芝麻信用可以免押金。
但扯蛋家认为问题也在这里。
作为消费者,使用一个企业的服务,企业掌握了消费者的数据,在内部分析使用是否恰当,尚须注意度的问题。如果把数据打包成一个产品,某种程度上是超越了企业对消费者数据的使用权限,如果把千千万万消费者的数据聚集起来,成为芝麻信用这样的产品,且不断的商业化使用,扯蛋家认为,这显然已经大大的有滥用消费者隐私数据的嫌疑。
何况,支付宝中,大量的信息,在消费者端出发点仅是方便自己缴费(支付宝在宣传上也在一直在“便利”上引导),他们完全不知道生活缴费代表的意义:如果你的支付宝账号、激电费的户头是一样的,那么可以判断你是有房的,根据你水电费的水平,也可以估算出你的消费能力;如果你经常换着账户交水电费,那说明你不断的换房子租住…。这样的分析,还算是相对来说较简单的。
所以,芝麻信用,这个产品,从根本上来说,它的诞生、使用,不能说非法,但至少在灰色地带。
如果说掌握了数据,就可以打包产品,扯蛋家就认为中国移动应该是在征信上更有优势,更应该推出这样的产品。
因为作为市场份额70%的运营商,它掌握了消费者所有银行端、网端的消费情况、信用卡刷卡情况、还款情况等,中国移动也能分析出来你网购的频率及水平,打个比方,怎么掌握你的网购频率:简单点的作法是通过算法计算你跟快递员联系频次、快递员给你联系频次等等。
所以,其它企业不是做不出芝麻信用这样的产品,而是因为这样做本身就有太多需要确定的地方。有报道说,当年腾讯也提出了这样的产品,但让马化腾以“倒买倒卖个人数据”为由给枪毙了,芝麻信用这个产品,其实就是在这么干。
进一步,如果这样做都可以,那我选择去做私家侦探,因为通过运营商的数据,太容易确定一个人的位置、分析出一个人有几个情人、偿债能力、三角债的实际情况等。
之前曾有人指出芝麻信用的数据应用问题,但阿里的回复是芝麻信用的数据源自杭州某公司,等等,意思是法律上是合规的。怎么说呢,依赖于强大的公司实力,请牛逼的法律顾问,设计一个完全合法合规的架构,当然是非常简单的了。但从另一个角度来说,阿里也给自己留足了空间随时切割,说明自己也意识到了这些产品的问题。
前段时间,运营商界著名大嘴,曾经的中国移动著名的工号70员工宁宇发表了一篇文章《请不要把你家的钥匙交给陌生人保管》,在摘要中直接给出结论:互联网公司正在诱导用户主动提供隐私。
宁宇在文中还详细说明了支付宝授权查询话费账单的问题所在:消费者授权支付宝后,支付宝可以随时查询通话详单,什么是详单,就是记录了你给谁打电话、打了多少、你上了什么网、上了多久的数据表。宁宇在文中比喻说这就像把房间钥匙交给了别人,别人想翻你房间就翻,你怕不怕。
扯蛋家衷心希望大数据能走到实际应用中来,但也衷心希望政府能在数据应用的范围、尺度上尽早明确法律要求。
概念:大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。为了适应数据量的爆发式增长,数据处理方式正逐步向全量性、混沌性及相关性发展。为了避免信息损失,越来越多的场景倾向于对全量数据进行挖掘与分析,其中,只有一小部分数据是结构化的,而非结构化数据中同样蕴含着大量信息,因此,能够处理各式各样的混杂数据的大数据技术得到了广泛应用和迅速发展。其中,占据着重要地位的大数据预测分析,也从主要基于因果关系进行分析发展成了建立在相关关系的基础上的分析模式。
大数据产业结构由数据源、技术服务及应用类型共同构成。
大数据是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。
2017大数据版图
大数据是指数据体量(volumes)大,指代大型数据集,一般在10TB规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。
大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,大数据指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。
亚马逊网络服务(AWS)、大数据科学家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。研发小组对大数据的定义:大数据是最大的宣传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱。Kelly说:大数据是可能不包含所有的信息,但我觉得大部分是正确的。对大数据的一部分认知在于,它是如此之大,分析它需要多个工作负载,这是AWS的定义。当你的技术达到极限时,也就是数据的极限。
大数据的构成分析如下图所示,大致可分为数据标准与规范、数据安全、数据采集、数据存储与管理、数据分析与挖掘、数据运维及数据应用几个环节,覆盖了数据从产生到应用的整个生命周期。
(一)数据标准与规范
大数据标准体系是开展大数据应用的前提条件,没有统一的标准体系,数据共享、分析、挖掘、决策支持将无从谈起。大数据标准包括体系结构标准、数据格式与表示标准、组织管理标准、安全标准和评测标准。
(二)数据安全
随着海量数据的不断增加,对数据存储和访问的安全性要求越来越高,从而对数据的访问控制技术、加密保护技术以及多副本与容灾机制等提出了更高的要求。
由于大数据处理主要采用分布式计算方法,这必然面临着数据传输、信息交互等环节,如何在这些环节中保护数据价值不泄露、信息不丢失,保护所有站点的安全是大数据发展面对的重大挑战。
在大数据时代,传统的隐私数据内涵与外延有了巨大突破和延伸,数据的多元化与彼此的关联性进一步发展,使得对单一数据的隐私保护方法变得极其脆弱,需要针对多元数据融合的安全提出。
(三)数据采集
政府部门、以BAT为代表的互联网企业、运营商是当前大数据的主要拥有者。除此之外,利用网络爬虫或网站公开API等途径对网络数据进行采集也是大数据的主要来源。
现实世界中的数据大多不完整或不一致,无法直接进行数据挖掘或挖掘结果不理想,需要对采集的数据进行填补、平滑、合并、规格化、检查一致性等数据预处理操作,并且往往需要大量的人工参与,因此数据采集和清洗成为大数据产业链的一个重要环节。
(四)数据存储与管理
大数据存储与管理的主要参与者以传统数据库企业为主,各家企业针对大数据应用开展各具特色的数据库架构和数据组织管理研究,形成针对具体领域的产品。
(五)数据分析与挖掘
大数据分析与挖掘的意图主要集中在两方面:
一是从大量的机构结构化和半结构化数据中分析出计算机可以理解的语义信息或知识;
二是对隐性的知识,如关联情况、意图等进行挖掘。常用的方法包括分类、聚类、关联规则挖掘、序列模式挖掘、时间序列分析预测等。
数据分析与挖掘的能力直接决定了大数据的应用推广程度和范围,是大数据产业的核心。
(六)数据运维
由于数据的重要性得到普遍认可,除政府部门不具备数据运维服务条件外,数据的采集者通常就是数据运维者。
(七)数据应用
大数据对传统信息技术带来革命性挑战,正在重构信息技术体系和产业格局。国内以阿里巴巴、百度、腾讯、人大金仓、浪潮、曙光、南大通用为代表的互联网企业、云计算和数据库厂商纷纷加大应用推广力度,在国际先进的开源大数据技术基础上,形成独自的大数据平台构建和应用服务解决方案,以支撑不同行业不同领域的专业化应用。
目前来看,许多企业在大数据产业链里仅拥有一项或两项能力是完全不够的,只有将大数据产业链融合连通才能催生更大的市场和利润空间。在大数据推动的商业革命浪潮中,只有打通数据流通变现的商业模式,才能创造商业价值,从而在大数据驱动的新生代商业格局中脱颖而出。
大数据是一个数据集合,这样说可能比较空洞的,举例说可能会更好一些,比如发电厂,是不是每家每户都要用电,但是电又是需要水产生,如果每家用一次点,然后就用水产生一次电,这样是不是很麻烦,所以把电先存储起来,也就是存在发电厂,这样每家每户用电就可以直接用发电厂输送,而大数据就好比发电厂了
大数据不是数据量大,而是指数据的来源要稳定,数据结构要合理,数据要有逻辑性和关联性,通过计算变成可预测、可决策、可执行的人工智能,才是大数据!