主要看你需要什么类型什么方面的大数据,获取个人信用数据可以去中国人民银行打印自己征信数据
来源主要有三个渠道,分别是物联网系统、传统信息处理系统以及互联网应用(Web和App)
学习,交流经验,创新
无邀请来答一波
1、现在在大数据开放的API接口很多,个人可以通过各大数据接口平台进行获取。
2、如果资源允许的话,可以去数据供应商购买你所需要的数据。
3、如果没有资源,现在微信上有很多数据类的小程序,比如说易企搜小程序,不仅可以查各类行业数据,还能看竞品行业分布情况等等。
之前看到过一篇文章说提供社工库大数据接口的更换到新域名shoujiwxid.com上了
有个前提,你要获取的是什么数据?整个互联网上数据资源这么多,怎么可能都获取到呢,首先要有个大数据类型的垂直定位,然后才会采取爬虫定时爬取,毕竟数据是实时变化的
互联网平台提供商,如百度,陶宝开放接口或专业工具获取
现在的数据比黄金还贵,如果你有钱可以上淘宝天猫买吧,或者所在单位的数据,一般像阿里巴巴、腾讯、百度、、字节跳动、京东这类互联网巨头公司内部才有,国外网站也可以查到很多数据,但是不适合作为研究中国的经济之类的。
只有好好学习,共同努力,才能获得大数据,大数据从政府企业来。
首先是需要有数据,然后基于数据的特征做分析处理。个人的问题可能是没有大数据源,以及没有财力购买大数据分析工具。
以个人为中心的大数据有这么一些特性:
1、数据仅留存在个人中心,其它第三方机构只被授权使用(数据有一定的使用期限),且必须接受用后即焚的监管。
2、采集个人数据应该明确分类,除了国家立法明确要求接受监控的数据外,其它类型数据都由用户自己决定是否被采集。
3、数据的使用将只能由用户进行授权,数据中心可帮助监控个人数据的整个生命周期。
展望过于美好,也许实现个人数据中心将遥遥无期,也许这还不是解决个人数据隐私的最好方法,也许业界对大数据的无限渴求会阻止数据个人中心的实现,但是随着数据越来越多,在缺乏监管之后,必然会有一场激烈的博弈:到底是数据重要还是隐私重要;是以商业为中心还是以个人为中心。
如果作为个人需要去获取大数据,那么在获取过程中需要谨慎和,考虑它的商业用途和商业化过程中的风险和利弊。最大的问题是,个人去获取这些大数据的过程中,可能会产生一些法律风险和一些意图不明的情况。
个人获取到数据的平台非常多,现在目前大数据开放的接口,尤其是API非常之多。可以通过各数据平台和大数据接口平台进行获取。这是常规的一个大数据库方案和方法,也是最容易将大数据纳入囊中,或者学作为研究对象的第一件事情,或者最容易去实现的一个方向。
自己学习数据挖掘的相关工具和相关的爬虫软件。通过学习的过程中去挖掘自己想要挖掘的平台,并把数据整理起来,然后成为数据库,然后对数据进行清理和整理,从而形成一个大数据。
成立相关的组织或团队或者公司,然后以一个团队的身份去对上数据深度挖掘和整理。进一步实现对大数据的商业化和数据的整合运用,将资源充分的利用和分配在商业模式当中去。
如果这个作为个人比较有资金的话。可以直接购买相关的,已经成型的研究好了清洗好的大数据。直接通过已经研究好的大数据进行利用和商业化即可。
可以购买,也可以自己写代码爬取,只不过需要一点点爬虫基础和数据处理能力
个人获取大数据集有以下途径:
1.部分企业提供了相关领域的数据集,如搜狗公司有提供搜索数据集,滴滴有提供出行数据集,可下载使用;
2.通过网络爬虫爬取数据,很多网站有反爬功能,个人能够能够爬到的数据量比较有限;
3.从数据开放平台中获取,很多科研机构和单位有开放观测和统计数据。
谢谢邀请!
大数据的数据来源主要有三个渠道,分别是物联网系统、传统信息处理系统以及互联网应用(Web和App),所以要想获得大数据就要从这三个渠道来获取。
物联网系统产生的数据占据着大数据中的重要比例,物联网产生的数据多以非结构化数据为主,包括视频、音频、传感数据等等。物联网的应用领域众多,比如工业物联网、农业物联网、车联网、智慧城市等都会产生大量的数据,通常情况下这些数据的采集都是有严格要求的,是不能开放给个人的。如果个人要想获得这部分数据,一个比较可行的方案是跟数据采集者进行合作,比如做数据分析等业务。
传统信息系统涵盖的领域非常广泛,有政务系统、企业ERP、教育信息系统、医疗信息系统等等,传统信息系统涵盖的数据多以结构化数据为主,而且往往有较高的精确度和关联关系,这部分数据的价值密度也是相对比较高的。
但是传统信息系统涵盖的数据往往涉及到个人隐私、商业机密等内容,所以这部分内容通常是受到严密保护的。随着大数据技术的发展,业界对于政务系统的数据开放的呼声越来越高,经过脱敏的数据往往并不会对个人隐私构成侵犯,所以未来某些政务系统的大数据会陆续开放出来。
互联网应用也是产生大数据的重要基础之一,包括各种Web应用以及大量的App产品,这部分数据多以半结构化为主,数据内容也存在真假难辨的情况,但是由于这部分数据的价值密度相对还是比较高的,所以现在不少互联网公司就是基于这些数据对用户进行“画像”,从而进行多维度的分类。
随着这些互联网产品采集的数据越来越多,用户的“画像”也会越来越清晰,大数据分析结果也会越来越准确。对于个人用户来说,要想获得这部分数据,有三个办法,一个是自己开发互联网应用,另一个是对目前的互联网数据进行爬取,最后是与互联网公司开展合作,这样也能拿到一部分数据。
虽然现在大数据相关技术已经开始逐渐落地,很多传统信息系统之间也形成了互联互通,但是数据流通依然有大量的环节需要打通,一定程度上的“数据孤岛”现象依然存在。相信随着云计算、大数据和物联网的发展,数据流通将会越来越方便和合理。
作者简介:中国科学院大学计算机专业研究生导师,从事IT行业多年,研究方向包括动态软件体系结构、大数据、人工智能相关领域,有多年的一线研发经验。欢迎关注作者,欢迎咨询计算机相关问题。