大数据生态圈

发布时间: 2020-11-27 02:34:47

A. 腾讯QQ生态圈福射出来的大数据有哪些

你的朋友圈，你朋友的朋友圈；分析出你的整体社交群。
与你联系频率最高的人群，最低的人群，你的人际关系。
从你的社交群和人际关系，分析出你的层次，社会阶层，空间。
你的生活习惯、你QQ音乐、QQ视频、QQ游戏，你喜欢听什么歌、看什么电视电影分析你的文化素质。
玩什么游戏；在什么时间段玩、一次玩了多长时间，分析你的情商。以及你的生存状态（不是所有人都有长时间在工作日工作时间玩游戏，除非你是职业玩家）
京东（腾讯控股）可以分析出的消费习惯与消费能力，你购买的商品也能反映你的生活品味生活水平。
京东白条、京东金融分析出你的资本、你的理财习惯、你的收入水平。
根据数据推出你直系亲属，如老婆、老公、父母等人的上述数据，再对数据进行综合，你们全家人未来三年将有可能的消费清单就可以生成。某些快销品和特殊商品时你的消费周期也能结合上面数据分析出你家庭情况，家庭成员结构。分析出来你将来还需要购买什么商品、预测你的未来消费、近期消费以及符合你消费能力的商品。有时也可以用于预防犯罪和恶性事件的发生。

B. 我是学Java的，想尝试大数据和数据挖掘，该怎么规划学习

两个工作内容联系不大，你是学习java的，我就主要介绍数据挖掘吧
数据挖掘是提取数据、建立模型分析数据、得出结果后与需求部门进行沟通的一个职业。
举个例子：银行的事业部有很多潜在的贷款申请者，事业部向数据挖掘人员提出需求，希望能够分析哪些申请者是优质放贷对象？
数据挖掘人员首先要充分理解事业部的需求，其次要从数据库提取相关数据，提取数据的工作有些时候是由DBA来完成，好了，现在你得到了历史数据，你的任务就是通过历史数据来建立模型，分析具备什么特征的申请者是有能力还贷、不拖欠的，然后用建立好的模型来预测我们刚刚得到的新的一批申请者。
再具体一点：例如，我们通过历史数据发现，年龄大于35岁，的男性，已婚，家庭人口大于3，收入在12000元以上的申请者是理想的放贷对象，那么我们用这个标准来限定新的申请者。
当然我举的例子，为了浅显易懂，是非常简单的示意例子，实际情况要复杂得多，会涉及到个人的贷款历史、信用评估、自然属性、社会属性、资产评估等情况——就是说，数据挖掘人员是要通过数据库中的海量数据，整理出哪些是有用数据，再用这些有用的数据来分析其它部门的问题，帮助他们解决问题，或者为公司的发展提供数据依据

数据挖掘的上升方向是：数据挖掘——产品层——决策层

java是属于开发，比如开发软件、接口、应用程序等，如果一个公司需要开发数据挖掘软件，那么则需要数据挖掘知识+java开发能力，只有在这种时候，才需要两个都具备

但是一般自主开发数据挖掘软件的公司很少，第一需要消耗大量人力物力，第二市场有很多现成的软件，没必要开发。

如果你想从事数据挖掘，你必须具备：
数据挖掘模型、算法的数学知识以及一些数据分析软件（SPSS、SAS、matlab、clementine）
一些数据库相关的知识（oracle、mySQL）
了解市场、其它部门需求

当然这些都是一点一滴积累起来的，没必要一蹴而就，特别是对市场、行业的了解以及对公司其它部门的需求的理解非常重要，这决定了你能否从基础的分析人员上升到产品层、决策层，都是要在实际的工作中积累起来的

至于放弃java什么的，我觉得真的不是放弃，因为你具备了java的基础，一定能派上用场，比如技术型产品经理（face book的扎克伯格和腾讯的马化腾都是技术型产品经理），这种产品经理能够清晰的把握产品的开发过程，还有市场知识。总结起来就是没有什么东西会浪费掉，你学的所有的东西都将在工作中派上用场，只是你遇到的情况不够多不够复杂而已

C. 大数据爬虫技术有什么功能

1、爬虫技术概述
网络爬虫（Web crawler），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，它们被广泛用于互联网搜索引擎或其他类似网站，可以自动采集所有其能够访问到的页面内容，以获取或更新这些网站的内容和检索方式。从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。
传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
相对于通用网络爬虫，聚焦爬虫还需要解决三个主要问题：
(1) 对抓取目标的描述或定义；
(2) 对网页或数据的分析与过滤；
(3) 对URL的搜索策略。

2、爬虫原理
2.1 网络爬虫原理
Web网络爬虫系统的功能是下载网页数据，为搜索引擎系统提供数据来源。很多大型的网络搜索引擎系统都被称为基于 Web数据采集的搜索引擎系统，比如 Google、Bai。由此可见Web 网络爬虫系统在搜索引擎中的重要性。网页中除了包含供用户阅读的文字信息外，还包含一些超链接信息。Web网络爬虫系统正是通过网页中的超连接信息不断获得网络上的其它网页。正是因为这种采集过程像一个爬虫或者蜘蛛在网络上漫游，所以它才被称为网络爬虫系统或者网络蜘蛛系统，在英文中称为Spider或者Crawler。

2.2 网络爬虫系统的工作原理
在网络爬虫的系统框架中，主过程由控制器，解析器，资源库三部分组成。控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。解析器的主要工作是下载网页，进行页面的处理，主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉，爬虫的基本工作是由解析器完成。资源库是用来存放下载到的网页资源，一般都采用大型的数据库存储，如Oracle数据库，并对其建立索引。
控制器
控制器是网络爬虫的**控制器，它主要是负责根据系统传过来的URL链接，分配一线程，然后启动线程调用爬虫爬取网页的过程。
解析器
解析器是负责网络爬虫的主要部分，其负责的工作主要有：下载网页的功能，对网页的文本进行处理，如过滤功能，抽取特殊HTML标签的功能，分析数据功能。
资源库
主要是用来存储网页中下载下来的数据记录的容器，并提供生成索引的目标源。中大型的数据库产品有：Oracle、Sql Server等。

Web网络爬虫系统一般会选择一些比较重要的、出度(网页中链出超链接数)较大的网站的URL作为种子URL集合。网络爬虫系统以这些种子集合作为初始URL，开始数据的抓取。因为网页中含有链接信息，通过已有网页的 URL会得到一些新的 URL，可以把网页之间的指向结构视为一个森林，每个种子URL对应的网页是森林中的一棵树的根节点。这样，Web网络爬虫系统就可以根据广度优先算法或者深度优先算法遍历所有的网页。由于深度优先搜索算法可能会使爬虫系统陷入一个网站内部，不利于搜索比较靠近网站首页的网页信息，因此一般采用广度优先搜索算法采集网页。Web网络爬虫系统首先将种子URL放入下载队列，然后简单地从队首取出一个URL下载其对应的网页。得到网页的内容将其存储后，再经过解析网页中的链接信息可以得到一些新的URL，将这些URL加入下载队列。然后再取出一个URL，对其对应的网页进行下载，然后再解析，如此反复进行，直到遍历了整个网络或者满足某种条件后才会停止下来。

网络爬虫的基本工作流程如下：
1.首先选取一部分精心挑选的种子URL；
2.将这些URL放入待抓取URL队列；
3.从待抓取URL队列中取出待抓取在URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列；
4.分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环。

2.3 抓取策略
在爬虫系统中，待抓取URL队列是很重要的一部分。待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题，因为这涉及到先抓取那个页面，后抓取哪个页面。而决定这些URL排列顺序的方法，叫做抓取策略。下面重点介绍几种常见的抓取策略：
2.3.1 深度优先遍历策略
深度优先遍历策略是指网络爬虫会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。我们以下面的图为例：
遍历的路径：A-F-G E-H-I B C D

2.3.2 宽度优先遍历策略
宽度优先遍历策略的基本思路是，将新下载网页中发现的链接直接**待抓取URL队列的末尾。也就是指网络爬虫会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。还是以上面的图为例：
遍历路径：A-B-C-D-E-F G H I
2.3.3 反向链接数策略
反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐的程度。因此，很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度，从而决定不同网页的抓取先后顺序。
在真实的网络环境中，由于广告链接、作弊链接的存在，反向链接数不能完全等他我那个也的重要程度。因此，搜索引擎往往考虑一些可靠的反向链接数。
2.3.4 Partial PageRank策略
Partial PageRank算法借鉴了PageRank算法的思想：对于已经下载的网页，连同待抓取URL队列中的URL，形成网页集合，计算每个页面的PageRank值，计算完之后，将待抓取URL队列中的URL按照PageRank值的大小排列，并按照该顺序抓取页面。
如果每次抓取一个页面，就重新计算PageRank值，一种折中方案是：每抓取K个页面后，重新计算一次PageRank值。但是这种情况还会有一个问题：对于已经下载下来的页面中分析出的链接，也就是我们之前提到的未知网页那一部分，暂时是没有PageRank值的。为了解决这个问题，会给这些页面一个临时的PageRank值：将这个网页所有入链传递进来的PageRank值进行汇总，这样就形成了该未知页面的PageRank值，从而参与排序。
2.3.5 OPIC策略策略
该算法实际上也是对页面进行一个重要性打分。在算法开始前，给所有页面一个相同的初始现金（cash）。当下载了某个页面P之后，将P的现金分摊给所有从P中分析出的链接，并且将P的现金清空。对于待抓取URL队列中的所有页面按照现金数进行排序。
2.3.6 大站优先策略
对于待抓取URL队列中的所有网页，根据所属的网站进行分类。对于待下载页面数多的网站，优先下载。这个策略也因此叫做大站优先策略。
3、爬虫分类
开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的？上面说的爬虫，基本可以分3类：
（1）分布式爬虫：Nutch

（2）JAVA爬虫：Crawler4j、WebMagic、WebCollector

（3）非JAVA爬虫：scrapy（基于Python语言开发）
3.1 分布式爬虫
爬虫使用分布式，主要是解决两个问题：
1)海量URL管理
2)网速
现在比较流行的分布式爬虫，是Apache的Nutch。但是对于大多数用户来说，Nutch是这几类爬虫里，最不好的选择，理由如下：
1)Nutch是为搜索引擎设计的爬虫，大多数用户是需要一个做精准数据爬取（精抽取）的爬虫。Nutch运行的一套流程里，有三分之二是为了搜索引擎而设计的。对精抽取没有太大的意义。也就是说，用Nutch做数据抽取，会浪费很多的时间在不必要的计算上。而且如果你试图通过对Nutch进行二次开发，来使得它适用于精抽取的业务，基本上就要破坏Nutch的框架，把Nutch改的面目全非，有修改Nutch的能力，真的不如自己重新写一个分布式爬虫框架了。
2)Nutch依赖hadoop运行，hadoop本身会消耗很多的时间。如果集群机器数量较少，爬取速度反而不如单机爬虫快。
3)Nutch虽然有一套插件机制，而且作为亮点宣传。可以看到一些开源的Nutch插件，提供精抽取的功能。但是开发过Nutch插件的人都知道，Nutch的插件系统有多蹩脚。利用反射的机制来加载和调用插件，使得程序的编写和调试都变得异常困难，更别说在上面开发一套复杂的精抽取系统了。而且Nutch并没有为精抽取提供相应的插件挂载点。Nutch的插件有只有五六个挂载点，而这五六个挂载点都是为了搜索引擎服务的，并没有为精抽取提供挂载点。大多数Nutch的精抽取插件，都是挂载在“页面解析”(parser)这个挂载点的，这个挂载点其实是为了解析链接（为后续爬取提供URL），以及为搜索引擎提供一些易抽取的网页信息(网页的meta信息、text文本)。
4)用Nutch进行爬虫的二次开发，爬虫的编写和调试所需的时间，往往是单机爬虫所需的十倍时间不止。了解Nutch源码的学**成本很高，何况是要让一个团队的人都读懂Nutch源码。调试过程中会出现除程序本身之外的各种问题(hadoop的问题、hbase的问题)。
5)很多人说Nutch2有gora，可以持久化数据到avro文件、hbase、mysql等。很多人其实理解错了，这里说的持久化数据，是指将URL信息（URL管理所需要的数据）存放到avro、hbase、mysql。并不是你要抽取的结构化数据。其实对大多数人来说，URL信息存在哪里无所谓。
6)Nutch2的版本目前并不适合开发。官方现在稳定的Nutch版本是nutch2.2.1，但是这个版本绑定了gora-0.3。如果想用hbase配合nutch（大多数人用nutch2就是为了用hbase)，只能使用0.90版本左右的hbase，相应的就要将hadoop版本降到hadoop 0.2左右。而且nutch2的官方教程比较有误导作用，Nutch2的教程有两个，分别是Nutch1.x和Nutch2.x，这个Nutch2.x官网上写的是可以支持到hbase 0.94。但是实际上，这个Nutch2.x的意思是Nutch2.3之前、Nutch2.2.1之后的一个版本，这个版本在官方的SVN中不断更新。而且非常不稳定（一直在修改）。
所以，如果你不是要做搜索引擎，尽量不要选择Nutch作为爬虫。有些团队就喜欢跟风，非要选择Nutch来开发精抽取的爬虫，其实是冲着Nutch的名气，当然最后的结果往往是项目延期完成。
如果你是要做搜索引擎，Nutch1.x是一个非常好的选择。Nutch1.x和solr或者es配合，就可以构成一套非常强大的搜索引擎了。如果非要用Nutch2的话，建议等到Nutch2.3发布再看。目前的Nutch2是一个非常不稳定的版本。

3.2 JAVA爬虫
这里把JAVA爬虫单独分为一类，是因为JAVA在网络爬虫这块的生态圈是非常完善的。相关的资料也是最全的。这里可能有争议，我只是随便谈谈。
其实开源网络爬虫（框架）的开发非常简单，难问题和复杂的问题都被以前的人解决了（比如DOM树解析和定位、字符集检测、海量URL去重），可以说是毫无技术含量。包括Nutch，其实Nutch的技术难点是开发hadoop，本身代码非常简单。网络爬虫从某种意义来说，类似遍历本机的文件，查找文件中的信息。没有任何难度可言。之所以选择开源爬虫框架，就是为了省事。比如爬虫的URL管理、线程池之类的模块，谁都能做，但是要做稳定也是需要一段时间的调试和修改的。
对于爬虫的功能来说。用户比较关心的问题往往是：
1）爬虫支持多线程么、爬虫能用代理么、爬虫会爬取重复数据么、爬虫能爬取JS生成的信息么？
不支持多线程、不支持代理、不能过滤重复URL的，那都不叫开源爬虫，那叫循环执行http请求。
能不能爬js生成的信息和爬虫本身没有太大关系。爬虫主要是负责遍历网站和下载页面。爬js生成的信息和网页信息抽取模块有关，往往需要通过模拟浏览器(htmlunit,selenium)来完成。这些模拟浏览器，往往需要耗费很多的时间来处理一个页面。所以一种策略就是，使用这些爬虫来遍历网站，遇到需要解析的页面，就将网页的相关信息提交给模拟浏览器，来完成JS生成信息的抽取。
2）爬虫可以爬取ajax信息么？
网页上有一些异步加载的数据，爬取这些数据有两种方法：使用模拟浏览器（问题1中描述过了），或者分析ajax的http请求，自己生成ajax请求的url，获取返回的数据。如果是自己生成ajax请求，使用开源爬虫的意义在哪里？其实是要用开源爬虫的线程池和URL管理功能（比如断点爬取）。
如果我已经可以生成我所需要的ajax请求（列表），如何用这些爬虫来对这些请求进行爬取？
爬虫往往都是设计成广度遍历或者深度遍历的模式，去遍历静态或者动态页面。爬取ajax信息属于deep web（深网）的范畴，虽然大多数爬虫都不直接支持。但是也可以通过一些方法来完成。比如WebCollector使用广度遍历来遍历网站。爬虫的第一轮爬取就是爬取种子集合(seeds)中的所有url。简单来说，就是将生成的ajax请求作为种子，放入爬虫。用爬虫对这些种子，进行深度为1的广度遍历（默认就是广度遍历）。
3）爬虫怎么爬取要登陆的网站？
这些开源爬虫都支持在爬取时指定cookies，模拟登陆主要是靠cookies。至于cookies怎么获取，不是爬虫管的事情。你可以手动获取、用http请求模拟登陆或者用模拟浏览器自动登陆获取cookie。
4）爬虫怎么抽取网页的信息？
开源爬虫一般都会集成网页抽取工具。主要支持两种规范：CSS SELECTOR和XPATH。至于哪个好，这里不评价。
5）爬虫怎么保存网页的信息？
有一些爬虫，自带一个模块负责持久化。比如webmagic，有一个模块叫pipeline。通过简单地配置，可以将爬虫抽取到的信息，持久化到文件、数据库等。还有一些爬虫，并没有直接给用户提供数据持久化的模块。比如crawler4j和webcollector。让用户自己在网页处理模块中添加提交数据库的操作。至于使用pipeline这种模块好不好，就和操作数据库使用ORM好不好这个问题类似，取决于你的业务。
6）爬虫被网站封了怎么办？
爬虫被网站封了，一般用多代理（随机代理）就可以解决。但是这些开源爬虫一般没有直接支持随机代理的切换。所以用户往往都需要自己将获取的代理，放到一个全局数组中，自己写一个代理随机获取（从数组中）的代码。
7）网页可以调用爬虫么？
爬虫的调用是在Web的服务端调用的，平时怎么用就怎么用，这些爬虫都可以使用。
8）爬虫速度怎么样？
单机开源爬虫的速度，基本都可以讲本机的网速用到极限。爬虫的速度慢，往往是因为用户把线程数开少了、网速慢，或者在数据持久化时，和数据库的交互速度慢。而这些东西，往往都是用户的机器和二次开发的代码决定的。这些开源爬虫的速度，都很可以。
9）明明代码写对了，爬不到数据，是不是爬虫有问题，换个爬虫能解决么？
如果代码写对了，又爬不到数据，换其他爬虫也是一样爬不到。遇到这种情况，要么是网站把你封了，要么是你爬的数据是javascript生成的。爬不到数据通过换爬虫是不能解决的。
10）哪个爬虫可以判断网站是否爬完、那个爬虫可以根据主题进行爬取？
爬虫无法判断网站是否爬完，只能尽可能覆盖。
至于根据主题爬取，爬虫之后把内容爬下来才知道是什么主题。所以一般都是整个爬下来，然后再去筛选内容。如果嫌爬的太泛，可以通过限制URL正则等方式，来缩小一下范围。
11）哪个爬虫的设计模式和构架比较好？
设计模式纯属扯淡。说软件设计模式好的，都是软件开发完，然后总结出几个设计模式。设计模式对软件开发没有指导性作用。用设计模式来设计爬虫，只会使得爬虫的设计更加臃肿。
至于构架，开源爬虫目前主要是细节的数据结构的设计，比如爬取线程池、任务队列，这些大家都能控制好。爬虫的业务太简单，谈不上什么构架。
所以对于JAVA开源爬虫，我觉得，随便找一个用的顺手的就可以。如果业务复杂，拿哪个爬虫来，都是要经过复杂的二次开发，才可以满足需求。
3.3 非JAVA爬虫
在非JAVA语言编写的爬虫中，有很多优秀的爬虫。这里单独提取出来作为一类，并不是针对爬虫本身的质量进行讨论，而是针对larbin、scrapy这类爬虫，对开发成本的影响。
先说python爬虫，python可以用30行代码，完成JAVA 50行代码干的任务。python写代码的确快，但是在调试代码的阶段，python代码的调试往往会耗费远远多于编码阶段省下的时间。使用python开发，要保证程序的正确性和稳定性，就需要写更多的测试模块。当然如果爬取规模不大、爬取业务不复杂，使用scrapy这种爬虫也是蛮不错的，可以轻松完成爬取任务。

上图是Scrapy的架构图，绿线是数据流向，首先从初始URL 开始，Scheler 会将其交给 Downloader 进行下载，下载之后会交给 Spider 进行分析，需要保存的数据则会被送到Item Pipeline，那是对数据进行后期处理。另外，在数据流动的通道里还可以安装各种中间件，进行必要的处理。因此在开发爬虫的时候，最好也先规划好各种模块。我的做法是单独规划下载模块，爬行模块，调度模块，数据存储模块。
对于C++爬虫来说，学**成本会比较大。而且不能只计算一个人的学**成本，如果软件需要团队开发或者交接，那就是很多人的学**成本了。软件的调试也不是那么容易。
还有一些ruby、php的爬虫，这里不多评价。的确有一些非常小型的数据采集任务，用ruby或者php很方便。但是选择这些语言的开源爬虫，一方面要调研一下相关的生态圈，还有就是，这些开源爬虫可能会出一些你搜不到的BUG（用的人少、资料也少）
4、反爬虫技术

因为搜索引擎的流行，网络爬虫已经成了很普及网络技术，除了专门做搜索的Google，Yahoo，微软，网络以外，几乎每个大型门户网站都有自己的搜索引擎，**小小叫得出来名字得就几十种，还有各种不知名的几千几万种，对于一个内容型驱动的网站来说，受到网络爬虫的光顾是不可避免的。
一些智能的搜索引擎爬虫的爬取频率比较合理，对网站资源消耗比较少，但是很多糟糕的网络爬虫，对网页爬取能力很差，经常并发几十上百个请求循环重复抓取，这种爬虫对中小型网站往往是毁灭性打击，特别是一些缺乏爬虫编写经验的程序员写出来的爬虫破坏力极强，造成的网站访问压力会非常大，会导致网站访问速度缓慢，甚至无法访问。
一般网站从三个方面反爬虫：用户请求的Headers，用户行为，网站目录和数据加载方式。前两种比较容易遇到，大多数网站都从这些角度来反爬虫。第三种一些应用ajax的网站会采用，这样增大了爬取的难度。
4.1 通过Headers反爬虫
从用户请求的Headers反爬虫是最常见的反爬虫策略。很多网站都会对Headers的User-Agent进行检测，还有一部分网站会对Referer进行检测（一些资源网站的防盗链就是检测Referer）。如果遇到了这类反爬虫机制，可以直接在爬虫中添加Headers，将浏览器的User-Agent复制到爬虫的Headers中；或者将Referer值修改为目标网站域名。对于检测Headers的反爬虫，在爬虫中修改或者添加Headers就能很好的绕过。
[评论：往往容易被忽略，通过对请求的抓包分析，确定referer，在程序中模拟访问请求头中添加]
4.2 基于用户行为反爬虫
还有一部分网站是通过检测用户行为，例如同一IP短时间内多次访问同一页面，或者同一账户短时间内多次进行相同操作。

D. 你认为为什么大数据时代的诸多产业或者现象喜欢和生态圈这个词结合反映了数据

生态圈这个词也不是只有大数据材相关啊
编程语言就有生态圈，比如python的生态圈就是科学计算，PHP的生态圈就很小，仅限于web开发
要说大数据里面的生态圈，可能用得最多的就是hadoop生态圈

E. hadoop 如何实现大数据

Hadoop本身是分布式框架，如果在hadoop框架下，需要配合hbase，hive等工具来进行大数据计算。如果具体深入还要了解HDFS，Map/Rece，任务机制等等。如果要分析还要考虑其他分析展现工具。

大数据还有分析才有价值

用于分析大数据的工具主要有开源与商用两个生态圈。开源大数据生态圈：1、Hadoop HDFS、HadoopMapRece, HBase、Hive 渐次诞生，早期Hadoop生态圈逐步形成。2、. Hypertable是另类。它存在于Hadoop生态圈之外，但也曾经有一些用户。3、NoSQL，membase、MongoDb商用大数据生态圈：1、一体机数据库/数据仓库：IBM PureData(Netezza), OracleExadata, SAP Hana等等。2、数据仓库：TeradataAsterData, EMC GreenPlum, HPVertica 等等。3、数据集市：QlikView、 Tableau 、以及国内的Yonghong Data Mart 。

F. hadoop是怎么存储大数据的

G. 如何建立一个完整可用的安全大数据平台

“
要建立一个大数据系统，我们需要从数据流的源头跟踪到最后有价值的输出，并在现有的Hadoop和大数据生态圈内根据实际需求挑选并整合各部分合适的组件来构建一个能够支撑多种查询和分析功能的系统平台。这其中既包括了对数据存储的选择，也涵盖了数据线上和线下处理分离等方面的思考和权衡。此外，没有任何一个引入大数据解决方案的商业应用在生产环境上承担的起安全隐患。

1
计算框架篇
大数据的价值

只有在能指导人们做出有价值的决定时，数据才能体现其自身的价值。因此，大数据技术要服务于实际的用途，才是有意义的。一般来说，大数据可以从以下三个方面指导人们做出有价值的决定：

报表生成（比如根据用户历史点击行为的跟踪和综合分析、应用程序活跃程度和用户粘性计算等）；

诊断分析（例如分析为何用户粘性下降、根据日志分析系统为何性能下降、垃圾邮件以及病毒的特征检测等）；

决策（例如个性化新闻阅读或歌曲推荐、预测增加哪些功能能增加用户粘性、帮助广告主进行广告精准投放、设定垃圾邮件和病毒拦截策略等）。

图 1

进一步来看，大数据技术从以下三个方面解决了传统技术难以达成的目标（如图1）：

在历史数据上的低延迟（交互式）查询，目标是加快决策过程和时间，例如分析一个站点为何变缓慢并尝试修复它；

在实时数据上的低延迟查询，目的是帮助用户和应用程序在实时数据上做出决策，例如实时检测并阻拦病毒蠕虫（一个病毒蠕虫可以在1.3秒内攻击1百万台主机）；

更加精细高级的数据处理算法，这可以帮助用户做出“更好”的决策，例如图数据处理、异常点检测、趋势分析及其他机器学习算法。

蛋糕模式

从将数据转换成价值的角度来说，在Hadoop生态圈十年蓬勃成长的过程中，YARN和Spark这二者可以算得上是里程碑事件。Yarn的出现使得集群资源管理和数据处理流水线分离，大大革新并推动了大数据应用层面各种框架的发展（SQL on Hadoop框架, 流数据，图数据，机器学习）。

它使得用户不再受到MapRece开发模式的约束，而是可以创建种类更为丰富的分布式应用程序，并让各类应用程序运行在统一的架构上，消除了为其他框架维护独有资源的开销。就好比一个多层蛋糕，下面两层是HDFS和Yarn, 而MapRece就只是蛋糕上层的一根蜡烛而已，在蛋糕上还能插各式各样的蜡烛。

在这一架构体系中，总体数据处理分析作业分三块（图2），在HBase上做交互式查询（Apache Phoenix, Cloudera Impala等），在历史数据集上编写MapRece程序抑或利用Hive等做批处理业务，另外对于实时流数据分析Apache Storm则会是一种标准选择方案。

虽然Yarn的出现极大地丰富了Hadoop生态圈的应用场景，但仍存有两个显而易见的挑战：一是在一个平台上需要维护三个开发堆栈；二是在不同框架内很难共享数据，比如很难在一个框架内对流数据做交互式查询。这也意味着我们需要一个更为统一和支持更好抽象的计算框架的出现。

图 2

一统江湖

Spark的出现使得批处理任务，交互式查询，实时流数据处理被整合到一个统一的框架内（图3），同时Spark和现有的开源生态系统也能够很好地兼容（Hadoop, HDFS, Yarn, Hive, Flume）。通过启用内存分布数据集，优化迭代工作负载，用户能够更简单地操作数据，并在此基础上开发更为精细的算法，如机器学习和图算法等。

有三个最主要的原因促使Spark目前成为了时下最火的大数据开源社区（拥有超过来自200多个公司的800多个contributors）：

Spark可以扩展部署到超过8000节点并处理PB级别的数据，同时也提供了很多不错的工具供应用开发者进行管理和部署；

Spark提供了一个交互式shell供开发者可以用Scala或者Python即时性试验不同的功能；

Spark提供了很多内置函数使得开发者能够比较容易地写出低耦合的并且能够并发执行的代码，这样开发人员就更能集中精力地为用户提供更多的业务功能而不是花费时间在优化并行化代码之上。

当然Spark也和当年的MapRece一样不是万灵药，比如对实时性要求很高的流数据处理上Apache Storm还是被作为主流选择，因为Spark Streaming实际上是microbatch（将一个流数据按时间片切成batch,每个batch提交一个job）而不是事件触发实时系统，所以虽然支持者们认为microbatch在系统延时性上贡献并不多，但在生产环境中和Apache Storm相比还不是特别能满足对低延时要求很高的应用场景。

比如在实践过程中，如果统计每条消息的平均处理时间，很容易达到毫秒级别，但一旦统计类似service assurance（确保某条消息在毫秒基本能被处理完成）的指标，系统的瓶颈有时还是不能避免。

但同时我们不能不注意到，在许多用例当中，与流数据的交互以及和静态数据集的结合是很有必要的, 例如我们需要在静态数据集上进行分类器的模型计算，并在已有分类器模型的基础上，对实时进入系统的流数据进行交互计算来判定类别。

由于Spark的系统设计对各类工作（批处理、流处理以及交互式工作）进行了一个共有抽象，并且生态圈内延伸出了许多丰富的库（MLlib机器学习库、SQL语言API、GraphX）, 使得用户可以在每一批流数据上进行灵活的Spark相关操作，在开发上提供了许多便利。

Spark的成熟使得Hadoop生态圈在短短一年之间发生了翻天覆地的变化， Cloudera和Hortonworks纷纷加入了Spark阵营，而Hadoop项目群中除了Yarn之外已经没有项目是必须的了（虽然Mesos已在一些场合替代了Yarn）, 因为就连HDFS，Spark都可以不依赖。但很多时候我们仍然需要像Impala这样的依赖分布式文件系统的MPP解决方案并利用Hive管理文件到表的映射，因此Hadoop传统生态圈依然有很强的生命力。

另外在这里简要对比一下交互式分析任务中各类SQL on Hadoop框架，因为这也是我们在实际项目实施中经常遇到的问题。我们主要将注意力集中在Spark SQL, Impala和Hive on Tez上, 其中Spark SQL是三者之中历史最短的，论文发表在15年的SIGMOD会议上，原文对比了数据仓库上不同类型的查询在Shark（Spark最早对SQL接口提供的支持）、Spark SQL和Impala上的性能比较。

也就是说，虽然Spark SQL在Shark的基础上利用Catalyst optimizer在代码生成上做了很多优化，但总体性能还是比不上Impala, 尤其是当做join操作的时候， Impala可以利用“predicate pushdown”更早对表进行选择操作从而提高性能。

不过Spark SQL的Catalyst optimizer一直在持续优化中，相信未来会有更多更好的进展。Cloudera的Benchmark评测中Impala一直比其他SQL on Hadoop框架性能更加优越，但同时Hortonworks评测则指出虽然单个数据仓库查询Impala可以在很短的时间内完成，但是一旦并发多个查询Hive on Tez的优势就展示出来。另外Hive on Tez在SQL表达能力也要比Impala更强（主要是因为Impala的嵌套存储模型导致的），因此根据不同的场景选取不同的解决方案是很有必要的。

图 3

各领风骚抑或代有才人出？

近一年比较吸引人眼球的Apache Flink（与Spark一样已有5年历史，前身已经是柏林理工大学一个研究性项目，被其拥趸推崇为继MapRece, Yarn，Spark之后第四代大数据分析处理框架）。与Spark相反，Flink是一个真正的实时流数据处理系统，它将批处理看作是流数据的特例，同Spark一样它也在尝试建立一个统一的平台运行批量，流数据，交互式作业以及机器学习，图算法等应用。

Flink有一些设计思路是明显区别于Spark的，一个典型的例子是内存管理，Flink从一开始就坚持自己精确的控制内存使用并且直接操作二进制数据，而Spark一直到1.5版本都还是试用java的内存管理来做数据缓存，这也导致了Spark很容易遭受OOM以及JVM GC带来的性能损失。

但是从另外一个角度来说, Spark中的RDD在运行时被存成java objects的设计模式也大大降低了用户编程设计门槛，同时随着Tungsten项目的引入，Spark现在也逐渐转向自身的内存管理，具体表现为Spark生态圈内从传统的围绕RDD（分布式java对象集合）为核心的开发逐渐转向以DataFrame(分布式行对象集合)为核心。

总的来说，这两个生态圈目前都在互相学习，Flink的设计基因更为超前一些，但Spark社区活跃度大很多，发展到目前毫无疑问是更为成熟的选择，比如对数据源的支持（HBase, Cassandra, Parquet, JSON, ORC）更为丰富以及更为统一简洁的计算表示。另一方面，Apache Flink作为一个由欧洲大陆发起的项目，目前已经拥有来自北美、欧洲以及亚洲的许多贡献者，这是否能够一改欧洲在开源世界中一贯的被动角色，我们将在未来拭目以待。

2
NoSQL数据库篇
NoSQL数据库在主流选择上依旧集中在MongoDB, HBase和Cassandra这三者之间。在所有的NoSQL选择中，用C 编写的MongoDB几乎应该是开发者最快也最易部署的选择。MongoDB是一个面向文档的数据库，每个文档／记录／数据（包括爬取的网页数据及其他大型对象如视频等）是以一种BSON（Binary JSON）的二进制数据格式存储, 这使得MongoDB并不需要事先定义任何模式, 也就是模式自由（可以把完全不同结构的记录放在同一个数据库里）。

MongoDB对于完全索引的支持在应用上是很方便的，同时也具备一般NoSQL分布式数据库中可扩展，支持复制和故障恢复等功能。 MongoDB一般应用于高度伸缩性的缓存及大尺寸的JSON数据存储业务中，但不能执行“JOIN”操作，而且数据占用空间也比较大，最被用户诟病的就是由于MongoDB提供的是数据库级锁粒度导致在一些情况下建索引操作会引发整个数据库阻塞。一般来说，MongoDB完全可以满足一些快速迭代的中小型项目的需求。

下面来主要谈谈Cassandra和HBase之间的比较选择。Cassandra和HBase有着截然不同的基因血统。HBase和其底层依赖的系统架构源自于著名的Google FileSystem（发表于2003年）和Google BigTable设计（发表于2006年），其克服了HDFS注重吞吐量却牺牲I/O的缺点，提供了一个存储中间层使得用户或者应用程序可以随机读写数据。

具体来说，HBase的更新和删除操作实际上是先发生在内存MemStore中，当MemStore满了以后会Flush到StoreFile, 之后当StoreFile文件数量增长到一定阈值后会触发Compact合并操作，因此HBase的更新操作其实是不断追加的操作，而最终所有更新和删除数据的持久化操作都是在之后Compact过程中进行的。

这使得应用程序在向内存MemStore写入数据后，所做的修改马上就能得到反映，用户读到的数据绝不会是陈旧的数据，保证了I/O高性能和数据完全一致性；另一方面来说， HBase基于Hadoop生态系统的基因就已经决定了他自身的高度可扩展性、容错性。

在数据模型上，Cassandra和HBase类似实现了一个key-value提供面向列式存储服务，其系统设计参考了 Amazon Dynamo (发表于2007年) 分布式哈希（DHT）的P2P结构（实际上大部分Cassandra的初始工作都是由两位从Amazon的Dynamo组跳槽到Facebook的工程师完成)，同样具有很高的可扩展性和容错性等特点。

除此之外，相对HBase的主从结构，Cassandra去中心化的P2P结构能够更简单地部署和维护，比如增加一台机器只需告知Cassandra系统新节点在哪，剩下的交给系统完成就行了。同时，Cassandra对多数据中心的支持也更好，如果需要在多个数据中心进行数据迁移Cassandra会是一个更优的选择。

Eric Brewer教授提出的经典CAP理论认为任何基于网络的数据共享系统，最多只能满足数据一致性、可用性、分区容忍性三要素中的两个要素。实际分布式系统的设计过程往往都是在一致性与可用性上进行取舍，相比于HBase数据完全一致性的系统设计，Cassandra选择了在优先考虑数据可用性的基础上让用户自己根据应用程序需求决定系统一致性级别。

比如：用户可以配置QUONUM参数来决定系统需要几个节点返回数据才能向客户端做出响应，ONE指只要有一个节点返回数据就可以对客户端做出响应，ALL指等于数据复制份数的所有节点都返回结果才能向客户端做出响应，对于数据一致性要求不是特别高的可以选择ONE，它是最快的一种方式。

从基因和发展历史上来说，HBase更适合用做数据仓库和大规模数据处理与分析（比如对网页数据建立索引），而Cassandra则更适合用作实时事务和交互式查询服务。Cassandra在国外市场占有比例和发展要远比国内红火，在不少权威测评网站上排名都已经超过了HBase。目前Apache Cassandra的商业化版本主要由软件公司DataStax进行开发和销售推广。另外还有一些NoSQL分布式数据库如Riak, CouchDB也都在各自支持的厂商推动下取得了不错的发展。

虽然我们也考虑到了HBase在实际应用中的不便之处比如对二级索引的支持程度不够（只支持通过单个行键访问，通过行键的范围查询，全表扫描），不过在明略的大数据基础平台上，目前整合的是依然是HBase。

理由也很简单，HBase出身就与Hadoop的生态系统紧密集成，其能够很容易与其他SQL on Hadoop框架（Cloudera Impala, Apache Phoenix, or Hive on Tez）进行整合，而不需要重新部署一套分布式数据库系统，而且可以很方便地将同样的数据内容在同一个生态系统中根据不同框架需要来变换存储格式（比如存储成Hive表或者Parquet格式）。

我们在很多项目中都有需要用到多种SQL on Hadoop框架，来应对不同应用场景的情况，也体会到了在同一生态系统下部署多种框架的简便性。但同时我们也遇到了一些问题，因为HBase项目本身与HDFS和Zookeeper系统分别是由不同开源团队进行维护的，所以在系统整合时我们需要先对HBase所依赖的其他模块进行设置再对HBase进行配置，在一定程度上降低了系统维护的友好性。

目前我们也已经在考虑将Cassandra应用到一些新的客户项目中，因为很多企业级的应用都需要将线上线下数据库进行分离，HBase更适合存储离线处理的结果和数据仓库，而更适合用作实时事务和并发交互性能更好的Cassandra作为线上服务数据库会是一种很好的选择。

3
大数据安全篇
随着越来越多各式各样的数据被存储在大数据系统中，任何对企业级数据的破坏都是灾难性的，从侵犯隐私到监管违规，甚至会造成公司品牌的破坏并最终影响到股东收益。给大数据系统提供全面且有效的安全解决方案的需求已经十分迫切：

大数据系统存储着许多重要且敏感的数据，这些数据是企业长久以来的财富

与大数据系统互动的外部系统是动态变化的，这会给系统引入新的安全隐患

在一个企业的内部，不同Business Units会用不同的方式与大数据系统进行交互，比如线上的系统会实时给集群推送数据、数据科学家团队则需要分析存储在数据仓库内的历史数据、运维团队则会需要对大数据系统拥有管理权限。

因此为了保护公司业务、客户、财务和名誉免于被侵害，大数据系统运维团队必须将系统安全高度提高到和其他遗留系统一样的级别。同时大数据系统并不意味着引入大的安全隐患，通过精细完整的设计，仍然能够把一些传统的系统安全解决方案对接到最新的大数据集群系统中。

一般来说，一个完整的企业级安全框架包括五个部分：

Administration: 大数据集群系统的集中式管理，设定全局一致的安全策略

Authentication: 对用户和系统的认证

Authorization：授权个人用户和组对数据的访问权限

Audit：维护数据访问的日志记录

Data Protection：数据脱敏和加密以达到保护数据的目的

系统管理员要能够提供覆盖以上五个部分的企业级安全基础设施，否则任何一环的缺失都可能给整个系统引入安全性风险。

在大数据系统安全集中式管理平台这块，由Hortonworks推出的开源项目Apache Ranger就可以十分全面地为用户提供Hadoop生态圈的集中安全策略的管理，并解决授权(Authorization)和审计(Audit)。例如，运维管理员可以轻松地为个人用户和组对文件、数据等的访问策略，然后审计对数据源的访问。

与Ranger提供相似功能的还有Cloudera推出的Apache Sentry项目，相比较而言Ranger的功能会更全面一些。

而在认证（Authentication）方面, 一种普遍采用的解决方案是将基于Kerberos的认证方案对接到企业内部的LDAP环境中， Kerberos也是唯一为Hadoop全面实施的验证技术。

另外值得一提的是Apache Knox Gateway项目，与Ranger提高集群内部组件以及用户互相访问的安全不同，Knox提供的是Hadoop集群与外界的唯一交互接口，也就是说所有与集群交互的REST API都通过Knox处理。这样，Knox就给大数据系统提供了一个很好的基于边缘的安全（perimeter-based security）。

基于以上提到的五个安全指标和Hadoop生态圈安全相关的开源项目，已经足已证明基于Hadoop的大数据平台我们是能够构建一个集中、一致、全面且有效的安全解决方案。
我市再ITjob管网上面找的

H. 什么是大数据时代

大数据时代

（巨量资料（IT行业术语））
编辑
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡，麦肯锡称：“数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。” “大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日，却因为近年来互联网和信息行业的发展而引起人们关注。
中文名
大数据时代
外文名
Big data
提出者
麦肯锡
类属
科技名词
目录
1 产生背景
2 影响
▪ 大数据
▪ 大数据的精髓
▪ 数据价值
▪ 可视化
3 特征
4 案例分析
5 产业崛起
6 提供依据
7 应对措施

产生背景
编辑

进入2012年，大数据（big data）一词越来越多地被提及，人们用它来描述和定义信息爆炸时代产生的海量数
大数据时代来临
据，并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面，进入美国白宫官网的新闻，现身在国内一些互联网主题的讲座沙龙中，甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。[1]
数据正在迅速膨胀并变大，它决定着企业的未来发展，虽然很多企业可能并没有意识到数据爆炸性增长带来问题的隐患，但是随着时间的推移，人们将越来越多的意识到数据对企业的重要性。
正如《纽约时报》2012年2月的一篇专栏中所称，“大数据”时代已经降临，在商业、经济及其他领域中，决策将日益基于数据和分析而作出，而并非基于经验和直觉。
哈佛大学社会学教授加里·金说：“这是一场革命，庞大的数据资源使得各个领域开始了量化进程，无论学术界、商界还是政府，所有领域都将开始这种进程。”[2]

影响
编辑

大数据
现在的社会是一个高速发展的社会，科技发达，信息流通，人们之间的交流越来越密切，生活也越来越方便，大数据就是这个高科技时代的产物。[3]
随着云时代的来临，大数据（Big data）也吸引了越来越多的关注。大数据（Big data）通常用来形容一个公司创造的大量非结构化和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapRece一样的框架来向数十、数百或甚至数千的电脑分配工作。[2]
在现今的社会，大数据的应用越来越彰显他的优势，它占领的领域也越来越大，电子商务、O2O、物流配送等，各种利用大数据进行发展的领域正在协助企业不断地发展新业务，创新运营模式。有了大数据这个概念，对于消费者行为的判断，产品销售量的预测，精确的营销范围以及存货的补给已经得到全面的改善与优化。[4]
“大数据”在互联网行业指的是这样一种现象：互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大，以至于不能用G或T来衡量。
大数据到底有多大？一组名为“互联网上一天”的数据告诉我们，一天之中，互联网产生的全部内容可以刻满1.68亿张DVD；发出的邮件有2940亿封之多（相当于美国两年的纸质信件数量）；发出的社区帖子达200万个（相当于《时代》杂志770年的文字量）；卖出的手机为37.8万台，高于全球每天出生的婴儿数量37.1万……[1]
截止到2012年，数据量已经从TB（1024GB=1TB）级别跃升到PB（1024TB=1PB）、EB（1024PB=1EB）乃至ZB(1024EB=1ZB)级别。国际数据公司（IDC）的研究结果表明，2008年全球产生的数据量为0.49ZB，2009年的数据量为0.8ZB，2010年增长为1.2ZB，2011年的数量更是高达1.82ZB，相当于全球每人产生200GB以上的数据。而到2012年为止，人类生产的所有印刷材料的数据量是200PB，全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称，整个人类文明所获得的全部数据中，有90%是过去两年内产生的。而到了2020年，全世界所产生的数据规模将达到今天的44倍。[5] 每一天，全世界会上传超过5亿张图片，每分钟就有20小时时长的视频被分享。然而，即使是人们每天创造的全部信息——包括语音通话、电子邮件和信息在内的各种通信，以及上传的全部图片、视频与音乐，其信息量也无法匹及每一天所创造出的关于人们自身的数字信息量。
这样的趋势会持续下去。我们现在还处于所谓“物联网”的最初级阶段，而随着技术成熟，我们的设备、交通工具和迅速发展的“可穿戴”科技将能互相连接与沟通。科技的进步已经使创造、捕捉和管理信息的成本降至2005年的六分之一，而从2005年起，用在硬件、软件、人才及服务之上的商业投资也增长了整整50%，达到了4000亿美元。[5]

大数据的精髓
大数据带给我们的三个颠覆性观念转变：是全部数据，而不是随机采样；是大体方向，而不是精确制导；是相关关系，而不是因果关系。[6]
A.不是随机样本，而是全体数据：在大数据时代，我们可以分析更多的数据，有时候甚至可以处理和某个特别现象相关的所有数据，而不再依赖于随机采样(随机采样，以前我们通常把这看成是理所应当的限制，但高性能的数字技术让我们意识到，这其实是一种人为限制);
B.不是精确性，而是混杂性：研究数据如此之多，以至于我们不再热衷于追求精确度;之前需要分析的数据很少，所以我们必须尽可能精确地量化我们的记录，随着规模的扩大，对精确度的痴迷将减弱;拥有了大数据，我们不再需要对一个现象刨根问底，只要掌握了大体的发展方向即可，适当忽略微观层面上的精确度，会让我们在宏观层面拥有更好的洞察力;
C.不是因果关系，而是相关关系：我们不再热衷于找因果关系，寻找因果关系是人类长久以来的习惯，在大数据时代，我们无须再紧盯事物之间的因果关系，而应该寻找事物之间的相关关系;相关关系也许不能准确地告诉我们某件事情为何会发生，但是它会提醒我们这件事情正在发生。

数据价值
大数据时代，什么最贵?
十年前，葛大爷曾说过，“21世纪什么最贵?”——“人才”，深以为然。只是，十年后的今天，大数据时代也带来了身价不断翻番的各种数据。由于急速拓展的网络带宽以及各种穿戴设备所带来的大量数据，数据的增长从未停歇，甚至呈井喷式增长。[7]
一分钟内，微博推特上新发的数据量超过10万；社交网络“脸谱”的浏览量超过600万……
这些庞大数字，意味着什么？
它意味着，一种全新的致富手段也许就摆在面前，它的价值堪比石油和黄金。
事实上，当你仍然在把微博等社交平台当作抒情或者发议论的工具时，华尔街的敛财高手们却正在挖掘这些互联网的“数据财富”，先人一步用其预判市场走势，而且取得了不俗的收益。
让我们一起来看看——他们是怎么做的。
这些数据都能干啥。具体有六大价值：
●1、华尔街根据民众情绪抛售股票；
●2、对冲基金依据购物网站的顾客评论，分析企业产品销售状况；
●3、银行根据求职网站的岗位数量，推断就业率；
●4、投资机构搜集并分析上市企业声明，从中寻找破产的蛛丝马迹；
●5、美国疾病控制和预防中心依据网民搜索，分析全球范围内流感等病疫的传播状况；
●6、美国总统奥巴马的竞选团队依据选民的微博，实时分析选民对总统竞选人的喜好。[1]

可视化
“数据是新的石油。”亚马逊前任首席科学家Andreas Weigend说。Instagram以10亿美元出售之时，成立于1881年的世界最大影像产品及服务商柯达正申请破产。
大数据是如此重要，以至于其获取、储存、搜索、共享、分析，乃至可视化地呈现，都成为了当前重要的研究课题[1] 。
“当时时变幻的、海量的数据出现在眼前，是怎样一幅壮观的景象？在后台注视着这一切，会不会有接近上帝俯视人间星火的感觉？”
这个问题我曾请教过刘建国，中国著名的搜索引擎专家。刘曾主持开发过国内第一个大规模中英文搜索引擎系统“天网”。
要知道，刘建国曾任至网络的首席技术官，在这样一家每天需应对网民各种搜索请求1.7亿次（2013年约为8.77亿次）的网站中，如果只是在后台静静端坐，可能片刻都不能安心吧。网络果然在提供搜索服务之外，逐渐增添了网络指数，后又建立了基于网民搜索数据的重要产品“贴吧”及网络统计产品等。
刘建国没有直接回答这个问题，他想了很久，似乎陷入了回忆，嘴角的笑容含着诡秘。
倒是有公司已经在大数据中有接近上帝俯视的感觉，美国洛杉矶就有企业宣称，他们将全球夜景的历史数据建立模型，在过滤掉波动之后，做出了投资房地产和消费的研究报告。
在数据可视化呈现方面，我最新接收到的故事是，一位在美国思科物流部门工作的朋友，很聪明的印度裔小伙子，被Facebook高价挖角，进入其数据研究小组。他后来惊讶地发现，里面全是来自物流企业、供应链方面的技术人员和专家，“Facebook想知道，能不能用物流的角度和流程的方式，分析用户的路径和行为。”

特征
编辑
数据量大（Volume）
第一个特征是数据量大。大数据的起始计量单位至少是P（1000个T）、E（100万个T）或Z（10亿个T）。
类型繁多（Variety）
第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等，多类型的数据对数据的处理能力提出了更高的要求。
价值密度低（Value）
第三个特征是数据价值密度相对较低。如随着物联网的广泛应用，信息感知无处不在，信息海量，但价值密度较低，如何通过强大的机器算法更迅速地完成数据的价值“提纯”，是大数据时代亟待解决的难题。
速度快、时效高（Velocity）
第四个特征是处理速度快，时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。
既有的技术架构和路线，已经无法高效处理如此海量的数据，而对于相关组织来说，如果投入巨大采集的信息无法通过及时处理反馈有效信息，那将是得不偿失的。可以说，大数据时代对人类的数据驾驭能力提出了新的挑战，也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。[2]

案例分析
编辑
个案一
你开心他就买你焦虑他就抛[2]
华尔街“德温特资本市场”公司首席执行官保罗·霍廷每天的工作之一，就是利用电脑程序分析全球3.4亿微博账户的留言，进而判断民众情绪，再以“1”到“50”进行打分。根据打分结果，霍廷再决定如何处理手中数以百万美元计的股票。
霍廷的判断原则很简单：如果所有人似乎都高兴，那就买入；如果大家的焦虑情绪上升，那就抛售。
这一招收效显著——当年第一季度，霍廷的公司获得了7%的收益率。
个案二
国际商用机器公司（IBM）估测，这些“数据”值钱的地方主要在于时效。对于片刻便能定输赢的华尔街，这一时效至关重要。曾经，华尔街2%的企业搜集微博等平台的“非正式”数据；如今，接近半数企业采用了这种手段。
●“社会流动”创业公司在“大数据”行业生机勃勃，和微博推特是合作伙伴。它分析数据，告诉广告商什么是正确的时间，谁是正确的用户，什么是应该发表的正确内容，备受广告商热爱。
●通过乔希·詹姆斯的Omniture（著名的网页流量分析工具）公司，你可以知道有多少人访问你的网站，以及他们呆了多长时间——这些数据对于任何企业来说都至关重要。詹姆斯把公司卖掉，进账18亿美元。
●微软专家吉拉德喜欢把这些“大数据”结果可视化：他把客户请到办公室，将包含这些公司的数据图谱展现出来——有些是普通的时间轴，有些像蒲公英，有些则是铺满整个画面的泡泡，泡泡中显示这些客户的粉丝正在谈论什么话题。
●“脸谱”数据分析师杰弗逊的工作就是搭建数据分析模型，弄清楚用户点击广告的动机和方式。
处理和分析工具
用于分析大数据的工具主要有开源与商用两个生态圈。
开源大数据生态圈：
1、Hadoop HDFS、HadoopMapRece, HBase、Hive 渐次诞生，早期Hadoop生态圈逐步形成。
2、. Hypertable是另类。它存在于Hadoop生态圈之外，但也曾经有一些用户。
3、NoSQL，membase、MongoDb
商用大数据生态圈：
1、一体机数据库/数据仓库：IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、数据仓库：TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、数据集市：QlikView、 Tableau 、以及国内的Yonghong Data Mart 。

产业崛起
编辑
越来越多的政府、企业等机构开始意识到数据正在成为组织最重要的资产，数据分析能力正在成为组织的核心竞争力。具体有以下三大案例：
1、2012年3月22日，奥巴马政府宣布投资2亿美元拉动大数据相关产业发展，将“大数据战略”上升为国家意志。奥巴马政府将数据定义为“未来的新石油”，并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分，未来，对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。
2、联合国也在2012年发布了大数据政务白皮书，指出大数据对于联合国和各国政府来说是一个历史性的机遇，人们如今可以使用极为丰富的数据资源，来对社会经济进行前所未有的实时分析，帮助政府更好地响应社会和经济运行。
3、而最为积极的还是众多的IT企业。麦肯锡在一份名为《大数据，是下一轮创新、竞争和生产力的前沿》的专题研究报告中提出，“对于企业来说，海量数据的运用将成为未来竞争和增长的基础”，该报告在业界引起广泛反响。
IBM则提出，上一个十年，他们抛弃了PC，成功转向了软件和服务，而这次将远离服务与咨询，更多地专注于因大数据分析软件而带来的全新业务增长点。IBM执行总裁罗睿兰认为，“数据将成为一切行业当中决定胜负的根本因素，最终数据将成为人类至关重要的自然资源。”
在国内，网络已经致力于开发自己的大数据处理和存储系统；腾讯也提出2013年已经到了数据化运营的黄金时期，如何整合这些数据成为未来的关键任务。
事实上，自2009年以来，有关“大数据” 主题的并购案层出不穷，且并购数量和规模呈逐步上升的态势。其中，Oracle对Sun、惠普对Autonomy两大并购案总金额高达176亿美元，大数据的产业价值由此可见一斑。[1-2]

提供依据
编辑
大数据是信息通信技术发展积累至今，按照自身技术发展逻辑，从提高生产效率向更高级智能阶段的自然生长。无处不在的信息感知和采集终端为我们采集了海量的数据，而以云计算为代表的计算技术的不断进步，为我们提供了强大的计算能力，这就围绕个人以及组织的行为构建起了一个与物质世界相平行的数字世界[1-2] 。
大数据虽然孕育于信息通信技术的日渐普遍和成熟，但它对社会经济生活产生的影响绝不限于技术层面，更本质上，它是为我们看待世界提供了一种全新的方法，即决策行为将日益基于数据分析做出，而不是像过去更多凭借经验和直觉做出。
事实上，大数据的影响并不仅仅限于信息通信产业，而是正在“吞噬”和重构很多传统行业，广泛运用数据分析手段管理和优化运营的公司其实质都是一个数据公司。麦当劳、肯德基以及苹果公司等旗舰专卖店的位置都是建立在数据分析基础之上的精准选址。而在零售业中，数据分析的技术与手段更是得到广泛的应用，传统企业如沃尔玛通过数据挖掘重塑并优化供应链，新崛起的电商如卓越亚马逊、淘宝等则通过对海量数据的掌握和分析，为用户提供更加专业化和个性化的服务。
最让人吃惊的例子是，社交媒体监测平台DataSift监测了Facebook（脸谱） IPO当天Twitter上的情感倾向与Facebook股价波动的关联。在Facebook开盘前Twitter上的情感逐渐转向负面，25分钟之后Facebook的股价便开始下跌。而当Twitter上的情感转向正面时，Facebook股价在8分钟之后也开始了回弹。最终当股市接近收盘、Twitter上的情感转向负面时，10分钟后Facebook的股价又开始下跌。最终的结论是：Twitter上每一次情感倾向的转向都会影响Facebook股价的波动。
这仅仅只是基于社交网络产生的大数据“预见未来”的众多案例之一，此外还有谷歌通过网民搜索行为预测流感爆发等例子。不仅在商业方面，大数据在社会建设方面的作为同样令人惊叹，智能电网、智慧交通、智慧医疗、智慧环保、智慧城市等的蓬勃兴起，都与大数据技术与应用的发展息息相关。
“大数据”可能带来的巨大价值正渐渐被人们认可，它通过技术的创新与发展，以及数据的全面感知、收集、分析、共享，为人们提供了一种全新的看待世界的方法。更多地基于事实与数据做出决策，这样的思维方式，可以预见，将推动一些习惯于靠“差不多”运行的社会发生巨大变革。

应对措施
编辑
一个好的企业应该未雨绸缪，从现在开始就应该着手准备，为企业的后期的数据收集和分析做好准备，企业可以从下面六个方面着手，这样当面临铺天盖地的大数据的时候，以确保企业能够快速发展，具体为下面六点。
目标
几乎每个组织都可能有源源不断的数据需要收集，无论是社交网络还是车间传感器设备，而且每个组织都有大量的数据需要处理，IT人员需要了解自己企业运营过程中都产生了什么数据，以自己的数据为基准，确定数据的范围。
准则
虽然每个企业都会产生大量数据，而且互不相同、多种多样的，这就需要企业IT人员在现在开始收集确认什么数据是企业业务需要的，找到最能反映企业业务情况的数据。
重新评估
大数据需要在服务器和存储设施中进行收集，并且大多数的企业信息管理体系结构将会发生重要大变化，IT经理则需要准备扩大他们的系统，以解决数据的不断扩大，IT经理要了解公司现有IT设施的情况，以组建处理大数据的设施为导向，避免一些不必要的设备的购买。
重视大数据技术
大数据是最近几年才兴起的词语，而并不是所有的IT人员对大数据都非常了解，例如如今的Hadoop，MapRece，NoSQL等技术都是2013年刚兴起的技术，企业IT人员要多关注这方面的技术和工具，以确保将来能够面对大数据的时候做出正确的决定。
培训企业的员工
大多数企业最缺乏的是人才，而当大数据到临的时候，企业将会缺少这方面的采集收集分析方面的人才，对于一些公司，特别是那种人比较少的公司，工作人员面临大数据将是一种挑战，企业要在平时的时候多对员工进行这方面的培训，以确保在大数据到来时，员工也能适应相关的工作。
培养三种能力
Teradata大中华区首席执行官辛儿伦对新浪科技表示，随着大数据时代的到来，企业应该在内部培养三种能力。第一，整合企业数据的能力；第二，探索数据背后价值和制定精确行动纲领的能力；第三，进行精确快速实时行动的能力。
做到上面的几点，当大数据时代来临的时候，面临大量数据将不是束手无策，而是成竹在胸，而从数据中得到的好处也将促进企业快速发展。
望采纳，谢谢

I. C/C++ 是否存在大数据生态圈，为什么

cloudera自己的大数据生态就是C++的, 比如Impala,ku。
java 把写大规模并发程序的难度降低了，但是把问题挪到了JVM上面，虽然内存分配省心了，但是问题在JVM上面表现出来了。
C++ 是写的时候难了，但是用起来爽
GO 的话，并发解决了， GC问题还是没解决和java 一样一样的！

J. 大数据生态圈最令世界骄傲的事

大数据生态最令世界骄傲的是这个大数据生态圈中给我们了很多的启示，让我们倍感骄傲

阅读全文

热点内容

一部国外电影，一个老男人骑个摩托车发布：2024-08-19 09:13:10 浏览：920

脖子上有睾丸是什么电影发布：2024-08-19 09:03:17 浏览：374

变形金刚撒谁家的发布：2024-08-19 08:43:06 浏览：478

美国男电影双胞胎发布：2024-08-19 08:42:20 浏览：764

黑人橄榄球少年收养电影发布：2024-08-19 08:25:26 浏览：918

夏目哉大片发布：2024-08-19 08:09:22 浏览：806

他第一部出演的电视剧是，的英语发布：2024-08-19 08:07:54 浏览：654

电影检索发布：2024-08-19 07:48:52 浏览：198

谁有视频发布：2024-08-19 07:41:55 浏览：141

成龙香港鬼片电影大全发布：2024-08-19 07:39:46 浏览：223

大数据生态圈

与大数据生态圈相关的资讯