正文

是google提出的用于处理海量数据（是google提出的用于处理海量数据的方法）

发布时间：2023-04-08 08:38:45 稿源：创意岭阅读： 89

大家好！今天让创意岭的小编来大家介绍下关于是google提出的用于处理海量数据的问题，以下是小编对此问题的归纳整理，让我们一起来看看吧。

开始之前先推荐一个非常厉害的Ai人工智能工具，一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

只需要输入关键词，就能返回你想要的内容，越精准，写出的就越详细，有微信小程序端、在线网页版、PC客户端

官网：https://ai.de1919.com。

创意岭作为行业内优秀的企业，服务客户遍布全球各地，如需了解SEO相关业务请拨打电话175-8598-2043，或添加微信：1454722008

本文目录:

1、大数据分析工具详尽介绍&数据分析算法
2、常用的搜索引擎有哪些
3、大数据概念是在哪一年由谁首次提出的
4、介绍一下云计算的核心技术

是google提出的用于处理海量数据（是google提出的用于处理海量数据的方法）

一、大数据分析工具详尽介绍&数据分析算法

大数据分析工具详尽介绍&数据分析算法

1、 Hadoop

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop 还是可伸缩的，能够处理 PB 级数据。此外，Hadoop 依赖于社区服务器，因此它的成本比较低，任何人都可以使用。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：

⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。

⒊高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。

⒋高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。

Hadoop带有用 Java 语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。

2、 HPCC

HPCC，High Performance Computing and Communications（高性能计算与通信）的缩写。1993年，由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目：高性能计算与通信”的报告，也就是被称为HPCC计划的报告，即美国总统科学战略项目，其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而上实施的计划，该计划的实施将耗资百亿美元，其主要目标要达到：开发可扩展的计算系统及相关软件，以支持太位级网络传输性能，开发千兆比特网络技术，扩展研究和教育机构及网络连接能力。

该项目主要由五部分组成：

1、高性能计算机系统（HPCS），内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等；

2、先进软件技术与算法（ASTA），内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等；

3、国家科研与教育网格（NREN），内容有中接站及10亿位级传输的研究与开发；

4、基本研究与人类资源（BRHR），内容有基础研究、培训、教育及课程教材，被设计通过奖励调查者-开始的，长期的调查在可升级的高性能计算中来增加创新意识流，通过提高教育和高性能的计算训练和通信来加大熟练的和训练有素的人员的联营，和来提供必需的基础架构来支持这些调查和研究活动；

5、信息基础结构技术和应用（IITA ），目的在于保证美国在先进信息技术开发方面的领先地位。

3、 Storm

Storm是自由的开源软件，一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流，用于处理Hadoop的批量数据。Storm很简单，支持许多种编程语言，使用起来非常有趣。Storm由Twitter开源而来，其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。

Storm有许多应用领域：实时分析、在线机器学习、不停顿的计算、分布式RPC（远过程调用协议，一种通过网络从远程计算机程序上请求服务）、 ETL（Extraction-Transformation-Loading的缩写，即数据抽取、转换和加载）等等。Storm的处理速度惊人：经测试，每个节点每秒钟可以处理100万个数据元组。Storm是可扩展、容错，很容易设置和操作。

4、 Apache Drill

为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法，Apache软件基金会近日发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google’s Dremel.

据Hadoop厂商MapR Technologies公司产品经理Tomer Shiran介绍，“Drill”已经作为Apache孵化器项目来运作，将面向全球软件工程师持续推广。

该项目将会创建出开源版本的谷歌Dremel Hadoop工具（谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速）。而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的。

“Drill”项目其实也是从谷歌的Dremel项目中获得灵感：该项目帮助谷歌实现海量数据集的分析处理，包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。

通过开发“Drill”Apache开源项目，组织机构将有望建立Drill所属的API接口和灵活强大的体系架构，从而帮助支持广泛的数据源、数据格式和查询语言。

5、 RapidMiner

RapidMiner是世界领先的数据挖掘解决方案，在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。

功能和特点

免费提供数据挖掘技术和库

100%用Java代码（可运行在操作系统）

数据挖掘过程简单，强大和直观

内部XML保证了标准化的格式来表示交换数据挖掘过程

可以用简单脚本语言自动进行大规模进程

多层次的数据视图，确保有效和透明的数据

图形用户界面的互动原型

命令行（批处理模式）自动大规模应用

Java API（应用编程接口）

简单的插件和推广机制

强大的可视化引擎，许多尖端的高维数据的可视化建模

400多个数据挖掘运营商支持

耶鲁大学已成功地应用在许多不同的应用领域，包括文本挖掘，多媒体挖掘，功能设计，数据流挖掘，集成开发的方法和分布式数据挖掘。

6、 Pentaho BI

Pentaho BI 平台不同于传统的BI 产品，它是一个以流程为中心的，面向解决方案（Solution）的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来，方便商务智能应用的开发。它的出现，使得一系列的面向商务智能的独立产品如Jfree、Quartz等等，能够集成在一起，构成一项项复杂的、完整的商务智能解决方案。

Pentaho BI 平台，Pentaho Open BI 套件的核心架构和基础，是以流程为中心的，因为其中枢控制器是一个工作流引擎。工作流引擎使用流程定义来定义在BI 平台上执行的商业智能流程。流程可以很容易的被定制，也可以添加新的流程。BI 平台包含组件和报表，用以分析这些流程的性能。目前，Pentaho的主要组成元素包括报表生成、分析、数据挖掘和工作流管理等等。这些组件通过 J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技术集成到Pentaho平台中来。 Pentaho的发行，主要以Pentaho SDK的形式进行。

Pentaho SDK共包含五个部分：Pentaho平台、Pentaho示例数据库、可独立运行的Pentaho平台、Pentaho解决方案示例和一个预先配制好的 Pentaho网络服务器。其中Pentaho平台是Pentaho平台最主要的部分，囊括了Pentaho平台源代码的主体；Pentaho数据库为 Pentaho平台的正常运行提供的数据服务，包括配置信息、Solution相关的信息等等，对于Pentaho平台来说它不是必须的，通过配置是可以用其它数据库服务取代的；可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例，它演示了如何使Pentaho平台在没有应用服务器支持的情况下独立运行；

Pentaho解决方案示例是一个Eclipse工程，用来演示如何为Pentaho平台开发相关的商业智能解决方案。

Pentaho BI 平台构建于服务器，引擎和组件的基础之上。这些提供了系统的J2EE 服务器，安全，portal，工作流，规则引擎，图表，协作，内容管理，数据集成，分析和建模功能。这些组件的大部分是基于标准的，可使用其他产品替换之。

7、 SAS Enterprise Miner

§ 支持整个数据挖掘过程的完备工具集

§ 易用的图形界面,适合不同类型的用户快速建模

§ 强大的模型管理和评估功能

§ 快速便捷的模型发布机制, 促进业务闭环形成

数据分析算法

大数据分析主要依靠机器学习和大规模计算。机器学习包括监督学习、非监督学习、强化学习等，而监督学习又包括分类学习、回归学习、排序学习、匹配学习等（见图1）。分类是最常见的机器学习应用问题，比如垃圾邮件过滤、人脸检测、用户画像、文本情感分析、网页归类等，本质上都是分类问题。分类学习也是机器学习领域，研究最彻底、使用最广泛的一个分支。

最近、Fernández-Delgado等人在JMLR（Journal of Machine Learning Research，机器学习顶级期刊）杂志发表了一篇有趣的论文。他们让179种不同的分类学习方法（分类学习算法）在UCI 121个数据集上进行了“大比武”（UCI是机器学习公用数据集，每个数据集的规模都不大）。结果发现Random Forest（随机森林）和SVM（支持向量机）名列第一、第二名，但两者差异不大。在84.3%的数据上、Random Forest压倒了其它90%的方法。也就是说，在大多数情况下，只用Random Forest 或 SVM事情就搞定了。

KNN

K最近邻算法。给定一些已经训练好的数据，输入一个新的测试数据点，计算包含于此测试数据点的最近的点的分类情况，哪个分类的类型占多数，则此测试点的分类与此相同，所以在这里,有的时候可以复制不同的分类点不同的权重。近的点的权重大点，远的点自然就小点。详细介绍链接

Naive Bayes

朴素贝叶斯算法。朴素贝叶斯算法是贝叶斯算法里面一种比较简单的分类算法，用到了一个比较重要的贝叶斯定理，用一句简单的话概括就是条件概率的相互转换推导。详细介绍链接

朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。通俗来说，就好比这么个道理，你在街上看到一个黑人，我问你你猜这哥们哪里来的，你十有八九猜非洲。为什么呢？因为黑人中非洲人的比率最高，当然人家也可能是美洲人或亚洲人，但在没有其它可用信息下，我们会选择条件概率最大的类别，这就是朴素贝叶斯的思想基础。

SVM

支持向量机算法。支持向量机算法是一种对线性和非线性数据进行分类的方法，非线性数据进行分类的时候可以通过核函数转为线性的情况再处理。其中的一个关键的步骤是搜索最大边缘超平面。详细介绍链接

Apriori

Apriori算法是关联规则挖掘算法，通过连接和剪枝运算挖掘出频繁项集，然后根据频繁项集得到关联规则，关联规则的导出需要满足最小置信度的要求。详细介绍链接

PageRank

网页重要性/排名算法。PageRank算法最早产生于Google,核心思想是通过网页的入链数作为一个网页好快的判定标准，如果1个网页内部包含了多个指向外部的链接，则PR值将会被均分，PageRank算法也会遭到LinkSpan攻击。详细介绍链接

RandomForest

随机森林算法。算法思想是决策树+boosting.决策树采用的是CART分类回归数,通过组合各个决策树的弱分类器,构成一个最终的强分类器,在构造决策树的时候采取随机数量的样本数和随机的部分属性进行子决策树的构建,避免了过分拟合的现象发生。详细介绍链接

Artificial Neural Network

“神经网络”这个词实际是来自于生物学，而我们所指的神经网络正确的名称应该是“人工神经网络（ANNs）”。

人工神经网络也具有初步的自适应与自组织能力。在学习或训练过程中改变突触权重值，以适应周围环境的要求。同一网络因学习方式及内容不同可具有不同的功能。人工神经网络是一个具有学习能力的系统，可以发展知识，以致超过设计者原有的知识水平。通常，它的学习训练方式可分为两种，一种是有监督或称有导师的学习，这时利用给定的样本标准进行分类或模仿；另一种是无监督学习或称无为导师学习，这时，只规定学习方式或某些规则，则具体的学习内容随系统所处环境（即输入信号情况）而异，系统可以自动发现环境特征和规律性，具有更近似人脑的功能。

二、常用的搜索引擎有哪些

索引擎（search engines）是对互联网上的信息资源进行搜集整理，然后供你查询的系统，它包括信息搜集、信息整理和用户查询三部分。

搜索引擎是一个为你提供信息“检索”服务的网站，它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。

早期的搜索引擎是把因特网中的资源服务器的地址收集起来，由其提供的资源的类型不同而分成不同的目录，再一层层地进行分类。

人们要找自己想要的信息可按他们的分类一层层进入，就能最后到达目的地，找到自己想要的信息。

这其实是最原始的方式，只适用于因特网信息并不多的时候。

随着因特网信息按几何式增长，出现了真正意义上的搜索引擎，这些搜索引擎知道网站上每一页的开始，随后搜索因特网上的所有超级链接，把代表超级链接的所有词汇放入一个数据库。

这就是现在搜索引擎的原型。

随着yahoo!的出现，搜索引擎的发展也进入了黄金时代，相比以前其性能更加优越。

现在的搜索引擎已经不只是单纯的搜索网页的信息了，它们已经变得更加综合化，完美化了。

以搜索引擎权威yahoo!为例，从1995年3月由美籍华裔杨致远等人创办yahoo!开始，到现在，他们从一个单一的搜索引擎发展到现在有电子商务、新闻信息服务、个人免费电子信箱服务等多种网络服务，充分说明了搜索引擎的发展从单一到综合的过程。

然而由于搜索引擎的工作方式和因特网的快速发展，使其搜索的结果让人越来越不满意。

例如，搜索“电脑”这个词汇，就可能有数百万页的结果。

这是由于搜索引擎通过对网站的相关性来优化搜索结果，这种相关性又是由关键字在网站的位置、网站的名称、标签等公式来决定的。

这就是使搜索引擎搜索结果多而杂的原因。

而搜索引擎中的数据库因为因特网的发展变化也必然包含了死链接。

这篇文章中，我们介绍了google，它是一个大型的搜索引擎（of a large-scale search engine）的原型，搜索引擎在超文本中应用广泛。

Google的设计能够高效地抓网页并建立索引，它的查询结果比其它现有系统都高明。

这个原型的全文和超连接的数据库至少包含24‘000‘000个网页。

我们可以从://google.stanford.edu/ 下载。

设计搜索引擎是一项富有挑战性的工作。

搜索引擎为上亿个网页建立索引，其中包含大量迥然不同的词汇。

而且每天要回答成千上万个查询。

在网络中，尽管大型搜索引擎非常重要，但是学术界却很少研究它。

此外由于技术的快速发展和网页的大量增加，现在建立一个搜索引擎和三年前完全不同。

本文详细介绍了我们的大型搜索引擎，据我们所知，在公开发表的论文中，这是第一篇描述地如此详细。

除了把传统数据搜索技术应用到如此大量级网页中所遇到的问题，还有许多新的技术挑战，包括应用超文本中的附加信息改进搜索结果。

本文将解决这个问题，描述如何运用超文本中的附加信息，建立一个大型实用系统。

任何人都可以在网上随意发布信息，如何有效地处理这些无组织的超文本 *** ，也是本文要关注的问题。

关键词 World Wide Web，搜索引擎，信息检索，PageRank, Google 1 绪论 Web 给信息检索带来了新的挑战。

Web上的信息量快速增长，同时不断有毫无经验的新用户来体验Web这门艺术。

人们喜欢用超级链接来网上冲浪，通常都以象Yahoo这样重要的网页或搜索引擎开始。

大家认为List(目录)有效地包含了大家感兴趣的主题，但是它具有主观性，建立和维护的代价高，升级慢，不能包括所有深奥的主题。

基于关键词的自动搜索引擎通常返回太多的低质量的匹配。

使问题更遭的是，一些广告为了赢得人们的关注想方设法误导自动搜索引擎。

我们建立了一个大型搜索引擎解决了现有系统中的很多问题。

应用超文本结构，大大提高了查询质量。

我们的系统命名为google，取名自googol的通俗拼法，即10的100次方，这和我们的目标建立一个大型搜索引擎不谋而合。

1.1网络搜索引擎—升级换代（scaling up）：1994-2000 搜索引擎技术不得不快速升级（scale dramatically）跟上成倍增长的web数量。

1994年，第一个Web搜索引擎，World Wide Web Worm(WWWW)可以检索到110，000个网页和Web的文件。

到1994年11月，顶级的搜索引擎声称可以检索到2‘000’000（WebCrawler）至100‘000’000个网络文件（来自 Search Engine Watch）。

可以预见到2000年，可检索到的网页将超过1‘000’000‘000。

同时，搜索引擎的访问量也会以惊人的速度增长。

在1997年的三四月份，World Wide Web Worm 平均每天收到1500个查询。

在1997年11月，Altavista 声称它每天要处理大约20’000’000个查询。

随着网络用户的增长，到2000年，自动搜索引擎每天将处理上亿个查询。

我们系统的设计目标要解决许多问题，包括质量和可升级性，引入升级搜索引擎技术（scaling search engine technology），把它升级到如此大量的数据上。

1.2 Google：跟上Web的步伐（Scaling with the Web）建立一个能够和当今web规模相适应的搜索引擎会面临许多挑战。

抓网页技术必须足够快，才能跟上网页变化的速度（keep them up to date）。

存储索引和文档的空间必须足够大。

索引系统必须能够有效地处理上千亿的数据。

处理查询必须快，达到每秒能处理成百上千个查询（hundreds to thousands per second.）。

随着Web的不断增长，这些任务变得越来越艰巨。

然而硬件的执行效率和成本也在快速增长，可以部分抵消这些困难。

还有几个值得注意的因素，如磁盘的寻道时间（disk seek time），操作系统的效率（operating system robustness）。

在设计Google的过程中，我们既考虑了Web的增长速度，又考虑了技术的更新。

Google的设计能够很好的升级处理海量数据集。

它能够有效地利用存储空间来存储索引。

优化的数据结构能够快速有效地存取（参考4.2节）。

进一步，我们希望，相对于所抓取的文本文件和HTML网页的数量而言，存储和建立索引的代价尽可能的小（参考附录B）。

对于象Google这样的集中式系统，采取这些措施得到了令人满意的系统可升级性（scaling properties）。

1. 3设计目标 1.3.1提高搜索质量我们的主要目标是提高Web搜索引擎的质量。

1994年，有人认为建立全搜索索引（a plete search index）可以使查找任何数据都变得容易。

根据Best of the Web 1994 -- Navigators ，“最好的导航服务可以使在Web上搜索任何信息都很容易（当时所有的数据都可以被登录）”。

然而1997年的Web就迥然不同。

近来搜索引擎的用户已经证实索引的完整性不是评价搜索质量的唯一标准。

用户感兴趣的搜索结果往往湮没在“垃圾结果Junk result”中。

实际上，到1997年11月为止，四大商业搜索引擎中只有一个能够找到它自己（搜索自己名字时返回的前十个结果中有它自己）。

导致这一问题的主要原因是文档的索引数目增加了好几个数量级，但是用户能够看的文档数却没有增加。

用户仍然只希望看前面几十个搜索结果。

因此，当 *** 增大时，我们就需要工具使结果精确（在返回的前几十个结果中，有关文档的数量）。

由于是从成千上万个有点相关的文档中选出几十个，实际上，相关的概念就是指最好的文档。

高精确非常重要，甚至以响应（系统能够返回的有关文档的总数）为代价。

令人高兴的是利用超文本链接提供的信息有助于改进搜索和其它应用。

尤其是链接结构和链接文本，为相关性的判断和高质量的过滤提供了大量的信息。

Google既利用了链接结构又用到了anchor文本（见2.1和2.2节）。

1.3.2搜索引擎的学术研究随着时间的流逝，除了发展迅速，Web越来越商业化。

1993年，只有1.5%的Web服务是来自域名。

到1997年，超过了60%。

同时，搜索引擎从学术领域走进商业。

到现在大多数搜索引擎被公司所有，很少技公开术细节。

这就导致搜索引擎技术很大程度上仍然是暗箱操作，并倾向做广告（见附录A）。

Google的主要目标是推动学术领域在此方面的发展，和对它的了解。

另一个设计目标是给大家一个实用的系统。

应用对我们来说非常重要，因为现代网络系统中存在大量的有用数据（us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems）。

例如，每天有几千万个研究。

然而，得到这些数据却非常困难，主要因为它们没有商业价值。

我们最后的设计目标是建立一个体系结构能够支持新的关于海量Web数据的研究。

为了支持新研究，Google以压缩的形式保存了实际所抓到的文档。

设计google的目标之一就是要建立一个环境使其他研究者能够很快进入这个领域，处理海量Web数据，得到满意的结果，而通过其它方法却很难得到结果。

系统在短时间内被建立起来，已经有几篇论文用到了Google建的数据库，更多的在起步中。

我们的另一个目标是建立一个宇宙空间实验室似的环境，在这里研究者甚至学生都可以对我们的海量Web数据设计或做一些实验。

2. 系统特点 Google搜索引擎有两个重要特点，有助于得到高精度的搜索结果。

第一点，应用Web的链接结构计算每个网页的Rank值，称为PageRank，将在98页详细描述它。

第二点，Google利用超链接改进搜索结果。

2.1 PageRank:给网页排序 Web的引用（链接）图是重要的资源，却被当今的搜索引擎很大程度上忽视了。

我们建立了一个包含518‘000’000个超链接的图，它是一个具有重要意义的样本。

这些图能够快速地计算网页的PageRank值，它是一个客观的标准，较好的符合人们心目中对一个网页重要程度的评价，建立的基础是通过引用判断重要性。

因此在web中，PageRank能够优化关键词查询的结果。

对于大多数的主题，在网页标题查询中用PageRank优化简单文本匹配，我们得到了令人惊叹的结果（从google.stanford.edu可以得到演示）。

对于Google主系统中的全文搜索，PageRank也帮了不少忙。

2.1.1计算PageRank 文献检索中的引用理论用到Web中，引用网页的链接数，一定程度上反映了该网页的重要性和质量。

PageRank发展了这种思想，网页间的链接是不平等的。

PageRank定义如下: 我们假设T1…Tn指向网页A（例如，被引用）。

参数d是制动因子，使结果在0，1之间。

通常d等于0.85。

在下一节将详细介绍d。

C（A）定义为网页A指向其它网页的链接数，网页A的PageRank值由下式给出： PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 注意PageRank的形式，分布到各个网页中，因此所有网页的PageRank和是1。

PageRank或PR（A）可以用简单的迭代算法计算，相应规格化Web链接矩阵的主特征向量。

中等规模的网站计算26‘000’000网页的PageRank值要花费几小时。

还有一些技术细节超出了本文论述的范围。

2.1.2直觉判断 PageRank被看作用户行为的模型。

我们假设网上冲浪是随机的，不断点击链接，从不返回，最终烦了，另外随机选一个网页重新开始冲浪。

随机访问一个网页的可能性就是它的PageRank值。

制动因子d是随机访问一个网页烦了的可能性，随机另选一个网页。

对单个网页或一组网页，一个重要的变量加入到制动因子d中。

这允许个人可以故意地误导系统，以得到较高的PageRank值。

我们还有其它的PageRank算法，见98页。

另外的直觉判断是一个网页有很多网页指向它，或者一些PageRank值高的网页指向它，则这个网页很重要。

直觉地，在Web中，一个网页被很多网页引用，那么这个网页值得一看。

一个网页被象Yahoo这样重要的主页引用即使一次，也值得一看。

如果一个网页的质量不高，或者是死链接，象Yahoo这样的主页不会链向它。

PageRank处理了这两方面因素，并通过网络链接递归地传递。

& nbsp; 2.2链接描述文字（Anchor Text）我们的搜索引擎对链接文本进行了特殊的处理。

大多数搜索引擎把链接文字和它所链向的网页（the page that the link is on）联系起来。

另外，把它和链接所指向的网页联系起来。

这有几点好处。

第一，通常链接描述文字比网页本身更精确地描述该网页。

第二，链接描述文字可能链向的文档不能被文本搜索引擎检索到，例如图像，程序和数据库。

有可能使返回的网页不能被抓到。

注意哪些抓不到的网页将会带来一些问题。

在返回给用户前检测不了它们的有效性。

这种情况搜索引擎可能返回一个根本不存在的网页，但是有超级链接指向它。

然而这种结果可以被挑出来的，所以此类的问题很少发生。

链接描述文字是对被链向网页的宣传，这个思想被用在World Wide Web Worm 中，主要因为它有助于搜索非文本信息，能够用少量的已下载文档扩大搜索范围。

我们大量应用链接描述文字，因为它有助于提高搜索结果的质量。

有效地利用链接描述文字技术上存在一些困难，因为必须处理大量的数据。

现在我们能抓到24‘000’000个网页，已经检索到259‘000’000多个链接描述文字。

2.3其它特点除了PageRank和应用链接描述文字外，Google还有一些其它特点。

第一,所有hit都有位置信息，所以它可以在搜索中广泛应用邻近性（proximity）。

第二，Google跟踪一些可视化外表细节，例如字号。

黑体大号字比其它文字更重要。

第三，知识库存储了原始的全文网页。

3有关工作 Web检索研究的历史简短。

World Wide Web Worm（）是最早的搜索引擎之一。

后来出现了一些用于学术研究的搜索引擎，现在它们中的大多数被上市公司拥有。

与Web的增长和搜索引擎的重要性相比，有关当今搜索引擎技术的优秀论文相当少。

根据Michael Mauldin（Lycos Inc的首席科学家）) ，“各种各样的服务（包括Lycos）非常关注这些数据库的细节。

”虽然在搜索引擎的某些特点上做了大量工作。

具有代表性的工作有，对现有商业搜索引擎的结果进行传递，或建立小型的个性化的搜索引擎。

最后有关信息检索系统的研究很多，尤其在有组织机构 *** （well controlled collections）方面。

在下面两节，我们将讨论在信息检索系统中的哪些领域需要改进以便更好的工作在Web上。

3.1信息检索信息检索系统诞生在几年前，并发展迅速。

然而大多数信息检索系统研究的对象是小规模的单一的有组织结构的 *** ，例如科学论文集，或相关主题的新闻故事。

实际上，信息检索的主要基准，the Text Retrieval Conference（），用小规模的、有组织结构的 *** 作为它们的基准。

大型文集基准只有20GB，相比之下，我们抓到的24000000个网页占147GB。

在TREC上工作良好的系统，在Web上却不一定产生好的结果。

例如，标准向量空间模型企图返回和查询请求最相近的文档，把查询请求和文档都看作由出现在它们中的词汇组成的向量。

在Web环境下，这种策略常常返回非常短的文档，这些文档往往是查询词再加几个字。

例如，查询“Bill Clinton”，返回的网页只包含“Bill Clinton Sucks”，这是我们从一个主要搜索引擎中看到的。

网络上有些争议，用户应该更准确地表达他们想查询什么，在他们的查询请求中用更多的词。

我们强烈反对这种观点。

如果用户提出象“Bill Clinton”这样的查询请求，应该得到理想的查询结果，因为这个主题有许多高质量的信息。

象所给的例子，我们认为信息检索标准需要发展，以便有效地处理Web数据。

3.2有组织结构的 *** （Well Controlled Collections）与Web的不同点 Web是完全无组织的异构的大量文档的 *** 。

Web中的文档无论内在信息还是隐含信息都存在大量的异构性。

例如，文档内部就用了不同的语言（既有人类语言又有程序），词汇（[email]地址，链接，邮政编码，电话号码，产品号），类型（文本，HTML，PDF，图像，声音），有些甚至是机器创建的文件（log文件，或数据库的输出）。

可以从文档中推断出来，但并不包含在文档中的信息称为隐含信息。

隐含信息包括来源的信誉，更新频率，质量，访问量和引用。

不但隐含信息的可能来源各种各样，而且被检测的信息也大不相同，相差可达好几个数量级。

例如，一个重要主页的使用量，象Yahoo 每天浏览数达到上百万次，于此相比无名的历史文章可能十年才被访问一次。

很明显，搜索引擎对这两类信息的处理是不同的。

Web与有组织结构 *** 之间的另外一个明显区别是，事实上，向Web上传信息没有任何限制。

灵活利用这点可以发布任何对搜索引擎影响重大的信息，使路由阻塞，加上为牟利故意操纵搜索引擎，这些已经成为一个严重的问题。

这些问题还没有被传统的封闭的信息检索系统所提出来。

它关心的是元数据的努力，这在Web搜索引擎中却不适用，因为网页中的任何文本都不会向用户声称企图操纵搜索引擎。

甚至有些公司为牟利专门操纵搜索引擎。

4 系统分析（System Anatomy）首先，我们提供高水平的有关体系结构的讨论。

然后，详细描述重要的数据结构。

最后，主要应用：抓网页，索引，搜索将被严格地检查。

Figure 1. High Level Google Architecture 4.1Google体系结构概述这一节，我们将看看整个系统是如何工作的（give a high level），见图1。

本节不讨论应用和数据结构，在后几节中讨论。

为了效率大部分Google是用c或c++实现的，既可以在Solaris也可以在Linux上运行。

Google系统中，抓网页（下载网页）是由几个分布式crawlers完成的。

一个URL服务器负责向crawlers提供URL列表。

抓来的网页交给存储服务器storeserver。

然后，由存储服务器压缩网页并把它们存到知识库repository中。

每个网页都有一个ID，称作docID，当新URL从网页中分析出时，就被分配一个docID。

由索引器和排序器负责建立索引index function。

索引器从知识库中读取文档，对其解压缩和分析。

每个文档被转换成一组词的出现情况，称作命中hits。

Hits纪录了词，词在文档中的位置，最接近的字号，大小写。

索引器把这些hits分配到一组桶barrel中，产生经过部分排序后的索引。

索引器的另一个重要功能是分析网页中所有的链接，将有关的重要信息存在链接描述anchors文件中。

该文件包含了足够的信息，可以用来判断每个链接链出链入节点的信息，和链接文本。

URL分解器resolver阅读链接描述anchors文件，并把相对URL转换成绝对URL，再转换成docID。

为链接描述文本编制索引，并与它所指向的docID关联起来。

同时建立由docID对组成的链接数据库。

用于计算所有文档的PageRank值。

用docID分类后的barrels，送给排序器sorter，再根据wordID进行分类，建立反向索引inverted index。

这个操作要恰到好处，以便几乎不需要暂存空间。

排序器还给出docID和偏移量列表，建立反向索引。

一个叫DumpLexicon的程序把这个列表和由索引器产生的字典结合在一起，建立一个新的字典，供搜索器使用。

这个搜索器就是利用一个Web服务器，使用由DumpLexicon所生成的字典，利用上述反向索引以及页面等级PageRank来回答用户的提问。

4.2主要数据结构经过优化的Google数据结构，能够用较小的代价抓取大量文档，建立索引和查询。

虽然近几年CPU和输入输出速率迅速提高。

磁盘寻道仍然需要10ms。

任何时候Google系统的设计都尽可能地避免磁盘寻道。

这对数据结构的设计影响很大。

4.2.1大文件大文件BigFiles是指虚拟文件生成的多文件系统，用长度是64位的整型数据寻址。

多文件系统之间的空间分配是自动完成的。

BigFiles包也处理已分配和未分配文件描述符。

由于操纵系统不能满足我们的需要，BigFiles也支持基本的压缩选项。

4.2.2知识库 Figure 2. Repository Data Structure 知识库包含每个网页的全部HTML。

每个网页用zlib（见RFC1950）压缩。

压缩技术的选择既要考虑速度又要考虑压缩率。

我们选择zlib的速度而不是压缩率很高的bzip。

知识库用bzip的压缩率接近4：1。

而用zlib的压缩率是3：1。

文档一个挨着一个的存储在知识库中，前缀是docID，长度，URL，见图2。

访问知识库不需要其它的数据结构。

这有助于数据一致性和升级。

用其它数据结构重构系统，我们只需要修改知识库和crawler错误列表文件。

4.2.3文件索引文件索引保存了有关文档的一些信息。

索引以docID的顺序排列，定宽ISAM（Index sequential access mode）。

每条记录包括当前文件状态，一个指向知识库的指针，文件校验和，各种统计表。

如果一个文档已经被抓到，指针指向docinfo文件，该文件的宽度可变，包含了URL和标题。

否则指针指向包含这个URL的URL列表。

这种设计考虑到简洁的数据结构，以及在查询中只需要一个磁盘寻道时间就能够访问一条记录。

还有一个文件用于把URL转换成docID。

它是URL校验和与相应docID的列表，按校验和排序。

要想知道某个URL的docID，需要计算URL的校验和，然后在校验和文件中执行二进制查找，找到它的docID。

通过对这个文件进行合并，可以把一批URL转换成对应的docID。

URL分析器用这项技术把URL转换成docID。

这种成批更新的模式是至关重要的，否则每个链接都需要一次查询，假如用一块磁盘，322‘000’000个链接的数据 *** 将花费一个多月的时间。

4.2.4词典词典有几种不同的形式。

和以前系统的重要不同是，词典对内存的要求可以在合理的价格内。

现在实现的系统，一台256M内存的机器就可以把词典装入到内存中。

现在的词典包含14000000词汇（虽然一些很少用的词汇没有加入到词典中）。

它执行分两部分—词汇表（用null分隔的连续串）和指针的哈希表。

不同的函数，词汇表有一些辅助信息，这超出了本文论述的范围。

4.2.5 hit list hit list是一篇文档中所出现的词的列表，包括位置，字号，大小写。

Hit list占很大空间，用在正向和反向索引中。

因此，它的表示形式越有效越好。

我们考虑了几种方案来编码位置，字号，大小写—简单编码（3个整型数），紧凑编码（支持优化分配比特位），哈夫曼编码。

Hit的详细信息见图3。

我们的紧凑编码每个hit用2字节。

有两种类型hit，特殊hit和普通hit。

特殊hit包含URL，标题，链接描述文字，meta tag。

普通hit包含其它每件事。

它包括大小写特征位，字号，12比特用于描述词在文档中的位置（所有超过4095的位置标记为4096）。

字号采用相对于文档的其它部分的相对大小表示，占3比特(实际只用7个值，因为111标志是特殊hit)。

特殊hit由大小写特征位，字号位为7表示它是特殊hit，用4比特表示特殊hit的类型，8比特表示位置。

对于anchor hit八比特位置位分出4比特用来表示在anchor中的位置，4比特用于表明anchor出现的哈希表hash of the docID。

短语查询是有限的，对某些词没有足够多的anchor。

我们希望更新anchor hit的存储方式，以便解决地址位和docIDhash域位数不足的问题。

三、大数据概念是在哪一年由谁首次提出的

大数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样捷径，而采用所有数据进行分析处理。

是google提出的用于处理海量数据（是google提出的用于处理海量数据的方法）

于“大数据”（Big data）研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

麦肯锡全球研究所给出的定义是：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换而言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。

从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

随着云时代的来临，大数据（Big data）也吸引了越来越多的关注。分析师团队认为，大数据（Big data）通常用来形容一个公司创造的大量非结构化数据和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。

大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理（MPP）数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

资料参考百度百科大数据

四、介绍一下云计算的核心技术

云计算系统运用了许多技术，其中以编程模型、数据管理技术、数据存储技术、虚拟化技术、云计算平台管理技术最为关键。

(1)编程模型

MapReduce是Google开发的java、Python、C++编程模型，它是一种简化的分布式编程模型和高效的任务调度模型，用于大规模数据集（大于1TB）的并行运算。严格的编程模型使云计算环境下的编程十分简单。MapReduce模式的思想是将要执行的问题分解成Map(映射)和Reduce(化简)的方式，先通过Map程序将数据切割成不相关的区块，分配（调度）给大量计算机处理，达到分布式运算的效果，再通过Reduce程序将结果汇整输出。

(2) 海量数据分布存储技术

云计算系统由大量服务器组成，同时为大量用户服务，因此云计算系统采用分布式存储的方式存储数据，用冗余存储的方式保证数据的可靠性。云计算系统中广泛使用的数据存储系统是Google的GFS和Hadoop团队开发的GFS的开源实现HDFS。

GFS即Google文件系统（Google File System），是一个可扩展的分布式文件系统，用于大型的、分布式的、对大量数据进行访问的应用。GFS的设计思想不同于传统的文件系统，是针对大规模数据处理和Google应用特性而设计的。它运行于廉价的普通硬件上，但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。

一个GFS集群由一个主服务器（master）和大量的块服务器(chunkserver)构成，并被许多客户（Client）访问。主服务器存储文件系统所以的元数据，包括名字空间、访问控制信息、从文件到块的映射以及块的当前位置。它也控制系统范围的活动，如块租约（lease）管理，孤儿块的垃圾收集，块服务器间的块迁移。主服务器定期通过HeartBeat消息与每一个块服务器通信，给块服务器传递指令并收集它的状态。GFS中的文件被切分为64MB的块并以冗余存储，每份数据在系统中保存3个以上备份。

客户与主服务器的交换只限于对元数据的操作，所有数据方面的通信都直接和块服务器联系，这大大提高了系统的效率，防止主服务器负载过重。

(3) 海量数据管理技术

云计算需要对分布的、海量的数据进行处理、分析，因此，数据管理技术必需能够高效的管理大量的数据。云计算系统中的数据管理技术主要是Google的BT(BigTable)数据管理技术和Hadoop团队开发的开源数据管理模块HBase。

BT是建立在GFS, Scheduler, Lock Service和MapReduce之上的一个大型的分布式数据库，与传统的关系数据库不同，它把所有数据都作为对象来处理，形成一个巨大的表格，用来分布存储大规模结构化数据。

Google的很多项目使用BT来存储数据，包括网页查询，Google earth和Google金融。这些应用程序对BT的要求各不相同：数据大小（从URL到网页到卫星图象）不同，反应速度不同（从后端的大批处理到实时数据服务）。对于不同的要求，BT都成功的提供了灵活高效的服务。

（4）虚拟化技术

通过虚拟化技术可实现软件应用与底层硬件相隔离，它包括将单个资源划分成多个虚拟资源的裂分模式，也包括将多个资源整合成一个虚拟资源的聚合模式。虚拟化技术根据对象可分成存储虚拟化、计算虚拟化、网络虚拟化等，计算虚拟化又分为系统级虚拟化、应用级虚拟化和桌面虚拟化。

（5）云计算平台管理技术

云计算资源规模庞大，服务器数量众多并分布在不同的地点，同时运行着数百种应用，如何有效的管理这些服务器，保证整个系统提供不间断的服务是巨大的挑战。

云计算系统的平台管理技术能够使大量的服务器协同工作，方便的进行业务部署和开通，快速发现和恢复系统故障，通过自动化、智能化的手段实现大规模系统的可靠运营。

我是从IT号外知道的。

以上就是关于是google提出的用于处理海量数据相关问题的回答。希望能帮到你，如有更多相关问题，您也可以联系我们的客服进行咨询，客服也会为您讲解更多精彩的知识和内容。