HOME 首页
SERVICE 服务产品
XINMEITI 新媒体代运营
CASE 服务案例
NEWS 热点资讯
ABOUT 关于我们
CONTACT 联系我们
创意岭
让品牌有温度、有情感
专注品牌策划15年

    能打开各种网站的搜索引擎(能打开各种网站的搜索引擎)

    发布时间:2023-03-05 01:25:56     稿源: 创意岭    阅读: 1363        问大家

    大家好!今天让创意岭的小编来大家介绍下关于能打开各种网站的搜索引擎的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。

    创意岭作为行业内优秀的企业,服务客户遍布全球各地,相关业务请拨打电话:175-8598-2043,或添加微信:1454722008

    本文目录:

    能打开各种网站的搜索引擎(能打开各种网站的搜索引擎)

    一、谁能介绍几个国外的搜索引擎(类似于百度这类的)

    1. Yahoo!(http://www.yahoo.com)

    Yahoo!是目前最常用的引擎之一,是Internet引擎的"元老"。

    Yahoo!的使用很简单,可以直接输入查找关键字,也可以先选分类主题进行分类查询

    ,它将返回三种信息:

    1. 满足查询条件的Yahoo目录(用户可以利用它们进行交叉引用);

    2. 满足条件的实际站点;

    3. 更广泛的含有页面索引的Yahoo!目录,是一种更 广泛的交叉引用。

    Yahoo!也提供了一些简单的高级查询,其配置选项有:

    S搜索的范围:Yahoo(缺省)、Usenet或E-mail Address;

    S搜索词之间的关系:OR或AND(缺省);

    S可以进行子串搜索,将其设置Substrings或Complete words两种,其中Substrings将

    我们输入的词作为一个子串,Complete words表示进行完整的单词搜索,缺省是子串搜索

    ·控制每页显示的结果数目:10、25(缺省)、50或100。

    Yahoo!在高级查询上并不是很完善,但是Yahoo!在其主页的末尾提供了其他引擎如A

    ltaVista的超连接,如果用户在Yahoo!查不到所需资料,Yahoo!可以到这些地方去搜索。

    从而弥补了Yahoo!的一些缺陷。

    2. InfoSeek(http://guide.infoseek.com)

    InfoSeek是一个高效的搜索引擎,它的特点是:搜索精度高,查到的节点一般都与用

    户的要求相符。其搜索结果按照相关程度依次显示。每一个结果显示该HTML文件的标题

    、摘要、大小。

    InfoSeek引擎拥有最好的搜索参数的集成,它允许用户在填写查寻要求时可以随心所

    欲地不厌其详,而它在后台则施以适当的逻辑组合。这就意味着,用户可以忽略如何使用

    搜索引擎,只要集中精力把自己想提的问题写好就行了。

    InfoSeek数据库中每一网页的所有文本都被检索,它的搜索具有"事件敏感性"(case

    sensitive),即对某些名字进行搜索时,搜索的效率会明显提高。用户输入一个短语后,I

    nfoseek会使用与短语最接近的排位方法,提高搜索结果的相关性。

    InfoSeek可以提供以下的搜索范围:

    SWeb:在整个WWW信息系统内查找;

    SNews:在实时新闻中查找;

    SCompany:在公司名目中搜索;

    SNewsgroups:在新闻组中搜索。

    Infoseek的搜索方法包括:

    1. 词组(短语)搜索 这时需对词组加上双引号,以示与单个词的区别;

    2. 查找同时出现的词 对所要搜索的关键词加上[ ],表示括号内的词在文本中出现

    时,其间隔不超过100个词。

    3. AltaVista(altavista.digital.com)

    AltaVista自1996年12月开始服务以来,引起了世界各地网民的广泛注意,每天都要

    接受200万次以上的访问。AltaVista自诩拥有2100多万全文索引的网页,可以称得上是最

    大的网络搜索数据库。

    相对其他搜索引擎而言,AltaVista的搜索结果总是比其他任何站点的搜索结果内容

    更丰富,AltaVista的搜索范围大得惊人,有人说能对网络的天涯海角进行彻底搜索的仅此

    一家,就连一些鲜为人知的偏僻站点也能找到。所以,使用AltaVista时,要花更多的时间

    在搜索结果里寻找自己想要的信息。不过,如果你的目的就是想找到关于某个主题的站点

    ,多多益善,那么AltaVista是最好的选择。

    根据检索的对象,AltaVista搜索引擎提供三大类信息检索:Web检索和新闻组检索、

    商业检索以及人物检索。除公共检索服务外,AltaVista还提供免费E-mail、页面翻译等

    相关服务。它的搜索方法分为简单和高级两种。

    1. 简单搜索

    AltaVista搜索引擎推荐使用的检索方法, 是直接使用自然语言输入检索提问。检索

    提问可以是自然语言的单词、词组或短语以及完整的问题。对使用AltaVista的最有用的

    建议是, 由于它的索引是基于整个单词的正文的,在描述查找的单词时越精确越好,还要

    去掉那些不感兴趣的单词。

    2. 高级搜索

    高级搜索包含了简单搜索的所有特性,还可以有布尔和接近操作符、括起来的逻辑组

    合等。AltaVista支持二元操作符AND、OR、NEAR和一元操作符NOT。

    AltaVista的接近操作符(NEAR)很有特色。可以使用NEAR/n,n是两个被搜索词之间的

    单词的数目,如:Microsoft NEAR/5 Internet表示在"Microsoft"和"Internet"这两个关

    键字之间的单词数目不得超过5个。如果不输入n,表示两个词挨在一起。为了控制挨在一

    起的两个词之间的顺序,可以使用 ADJ 操作符,如:Microsoft ADJ Internet,表示Micro

    soft 必须在Internet之前。

    4. Lycos ( http://www.lycos.com)

    Lycos是最老资格的搜索引擎之一,只要能给出准确的搜索结果,Lycos通常能给出最

    全面的结果(基本上与AltaVista相同)。 Lycos的搜索范围分的较细,这样可以减少命中

    的数量,可选择的项目有:

    The Web、Web Site Reviews、Personal Home- pages、Message Boards、Reuters

    News、Weather (city)、Cities、Dictionary、Stock (symbol)、Music (artist)、B

    ooks、Pictures、Sounds、Downloads、Recipes等。

    Lycos不是周期性地更新数据库,而是采用累积的形式构筑数据库。在对新的和原来

    存在的数据库进行信息升级时,Lycos软件通过观察其他站点通向某一站点的链接数而评

    价这个站点的知名度。然后引擎在每次搜索时都使用这一知名度索引,所以每次搜索结果

    的相关性在一定的程度上取决于站点的相对知名度。

    Lycos搜索结果的容量非常之大,你如果试图在网上迅速找到某个内容,Lycos不是最

    好的选择,如果你需要对网上的内容广进博收,多多益善,Lycos可能会为你找到一些其他

    站点找不到的内容。

    Lycos在支持逻辑搜索和高级搜索功能方面较弱。

    Lycos不提供要求/排除单词的功能, 但可以在一个单词前加一个"-"号,表示在给结

    果定等级时,不考虑这个单词。

    Lycos的通配符是$符号。如gen$ 表示 genetic、 genesis、general等。它还提供

    了英文句号(.)的使用,可以禁止扩展一个单词。如gene.,只能得到gene,而得不到genet

    ics和general。

    5. Excite(http://www.excite.com)

    Netscape在其Navigator浏览器的NetDirectory命令条中选中了Excite作为其中的一

    个链接,这使Excite的知名度明显提高。众多的访问大大提高了Excite站点的流通量。

    Excite使用的是基于关键词或基于概念的正文和主题搜索。概念搜索是指搜索引擎

    不只简单地查找含有要查找的单词的文档,同时还搜索与要查找的概念相关的文档。缺省

    的查找是概念查找。Excite既提供网络搜索引擎,又提供以类目形式组织起来的网络目录

    (类似于Yahoo的目录索引)。

    Excite中要求的单词和排除的单词的使用方法同AltaVista一样,使用+号和-号,Exc

    ite支持二元操作符AND、OR 和一元操作符NOT,它也支持用括号来构成逻辑组。

    6. Webcrawler(http://www.webcrawler.com)

    Webcrawler 是一个杰出的搜索引擎, 它的界面有些像 AltaVista。实际上,它在

    高级搜索方面的功能要比AlataVista强。它提供事先分好类的19个主题,实现了基于主题

    的搜索。

    Webcrawler号称支持"自然语言搜索",所以可以输入像"highest mountain in the

    world(世界上最高的山)"这样的查询条件。它抛弃了无意义的词,对其余的词做模糊的A

    ND搜索,含有所有的词的页面等级最高, 但也能查到只含一个词的页面,这是那些最佳引

    擎的通用策略。

    Webcrawler的词组、逻辑和接近操作符的使用类似于AltaVista。Webcrawler不支

    持要求/排除的单词的查找,也不支持通配符。

    WebCrawler的主要缺点是,它对搜索到的每个条目都不显示文本内容摘要。用户只能

    看到网页题目和显示WebCrawler相关性排名的数字。所以,除非网页题目直接描述网页内

    容,否则用户只能到这个站点访问,才能得知其网页内容。

    在互联网上,中文内容只占约4%,绝大多数是英文内容,所以只有掌握英文搜索才能真正的深入互联网。但是,英文搜索引擎很多,变化也很快,应该用哪个搜索,和怎么搜索呢?今天,我就来介绍几个最有代表性的英文搜索引擎。

    Ask (www.ask.com,又名askjeeves)

    Ask是一个支持自然提问的搜索引擎,它的数据库里储存了超过1000万个问题的答案,只要你用英文直接输入一个问题,它就会给出问题答案,如果你的问题答案不在它的数据库中,那么它会列出一串跟你的问题类似的问题和含有答案的链接,供你选择。

    根据网友们的使用经验,当你遇到一些属于事实型、原理型的问题时,使用Ask是最方便的。例如:“美国历任总统中就任时年纪最轻的是谁?”、“阿富汗的首都叫什么?”、“飞机是哪一年发明的?”、“雪为什么是白的?”、“为什么吃豆子的人爱放屁?”、“恐龙为什么灭绝?”、“后街男孩的网站在哪里?”。你还可以问它各种奇怪的问题,例如:“现在几点了?”、“罗马帝国为什么崩溃?”、“圣诞老人住在哪儿?”,它都会给你答案的。

    dmoz(www.dmoz.org,又名ODP)

    有的网友不喜欢自己输入英文单词搜索,而是喜欢用鼠标点击分类目录随意浏览,那么我向你推荐dmoz。

    dmoz是互联网合作共享精神的结晶,它的4万多名志愿编辑都是各行各业的专业人员,大家走到一起免费制作dmoz,提供给任何个人和组织免费使用。dmoz已经收录了40多万子目录和近300万个网站,是世界上最大的、也是最好的网站分类目录,已经被世界各国400多个网站选做默认搜索引擎。dmoz使用起来非常方便,它提供相关目录使你不容易漏掉其它目录里的的相关内容,它还用一颗小星星推荐各个目录下最好的网站,使初学者不会被太多的网站弄迷途。

    另外,任何人都可以申请成为dmoz的搜索引擎编辑,你也可以去申请,尝试一下亲自做搜索引擎编辑的感觉,不过,要被批准可得有点实力才行哦。

    Google(www.google.com)

    Google是在国外很受欢迎的搜索引擎,界面简洁,以搜索结果的准确性著称,它的网页快照和图片搜索也很有特色。

    网页快照就是网页的备份,你在Google搜索的时候,如果发现某条搜索结果点不进去,是死链接,那么只要点击搜索结果旁边的网页快照(Cached),就能看到Google保存的备份网页。

    Google还有世界上最大的图片搜索引擎(images.google.com),收集了互联网上3.3亿张图片,如果你想找哪个偶像的照片、想找某个名胜的风景照、想找军事兵器图片、、、只要输入合适的英文单词,很容易找到满意的图片。

    search(www.search.com)

    search属于元搜索引擎,它收集了800多种专业搜索引擎和数据库,分为商业金融、娱乐、健康医药、新闻媒体、评论、计算机、游戏、国际、寻人、购物、下载、政府、音乐、参考资料、旅行共15个大主题,每个大主题又分许多小主题。

    当你进入任何一个主题搜索的时候,它都可以同时搜索这个主题下的多个专业搜索引擎和数据库,然后在一个页面上显示来自不同搜索引擎的搜索结果。

    比如进入大主题“新闻媒体”搜索,它把搜索结果分为头条新闻、商业新闻、体育新闻、娱乐新闻、科技新闻、杂志、报纸,如果再进入小主题“科技新闻”搜索,那么它可以同时搜索CNET、PC World、ZDNet、IDG.net、TechWeb这5个著名的科技新闻网站,足够保证你得到最全最新的科技新闻。

    好了,每个搜索引擎都有独特的优缺点,不同的需要就应该使用不同的搜索引擎。

    如果你搜索英文内容,那么我给你推荐的使用习惯是:上网随便逛逛就用dmoz,平时搜索就用google,有问题就问ask,要做特定的主题搜索就用search.com。

    二、常用的搜索引擎有哪些?

    索引擎(search engines)是对互联网上的信息资源进行搜集整理,然后供你查询的系统,它包括信息搜集、信息整理和用户查询三部分。 搜索引擎是一个为你提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。 早期的搜索引擎是把因特网中的资源服务器的地址收集起来,由其提供的资源的类型不同而分成不同的目录,再一层层地进行分类。人们要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息。这其实是最原始的方式,只适用于因特网信息并不多的时候。随着因特网信息按几何式增长,出现了真正意义上的搜索引擎,这些搜索引擎知道网站上每一页的开始,随后搜索因特网上的所有超级链接,把代表超级链接的所有词汇放入一个数据库。这就是现在搜索引擎的原型。 随着yahoo!的出现,搜索引擎的发展也进入了黄金时代,相比以前其性能更加优越。现在的搜索引擎已经不只是单纯的搜索网页的信息了,它们已经变得更加综合化,完美化了。以搜索引擎权威yahoo!为例,从1995年3月由美籍华裔杨致远等人创办yahoo!开始,到现在,他们从一个单一的搜索引擎发展到现在有电子商务、新闻信息服务、个人免费电子信箱服务等多种网络服务,充分说明了搜索引擎的发展从单一到综合的过程。 然而由于搜索引擎的工作方式和因特网的快速发展,使其搜索的结果让人越来越不满意。例如,搜索“电脑”这个词汇,就可能有数百万页的结果。这是由于搜索引擎通过对网站的相关性来优化搜索结果,这种相关性又是由关键字在网站的位置、网站的名称、 标签等公式来决定的。这就是使搜索引擎搜索结果多而杂的原因。而搜索引擎中的数据库因为因特网的发展变化也必然包含了死链接。 这篇文章中,我们介绍了google,它是一个大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中应用广泛。Google的设计能够高效地抓网页并建立索引,它的查询结果比其它现有系统都高明。这个原型的全文和超连接的数据库至少包含24‘000‘000个网页。我们可以从http://google.stanford.edu/ 下载。 设计搜索引擎是一项富有挑战性的工作。搜索引擎为上亿个网页建立索引,其中包含大量迥然不同的词汇。而且每天要回答成千上万个查询。在网络中,尽管大型搜索引擎非常重要,但是学术界却很少研究它。此外由于技术的快速发展和网页的大量增加,现在建立一个搜索引擎和三年前完全不同。 本文详细介绍了我们的大型搜索引擎,据我们所知,在公开发表的论文中,这是第一篇描述地如此详细。除了把传统数据搜索技术应用到如此大量级网页中所遇到的问题,还有许多新的技术挑战,包括应用超文本中的附加信息改进搜索结果。 本文将解决这个问题,描述如何运用超文本中的附加信息,建立一个大型实用系统。任何人都可以在网上随意发布信息,如何有效地处理这些无组织的超文本集合,也是本文要关注的问题。 关键词 World Wide Web,搜索引擎,信息检索,PageRank, Google 1 绪论 Web 给信息检索带来了新的挑战。Web上的信息量快速增长,同时不断有毫无经验的新用户来体验Web这门艺术。人们喜欢用超级链接来网上冲浪,通常都以象Yahoo这样重要的网页或搜索引擎开始。大家认为List(目录)有效地包含了大家感兴趣的主题,但是它具有主观性,建立和维护的代价高,升级慢,不能包括所有深奥的主题。基于关键词的自动搜索引擎通常返回太多的低质量的匹配。使问题更遭的是,一些广告为了赢得人们的关注想方设法误导自动搜索引擎。 我们建立了一个大型搜索引擎解决了现有系统中的很多问题。应用超文本结构,大大提高了查询质量。我们的系统命名为google,取名自googol的通俗拼法,即10的100次方,这和我们的目标建立一个大型搜索引擎不谋而合。 1.1网络搜索引擎—升级换代(scaling up):1994-2000 搜索引擎技术不得不快速升级(scale dramatically)跟上成倍增长的web数量。1994年,第一个Web搜索引擎,World Wide Web Worm(WWWW)可以检索到110,000个网页和Web的文件。到1994年11月,顶级的搜索引擎声称可以检索到2‘000’000(WebCrawler)至100‘000’000个网络文件(来自 Search Engine Watch)。可以预见到2000年,可检索到的网页将超过1‘000’000‘000。同时,搜索引擎的访问量也会以惊人的速度增长。在1997年的三四月份,World Wide Web Worm 平均每天收到1500个查询。 在1997年11月,Altavista 声称它每天要处理大约20’000’000个查询。随着网络用户的增长,到2000年,自动搜索引擎每天将处理上亿个查询。我们系统的设计目标要解决许多问题,包括质量和可升级性,引入升级搜索引擎技术(scaling search engine technology),把它升级到如此大量的数据上。 1.2 Google:跟上Web的步伐(Scaling with the Web)建立一个能够和当今web规模相适应的搜索引擎会面临许多挑战。抓网页技术必须足够快,才能跟上网页变化的速度(keep them up to date)。存储索引和文档的空间必须足够大。索引系统必须能够有效地处理上千亿的数据。处理查询必须快,达到每秒能处理成百上千个查询(hundreds to thousands per second.)。随着Web的不断增长,这些任务变得越来越艰巨。然而硬件的执行效率和成本也在快速增长,可以部分抵消这些困难。 还有几个值得注意的因素,如磁盘的寻道时间(disk seek time),操作系统的效率(operating system robustness)。在设计Google的过程中,我们既考虑了Web的增长速度,又考虑了技术的更新。Google的设计能够很好的升级处理海量数据集。它能够有效地利用存储空间来存储索引。优化的数据结构能够快速有效地存取(参考4.2节)。进一步,我们希望,相对于所抓取的文本文件和HTML网页的数量而言,存储和建立索引的代价尽可能的小(参考附录B)。对于象Google这样的集中式系统,采取这些措施得到了令人满意的系统可升级性(scaling properties)。 1. 3设计目标 1.3.1提高搜索质量我们的主要目标是提高Web搜索引擎的质量。1994年,有人认为建立全搜索索引(a complete search index)可以使查找任何数据都变得容易。根据Best of the Web 1994 -- Navigators ,“最好的导航服务可以使在Web上搜索任何信息都很容易(当时所有的数据都可以被登录)”。然而1997年的Web就迥然不同。近来搜索引擎的用户已经证实索引的完整性不是评价搜索质量的唯一标准。用户感兴趣的搜索结果往往湮没在“垃圾结果Junk result”中。实际上,到1997年11月为止,四大商业搜索引擎中只 有一个能够找到它自己(搜索自己名字时返回的前十个结果中有它自己)。导致这一问题的主要原因是文档的索引数目增加了好几个数量级,但是用户能够看的文档数却没有增加。用户仍然只希望看前面几十个搜索结果。因此,当集合增大时,我们就需要工具使结果精确(在返回的前几十个结果中,有关文档的数量)。由于是从成千上万个有点相关的文档中选出几十个,实际上,相关的概念就是指最好的文档。高精确非常重要,甚至以响应(系统能够返回的有关文档的总数)为代价。令人高兴的是利用超文本链接提供的信息有助于改进搜索和其它应用 。尤其是链接结构和链接文本,为相关性的判断和高质量的过滤提供了大量的信息。Google既利用了链接结构又用到了anchor文本(见2.1和2.2节)。 1.3.2搜索引擎的学术研究随着时间的流逝,除了发展迅速,Web越来越商业化。1993年,只有1.5%的Web服务是来自.com域名。到1997年,超过了60%。同时,搜索引擎从学术领域走进商业。到现在大多数搜索引擎被公司所有,很少技公开术细节。这就导致搜索引擎技术很大程度上仍然是暗箱操作,并倾向做广告(见附录A)。Google的主要目标是推动学术领域在此方面的发展,和对它的了解。另一个设计目标是给大家一个实用的系统。应用对我们来说非常重要,因为现代网络系统中存在大量的有用数据(us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems)。例如,每天有几千万个研究。然而,得到这些数据却非常困难,主要因为它们没有商业价值。我们最后的设计目标是建立一个体系结构能够支持新的关于海量Web数据的研究。为了支持新研究,Google以压缩的形式保存了实际所抓到的文档。设计google的目标之一就是要建立一个环境使其他研究者能够很快进入这个领域,处理海量Web数据,得到满意的结果,而通过其它方法却很难得到结果。系统在短时间内被建立起来,已经有几篇论文用到了Google建的数据库,更多的在起步中。我们的另一个目标是建立一个宇宙空间实验室似的环境,在这里研究者甚至学生都可以对我们的海量Web数据设计或做一些实验。 2. 系统特点 Google搜索引擎有两个重要特点,有助于得到高精度的搜索结果。 第一点,应用Web的链接结构计算每个网页的Rank值,称为PageRank,将在98页详细描述它。 第二点,Google利用超链接改进搜索结果。 2.1 PageRank:给网页排序 Web的引用(链接)图是重要的资源,却被当今的搜索引擎很大程度上忽视了。我们建立了一个包含518‘000’000个超链接的图,它是一个具有重要意义的样本。这些图能够快速地计算网页的PageRank值,它是一个客观的标准,较好的符合人们心目中对一个网页重要程度的评价,建立的基础是通过引用判断重要性。因此在web中,PageRank能够优化关键词查询的结果。对于大多数的主题,在网页标题查询中用PageRank优化简单文本匹配,我们得到了令人惊叹的结果(从google.stanford.edu可以得到演示)。对于Google主系统中的全文搜索,PageRank也帮了不少忙。 2.1.1计算PageRank 文献检索中的引用理论用到Web中,引用网页的链接数,一定程度上反映了该网页的重要性和质量。PageRank发展了这种思想,网页间的链接是不平等的。 PageRank定义如下: 我们假设T1…Tn指向网页A(例如,被引用)。参数d是制动因子,使结果在0,1之间。通常d等于0.85。在下一节将详细介绍d。C(A)定义为网页A指向其它网页的链接数,网页A的PageRank值由下式给出: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 注意PageRank的形式,分布到各个网页中,因此所有网页的PageRank和是1。 PageRank或PR(A)可以用简单的迭代算法计算,相应规格化Web链接矩阵的主特征向量。中等规模的网站计算26‘000’000网页的PageRank值要花费几小时。还有一些技术细节超出了本文论述的范围。 2.1.2直觉判断 PageRank被看作用户行为的模型。我们假设网上冲浪是随机的,不断点击链接,从不返回,最终烦了,另外随机选一个网页重新开始冲浪。随机访问一个网页的可能性就是它的PageRank值。制动因子d是随机访问一个网页烦了的可能性,随机另选一个网页。对单个网页或一组网页,一个重要的变量加入到制动因子d中。这允许个人可以故意地误导系统,以得到较高的PageRank值。我们还有其它的PageRank算法,见98页。 另外的直觉判断是一个网页有很多网页指向它,或者一些PageRank值高的网页指向它,则这个网页很重要。直觉地,在Web中,一个网页被很多网页引用,那么这个网页值得一看。一个网页被象Yahoo这样重要的主页引用即使一次,也值得一看。如果一个网页的质量不高,或者是死链接,象Yahoo这样的主页不会链向它。PageRank处理了这两方面因素,并通过网络链接递归地传递。 & nbsp; 2.2链接描述文字(Anchor Text)我们的搜索引擎对链接文本进行了特殊的处理。大多数搜索引擎把链接文字和它所链向的网页(the page that the link is on)联系起来。另外,把它和链接所指向的网页联系起来。这有几点好处。 第一,通常链接描述文字比网页本身更精确地描述该网页。 第二,链接描述文字可能链向的文档不能被文本搜索引擎检索到,例如图像,程序和数据库。有可能使返回的网页不能被抓到。注意哪些抓不到的网页将会带来一些问题。在返回给用户前检测不了它们的有效性。这种情况搜索引擎可能返回一个根本不存在的网页,但是有超级链接指向它。然而这种结果可以被挑出来的,所以此类的问题很少发生。链接描述文字是对被链向网页的宣传,这个思想被用在World Wide Web Worm 中,主要因为它有助于搜索非文本信息,能够用少量的已下载文档扩大搜索范围。我们大量应用链接描述文字,因为它有助于提高搜索结果的质量。有效地利用链接描述文字技术上存在一些困难,因为必须处理大量的数据。现在我们能抓到24‘000’000个网页,已经检索到259‘000’000多个链接描述文字。 2.3其它特点除了PageRank和应用链接描述文字外,Google还有一些其它特点。 第一,所有hit都有位置信息,所以它可以在搜索中广泛应用邻近性(proximity)。 第二,Google跟踪一些可视化外表细节,例如字号。黑体大号字比其它文字更重要。 第三,知识库存储了原始的全文html网页。 3有关工作 Web检索研究的历史简短。World Wide Web Worm()是最早的搜索引擎之一。后来出现了一些用于学术研究的搜索引擎,现在它们中的大多数被上市公司拥有。与Web的增长和搜索引擎的重要性相比,有关当今搜索引擎技术的优秀论文相当少。根据Michael Mauldin(Lycos Inc的首席科学家)) ,“各种各样的服务(包括Lycos)非常关注这些数据库的细节。”虽然在搜索引擎的某些特点上做了大量工作。具有代表性的工作有,对现有商业搜索引擎的结果进行传递,或建立小型的个性化的搜索引擎。最后有关信息检索系统的研究很多,尤其在有组织机构集合(well controlled collections)方面。在下面两节,我们将讨论在信息检索系统中的哪些领域需要改进以便更好的工作在Web上。 3.1信息检索信息检索系统诞生在几年前,并发展迅速。然而大多数信息检索系统研究的对象是小规模的单一的有组织结构的集合,例如科学论文集,或相关主题的新闻故事。实际上,信息检索的主要基准,the Text Retrieval Conference(),用小规模的、有组织结构的集合作为它们的基准。 大型文集基准只有20GB,相比之下,我们抓到的24000000个网页占147GB。在TREC上工作良好的系统,在Web上却不一定产生好的结果。例如,标准向量空间模型企图返回和查询请求最相近的文档,把查询请求和文档都看作由出现在它们中的词汇组成的向量。在Web环境下,这种策略常常返回非常短的文档,这些文档往往是查询词再加几个字。例如,查询“Bill Clinton”,返回的网页只包含“Bill Clinton Sucks”,这是我们从一个主要搜索引擎中看到的。网络上有些争议,用户应该更准确地表达他们想查询什么,在他们的查询请求中用更多的词。我们强烈反对这种观点。如果用户提出象“Bill Clinton”这样的查询请求,应该得到理想的查询结果,因为这个主题有许多高质量的信息。象所给的例子,我们认为信息检索标准需要发展,以便有效地处理Web数据。 3.2有组织结构的集合(Well Controlled Collections)与Web的不同点 Web是完全无组织的异构的大量文档的集合。Web中的文档无论内在信息还是隐含信息都存在大量的异构性。例如,文档内部就用了不同的语言(既有人类语言又有程序),词汇([email]地址,链接,邮政编码,电话号码,产品号),类型(文本,HTML,PDF,图像,声音),有些甚至是机器创建的文件(log文件,或数据库的输出)。可以从文档中推断出来,但并不包含在文档中的信息称为隐含信息。隐含信息包括来源的信誉,更新频率,质量,访问量和引用。不但隐含信息的可能来源各种各样,而且被检测的信息也大不相同,相差可达好几个数量级。例如,一个重要主页的使用量,象Yahoo 每天浏览数达到上百万次,于此相比无名的历史文章可能十年才被访问一次。很明显,搜索引擎对这两类信息的处理是不同的。 Web与有组织结构集合之间的另外一个明显区别是,事实上,向Web上传信息没有任何限制。灵活利用这点可以发布任何对搜索引擎影响重大的信息,使路由阻塞,加上为牟利故意操纵搜索引擎,这些已经成为一个严重的问题。这些问题还没有被传统的封闭的信息检索系统所提出来。它关心的是元数据的努力,这在Web搜索引擎中却不适用,因为网页中的任何文本都不会向用户声称企图操纵搜索引擎。甚至有些公司为牟利专门操纵搜索引擎。 4 系统分析(System Anatomy)首先,我们提供高水平的有关体系结构的讨论。然后 ,详细描述重要的数据结构。最后,主要应用:抓网页,索引,搜索将被严格地检查。 Figure 1. High Level Google Architecture 4.1Google体系结构概述这一节,我们将看看整个系统是如何工作的(give a high level),见图1。本节不讨论应用和数据结构,在后几节中讨论。为了效率大部分Google是用c或c++实现的,既可以在Solaris也可以在Linux上运行。 Google系统中,抓网页(下载网页)是由几个分布式crawlers完成的。一个URL服务器负责向crawlers提供URL列表。抓来的网页交给存储服务器storeserver。然后,由存储服务器压缩网页并把它们存到知识库repository中。每个网页都有一个ID,称作docID,当新URL从网页中分析出时,就被分配一个docID。由索引器和排序器负责建立索引index function。索引器从知识库中读取文档,对其解压缩和分析。每个文档被转换成一组词的出现情况,称作命中hits。Hits纪录了词,词在文档中的位置,最接近的字号,大小写。索引器把这些hits分配到一组桶barrel中,产生经过部分排序后的索引。索引器的另一个重要功能是分析网页中所有的链接,将有关的重要信息存在链接描述anchors文件中。该文件包含了足够的信息,可以用来判断每个链接链出链入节点的信息,和链接文本。 URL分解器resolver阅读链接描述anchors文件,并把相对URL转换成绝对URL,再转换成docID。为链接描述文本编制索引,并与它所指向的docID关联起来。同时建立由docID对组成的链接数据库。用于计算所有文档的PageRank值。用docID分类后的barrels,送给排序器sorter,再根据wordID进行分类,建立反向索引inverted index。这个操作要恰到好处,以便几乎不需要暂存空间。排序器还给出docID和偏移量列表,建立反向索引。一个叫DumpLexicon的程序把这个列表和由索引器产生的字典结合在一起,建立一个新的字典,供搜索器使用。这个搜索器就是利用一个Web服务器,使用由DumpLexicon所生成的字典,利用上述反向索引以及页面等级PageRank来回答用户的提问。 4.2主要数据结构经过优化的Google数据结构,能够用较小的代价抓取大量文档,建立索引和查询。虽然近几年CPU和输入输出速率迅速提高。磁盘寻道仍然需要10ms。任何时候Google系统的设计都尽可能地避免磁盘寻道。这对数据结构的设计影响很大。 4.2.1大文件大文件BigFiles是指虚拟文件生成的多文件系统,用长度是64位的整型数据寻址。多文件系统之间的空间分配是自动完成的。BigFiles包也处理已分配和未分配文件描述符。由于操纵系统不能满足我们的需要,BigFiles也支持基本的压缩选项。 4.2.2知识库 Figure 2. Repository Data Structure 知识库包含每个网页的全部HTML。每个网页用zlib(见RFC1950)压缩。压缩技术的选择既要考虑速度又要考虑压缩率。我们选择zlib的速度而不是压缩率很高的bzip。知识库用bzip的压缩率接近4:1。而用zlib的压缩率是3:1。文档一个挨着一个的存储在知识库中,前缀是docID,长度,URL,见图2。访问知识库不需要其它的数据结构。这有助于数据一致性和升级。用其它数据结构重构系统,我们只需要修改知识库和crawler错误列表文件。 4.2.3文件索引文件索引保存了有关文档的一些信息。索引以docID的顺序排列,定宽ISAM(Index sequential access mode)。每条记录包括当前文件状态,一个指向知识库的指针,文件校验和,各种统计表。如果一个文档已经被抓到,指针指向docinfo文件,该文件的宽度可变,包含了URL和标题。否则指针指向包含这个URL的URL列表。这种设计考虑到简洁的数据结构,以及在查询中只需要一个磁盘寻道时间就能够访问一条记录。还有一个文件用于把URL转换成docID。它是URL校验和与相应docID的列表,按校验和排序。要想知道某个URL的docID,需要计算URL的校验和,然后在校验和文件中执行二进制查找,找到它的docID。通过对这个文件进行合并,可以把一批URL转换成对应的docID。URL分析器用这项技术把URL转换成docID。这种成批更新的模式是至关重要的,否则每个链接都需要一次查询,假如用一块磁盘,322‘000’000个链接的数据集合将花费一个多月的时间。 4.2.4词典词典有几种不同的形式。和以前系统的重要不同是,词典对内存的要求可以在合理的价格内。现在实现的系统,一台256M内存的机器就可以把词典装入到内存中。现在的词典包含14000000词汇(虽然一些很少用的词汇没有加入到词典中)。它执行分两部分—词汇表(用null分隔的连续串)和指针的哈希表。不同的函数,词汇表有一些辅助信息,这超出了本文论述的范围。 4.2.5 hit list hit list是一篇文档中所出现的词的列表,包括位置,字号,大小写。Hit list占很大空间,用在正向和反向索引中。因此,它的表示形式越有效越好。我们考虑了几种方案来编码位置,字号,大小写—简单编码(3个整型数),紧凑编码(支持优化分配比特位),哈夫曼编码。Hit的详细信息见图3。我们的紧凑编码每个hit用2字节。有两种类型hit,特殊hit和普通hit。特殊hit包含URL,标题,链接描述文字,meta tag。普通hit包含其它每件事。它包括大小写特征位,字号,12比特用于描述词在文档中的位置(所有超过4095的位置标记为4096)。字号采用相对于文档的其它部分的相对大小表示,占3比特(实际只用7个值,因为111标志是特殊hit)。特殊hit由大小写特征位,字号位为7表示它是特殊hit,用4比特表示特殊hit的类型,8比特表示位置。对于anchor hit八比特位置位分出4比特用来表示在anchor中的位置,4比特用于表明anchor出现的哈希表hash of the docID。短语查询是有限的,对某些词没有足够多的anchor。我们希望更新anchor hit的存储方式,以便解决地址位和docIDhash域位数不足的问题。

    三、除了GOOGLE之外,还有哪个搜索引擎能够搜索外文网站?

    全球十大搜索引擎

    MSN Search Microsoft 的 MSN Search, 由 LookSmart 支持,二级查询结果由 Inktomi 提供。 Overture (严格说是PPC搜索引擎) 将顶部的查询结果提供给 MSN. 为对 MSN 成功优化网站,那么必须仔细考虑 LookSmart 和 Inktomi 的排名要求。在某些情况下, Direct Hit 的查询结果也会体现在该搜索引擎上。

    Yahoo 一致公认的最佳搜索引擎(严格说是份类目录),它的web查询结果来自Google(近期有所变更). 收录在它分类目录中的网站。其查询结果以分类目录的查询结果显示。商业站点收录至分类目录的年费用为299美金,它将用几周到几月的时间才会给您结果,告诉您网站最终是否被收录。

    Google 免费搜索引擎。顶部搜索结果将列入 LookSmart, Yahoo, 及 Open Source Directory.

    Google 非常关注外部链接,如故一个网站有较多质量较好的外部链接,将获得较高的排名。它的 AdWords/AdSelect 也将作为查询结果显示。

    AOL Search 从 Google 搜索数据库中获得查询结果。想在 AOL 中获得好的排名应该关注 Google 的排名规则。

    版权所有 网络营销文摘 powerd by 优网科技 保留所有权利,如您需要转载,请联系本网站,获得同意后再行转载.

    Lycos 该分类目录搜索引擎查询结果来自 Fast/AllTheWeb, Overture 和 Open Source Directory.

    Ask Jeeves 拥有人工编辑分类目录和来自 Teoma 的搜索引擎爬行结果。Overture 作为赞助商,查询结果也将出现在该搜索引擎的结果中。

    LookSmart - Zeal 人工编辑搜索引擎分类目录,支持 MSN 及 Excite等较多的合作伙伴。

    当 LookSmart 搜索无果时,由 Inktomi 提供搜索结果。

    Overture 前身 GoTo.com, 严格来说是PPC搜索引擎。它的搜索结果将列入 Yahoo, MSN, Altavista 等搜索引擎。

    Netscape Search 现在 NetScape 的查询结果来自于 Google.

    AltaVista 对老的搜索引擎之一,至今任然在搜索引擎中占有重要地位。他有免费网站登陆及收费网站登陆两种。

    Open Directory 该开放目录是志愿编辑人员预审的搜索引擎目录, 它的查询结果和 NetScape, AOL, Google, Lycos等共享

    四、现在有那些搜索引擎网站啊?就想是百度一样的搜索网站,有那些都给我介绍!!拜托各位大神

    全世界有成千上万个被称为 “ 搜索引擎 ” 的网站。实际上,这些网站中真正适合海外推广的搜索引擎不过 10 个。其中最著名的是 Google, Yahoo, Alltheweb, AltaVista 和 Inktomi 等。其他网站的搜索结果都来自于这些搜索引擎,或者他们之间的搜索结果交叉使用。为了让您更好地进行网站推广,我们以下将对其作逐一介绍。 Google 全球最大的机器搜索引擎, Google 每天提供 2 亿次查询服务,占全球搜索引擎查询市场份额的 29.2 %,无可争议的世界第一; Google 通过对 80 多亿网页进行整理,为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒。 Yahoo !是全球认知度最高及最有价值的互联网品牌之一,也是最大的门户网站。有英、中 、日、韩、法、德等 10 余种语言版本。在全球消费者品牌排名中居第 38 位 , 是全球最大的搜索引擎和门户网站。拥有 2.94 亿有效注册用户,每天 12 亿访问人次,覆盖全球网民的 61% ;全球有 1840 万业务采购决策者访问 Yahoo! MSN 属于微软公司, 美国对互联网浏览量进行统计的康姆斯科公司公布统计数据称:微软 MSN 网站已接近雅虎,成为继美国在线之后,网民浏览人数排名第二的美国门户网站。 AOL 即美国在线,是美国也是世界上最早的门户网站之一, 80% 是美国本土用户,其搜索结果全部来自于 Google 。也就是说,有良好的 Google 排名也有良好的 AOL 排名。 Lycos 是全世界最早的搜索引擎之一。根据媒体调查统计, Lycos 以月 3700 万次的独立访问排名第 5 大用户最常访问的网站。目前, Lycos 主要搜索结果来自于 Alltheweb 。 Ask 规模不大,但很有特色的搜索搜索。 Ask 是 DirectHit 的母公司,于 2001 年收购 Teoma 搜索引擎,并全部采用 Teoma 搜索结果。 Overture 是最早的付费搜索引擎(竞价排名搜索引擎)。搜索结果被 Yahoo, MSN 等采用。 Overture 收购了 Google 的对手 Inktomi 后被 Yahoo 收购,它开通了含约 32 亿文档的 “ 全球最大 ”( Overture )的搜索索引服务,也是业界提供关键词标准流量的公司。 Netscape 由著名的浏览器公司网景公司开发的搜索引擎, Netscape 的搜索结果全部来自于 Google 。另外,全世界最大的开放式目录 DMOZ 录属于网景公司。 AltaVista 全世界最古老的搜索引擎之一,也是功能最完善,搜索精度较高的全文搜索引擎之一。截止 2002 年 6 月, AltaVista 宣称其数据库已存有 11 亿个 Web 文件,并且经过升级,其搜索精度已达业界领先水平。该搜索引擎已于 2003 年被 Yahoo 收购。 Inktomi 只对搜索引擎提供搜索结果。 2003 年被 Overture 收购。在 2004 年 Yahoo 开发自己全新的搜索引擎技术之前, Inktomi 还是全球第二大搜索引擎,其搜索结果被 Hotbot, MSN 等著名的网站采用。 HotBot 是比较活跃的搜索引擎,数据更新速度比其他引擎都快。网页库容量为 1.1 亿,以独特的搜索界面著称。该引擎已被 Lycos 收购,成为 Terra Lycos Network 的一部分。 AllTheWeb 是目前成长最快的搜索引擎,支持 225 种文件格式搜索,其数据库已存有 49 种语言的 21 亿个 Web 文件,而且以其更新速度快,搜索精度高而受到广泛关注,被认为是 Google 强有力的竞争对手。 LookSmart 与 Yahoo 、 Open Directory Project ( Dmoz )等齐名的分类目录搜索引擎,,向包括 MSN 、 AltaVista 、 Excite 提供目录搜索。在全球拥有相当规模的商业客户资源,并通过与 MSN 、 AltaVista 、 Infospace 等重量级门户合作,共享资源,使得 LookSmart 成为国内出口企业进行境外搜索引擎注册推广的一条重要渠道。 Infospace 是著名的元搜索引擎。元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。 Infoseek 是全球著名的搜索引擎之一,提供全文检索功能,并有较细致的分类目录。网页收录极其丰富,以西文为主。 CNN 美国有线新闻网( CNN )是美国时代华纳旗下的新闻媒体网站。于 2001 年随时代华纳集团并入了美国在线。 CNN 覆盖了六大洲,成为了历史上第一个名副其实的全球电视网。参考资料: http://zhidao.baidu.com/question/15786066.html?si=1

    以上就是关于能打开各种网站的搜索引擎相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。


    推荐阅读:

    三句话留住顾客(最能打动顾客的十句话)

    推销产品的万能句子(推销产品怎样才能打动客户)

    销售话术与技巧经典语录(最能打动顾客的十句话)

    最好看的字体手写(最好看的字体手写图片)

    郁金香是哪个国家的标志(郁金香是哪个国家的国旗)