HOME 首页
SERVICE 服务产品
XINMEITI 新媒体代运营
CASE 服务案例
NEWS 热点资讯
ABOUT 关于我们
CONTACT 联系我们
创意岭
让品牌有温度、有情感
专注品牌策划15年

    请简述搜索引擎的发展趋势(请简述搜索引擎的发展趋势是什么)

    发布时间:2023-04-15 15:36:38     稿源: 创意岭    阅读: 137        

    大家好!今天让创意岭的小编来大家介绍下关于请简述搜索引擎的发展趋势的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。

    开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

    只需要输入关键词,就能返回你想要的内容,越精准,写出的就越详细,有微信小程序端、在线网页版、PC客户端

    官网:https://ai.de1919.com

    创意岭作为行业内优秀的企业,服务客户遍布全球各地,如需了解相关业务请拨打电话175-8598-2043,或添加微信:1454722008

    本文目录:

    请简述搜索引擎的发展趋势(请简述搜索引擎的发展趋势是什么)

    一、搜索引擎的发展史

    搜索引擎的发展史和应用

    1990年以前,没有任何人能搜索互联网.

    1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie.当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源.Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件. 用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件.虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源,建立索引,提供检索服务.所以,Archie被公认为现代搜索引擎的鼻祖.

    Robot(机器人)一词对编程者有特殊的意义.Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序.由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider程序.

    1993年Matthew Gray开发了 World Wide Web Wanderer,这是第一个利用HTML网页之间的链接关系来检测万维网规模的"机器人(Robot)"程序.开始,它仅仅用来统计互联网上的服务器数量,后来也能够捕获网址(URL).

    1994年4月,斯坦福大学(Stanford University)的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo.随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索.因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录.雅虎于2002年12月23日收购inktomi,2003年7月14日收购包括Fast和 Altavista在内的Overture,2003年11月,Yahoo全资收购3721公司.

    1994年初,华盛顿大学(University of Washington )的学生Brian Pinkerton开始了他的小项目WebCrawler.1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容.WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字.

    1994年7月,卡内基·梅隆大学(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos.除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量.

    1994年底,Infoseek正式亮相.其友善的界面,大量的附加功能,使之和Lycos一样成为搜索引擎的重要代表.

    1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Roundup).用户只需提交一次搜索请求,由元搜索引擎负责转换处理,提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果, 集中起来处理后再返回给用户.第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler.

    1995年12月,DEC的正式发布AltaVista.AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如 AND, OR, NOT等).用户可以用AltaVista搜索新闻组(Newsgroups)的内容并从互联网上获得文章,还可以搜索图片名称中的文字,搜索 Titles,搜索Java applets,搜索ActiveX objects.AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线.AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站.在面向用户的界面上,AltaVista也作了大量革新.它在搜索框区域下放了"tips"以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能.这系列功能,逐渐被其它搜索引擎广泛采用.1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的.

    1995年9月26日,加州伯克利分校助教Eric Brewer,博士生Paul Gauthier创立了Inktomi,1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前.声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容.HotBot也大量运用cookie储存用户的个人搜索喜好设置.

    1997年8月,Northernlight搜索引擎正式现身.它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News,7,100多出版物组成的Special Collection,良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类.

    1998年10月之前,Google只是斯坦福大学(Stanford University)的一个小项目BackRub.1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在Sergey Brin和Scott Hassan,Alan Steremberg的共同参与下,BachRub开始提供Demo.1999年2月,Google完成了从Alpha版到Beta版的蜕变.Google公司则把1998年9月27日认作自己的生日.Google以网页级别(Pagerank)为基础,判断网页的重要性,使得搜索结果的相关性大大增强.Google公司的奇客(Geek)文化氛围,不作恶(Don't be evil)的理念,为Google赢得了极高的口碑和品牌美誉.2006年4月,Google宣布其中文名称"谷歌",这是Google第一个在非英语国家起的名字.

    Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品.1999年5月,发布了自己的搜索引擎 AllTheWebi.Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之.Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索,图像搜索,视频,MP3,和FTP搜索,拥有极其强大的高级搜索功能.(2003年 2月25日,Fast的互联网搜索部门被Overture收购).

    1996年8月,sohu公司成立,制作中文网站分类目录,曾有"出门找地图,上网找搜狐"的美誉.随着互联网网站的急剧增加,这种人工编辑的分类目录已经不适应.sohu于2004年8月独立域名的搜索网站"搜狗",自称"第三代搜索引擎".

    Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室.Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪,奇摩,雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分.2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域.

    2000年1月,两位北大校友,超链分析专利发明人,前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度 (Baidu)公司.2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索.Baidu搜索引擎的其它特色包括:百度快照,网页预览/预览全部网页,相关搜索词,错别字纠正提示,mp3搜索,Flash搜索.2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快.后推出贴吧,知道,地图,国学,百科等一系列产品,深受网民欢迎.2005年8月5日在纳斯达克上市,发行价为USD 27.00,代号为BIDU.开盘价USD 66.00,以USD 122.54收盘,涨幅353.85%,创下了5年以来美国股市上市新股当日涨幅最高纪录.

    2003年12月23日,原慧聪搜索正式独立运做,成立了中国搜索.2004年2月,中国搜索发布桌面搜索引擎网络猪1.0,2006年3月中搜将网络猪更名为IG(Internet Gateway) .

    2005年6月,新浪正式推出自主研发的搜索引擎"爱问".

    搜 索 引 擎 分 类

    搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine),目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine).

    全文搜索引擎

    全文搜索引擎是名副其实的搜索引擎,国外具代表性的有 Google,Fast/AllTheWeb,AltaVista,Inktomi,Teoma,WiseNuti等,国内著名的有百度(Baidu). 它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎.

    从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称"蜘蛛"(Spider)程序或"机器人" (Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎.

    目录索引

    目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已.用户完全可以不用进行关键词(Keywords) 查询,仅靠分类目录也可找到需要的信息.目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎.其他著名的还有Open Directory Project(DMOZ),LookSmart,About等.国内的搜狐,新浪,网易搜索也都属于这一类.

    元搜索引擎

    元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户.著名的元搜索引擎有 InfoSpace,Dogpile,Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎.在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo.

    除上述三大类引擎外,还有集合式搜索引擎,门户搜索引擎,免费链接列表等几种非主流形式:

    由于上述网站都为用户提供搜索查询服务,为方便起见,我们通常将其统称为搜索引擎.

    几种搜索引擎的特点

    百度搜索引擎的特点

    百度搜索引擎使用了高性能的"网络蜘蛛"程序自动的在互联网中搜索信息,可定制,高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息.百度在中国各地和美国均设有服务器,搜索范围涵盖了中国大陆,香港,台湾,澳门,新加坡等华语地区以及北美,欧洲的部分站点.百度搜索引擎拥有目前世界上最大的中文信息库,总量达到6000万页以上,并且还在以每天几十万页的速度快速增长.由于后台应用了高效的信息索引算法,大大提高了检索时的响应速度和承受大访问量时的稳定性,百度搜索引擎对超过6000万网页检索一次的本地平均响应时间小于0.5秒.

    它主要具有以下的特点和功能:

    1)基于字词结合的信息处理方式.

    2)支持主流的中文编码标准.

    3)智能相关度算法.

    4)检索结果能标示丰富的网页属性(如标题,网址,时间,大小,编码,摘要等),并突出用户的查询串,便于用户判断是否阅读原文.

    5)百度搜索支持二次检索(又称渐进检索或逼进检索).

    6)相关检索词智能推荐技术.

    7)运用多线程技术,高效的搜索算法,稳定的UNIX平台,和本地化的服务器,保证了最快的响应速度.

    8)可以提供一周,二周,四周等多种服务方式.可以在7天之内完成网页的更新,是目前更新时间最快,数据量最大的中文搜索引擎.

    9)检索结果输出支持内容类聚,网站类聚,内容类聚+网站类聚等多种方式.

    10)智能性,可扩展的搜索技术保证最快最多的收集互联网信息.

    11)分布式结构,精心设计的优化算法,容错设计保证系统在大访问量下的高可用性,高扩展性,高性能和高稳定性.

    12)高可配置性使得搜索服务能够满足不同用户的需求.

    13)先进的网页动态摘要显示技术.

    14)独有百度快照.

    15)支持多种高级检索语法,使用户查询效率更高,结果更准.

    Google搜索引擎特点

    Google搜索引擎是一个利用蜘蛛程序(Spider)以某种方法自动地在互联网中搜集和发现信息,并由索引器为搜集到的信息建立索引,从而为用户提供面向网页的全文检索服的互联网信息查询系统.

    它主要具有以下的特点和功能:

    1)采用了先进的网页级别(PageRankTM)技术.

    2)在同一个界面下,用户可以定制语言和到何种网站中进行搜索.

    3)具有超链分析的功能.

    4)遵从关键字的相对位置.

    5)提升了中文搜索引擎的相关性,而且更好地实现了检索字串与网页中文字的语义上的匹配.

    搜狐搜索引擎的特点

    搜狐网站的内容丰富多彩,与我们的生活联系十分紧密.搜狐分层目录是专为中国用户设计的高质量的分类目录系统,把超过15万个精选的中文站点链接归为18个大类,如:娱乐,计算机与互联网,工商经济,科学,艺术,文学,生活服务,科学技术,政治法律等等.而有价值的用户往往只关心自己需要的专门信息.所以我们在每个最初目录下,都建立全面丰富的目录树系统,构成了四通八达的信息高速公路,方便迅速地把您带到目的地.分层目录系统不仅使用户找到最需要的专门信息,也使广告客户更便捷地找到特定的用户群,达到最佳的宣传效果.在搜狐分层目录之外,还同时设立了七项搜狐频道:搜狐新闻,财经报道,搜狐体育,网猴, 多媒体,外国资源,搜狐社区.

    它主要具有以下的特点和功能:

    1)最先进的人工分类技术;2)友好的全中文界面;3)符合中文语言文化习惯;4)18个部类,近15万条链接构成的树杈型网页结构;5)最直观,最轻松为网上用户提供所需要的内容.

    北大天网搜索引擎的特点

    北大天网收录 135 万网页和 9 万新闻组文章,更新较快;功能规范;反馈内容完整,包括网页标题,日期,长度和代码;可在反馈结果中进一步检索;支持电子邮件查询.无分类查询.另提供北京大学,中国科院等FTP站点的检索.

    它主要具有以下的特点和功能:

    1)在语种上支持中英文搜索.国内大部分的搜索引擎都只收录中文网站,用来查找国内的英文网站.

    2)在文件格式上即支持www文件传输格式,也支持FTP文件传输格式.天网将FTP文件分成电影,动画片,mp3音乐,程序下载,开发资源共四大类,用户可以象目录导航式搜索引擎那样层层点击下去查找自己需要的FTP文件.

    如何使用搜索引擎

    搜索引擎可以帮助您在Internet上找到特定的信息,但它们同时也会返回大量无关的信息.如果您多使用一些下面介绍的技巧,将发现搜索引擎会花尽可能少的时间找到您需要的确切信息.

    在类别中搜索

    许多搜索引擎(如Yahoo!)都显示类别,如计算机和Internet,商业和经济.如果您单击其中一个类别,然后再使用搜索引擎,您将可以选择搜索整个Internet还是搜索当前类别.显然,在一个特定类别下进行搜索所耗费的时间较少,而且能够避免大量无关的Web站点.

    当然,您或许还想搜索整个Internet,以搜索特定类别之外的信息.

    使用具体的关键字

    如果想要搜索以鸟为主题的Web站点,您可以在搜索引擎中输入关键字"bird".但是,搜索引擎会因此返回大量无关信息,如谈论羽毛球的"小鸟球 (birdie)"或烹饪game birds不同方法的Web站点.为了避免这种问题的出现,请使用更为具体的关键字,如"ornithology"(鸟类学,动物学的一个分支).您所提供的关键字越具体,搜索引擎返回无关Web站点的可能性就越小.

    使用多个关键字

    您还可以通过使用多个关键字来缩小搜索范围.例如,如果想要搜索有关佛罗里达州迈阿密市的信息,则输入两个关键字"Miami"和"Florida".如果只输入其中一个关键字,搜索引擎就会返回诸如Miami Dolphins足球队或Florida Marlins棒球队的无关信息.一般而言,您提供的关键字越多,搜索引擎返回的结果越精确.

    使用布尔运算符

    许多搜索引擎都允许在搜索中使用两个不同的布尔运算符:AND和OR.如果您想搜索所有同时包含单词"hot"和"dog"的Web站点,只需要在搜索引擎中输入如下关键字:

    hot AND dog

    搜索将返回以热狗(hot dog)为主题的Web站点,但还会返回一些奇怪的结果,如谈论如何在一个热天(hot day)让一只狗(dog)凉快下来的Web站点.

    如果想要搜索所有包含单词"hot"或单词"dog"的Web站点,您只需要输入下面的关键字:

    hot OR dog

    搜索会返回与这两个单词有关的Web站点,这些Web站点的主题可能是热狗(hot dog),狗,也可能是不同的空调在热天(hot day)使您凉爽,辣酱(hot chilli sauces)或狗粮等.

    留意搜索引擎返回的结果

    搜索引擎返回的Web站点顺序可能会影响人们的访问,所以,为了增加Web站点的点击率,一些Web站点会付费给搜索引擎,以在相关Web站点列表中显示在靠前的位置.好的搜索引擎会鉴别Web站点的内容,并据此安排它们的顺序,但其他搜索引擎大概不会这么做.

    此外,因为搜索引擎经常对最为常用的关键字进行搜索,所以许多Web站点在自己的网页中隐藏了同一关键字的多个副本.这使得搜索引擎不再去查找Internet,以返回与关键字有关的更多信息.

    正如读报纸,听收音机或看电视新闻一样,请留意您所获得的信息的来源.搜索引擎能够帮您找到信息,但无法验证信息的可靠性.因为任何人都可以在网上发布信息.

    二、网络信息检索的现状与发展

    网络信息检索的现状与发展

    1990年以前,网络信息检索的现状与发展没有任何人能够检索互联网上的信息。应该说,所有的网络信息检索工具都是从1990年的Alan Emtage等人发明的Archie开始的,虽然它当时只可以实现简单意义上的FTP文件检索。随着World Wide Web的出现和发展,基于网页的信息检索工具出现并迅速发展起来。1995年基于网络信息检索工具本身的检索工具元搜索引擎由美国华盛顿大学的Eric Selberg 等发明。伴随着网络技术的发展,网络信息检索工具也取得了十足的发展,那么这些检索工具的现状和发展趋势如何呢?本文将试作以探讨。

    1.基于网页的网络信息检索工具的现状和发展趋势

    1.1现状。网页是因特网的最主要的组成部份,也是人们获取网络信息的最主要的来源,为了方便人们在大量繁杂的网页中找寻自己需要的信息,这类检索工具发展的最快。一般认为,基于网页的信息检索工具主要有网页搜索引擎和网络分类目录两种。网页搜索引擎是通过“网络蜘蛛”等网页自动搜寻软件搜索到网页,然后自动给网页上的某些或全部字符做上索引,形成目标摘要格式文件以及网络可访问的数据库,供人们检索网络信息的检索工具。网络目录则是和搜索引擎完全不同,它不会将整个网络中每个网站的所有页面都放进去,而是由专业人员谨慎地选择网站的首页,将其放入相应的类目中。网络目录的信息量要比搜索引擎少得多,再加上不同的网络目录分类标准有些混乱,不便人们使用,因此虽然它标引质量比较高,利用它的人还是要比利用搜索引擎的人少的多。

    但是由于网络信息的复杂性和网络检索技术的限制,这类检索工具也有着明显的不足。(1)随着网页数量的迅猛增加,人工无法对其进行有效的分类、索引和利用。网络用户面对的是数量巨大的未组织信息,简单的关键词搜索,返回的信息数量之大,让用户无法承受。(2)信息有用性评价困难。一些站点在网页中大量重复某些关键字,使得容易被某些著名的搜索引擎选中,以期借此提高站点的地位,但事实上却可能没有提供任何对用户有价值的信息。(3) 网络信息日新月异的变更,人们总是期望挑出最新的信息。然而网络信息时刻变动,实时搜索几乎不可能,就是刚刚浏览过的网页,也随时都有更新、过期、删除的可能。

    1.2发展趋势。网络信息检索工具的发展主要体现在进一步改进、完善检索工具和检索技术,以提高检索服务质量,改变网络信息检索不尽如意的地方。主要体现在以下几个方面:

    1.21网络检索工具开发提供商之间合作越来越紧密。过去一般网络检索工具提供商只依靠自己建立的数据库来提供检索服务,检索范围有限,而现在某些著名的搜索引擎在购买其他公司的数据库或者技术内核,有的与其他搜索引擎建立伙伴关系,以便用户使用。比如著名雅虎现在采用的是Google的搜索内核,网易也曾经使用Google的搜索内核技术来丰富自己的搜索引擎数据库,硅谷动力、广州视窗、新浪、搜狐、Chinaren、21cn、263、Tom等搜索引擎使用融合了百度的搜索内核技术等等。

    1.22信息检索工具专业化及服务内容深化。一些检索工具已经不再盲目追求加大收录和标引量,而更加注重突出专业特色。在lycos搜索引擎目录中,我们可以看到商业搜索引擎、IT搜索引擎、人才搜索引擎、金融搜索引擎、医学搜索引擎等专业化的网络信息检索纷纷出现,信息检索工具的专业化已经成为一种不可逆转的趋势。信息检索服务商将服务更加深化:Google推出了网页引文查询服务,通过它可以查看自己所要查询的资料被其他网站引用的情况,从而使用户更好的把握网页信息的质量;2003年8月,第三代中文搜索引擎慧聪问世,它则集“广泛的地域搜索”、“强大的行业搜索”、“完美的MP3、Flash搜索”众多搜索功能为一体,还开发了“针对内容的相关性查询”和“符合汉语特性的模糊查询”,可以实现汉语拼音查询和同音词纠错。

    1.23网络信息工具智能化的发展趋势:(1)信息检索工具的智能化首先是网络蜘蛛的智能化。针对网络信息的动态更替性,网络蜘蛛通过启发式学习采取最有效的搜索策略,选择最佳时机获取从Internet上自动收集、整理的信息。网络蜘蛛能在网络的任何地方工作,能尽可能地挖掘和获得信息。网络蜘蛛还要有网页跟踪监测功能,如果网页出现更新、删除等情况要及时在数据库中更新。网络蜘蛛具有跨平台工作和处理多种混合文档结构的能力。(2)其次是检索软件的智能化。现在主要有智能搜索引擎、智能浏览器、智能代理。这些网络检索工具都非常重视开发实现基于自然语言形式的输入,检索者可以将自己的检索提问以及所习惯的短语、词组甚至句子等自然语言的形式输入,智能化的检索软件将能够自动分析,而后形成检索策略进行检索。比如现在的百度搜索可以在你输入关键词以后,不断提供一些相近的关键词供你选择,直至找到你所需要的结果。Google则借助于机器翻译技术,将一种自然语言转变成另外一种自然语言,使用户能够使用母语搜索非母语的网页,并以母语浏览搜索结果。尤里卡、问一问、和国外的ASK Jeeves则通过语义技术和检索技术的结合,可是实现检索工具对搜索词在语义层次上的理解,为用户提供最准确地检索服务。

    2.基于FTP文件的搜索工具。

    2.1现状。如前所述,搜索引擎的雏形以及最早的搜索引擎都是基于FTP文件搜索的。最早的FTP搜索引擎是基于文本显示的Archie。后来由于WEB的出现,FTP搜索引擎发展受到了一定的影响。直到基于WEB的FTP搜索引擎出现,它才越来越多受到人们的欢迎,用户量也在迅速上升,重要性也日渐显现出来。FTP搜索引擎的功能是搜集匿名FTP服务器提供的目录列表并向用户提供文件信息的查询服务。目前,国内做的最好的、规模最大的当属天网FTP文件搜索引擎,现在可以搜索2400万个文件(数据来源于天网主页),2002年时的统计日访问量是40万次,这在世界FTP搜索引擎界也算是一个佼佼者。另外国内还有清华9#搜索引擎、西安交大思源搜索、华南木棉搜索引擎、网络指南针、中科大天狼搜索引擎以及南京理工的“一网打尽”搜索引擎等等,国外的有Philes.com、AlltheWeb.com、Filesearching.com、souborak.com和ftpfind.com等,其中ftpfind.com是目前国外最先进的,支持包括站点快照和文件分类等新兴功能,而且文件数据量非常大。

    近几年来,虽然FTP搜索引擎技术发展的很快,但相对WWW搜索引擎而言,FTP搜索引擎为数不多,技术上也还不十分成熟,还有很多需要改进的地方:(1)FTP搜索引擎的收录数量还比较少,搜索引擎的规模和质量还是要取决于其维护的信息量。据统计,全球匿名FTP服务提供的文件条目已经有数亿条,即便是目前规模最大的Philes.com,据陈华、李晓明2002年7月份统计也只有209,698,206 个文件。(2)检索功能还不完善。检索功能是一个搜索引擎最重要的部分,有很多搜索引擎还不能支持“and”和“or”等简单的布尔检索,使得数据库中的文件不能被检索到。(3)FTP服务器本身特点决定了FTP搜索引擎弱点,即由于FTP服务器有开放时间、有的还限制IP地址、有的限制登陆的用户量、不同的服务器设立的联接端口号并不相同等决定了其搜索到的结果有一部分是不能访问的,大大降低了用户的满意度。

    2.2发展趋势。正如前文所述,FTP文件搜索引擎技术还不是很成熟,但其发展非常迅速,其发展趋势主要表现在以下几个方面:(1)检索功能日益丰富。天网FTP文件搜索引擎现在可以实现以文件大小、文件的上传日期、以及网段(比如说是华北网、华东网等)等多个条件的高级检索来限制检索结果;AlltheWeb.com增加了检索方式(规则表达检索、准确检索、浏览、对大小写敏感与否等等),限制主机(是edu还是gov或者com等),文件类型以及文件大小、日期等功能。(2)检索服务的个性化。现在FTP搜索引擎研究者已经开始注意这一方面,天网ftp搜索引擎已经有了很多可以个性化的选项:可以设置用户不同偏好的排序方式,可以设定国外文件优先还是本国文件优先,对于国外用户是不是应该国外文件优先,是FTP上文件优先还是WWW上的文件优先,是选择中文的还是英文的等等。AlltheWeb.com则是可以完成更丰富的个性化设置,比如说可以选择一个主机提供一个结果、设置语言、搜索的文件大小设置、是否亮度显示搜索关键词、设置使用者语言、以及键盘快捷键等等。

    3.基于网络检索工具的检索技术的现状和发展趋势。

    3.1随着网上信息资源的膨胀发展,一种搜索引擎,无论它多么完善都不可能满足一个人所有的检索需求。如果遇到文献普查、专题查询、新闻调查与溯源、软件及MP3下载地址搜索等情况,人们就更需要使用多种搜索引擎来比较、筛选和相互印证。为解决逐一登陆各搜索引擎,在各搜索引擎中分别多次输入同一检索请求(检索字串)等烦琐操作,基于网络检索工具的检索工具产生了。

    目前这列检索工具只要有两种:集成搜索引擎和元搜索引擎。所谓集成搜索引擎是在一个检索界面上链接若干种独立的搜索引擎,检索时,一次检索输入,可以指定搜索引擎也可以要求多个引擎同时检索,搜索结果由各搜索引擎分别以不同页面提交的网络检索工具,其实是利用网站链接技术形成的搜索引擎集合。集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业(如FLASH、MP3等)搜索引擎集成链接,深受特定用户群欢迎。如国内天网搜霸和百度搜霸,国外比较著名的有“搜索之家”(http://so.web165.com/)、“网际瑞士军刀”(http://free.okey.net/~free/search1.htm)等。另一个是元搜索引擎,用户只需递交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一的格式呈现到用户面前。国外比较著名的元搜索引擎有Vivisimo、EZ2WWW、Kartoo、SurfWax、Fazzle(以上五个为2002年度的最佳元搜索引擎)等。目前国内现在还没有见到真正意义上的元搜索引擎。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。目前元搜索引擎技术主要有并行处理式和串行处理式两大类。并行式元搜索引擎运行时是将查询请求同时发向各个独立搜索引擎,然后将的结果按特定的顺序呈现给用户;串行式元搜索引擎运行时是将查询请求先发向某个独立搜索引擎,待其返回结果后再将请求发往另一个独立搜索引擎。

    从第一个元搜索引擎Metacrawler诞生至今,这一新型的网络检索工具异军突起,发展迅速,目前可用的元搜索引擎已近百种。由于元搜索引擎的功能受着源搜索引擎和元搜索技术的双重制约,元搜索引擎比较理想的并不多见。信息检索专家邢志宇将元搜索引擎存在的问题归纳如下:(1)大多元搜索引擎不支持多语种,尤其是汉语检索;(2)一些元搜索引擎实现检索语法转换的能力有限,不支持指定字段检索,不能充分发挥各个独立搜索引擎的高级检索功能;(3)部分元搜索引擎无源搜索引擎列表,用户不能自主选择和调用源搜索引擎;(4)大部分元搜索引擎仅支持调用AltaVista、Excite、GoTo.com、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人为地限制了搜索资源的利用;(5)在检索结果上,元搜索引擎只能返回十几、数十条“相关度”较高的结果,大量可能有价值的源搜索引擎的检索结果被忽视,影响检索结果的全面性。

    3.2发展趋势。这类检索工具的发展趋势主要表现在下面几个方面:(1)检索结果整理的深化。如Vivisimo、EZ2WWW、MetaCrawler等可以实现搜索结果的自动分类,用户即可以利用传统的方式浏览结果,也可以利用其同屏的分类结果提示找寻自己需要的内容。EZ2WWW高级搜索功能提供1000多种专项资源检索,可进行目录检索。SurfWax有一个其它元搜索引擎没有的独特功能,即点击每条结果左边的“网址揿钮”图标,可浏览该结果包括的任何页面,并显示搜索语句在文件中的位置,也可以把搜索结果和文件存储起来以备后用。天网搜霸已经拥有了独特的链接检测功能,在几秒钟内检查当前页面查询结果是否可以访问,如果为标注绿色,则链接可连通(目前仅检测页面内以http://和ftp://开头的链接)(2)检索界面的个性化趋势。天网搜霸和Google提供了IE浏览器的插件,安装后就会被嵌到IE的工具栏,用户不用登陆天网的主页,就可以实现检索。用户可以将自己喜欢的搜索引擎设置为主要搜索,也可以添加用户自己喜欢的搜索引擎。天网搜霸不久前刚刚推出了可以嵌在Windows系统任务栏上的插件,现在用户连打开IE浏览器都不需要了。Mamma可以选择使用短语检索功能、设定检索时间、设定每页可显示记录数,还提供了专门检索页面文件标题的特殊检索服务,以及通过E-mail传输检索结果的特色功能。MetaCrawler可以实现搜索引擎的选择调用,基于域名、地区或国家的检索结果过滤,最长检索时间设置,每页可显示的和允许每个搜索引擎返回的检索结果数量的设定,设定检索结果排序依据(包括相关度、域名、源搜索引擎)个性化定制保存。(3)智能化。ProFusion可以自动实现符合特殊检索语法要求的转换,如在调用Excite、InfoSeek、WebCrawler时将“NEAR”转换成“AND”,在调用GoTo、Yahoo时将“NOT”删除等;Mamma也支持常用检索语法在不同搜索引擎中的转换;C4可以支持自然语言检索,虽然它没有自己的数据库,却可以提供网上的检索结果。

    三、搜索引擎技术的相关书籍

    中文名: 《搜索引擎技术》 作者: 赵杰 / 赵杰 编 类别: 互联网技术 价格: 25.00元 语种: 中文 出版社: 哈尔滨工程大学出版社 页数: 181页 开本: 16开 出版时间: 2007年11月1日 装帧: 平装 《搜索引擎技术》比较系统地介绍了互联网搜索引擎的工作原理、信息预处理和查询过程及其用到的关键技术。全书共分7章,从基本工作原理概述开始,到一个小型简单专题搜索引擎实现的具体细节,进而详细讨论了歧义字段自动识别技术和命名实体自动识别技术;最后基于Agent与Multi-Agent技术,阐述了基于Agent的个性化信息检索系统的实现过程。《搜索引擎技术》层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。

    《搜索引擎技术》可作为高等院校计算机科学与技术、信息管理与信息系统、电子商务等专业的研究生或高年级本科生的教学参考书和技术资料,对广大从事网络技术、Web站点的管理、数字图书馆、Web挖掘等研究和应用开发的科技人员也有很大的参考价值。 第1章 绪论

    1.1 搜索引擎的概念

    1.2 搜索引擎的分类

    1.3 搜索引擎的发展现状

    1.4 搜索引擎的发展趋势

    第2章 Web搜索引擎的工作原理

    2.1 搜索引擎的基本要求

    2.2 爬虫

    2.3 预处理

    2.4 查询服务

    第3章 数据预处理

    3.1 数据源

    3.2 Web文本信息提取

    3.3 去噪

    3.4 分词

    3.5 特征提取

    3.6 文档表示

    3.7 降维

    第4章 Web信息查询系统

    4.1 查询系统的结构

    4.2 检索的定义

    4.3 查询系统的实现

    第5章 自动分词技术

    5.1 引言

    5.2 中文自动分词方法

    5.3 自动分词词典机制

    5.4 歧义字段自动识别技术

    5.5 命名实体自动识别技术

    第6章 面向专题的信息搜集和处理

    6.1 专题搜索引擎的构建

    6.2 专题搜索引擎的文本自动分类和专题分词技术

    6.3 基于向量空间模型的文本聚类

    第7章 基于Agent的智能搜索引擎技术

    7.1 Agent与Multi-Agent技术

    7.2 Agent技术在信息检索中的应用

    7.3 Agent实现技术

    7.4 Agent与智能信息检索

    7.5 基于Agent的个性化信息检索系统

    请简述搜索引擎的发展趋势(请简述搜索引擎的发展趋势是什么)

    四、搜索引擎的工作原理

    搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

    1、抓取网页。每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

    2、处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

    3、提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

    以上就是关于请简述搜索引擎的发展趋势相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。


    推荐阅读:

    请简述渠道促销的5个原则(请简述渠道促销的5个原则是)

    请简述广告媒体的选择(请简述广告媒体选择的基本原则)

    简述网络营销的优势是什么(请简述网络营销的优势)

    奉化景点排行榜(奉化景点排行榜前十)

    线上活动推广方式(线上活动推广方式有哪些)