HOME 首页
SERVICE 服务产品
XINMEITI 新媒体代运营
CASE 服务案例
NEWS 热点资讯
ABOUT 关于我们
CONTACT 联系我们
创意岭
让品牌有温度、有情感
专注品牌策划15年

    以下哪些是与搜索引擎相关的术语(下面哪个跟搜索引擎相关)

    发布时间:2023-04-07 10:35:14     稿源: 创意岭    阅读: 148        

    大家好!今天让创意岭的小编来大家介绍下关于以下哪些是与搜索引擎相关的术语的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。

    开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

    只需要输入关键词,就能返回你想要的内容,越精准,写出的就越详细,有微信小程序端、在线网页版、PC客户端

    官网:https://ai.de1919.com

    创意岭作为行业内优秀的企业,服务客户遍布全球各地,如需了解相关业务请拨打电话175-8598-2043,或添加微信:1454722008

    本文目录:

    以下哪些是与搜索引擎相关的术语(下面哪个跟搜索引擎相关)

    一、数字化智能营销是什么意思,谁能介绍下

    什么是数字化营销?

    在深入研究数字化营销技巧之前,让我首先为那些不熟悉这个术语的人解释什么是数字营销。

    数字化营销是一个广义的术语,包括您可以用来在互联网上以及在电视、手机和电子广告牌等数字设备上推广产品或服务的所有营销渠道和方法。

    数字化营销技巧

    • SEO(搜索引擎优化)

    • 百度搜索广告

    • 腾讯付费广告

    • 重定向广告计划

    • 社交媒体营销

    • 视频营销

    1. SEO(搜索引擎优化)

    搜索引擎优化是优化您的网站,以吸引来自搜索引擎的访问者的数字营销技术。它是任何数字营销策略的重要组成部分。

    它之所以如此重要是因为它是所有数字营销渠道中最大的网络流量来源。

    百度是国内最大的搜索引擎,也是世界上访问量最大的中文网站。搜索引擎可以让人们很容易地找到几乎任何他们能想到的信息。正因为如此,该网站每天获得数十亿次搜索。

    因此,无论你是销售实体产品、提供服务还是制作内容,这个平台都能帮助你接触到目标受众。

    搜索引擎的工作原理

    所以发动机如何工作以及如何让页面显示在目标受众面前?

    有三个主要组件如何搜索引擎的功能;对结果进行爬网、索引和排名。

    搜索引擎执行三个基本操作:它们对网站进行爬网、索引和排名。

    您可能听说过人们谈论与搜索引擎相关的蜘蛛、蜘蛛机器人或爬虫。这些奇怪的术语只是搜索引擎用来发现新网站和网页的特殊软件的名称。

    爬虫,顾名思义,通过使用超链接从一个网页跳转到另一个网页来抓取网络。一旦他们找到一个新页面,这些勤奋的小机器人就会在数据库中索引它。

    当您在搜索某些内容时,搜索引擎会查询其索引页面数据库,并根据您的查询为您提供最相关的内容。这就是排名的全部意义——按照与查询相关的顺序显示页面。

    影响排名的因素

    搜索引擎希望为用户的问题提供最有用的答案。

    他们确定哪些页面是最适合的算法,有无数的排名因素。

    虽然不是所有的算法细节都是已知的,但有许多排名因素是SEO的重要组成部分。下面是一些最有影响力的SEO排名因素。

    1.“出身”——生产者的权威可信度:

    生产者有专业的认证,发布的内容领域专注,被公众认可并有一定的影响力。

    2.“颜值”——浏览体验的轻松愉悦度:

    页面加载迅速,内容排版精美,图像画质高清。

    3.“内涵”——内容的丰富度和专业度:

    文章主题前后一致,逻辑清晰,可以给用户提供丰富全面的信息,在领域内有一定的专业性。

    4. “口碑”——用户的喜爱度:

    内容被大量的用户喜爱,用户有强烈的分享和互动意愿。

    如果您想了解更多信息,请多花 5 分钟阅读:

    【科普】简述搜索引擎概念及工作原理 – 了解什么是搜索引擎以及它的工作原理?

    【干货必备】百度搜索优质内容指南 – 什么样的内容才算优质?什么样的内容才能更好的满足用户的需求?

    2. 百度搜索广告

    搜索引擎营销(SEM) 是您可以使用的第一个在线营销策略,它有两个主要组成部分。SEO(搜索引擎优化)和 PSA(付费搜索广告)。

    简而言之,搜索引擎优化将帮助您免费从搜索引擎获得更多自然访问,而付费搜索广告可以让您从搜索流量中获得访问,但您必须为此付费。

    您对 SEM 的目标是什么?您使用 SEM 的目标很明确:通过自然搜索或通过有针对性的 PPC 活动从搜索引擎获得更多访问。

    如何:要获得更多来自搜索引擎的访问,您需要确保您的网站针对搜索进行了优化。

    您的页面标题、描述、网页速度、设计和结构、内容新鲜度、图像的ALT 文本等内容都很重要。

    工具:您可以遵循许多 SEO 和 PPC 指南,虽然每条规则本身都很重要,但如果您将多个规则一起应用,将会产生更好的结果。

    提示:您可以通过百度搜索资源平台监控您的页面以提高其排名。

    3. 腾讯付费广告

    腾讯广告也是一种销售渠道,但这并不是他们最擅长的领域。它们更适合品牌知名度、传播形象、赢得社交关注度、建立网络和与您的受众建立联系。

    当您登录微信时,您最关心的不是寻找要购买的东西或搜索信息,而是查看您的朋友在做什么、阅读新闻并与他们互动。

    腾讯广告会在你的时间线中显示广告,这并不意味着它是你想要的,即使有时你可能会觉得它很有趣。

    如果您是初创公司、小企业主、出版商、活动组织者、非营利组织,并希望快速传播信息或建立受众群体,那么腾讯广告就是您需要的。

    腾讯广告的主要优势:

    • 您可以在广告中使用文字、图片和视频等

    • 您可以根据人们的兴趣和人群画像特征来定位他们

    • 您可以重新定位并与从腾讯旗下平台或相似受众访问您的网站的人建立联系。

    • 这是一个很好的营销工具,尤其是在提高意识层方面。

    • 有多种方法可以定义您希望如何为广告计划定价。

    • 您可以通过为您的广告尝试不同的活动和创意来进行 A/B 测试

    4. 重定向广告计划

    重定向广告是一种营销策略,用于寻找与您的业务互动的人并向他们展示数字广告以将他们带回您的网站。

    这些广告会根据您网站上的过去行为(例如他们查看的页面)向不同部分的受众展示。

    要跟踪您网站上的用户行为,重定向依赖于跟踪像素。这些小段代码被添加到您网站的后端。它们使其能够在访问者的浏览器上放置 cookie。

    每个访问者都会获得一个匿名 ID(访客标识码),广告网络使用该 ID 来跟踪他们的行为。借助 Cookie,广告服务器能够访问访问者的 ID 并将其自动添加到您的再营销列表中。

    重定向过去仅限于现场行为。但是现在,您可以在社交媒体上使用重定向广告计划将广告展示在与您的业务有过互动的人的面前。

    如果有人查看页面或喜欢您的文章,您可以快速将他们添加到重定向广告系列中,看看您是否可以鼓励他们进一步参与。

    重定向广告通常使用每次点击费用 (CPC) 支付模式。不过,有些人也使用每次展示成本 (CPM) 和每次获取成本的出价策略。

    5.社交媒体营销

    社交媒体营销自然是您企业的下一个营销策略。您已经拥有了优质的内容(来自以前的策略),所以现在是时候传播信息了,最好的方法是通过社交媒体营销策略。

    您对社交媒体营销的目标是什么?  您的社交媒体活动应该有两个目的。

    第一个是获得尽可能多的目标关注者,以便您的内容和品牌获得尽可能多的关注,第二个是获得社交网络的访问,最终转化为客户。

    如何:您需要通过定期分享有用的相关内容并与对您的网站、产品或品牌感兴趣的人互动,在所有主要社交网络(微信公众号、微博、知乎等)中建立良好的形象。

    社交媒体流量确实可以进行转化(尽管在几年前,很多人认为来自社交媒体的访问者很难成为客户)

    6.视频营销

    视频营销是使用视频内容来推广产品或服务、提高对品牌的认识、产生参与度并最终增加销售额。现在,您将创建什么类型的视频内容完全取决于您的具体目标、您的品牌价值以及您想要向其展示这些视频的一般观众。因此,在开始制作视频之前确定这三个因素非常重要。

    至于最适合上传和与分享视频的平台,您可以上传视频的地方有很多很多(您可以根据实际情况决定)。

    Questmobile 统计,抖音、快手、B 站等中短视频平台崛起过程中用户增量超 25%,高于传统视频行业的 17%;另据《2021中国网络视听发展研究报告》显示,截至 2020 年 12 月,中国网络视听用户规模 9.44 亿,其中短视频覆盖用户 8.73 亿,超出综合视频(涵盖长视频)用户规模1.69亿。

    《2021中国网络视听发展研究报告》显示,综合视频平台中爱奇艺、腾讯视频、优酷、芒果TV、哔哩哔哩五大平台占据 88.3%的市场份额。

    视频营销类型

    您可以使用多种不同类型的视频来实现您的特定营销目标。我们将列出其中的一部分:

    • 产品/服务视频——如果您有要销售的产品并希望与潜在客户分享它的实际工作原理,这些类型的视频非常棒。这也是一个很好的机会,可以进行详细的产品评论并讨论每种产品的多个特性。讲解好处可以帮助用户确定相关产品是否真的对他们有用,这意味着这些类型的视频具有巨大的销售增长潜力。

    • 教育(教程、操作方法)视频——操作方法视频的起点通常与产品视频非常相似,但它们比这更进一步。也就是说,这些类型的视频通过让观众学习实用的、通常是针对特定领域的技能,更重要的是,帮助他们解决问题,从而为观众提供了价值。它们可用于教观众如何详细使用特定产品(或服务),甚至可以专注于某一个目标市场。例如,您的教育视频可以解释如何使用技巧学习英语,或者它可以是关于更广泛类型的主题,例如“提升英语口语发音的10个策略”。

    • 推荐– 从本质上讲,这些类型的视频是将您的产品推广工作提升到一个全新水平的好方法。正如他们的名字所暗示的那样,这些视频关注的是一个真实的事件、真实的客户,他们尝试过使用你的产品,并对它有自己的积极印象。

    • 品牌/幕后视频——这些视频非常适合让您的观众更好地与您的品牌建立联系。他们通常专注于幕后的真实人物及其动态,从而以某种方式“人性化”您的品牌并使其更接近潜在客户。这些可以是员工分享工作经验的简单视频,可以是对其中一个会议的回顾,甚至可以是公司团建、聚会等。只要它能让观众看到品牌背后的面孔并成功地为您的业务带来积极的影响,那么您在制作这些类型的视频时的选择是无限的。

    当然,您可以制作许多其他类型的视频内容来成功营销您的品牌,例如访谈、网络研讨会和直播视频等。但是这一次,我们决定只列出几个示例,让您简要了解您的选择。

    创作可转化的视频内容的最佳技巧

    现在我们已经确定了什么是视频营销并讨论了几种不同的营销视频类型,是时候看看一些有用的视频创作技巧了。以下是最佳策略,可让您创作吸引人的视频内容,以提高转化率并提升您的整体营销策略:

    • 让事情变得有趣——从头到尾

    • 保持简短——在 10 秒内介绍你的观点

    • 添加一些动画素材

    • 优化您的音频

    • 添加号召性用语 (CTA)

    • 介绍一个令人难忘的角色

    总结

    如果您看到这里那么您已经了解了本指南所有关于数字营销的技术教程。

    通过利用这些技巧来进行数字营销活动,您的公司最终将建立更高的品牌知名度,品牌忠诚度,并为您的产品和服务带来更多转化。

    二、这些运营专业术语,你知道多少?(一)

    1. KPI

    全称:Key Performance Indicator 关键绩效指标

    KPI考核就是通过一系列客观的制度和程序考察员工对公司价值的真正有效的贡献。

    它的优势在于可以将员工的精3力从无关紧要的琐事中解脱出来,从而更加关注公司整体业绩指标、部门重要工作领域及个人关键工作任务。同时还可以减少主观考核带来的不公。

    对于运营工作来说,KPI就显得非常重要了,因为运营是一项以结果为导向的工作。比如,用户运营,最终目的是为了促活转化从而增加产品价值。那么从拉新到留存到转化,每一级的转化率是多少,最终到底从所获取的流量中实现多少付费转化,此时为了实现预期目标,就需要KPI来进行衡量。

    但是KPI也要合理制定,避免出现员工只关注眼前工作或者为了达到指标不择手段的现象,千万不要适得其反哦。

    2. KOL

    全称:Key Opinion Leader 关键意见领袖

    通常被定义为:拥有更多、更准确的产品信息,且为相关群体所接受或信任,并对该群体的购买行为有较大影响力的人。比如某些网络红人,大V等,在某个特定的圈层和领域很有影响力和号召力。

    KOL营销,就是通过那些在特定领域拥有影响力的人物,让自己的品牌和产品和受众建立联系,并且保持互动。如果运作良好,可以给推广计划带来可信度,增强品牌属性,获得潜在客户。不过,如果运转的不好,就会引起用户反感,可能会造成用户的流失。

    3. DAU

    全称:Daily Activ User 日活跃用户量

    DAU通常统计一日之内,登录或使用了某个产品的用户数(去除重复登录的用户)。常用于反映网站、互联网应用或网络游戏的运营情况。可以显示出短期内网站的用户活跃程度。

    比如今天登录该网站的账号有500个,不管有的账号是不是重复登陆,它今天的DAU就是500.

    如果拿一段时间的DAU来看,那么我们就可以看出一个趋势,活跃用户是有增加还是减少的趋势,老用户多还是新用户多。

    4. MAU

    全称:Monthly Active User 月活跃用户量

    这个反应30天内登录的用户数,也就是说30天的DAU加起来就是MAU(去除重复登录账号)。它展示了活跃用户的长期趋势。

    一般在游戏领域,如果DAU/MAU这个比值低于0.2,就说明没什么老用户登录,每天新玩家比较多,从而反应用户黏度低,对于一个互联网产品来说可不是个好现象。

    5. PV

    全称:Page View 页面浏览量

    这个反应这个网站页面的总浏览量是多少,也就是说同一个网站里面用户点击了多少次页面。比如说,你打开一个网站,刷新同一个页面3次,那么你制造出来的PV就是3。

    所以我们可以看出,PV一定程度上并不能反应真实有效的用户流量,因为如果一个用户反复刷新页面,他一个人也可以制造出很高的PV值。

    6.VV

    全称:Visit View  访问网站的次数

    这个不同于PV,它计算的用户访问该网站的次数,而不是点击打开一个页面的次数。简单的说,当你浏览了这个网站的5个页面,然后关掉了这个网站,那么你制造的VV就等于1,而PV为5.

    7. UV

    全称:Unique Visitor 独立访客数

    为什么叫“独立”访客数呢?就是因为这个只计算浏览账号的个数,不管你打开这个网站几次,浏览了多少个页面,你的UV就是1。所以相比于PV,VV,该指标可以更真实的反应用户数量。

    8. SEO

    全称:Search Engine Optimization 搜索引擎优化

    在了解搜索引擎自然排名机制的基础上,对网站进行内部及外部的调整优化,改进网站在搜索引擎中的关键词自然排名,获得更多流量,从而达成网站销售及品牌建设的预期目标。

    9. SEM

    全称:Search Engine Marketing 搜索引擎营销

    简单来说,搜索引擎营销就是基于搜索引擎平台的网络营销,利用人们对搜索引擎的依赖和使用习惯,在人们检索信息的时候将信息传递给目标用户。搜索引擎营销的基本思想是让用户发现信息,并通过点击进入网页,进一步了解所需要的信息。

    它是一种更高层面的系统技术,是一种市场营销行为,这一点我们从它的英文全称中可以看出。它可以包括SEO,付费推广等具体形式。

    10. CPC

    全称:Cost Per Click 每次点击付费广告

    当用户点击某个网站上的CPC广告后,这个站的站长就会获得相应的收入。

    但也有不少经营广告的网站觉得不公平,比如,虽然浏览者没有点击,但是他已经看到了广告,对于这些看到广告却没有点击的流量来说,网站成了白忙活,所以有很多网站并不太乐意做这样的广告。

    11. UGC

    全称:User Generated Content 用户生成内容

    也就是一个网站的内容由用户去自己生产创造,用户之间形成一个社区,去交流讨论,而不是由某一些人去制定内容。

    比如豆瓣,对于书籍电影感兴趣的用户自发的把自己的观点和评价发布上去,其他用户可以进行评论,这就提供了一种以"兴趣爱好"为纽带扩展人际关系的可能。一般来说,这种方式会有利于增加用户的粘性。

    12. UED

    全称:user experience design 用户体验设计

    通常的理解就是我们做的一切都是为了呈现在您眼前的页面。它是以用户为中心的一种设计手段,以用户需求为目标而进行的设计。设计过程注重以用户为中心,用户体验的概念从开发的最早期就开始进入整个流程,并贯穿始终。

    三、常用的搜索引擎有哪些?

    索引擎(search engines)是对互联网上的信息资源进行搜集整理,然后供你查询的系统,它包括信息搜集、信息整理和用户查询三部分。 搜索引擎是一个为你提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。 早期的搜索引擎是把因特网中的资源服务器的地址收集起来,由其提供的资源的类型不同而分成不同的目录,再一层层地进行分类。人们要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息。这其实是最原始的方式,只适用于因特网信息并不多的时候。随着因特网信息按几何式增长,出现了真正意义上的搜索引擎,这些搜索引擎知道网站上每一页的开始,随后搜索因特网上的所有超级链接,把代表超级链接的所有词汇放入一个数据库。这就是现在搜索引擎的原型。 随着yahoo!的出现,搜索引擎的发展也进入了黄金时代,相比以前其性能更加优越。现在的搜索引擎已经不只是单纯的搜索网页的信息了,它们已经变得更加综合化,完美化了。以搜索引擎权威yahoo!为例,从1995年3月由美籍华裔杨致远等人创办yahoo!开始,到现在,他们从一个单一的搜索引擎发展到现在有电子商务、新闻信息服务、个人免费电子信箱服务等多种网络服务,充分说明了搜索引擎的发展从单一到综合的过程。 然而由于搜索引擎的工作方式和因特网的快速发展,使其搜索的结果让人越来越不满意。例如,搜索“电脑”这个词汇,就可能有数百万页的结果。这是由于搜索引擎通过对网站的相关性来优化搜索结果,这种相关性又是由关键字在网站的位置、网站的名称、 标签等公式来决定的。这就是使搜索引擎搜索结果多而杂的原因。而搜索引擎中的数据库因为因特网的发展变化也必然包含了死链接。 这篇文章中,我们介绍了google,它是一个大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中应用广泛。Google的设计能够高效地抓网页并建立索引,它的查询结果比其它现有系统都高明。这个原型的全文和超连接的数据库至少包含24‘000‘000个网页。我们可以从http://google.stanford.edu/ 下载。 设计搜索引擎是一项富有挑战性的工作。搜索引擎为上亿个网页建立索引,其中包含大量迥然不同的词汇。而且每天要回答成千上万个查询。在网络中,尽管大型搜索引擎非常重要,但是学术界却很少研究它。此外由于技术的快速发展和网页的大量增加,现在建立一个搜索引擎和三年前完全不同。 本文详细介绍了我们的大型搜索引擎,据我们所知,在公开发表的论文中,这是第一篇描述地如此详细。除了把传统数据搜索技术应用到如此大量级网页中所遇到的问题,还有许多新的技术挑战,包括应用超文本中的附加信息改进搜索结果。 本文将解决这个问题,描述如何运用超文本中的附加信息,建立一个大型实用系统。任何人都可以在网上随意发布信息,如何有效地处理这些无组织的超文本集合,也是本文要关注的问题。 关键词 World Wide Web,搜索引擎,信息检索,PageRank, Google 1 绪论 Web 给信息检索带来了新的挑战。Web上的信息量快速增长,同时不断有毫无经验的新用户来体验Web这门艺术。人们喜欢用超级链接来网上冲浪,通常都以象Yahoo这样重要的网页或搜索引擎开始。大家认为List(目录)有效地包含了大家感兴趣的主题,但是它具有主观性,建立和维护的代价高,升级慢,不能包括所有深奥的主题。基于关键词的自动搜索引擎通常返回太多的低质量的匹配。使问题更遭的是,一些广告为了赢得人们的关注想方设法误导自动搜索引擎。 我们建立了一个大型搜索引擎解决了现有系统中的很多问题。应用超文本结构,大大提高了查询质量。我们的系统命名为google,取名自googol的通俗拼法,即10的100次方,这和我们的目标建立一个大型搜索引擎不谋而合。 1.1网络搜索引擎—升级换代(scaling up):1994-2000 搜索引擎技术不得不快速升级(scale dramatically)跟上成倍增长的web数量。1994年,第一个Web搜索引擎,World Wide Web Worm(WWWW)可以检索到110,000个网页和Web的文件。到1994年11月,顶级的搜索引擎声称可以检索到2‘000’000(WebCrawler)至100‘000’000个网络文件(来自 Search Engine Watch)。可以预见到2000年,可检索到的网页将超过1‘000’000‘000。同时,搜索引擎的访问量也会以惊人的速度增长。在1997年的三四月份,World Wide Web Worm 平均每天收到1500个查询。 在1997年11月,Altavista 声称它每天要处理大约20’000’000个查询。随着网络用户的增长,到2000年,自动搜索引擎每天将处理上亿个查询。我们系统的设计目标要解决许多问题,包括质量和可升级性,引入升级搜索引擎技术(scaling search engine technology),把它升级到如此大量的数据上。 1.2 Google:跟上Web的步伐(Scaling with the Web)建立一个能够和当今web规模相适应的搜索引擎会面临许多挑战。抓网页技术必须足够快,才能跟上网页变化的速度(keep them up to date)。存储索引和文档的空间必须足够大。索引系统必须能够有效地处理上千亿的数据。处理查询必须快,达到每秒能处理成百上千个查询(hundreds to thousands per second.)。随着Web的不断增长,这些任务变得越来越艰巨。然而硬件的执行效率和成本也在快速增长,可以部分抵消这些困难。 还有几个值得注意的因素,如磁盘的寻道时间(disk seek time),操作系统的效率(operating system robustness)。在设计Google的过程中,我们既考虑了Web的增长速度,又考虑了技术的更新。Google的设计能够很好的升级处理海量数据集。它能够有效地利用存储空间来存储索引。优化的数据结构能够快速有效地存取(参考4.2节)。进一步,我们希望,相对于所抓取的文本文件和HTML网页的数量而言,存储和建立索引的代价尽可能的小(参考附录B)。对于象Google这样的集中式系统,采取这些措施得到了令人满意的系统可升级性(scaling properties)。 1. 3设计目标 1.3.1提高搜索质量我们的主要目标是提高Web搜索引擎的质量。1994年,有人认为建立全搜索索引(a complete search index)可以使查找任何数据都变得容易。根据Best of the Web 1994 -- Navigators ,“最好的导航服务可以使在Web上搜索任何信息都很容易(当时所有的数据都可以被登录)”。然而1997年的Web就迥然不同。近来搜索引擎的用户已经证实索引的完整性不是评价搜索质量的唯一标准。用户感兴趣的搜索结果往往湮没在“垃圾结果Junk result”中。实际上,到1997年11月为止,四大商业搜索引擎中只 有一个能够找到它自己(搜索自己名字时返回的前十个结果中有它自己)。导致这一问题的主要原因是文档的索引数目增加了好几个数量级,但是用户能够看的文档数却没有增加。用户仍然只希望看前面几十个搜索结果。因此,当集合增大时,我们就需要工具使结果精确(在返回的前几十个结果中,有关文档的数量)。由于是从成千上万个有点相关的文档中选出几十个,实际上,相关的概念就是指最好的文档。高精确非常重要,甚至以响应(系统能够返回的有关文档的总数)为代价。令人高兴的是利用超文本链接提供的信息有助于改进搜索和其它应用 。尤其是链接结构和链接文本,为相关性的判断和高质量的过滤提供了大量的信息。Google既利用了链接结构又用到了anchor文本(见2.1和2.2节)。 1.3.2搜索引擎的学术研究随着时间的流逝,除了发展迅速,Web越来越商业化。1993年,只有1.5%的Web服务是来自.com域名。到1997年,超过了60%。同时,搜索引擎从学术领域走进商业。到现在大多数搜索引擎被公司所有,很少技公开术细节。这就导致搜索引擎技术很大程度上仍然是暗箱操作,并倾向做广告(见附录A)。Google的主要目标是推动学术领域在此方面的发展,和对它的了解。另一个设计目标是给大家一个实用的系统。应用对我们来说非常重要,因为现代网络系统中存在大量的有用数据(us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems)。例如,每天有几千万个研究。然而,得到这些数据却非常困难,主要因为它们没有商业价值。我们最后的设计目标是建立一个体系结构能够支持新的关于海量Web数据的研究。为了支持新研究,Google以压缩的形式保存了实际所抓到的文档。设计google的目标之一就是要建立一个环境使其他研究者能够很快进入这个领域,处理海量Web数据,得到满意的结果,而通过其它方法却很难得到结果。系统在短时间内被建立起来,已经有几篇论文用到了Google建的数据库,更多的在起步中。我们的另一个目标是建立一个宇宙空间实验室似的环境,在这里研究者甚至学生都可以对我们的海量Web数据设计或做一些实验。 2. 系统特点 Google搜索引擎有两个重要特点,有助于得到高精度的搜索结果。 第一点,应用Web的链接结构计算每个网页的Rank值,称为PageRank,将在98页详细描述它。 第二点,Google利用超链接改进搜索结果。 2.1 PageRank:给网页排序 Web的引用(链接)图是重要的资源,却被当今的搜索引擎很大程度上忽视了。我们建立了一个包含518‘000’000个超链接的图,它是一个具有重要意义的样本。这些图能够快速地计算网页的PageRank值,它是一个客观的标准,较好的符合人们心目中对一个网页重要程度的评价,建立的基础是通过引用判断重要性。因此在web中,PageRank能够优化关键词查询的结果。对于大多数的主题,在网页标题查询中用PageRank优化简单文本匹配,我们得到了令人惊叹的结果(从google.stanford.edu可以得到演示)。对于Google主系统中的全文搜索,PageRank也帮了不少忙。 2.1.1计算PageRank 文献检索中的引用理论用到Web中,引用网页的链接数,一定程度上反映了该网页的重要性和质量。PageRank发展了这种思想,网页间的链接是不平等的。 PageRank定义如下: 我们假设T1…Tn指向网页A(例如,被引用)。参数d是制动因子,使结果在0,1之间。通常d等于0.85。在下一节将详细介绍d。C(A)定义为网页A指向其它网页的链接数,网页A的PageRank值由下式给出: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 注意PageRank的形式,分布到各个网页中,因此所有网页的PageRank和是1。 PageRank或PR(A)可以用简单的迭代算法计算,相应规格化Web链接矩阵的主特征向量。中等规模的网站计算26‘000’000网页的PageRank值要花费几小时。还有一些技术细节超出了本文论述的范围。 2.1.2直觉判断 PageRank被看作用户行为的模型。我们假设网上冲浪是随机的,不断点击链接,从不返回,最终烦了,另外随机选一个网页重新开始冲浪。随机访问一个网页的可能性就是它的PageRank值。制动因子d是随机访问一个网页烦了的可能性,随机另选一个网页。对单个网页或一组网页,一个重要的变量加入到制动因子d中。这允许个人可以故意地误导系统,以得到较高的PageRank值。我们还有其它的PageRank算法,见98页。 另外的直觉判断是一个网页有很多网页指向它,或者一些PageRank值高的网页指向它,则这个网页很重要。直觉地,在Web中,一个网页被很多网页引用,那么这个网页值得一看。一个网页被象Yahoo这样重要的主页引用即使一次,也值得一看。如果一个网页的质量不高,或者是死链接,象Yahoo这样的主页不会链向它。PageRank处理了这两方面因素,并通过网络链接递归地传递。 & nbsp; 2.2链接描述文字(Anchor Text)我们的搜索引擎对链接文本进行了特殊的处理。大多数搜索引擎把链接文字和它所链向的网页(the page that the link is on)联系起来。另外,把它和链接所指向的网页联系起来。这有几点好处。 第一,通常链接描述文字比网页本身更精确地描述该网页。 第二,链接描述文字可能链向的文档不能被文本搜索引擎检索到,例如图像,程序和数据库。有可能使返回的网页不能被抓到。注意哪些抓不到的网页将会带来一些问题。在返回给用户前检测不了它们的有效性。这种情况搜索引擎可能返回一个根本不存在的网页,但是有超级链接指向它。然而这种结果可以被挑出来的,所以此类的问题很少发生。链接描述文字是对被链向网页的宣传,这个思想被用在World Wide Web Worm 中,主要因为它有助于搜索非文本信息,能够用少量的已下载文档扩大搜索范围。我们大量应用链接描述文字,因为它有助于提高搜索结果的质量。有效地利用链接描述文字技术上存在一些困难,因为必须处理大量的数据。现在我们能抓到24‘000’000个网页,已经检索到259‘000’000多个链接描述文字。 2.3其它特点除了PageRank和应用链接描述文字外,Google还有一些其它特点。 第一,所有hit都有位置信息,所以它可以在搜索中广泛应用邻近性(proximity)。 第二,Google跟踪一些可视化外表细节,例如字号。黑体大号字比其它文字更重要。 第三,知识库存储了原始的全文html网页。 3有关工作 Web检索研究的历史简短。World Wide Web Worm()是最早的搜索引擎之一。后来出现了一些用于学术研究的搜索引擎,现在它们中的大多数被上市公司拥有。与Web的增长和搜索引擎的重要性相比,有关当今搜索引擎技术的优秀论文相当少。根据Michael Mauldin(Lycos Inc的首席科学家)) ,“各种各样的服务(包括Lycos)非常关注这些数据库的细节。”虽然在搜索引擎的某些特点上做了大量工作。具有代表性的工作有,对现有商业搜索引擎的结果进行传递,或建立小型的个性化的搜索引擎。最后有关信息检索系统的研究很多,尤其在有组织机构集合(well controlled collections)方面。在下面两节,我们将讨论在信息检索系统中的哪些领域需要改进以便更好的工作在Web上。 3.1信息检索信息检索系统诞生在几年前,并发展迅速。然而大多数信息检索系统研究的对象是小规模的单一的有组织结构的集合,例如科学论文集,或相关主题的新闻故事。实际上,信息检索的主要基准,the Text Retrieval Conference(),用小规模的、有组织结构的集合作为它们的基准。 大型文集基准只有20GB,相比之下,我们抓到的24000000个网页占147GB。在TREC上工作良好的系统,在Web上却不一定产生好的结果。例如,标准向量空间模型企图返回和查询请求最相近的文档,把查询请求和文档都看作由出现在它们中的词汇组成的向量。在Web环境下,这种策略常常返回非常短的文档,这些文档往往是查询词再加几个字。例如,查询“Bill Clinton”,返回的网页只包含“Bill Clinton Sucks”,这是我们从一个主要搜索引擎中看到的。网络上有些争议,用户应该更准确地表达他们想查询什么,在他们的查询请求中用更多的词。我们强烈反对这种观点。如果用户提出象“Bill Clinton”这样的查询请求,应该得到理想的查询结果,因为这个主题有许多高质量的信息。象所给的例子,我们认为信息检索标准需要发展,以便有效地处理Web数据。 3.2有组织结构的集合(Well Controlled Collections)与Web的不同点 Web是完全无组织的异构的大量文档的集合。Web中的文档无论内在信息还是隐含信息都存在大量的异构性。例如,文档内部就用了不同的语言(既有人类语言又有程序),词汇([email]地址,链接,邮政编码,电话号码,产品号),类型(文本,HTML,PDF,图像,声音),有些甚至是机器创建的文件(log文件,或数据库的输出)。可以从文档中推断出来,但并不包含在文档中的信息称为隐含信息。隐含信息包括来源的信誉,更新频率,质量,访问量和引用。不但隐含信息的可能来源各种各样,而且被检测的信息也大不相同,相差可达好几个数量级。例如,一个重要主页的使用量,象Yahoo 每天浏览数达到上百万次,于此相比无名的历史文章可能十年才被访问一次。很明显,搜索引擎对这两类信息的处理是不同的。 Web与有组织结构集合之间的另外一个明显区别是,事实上,向Web上传信息没有任何限制。灵活利用这点可以发布任何对搜索引擎影响重大的信息,使路由阻塞,加上为牟利故意操纵搜索引擎,这些已经成为一个严重的问题。这些问题还没有被传统的封闭的信息检索系统所提出来。它关心的是元数据的努力,这在Web搜索引擎中却不适用,因为网页中的任何文本都不会向用户声称企图操纵搜索引擎。甚至有些公司为牟利专门操纵搜索引擎。 4 系统分析(System Anatomy)首先,我们提供高水平的有关体系结构的讨论。然后 ,详细描述重要的数据结构。最后,主要应用:抓网页,索引,搜索将被严格地检查。 Figure 1. High Level Google Architecture 4.1Google体系结构概述这一节,我们将看看整个系统是如何工作的(give a high level),见图1。本节不讨论应用和数据结构,在后几节中讨论。为了效率大部分Google是用c或c++实现的,既可以在Solaris也可以在Linux上运行。 Google系统中,抓网页(下载网页)是由几个分布式crawlers完成的。一个URL服务器负责向crawlers提供URL列表。抓来的网页交给存储服务器storeserver。然后,由存储服务器压缩网页并把它们存到知识库repository中。每个网页都有一个ID,称作docID,当新URL从网页中分析出时,就被分配一个docID。由索引器和排序器负责建立索引index function。索引器从知识库中读取文档,对其解压缩和分析。每个文档被转换成一组词的出现情况,称作命中hits。Hits纪录了词,词在文档中的位置,最接近的字号,大小写。索引器把这些hits分配到一组桶barrel中,产生经过部分排序后的索引。索引器的另一个重要功能是分析网页中所有的链接,将有关的重要信息存在链接描述anchors文件中。该文件包含了足够的信息,可以用来判断每个链接链出链入节点的信息,和链接文本。 URL分解器resolver阅读链接描述anchors文件,并把相对URL转换成绝对URL,再转换成docID。为链接描述文本编制索引,并与它所指向的docID关联起来。同时建立由docID对组成的链接数据库。用于计算所有文档的PageRank值。用docID分类后的barrels,送给排序器sorter,再根据wordID进行分类,建立反向索引inverted index。这个操作要恰到好处,以便几乎不需要暂存空间。排序器还给出docID和偏移量列表,建立反向索引。一个叫DumpLexicon的程序把这个列表和由索引器产生的字典结合在一起,建立一个新的字典,供搜索器使用。这个搜索器就是利用一个Web服务器,使用由DumpLexicon所生成的字典,利用上述反向索引以及页面等级PageRank来回答用户的提问。 4.2主要数据结构经过优化的Google数据结构,能够用较小的代价抓取大量文档,建立索引和查询。虽然近几年CPU和输入输出速率迅速提高。磁盘寻道仍然需要10ms。任何时候Google系统的设计都尽可能地避免磁盘寻道。这对数据结构的设计影响很大。 4.2.1大文件大文件BigFiles是指虚拟文件生成的多文件系统,用长度是64位的整型数据寻址。多文件系统之间的空间分配是自动完成的。BigFiles包也处理已分配和未分配文件描述符。由于操纵系统不能满足我们的需要,BigFiles也支持基本的压缩选项。 4.2.2知识库 Figure 2. Repository Data Structure 知识库包含每个网页的全部HTML。每个网页用zlib(见RFC1950)压缩。压缩技术的选择既要考虑速度又要考虑压缩率。我们选择zlib的速度而不是压缩率很高的bzip。知识库用bzip的压缩率接近4:1。而用zlib的压缩率是3:1。文档一个挨着一个的存储在知识库中,前缀是docID,长度,URL,见图2。访问知识库不需要其它的数据结构。这有助于数据一致性和升级。用其它数据结构重构系统,我们只需要修改知识库和crawler错误列表文件。 4.2.3文件索引文件索引保存了有关文档的一些信息。索引以docID的顺序排列,定宽ISAM(Index sequential access mode)。每条记录包括当前文件状态,一个指向知识库的指针,文件校验和,各种统计表。如果一个文档已经被抓到,指针指向docinfo文件,该文件的宽度可变,包含了URL和标题。否则指针指向包含这个URL的URL列表。这种设计考虑到简洁的数据结构,以及在查询中只需要一个磁盘寻道时间就能够访问一条记录。还有一个文件用于把URL转换成docID。它是URL校验和与相应docID的列表,按校验和排序。要想知道某个URL的docID,需要计算URL的校验和,然后在校验和文件中执行二进制查找,找到它的docID。通过对这个文件进行合并,可以把一批URL转换成对应的docID。URL分析器用这项技术把URL转换成docID。这种成批更新的模式是至关重要的,否则每个链接都需要一次查询,假如用一块磁盘,322‘000’000个链接的数据集合将花费一个多月的时间。 4.2.4词典词典有几种不同的形式。和以前系统的重要不同是,词典对内存的要求可以在合理的价格内。现在实现的系统,一台256M内存的机器就可以把词典装入到内存中。现在的词典包含14000000词汇(虽然一些很少用的词汇没有加入到词典中)。它执行分两部分—词汇表(用null分隔的连续串)和指针的哈希表。不同的函数,词汇表有一些辅助信息,这超出了本文论述的范围。 4.2.5 hit list hit list是一篇文档中所出现的词的列表,包括位置,字号,大小写。Hit list占很大空间,用在正向和反向索引中。因此,它的表示形式越有效越好。我们考虑了几种方案来编码位置,字号,大小写—简单编码(3个整型数),紧凑编码(支持优化分配比特位),哈夫曼编码。Hit的详细信息见图3。我们的紧凑编码每个hit用2字节。有两种类型hit,特殊hit和普通hit。特殊hit包含URL,标题,链接描述文字,meta tag。普通hit包含其它每件事。它包括大小写特征位,字号,12比特用于描述词在文档中的位置(所有超过4095的位置标记为4096)。字号采用相对于文档的其它部分的相对大小表示,占3比特(实际只用7个值,因为111标志是特殊hit)。特殊hit由大小写特征位,字号位为7表示它是特殊hit,用4比特表示特殊hit的类型,8比特表示位置。对于anchor hit八比特位置位分出4比特用来表示在anchor中的位置,4比特用于表明anchor出现的哈希表hash of the docID。短语查询是有限的,对某些词没有足够多的anchor。我们希望更新anchor hit的存储方式,以便解决地址位和docIDhash域位数不足的问题。

    四、搜索引擎包含与不包含哪些内容

    搜索引擎的正确使用方法

    网络真可谓是信息的海洋。在因特网上获取信息量的多少,往往取决于查询的方法适当与否。如果想要及时而又准确地找出自己需要的资料,搜索引擎就是一件必不可少的上网利器。

    近几年,因特网在我国的发展可谓一日千里,速度之快、新网民数量之多都处在世界前列。刚刚上网的“菜鸟”,第一件该做的事情,就是学会使用搜索引擎。也许有人要问:搜索很简单嘛,不就是在搜索栏中敲入自己想要找的东东不就得了,有必要学吗?当然。实际上,很多网虫对搜索引擎的使用是相当有限的,甚至是不正确的。而且搜索引擎的升级换代速度很快,不学就会出现用老秤称新货的情况。既然要学,我们就来学个彻底,由浅入深地细细过它一遍。

    搜索引擎的最大用途就是搜索,而说到搜索就不能不提到 keyword (关键字),每一个搜索引擎的制作过程都离不开 keyword ,无论是给一个主类别做分目录,还是管理个人站点,都需要这些关键字,目录下包括的关键字越多、越精确,搜索也就越方便、越准确。这就是有的搜索引擎好用,有的不好用的原因。所以在进行搜索之前,找对、找准 keyword 至关重要。

    使用搜索引擎的分类索引没什么技巧,只要找准类别后,一层一层打开即可。下面重点要说的是现有著名搜索引擎的搜索器的使用方法。希望能免去大家的查找之苦,同时也能为大家省点上网费用。

    雅虎中国

    首先在检索栏内输入你所需要的关键字,按下 Search 键, YAHOO! 就会自动搜寻其中的分类类目、网站、资料库信息及新闻资料库,并依此为你列出所找到的信息。列出资料的排列次序是根据与 keyword 的匹配程度高低为序,而新闻资料的排列还综合了更新时间的因素。除了这种简单的查询方式之外, YAHOO !还支持进阶检索方式,想使用这种检索就要先了解它特定的语法:

    1 .使用双引号查询网站,例如输入了“电脑音乐”之后,就只会出现电脑音乐的网站,而忽略包含“电脑与MP3音乐”的网站,注意双引号必须是半角字符。

    2 .加字母指定关键字出现的段落,如在关键字前加“ t : " ,搜索引擎仅会查询网站的名称 ; 而在关键字前加“ u : " ,搜索引擎就会只查询所需的网址。

    3 .利用“+”、“-”号来限定结果,加了“+”号的关键字一定要在结果中出现;而加了“-”号的关键字就一定不要出现在查询结果中。

    搜狐

    升级后的中文搜狐检索系统又增加了新的功能,解决了中文的分词问题,如输入“电脑”之后,以前会把带有“电子”、“大脑”的词的网站也检索出来。而现在就能精确定位,节省了使用者的时间和精力。该系统还设有用户字典,允许自行定义词的名称、词性及对应的大五码字体,并将该词加入到词库中。具体的使用方法是:在检索文本栏中输入要查询的关键字,在按下“搜索”钮后,搜狐中文检索系统会从以下四方面检索结果:

    搜狐分类:查询符合条件的分类类目。

    搜狐网站:查询符合条件的搜狐数据库中收录的网站。

    全球网页:搜索 Internet 上符合条件的网页。

    搜狐新闻:查询符合条件的搜狐新闻的内容。

    影响检索结果的因素,是关键字出现在页面的位置、频率及关键字本身的词性等。对于新闻而言则要参考其更新的日期了,一般新闻检索只包含近三个月的内容。与雅虎相同的是,搜狐也包含了自己的检索语法:

    1 .在前后两个关键字之间加上 AND ,表示这两个词是“与”的逻辑关系,搜索出的结果就会是同时包含了这两个关键字的页面。

    2 .在前后两个关键字间加 OR ,就表示这两个词是“或”的逻辑关系,搜索的结果更多、更广,只要是包含了这两个关键字中任何一个关键字的页面都会出现,这对查询概念模糊的内容十分适用。

    新浪搜索

    新浪搜索目前共分 15 大类,一万多细目十余万个站点。新浪网的搜索器查询顺序依次为:目录搜索、网站搜索、网页全文检索。

    1 .新浪搜索引擎在关键字查询框中允许单个词或多个词查询,有多种符号都是表示“且”的关系,如 : 空格、逗号、加号和 & 。

    2 .新浪搜索引擎还包含了进阶搜索方式 : 在 keyword 前加“ t : " ,表示仅搜索网站标题 ; 在 keyword 前加“ u : " ,则表示搜索网站的网址。除此之外,新浪搜索还能更好地支持对数字的查询。

    中文 Excite

    中文 Excite 搜索引擎目前只进行网页的搜索,这一点对要找资料的网友很方便,但对于想查找网站的人来说,就毫无用处了。虽然如此,但我还是要详细介绍中文 Excite ,因为它是目前资料及信息最全的网页搜索引擎。这里收集了共两百万个网页,并提供了五个“高性能检索平台”帮助查询者进行查找。最有特点的是检索结果是按你提问的相关程度来排序,一般来说,越排在前面,相关程度越高。如果你发现某一检索结果很符合你的检索要求,按一下 " 检索更多类似该网页的文献”键, Excite 中文检索引擎会检索出更多与此类似的网页。使用比较专指的提问词进行检索,就可以搜索到更多想要找的文献。例如:“电脑杂志”比“报刊杂志”能检索到更多有关电脑信息的资料。有时,许多检索结果都是来自同一网站,但分散在不同的目录下。只要按一下“按网站显示检索结果”功能键,检索结果就会变成一个按网站排列的目录,在每个网站名称下面,按相关程度列出该网站内所有与提问相关的网页。利用“高性能检索平台”,还能像职业信息专家一样快捷准确地搜索到更多相关的文献。我们还可以自己指定检索数据库(全部中文网页数据库,中国网页数据库,香港网页数据库,台湾网页数据库,新加坡网页数据库,以及西方语言网页)来控制检索结果的数量和显示方式,并能十分容易地使用所有高级检索功能。检索时最常用的技巧如下:

    1 .输入关键字, Excite 的搜索引擎会自定检索到符合信息需求的文献。

    2 .“词组检索”也称“完全符合检索”,检索结果必须含有与提问式完全一样 ( 包括次序 ) 的字串。在搜索比较专指的文献时,就要使用双引号进行词组检索。

    3 .在检索词或字前面加上“+”来表示该词或字一定要出现在检索结果中;在检索词或字前面加上“-”来表示该词或字一定不能出现在检索结果中。使用时有一点十分重要,在“+”和“-”与其后面的检索词之间不能留有空格。

    4 .使用布尔检索符号。布尔检索符号包括 AND (检索结果必须含有所有用 AND 连接起来的关键字), OR (检索结果必须至少含有一个用 OR 连接起来的关键字), NOT (检索结果不能含有紧接在 NOT 后面的关键字)和()(表示要求检索结果含有所有输入的关键字)。这些符号必须大写,而且前后要有一个空格。如果你使用了布尔检索式, Excite 检索引擎会自动停止概念分析的检索功能,而检索到与关键字吻合的网页。

    以上介绍了几个最常用的搜索引擎使用技巧及方法,相信通过上述的学习,绝大部分网虫都能正确而且高效率的使用这些搜索引擎。参考资料:http://www.acms.com.cn/news/25/2005-10-29_35126.html

    以上就是关于以下哪些是与搜索引擎相关的术语相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。


    推荐阅读:

    以下哪些技术是未来电商使用方向(以下哪些技术是未来电商使用方向之一)

    以下景观设计出自于哪里(哪些属于景观设计)

    以下选项中最有可能是老客户营销(以下选项中最可能属于老客户营销的是)

    抖音短网页在线(抖音短视频网页版在线看)

    庭院生态景观设计公司排名