爬虫人民日报关键词(人民日报 关键词)
大家好!今天让创意岭的小编来大家介绍下关于爬虫人民日报关键词的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。
开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等
只需要输入关键词,就能返回你想要的内容,越精准,写出的就越详细,有微信小程序端、在线网页版、PC客户端
创意岭作为行业内优秀的企业,服务客户遍布全球各地,如需了解SEO相关业务请拨打电话175-8598-2043,或添加微信:1454722008
本文目录:
一、关于java新闻网站的算法
(一) 算法伦理的研究
1.算法内涵界定。算法源于数学,但现代算法又远远不止于传统数学的计算范畴。算法多被理解为是计算机用于解决问题的程序或步骤,是现代人工智能系统的运行支柱。《计算主义:一种新的世界观》(李建会等,2012)中将算法定义为能行的方法,在外界的常识性理解中所谓算法就是能感受到的一套运算规则,这个规则的特点在于运算时间的有限性、计算步骤的有穷性、输入结果的确切性,它是机械步骤或能行可算计程序。该定义点明了算法应具备的两个基本属性——有限性与有穷性。《用计算的观点看世界》( 郦全民,2016) 则从信息传播的角度解读算法,认为算法实质上是信息处理方法。
2.算法伦理研究
伦理关乎道德价值真理及其判断。存在于自然界、社会中的人,其行为应遵循一定的伦理道德规范。伦理的效应要导向善。伦理道德关注对个体存在的尊重、个体的自由、公平正义以及组织团体的延续与发展等问题。在一定程度上可以说,当今的人类社会已经不能脱离智能算法系统而运行了。
算法无时无处不在对世界产生影响,因而算法也会必然的触碰到伦理道德。和鸿鹏(2017)已指出,算法系统在人类社会生活中的广泛应用,会陷入诸多如人类面临且无法回避的伦理两难选择困境之中。而当算法与伦理发生关联时,学界一般认为会引出职业伦理和技术伦理两种伦理问题。
职业伦理主要与算法系统的开发者有关,指开发者是带有个性价值观、伦理道德观去研发算法系统的行为体,因而算法系统一开始便会掺杂着设计人主观性的伦理道德观。设计者出于何种目的开发某算法系统、面对不同问题设计者持有的伦理道德态度,这些都会在算法系统的运行中得到体现。
技术伦理是算法系统在一定意义上可称之为一种科学技术,这种技术自身及其运作结果都会负载着伦理价值。其实在一些情况下,职业伦理与技术伦理之间并没有很明确的界别,关于这一点,刘则渊跟王国豫已做过论述。
本文将主要从技术伦理的角度对算法关涉伦理这一问题尝试做深入研究。
(二)网络新闻传播的算法伦理研究
算法与技术的融合不断英语于网络新闻传播领域中,从数据新闻到机器写作,从算法推送到舆情到分析,国内新闻传媒领域的机器新闻和相关研究逐渐发展,金兼斌在《机器新闻写作:一场正在发生的革命》(2014),作者较早的将眼光聚焦于基于算法的新闻内容生产和编辑。认为在自动化新闻生产大发展的前提下,诸如新闻生产或分发中劳动密集型的基础性工作与环节都将被技术取代。张超、钟新在《从比特到人工智能:数字新闻生产的算法转向》(2017) 认为算法正在从比特形式走向人工智能阶段,这种转向使得数字新闻与传统新闻的边界进一步明晰,促使数字新闻生产也产生了变革。胡万鹏在《智能算法推荐的伦理风险及防范策略》中总结了从算法推送方面:针对新闻的价值观所受到的负面影响;以及新闻的公共性、客观性和真实性受到的削弱进行分析;从受众方面:将具体对信息茧房现象以及受众的知情权和被遗忘权展开探讨;从社会影响方面,则针对社会群体、社会公共领域和社会文化所受到的消极影响展开论述。
根据以上文献的梳理可以看出,国内目前对网络新闻传播的算法伦理研究主要集中在新闻业态算法伦理失范的相关问题,因为与其他失范问题相比,这是比较容易发现的。但目前关于网络新闻传播的算法伦理的国内研究还存在不足:国内算法伦理和网络新闻传播算法伦理的研究还是在起步阶段,比较成熟的系统性研究还未出现;关于算法开发人员和平台的责任机制的研究都比较薄弱,总上所述,算法推送新闻的伦理问题研究是有必要继续加强的。
2.新闻推荐算法的兴起、发展与原理
2.1 新闻推荐算法的兴起
随着计算机技术的信息处理的维度越来越高,信息处理的能力不断提升,算法技术可以从大数据中筛选出用户最关心最感兴趣的信息,改变了原有的新闻信息传播方式,重塑了新的媒介生态和传播格局。
但反过来看,在人人都能生产信息的背景下,信息的生产、传播和反馈的速度都是呈几何倍数增长,用户面对的信息越来越多。由于设备的局限性和信息海量,用户无法集中注意力看自己感兴趣的内容,也无法及时抓取对自己有用的信息,于是出现了“注意力经济”。美国经济学家迈克尔·戈德海伯(1997)认为,当今社会是一个信息极大丰富甚至泛滥的社会,而互联网的出现,加快了这一进程,信息非但不是稀缺资源,相反是过剩的。相对于过剩的信息,只有一种资源是稀缺的,那就是人们的注意力。换句话说,信息不能够一味追求量,还要有价值,价值就在于用户对信息的注意力,谁获得了用户的注意力就可以有市场的发展空间,通过“贩卖”用户的注意力能够使新媒体聚合平台获得利润,维持发展。再加上现在生活节奏越来越快,人们对信息获取的量和效率要求提高,不想把时间浪费在自己不感兴趣的信息,从而用户获取信息的“个性化”特征变得明显起来。
基于此背景下,算法推送新闻的传播机制应运而生,用户不需要特意搜索自己需要的信息,而是海量的信息会自行“找到”用户,为用户节省搜索时间之余,又能做到真正为用户提供有用的信息。
2.2新闻推荐算法的发展现状
算法推荐是依据用户数据为用户推荐特定领域的信息,根据受众使用反馈不断修正并完善推荐方案。目前主要有两类新闻机构使用算法推送,其一是新型的互联网新闻聚合类平台,国内主要是以今日头条和一点资讯等算法类平台为代表,在我国新闻客户端市场上拥有极高的占有率。张一鸣创建今日头条是依靠大数据和算法为用户推荐信息,提供连接人与信息的服务,算法会以关键词等元素判断用户的兴趣爱好,从全网抓取内容实现个性化推荐。国外则是以Facebook、Instagram等平台为代表,这些APP都是通过算法挖掘用户的数据,以用户个性化需求为导向对用户进行新闻推送。另一种则是专业新闻生产的传统媒体,为积极应对新闻市场的竞争和提高技术水平而转型到新闻全媒体平台,如国内的“人民日报”等,国外利用算法推送向用户推送新闻的传统媒体则有美国的美联社、华盛顿邮报和英国的BBC等,他们利用算法监督受众的数量还有阅读行为,使他们的新闻报道能够更加受受众的喜欢,增加用户的粘性。
2.2 新闻推荐算法的原理
2.2.1 新闻推荐算法的基本要素
算法推送有三个基本要素,分别是用户、内容和算法。用户是算法推送系统的服务对象,对用户的理解和认知越是透彻,内容分法的准确性和有效性就越准确。内容是算法推送系统的基本生产资料,对多种形式内通的分析、组织、储存和分发都需要科学的手段与方法。算法是算法推送技术上的支持,也是最核心的。系统中大量用户与海量的信息是无法自行匹配的,需要推送算法把用户和内容连接起来,在用户和内容之间发挥桥梁作用,高效把合适的内容推荐给合适的用户。
2.2.2 新闻推荐算法的基本原理
算法推送的出现需要具备两个条件:足够的信息源和精确的算法框架。其中,算法的内容生产源与信息分发最终效果密切相关:是否有足够多的信息可供抓取与信息是否有足够的品质令用户满意都将对信息的传播效果产生影响。与此同时,分发环节也在向前追溯,改变着整个传播的生态。目前,国内新闻传播领域所使用的算法推送主要有三大类——协同过滤推送、基于内容推送和关联规则推送。
协同过滤推送分为基于用户的协同过滤和基于模型的协同过滤。前者主要考虑的是用户和用户之间的相似度,只要找出相似用户喜欢的新闻文章类别,并预测目标用户对该文章的喜欢程度,就可以将其他文章推荐给用户;后者和前者是类似的,区别在此时转向找到文章和文章之间的相似度,只有找到了目标用户对某类文章的喜爱程度,那么我们就可以对相似度高的类似文章进行预测,将喜爱程度相当的相似文章推荐给用户。因此,前者利用用户历史数据在整个用户数据库中寻找相似的推送文章进行推荐,后者通过用户历史数据构造预测模型,再通过模型进行预测并推送。
基于内容的推送即根据用户历史进行文本信息特征抽取、过滤,生成模型,向用户推荐与历史项目内容相似的信息。它的优点之一就是解决了协同过滤中数据稀少时无法准确判断分发的问题。但如果长期只根据用户历史数据推荐信息,会造成过度个性化,容易形成“信息茧房”。
关联规则推送就是基于用户历史数据挖掘用户数据背后的关联,以分析用户的潜在需求,向用户推荐其可能感兴趣的信息。基于该算法的信息推荐流程主要分为两个步骤,第一步是根据当前用户阅读过的感兴趣的内容,通过规则推导出用户还没有阅读过的可能感兴趣的内容;第二是根据规则的重要程度,对内容排序并展现给用户。关联规则推送的效果依赖规则的数量和质量,但随着规则数量的增多,对系统的要求也会提高。
2.2.3 算法推送的实现流程
在信息过载的时代,同一个新闻选题有很多同质化的报道,因此分发前需要对新闻内容进行消重,消重后的新闻内容便等待推送,此时的推送有三个类别:启动推送、扩大推送和限制推送。
第一类是启动推送,先对用户精准推送,即将其订阅账号的更新内容第一时间向用户推荐;然后根据用户的历史浏览数据,把相似的文本特征归类后推送给其他用户;最后是给关注用户的相似人群进行推荐。第二类扩大推送是指对于某个点击率、阅读时长都明显高于平均水平的新闻内容,系统会将它自动筛选出来,并向更多的人进行推荐。但在扩大推荐的过程中,系统会依据用户的反馈进行调整。第三为限制推送,指某个点击率、阅读时长都明显低于平均水平的新闻内容,会被系统自动筛选出来,遏制推送,这样的内容会被缩小推荐范围。
3. “今日头条”新闻推荐算法分析
“今日头条”是国内一款资讯类的媒体聚合平台,每天有超过1.2亿人使用。从“你关心的,才是头条!”到如今的“信息创造价值!”,产品slogan的变化也意味着今日头条正逐渐摆脱以往单一、粗暴的流量思维,而开始注重人与信息的连接,在促进信息高效、精准传播的同时注重正确的价值引导。
在2018年初,“今日头条”的资深算法架构师曹欢欢博士在一场分享交流会上公开了其算法运行原理。在他的叙述中,非常详细地介绍了“今日头条”的算法推荐系统概述以及算法推荐系统的操作原理。
3.1.1-1 曹欢欢博士的今日头条算法建模
上图用数学形式化的方法去描述“今日头条”的算法推送,实际上就是一个能够得出用户对内容满意程度的函数:即y为用户对内容的满意度,Xi,Xc,Xu分别是今日头条公开的算法推送的三个维度:Xi是用户,包括用户的性别、年龄、职业和兴趣标签,还有其他算法模型刻画的隐形用户偏好等;Xc是环境,这也是移动互联网时代新闻推送的特点,由于用户随时随地在不停移动,移动终端也在移动,用户在不同的工作场合、旅行等场景信息推送偏好也会不同;Xu是内容,今日头条本身就是信息聚合类平台,平台上涵盖各种不同形式的内容。本章将以该函数为基础,逐一分析今日头条的推荐算法。
3.1 推荐维度之一:内容分析
内容分析原指第二次世界大战期间,传播学家拉斯韦尔等研究学家组织了“战士通讯研究”的工作,以德国公开出版的战时报纸为分析研究对象,弄清报纸内容本质性的事实和趋势,揭示隐含的隐性情报内容,获取了许多军情机密情报并且对事态发展作出情报预测。在“今日头条”中,内容分析则是对文章、视频内容提取关键要素,通过对文本、视频标题关键字进行语义识别,给内容进行分类。“今日头条”的推送系统是典型的层次化文本分类算法,来帮助每篇新闻找到合适的分类,比如:第一大分类是政治、科技、财经、娱乐、体育等,体育类可以下分篮球、足球、网球等,足球又可以下分中国足球和国际足球,中国足球最后下分为甲、中超、国家队等。这一步是对文章进行对这个工作主要目的是对文章进行分类,方便以后对客户推荐。
想要内容分析实现效果,则需要海量的内容信息给算法系统提供有效的筛选和分类。“今日头条”既然是依赖于算法推送新闻,那它背后的数据库必然是强大的,“网页蜘蛛”和“头条号”就是支撑今日头条平台消息来源的重要渠道,其消息来源极其丰富,何时何地有何新鲜事,都能高效率抓取信息。
第一个消息来源的渠道是“网页蜘蛛”,“网页蜘蛛”又叫网页爬虫,头条使用的就是搜索引擎爬虫叫“Bytespider”。它能按照一定的规则,自动爬行抓取互联网的信息或脚本,就像蜘蛛通过蛛网进行捕食,当发现新的信息资源,蜘蛛会立刻出动抓取信息内容并将其收入自己的数据库中。和微信的垂直搜索不同,Bytespider是能够抓取全网内容的全新搜索引擎,因此“今日头条”的搜索引擎功能很全面,搜索的资源很广,资源包容性极高。
Bytespider信息抓取的基本流程如下:首先是网页抓取。Bytespider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。第二步是处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括消除重复网页、判断网页类型、分析超链接、计算网页的重要度、丰富度等。第三步提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页,为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
第二个消息来源渠道是“头条号”。与“今日头条”不同,它是今日头条针对媒体、国家机构、企业以及自媒体推出的专业信息发布平台。致力于帮助生产者在移动互联网上高效率地获得更多的曝光和关注。简单来说头条号是媒体在上面撰写并发布文章、视频后,会在今日头条(包括今日头条极速版)平台展示。通过头条号后台,媒体可以看到具体文章推荐量、阅读量、粉丝阅读量、评论量、转发量和收藏量,最后通过这些可以量化的用户阅读行为的反馈,算法系统进一步对目标用户进行内容推荐。
3.2 推荐维度之二:用户分析
用户分析通过提取用户的有效数据,如用户经常浏览的文字类型、经常搜索的关键字、注册时登记信息的内容等,算法系统可以将每个用户的浏览记录、浏览时间、留言、评论和转发等行为进行关键字提取,最终形成用户画像,以便之后对用户进行文章和视频的精准推送。举个例子,给喜欢阅读“体育”的用户标上“体育”标签;给喜欢“娱乐”的用户标上“娱乐”的标签,这一步的作用是给用户的兴趣进行建模,包括用户对文章和视频的全局热度、分类热度,主题热度,以及关键词热度等。热度信息在大的推荐系统能够解决新闻冷启动问题,帮助新闻实现推送。
用户分析还具有协同特征,它可以在部分程度上帮助解决所谓算法越推越窄的问题。协同特征也就是“联想式”的推送方法,并非只考虑用户已有历史,而是通过用户行为分析不同用户间相似性,比如点击相似、兴趣分类相似、主题相似、兴趣词相似,甚至向量相似,从而扩展模型的探索能力。根据用户之间计算数据的相似程度,把用户细化分类成为不同的目标群体,再向目标群体集中的推送其感兴趣的新闻内容
内容分析和用户分析是相辅相成的,如果没有分析的文本标签,无法得到用户兴趣标签,没有用户的兴趣标签就无法给用户定位实现精准推送。
3.3 推荐维度之三:环境分析
环境分析就是根据文章的时效性和接近性推送给相应的用户,比如获取用户当前所在位置是否在旅游区,这个可以通过获取用户的实时位置来实现。还会不断与用户之前经常出现的所在地进行对比等方式确认当前状态,分析出用户是在常住地区还是在旅行。这时若系统检测到用户正在泰山及周边游玩,则可能会相应推送泰山的相关文章、周边的交通新闻和天气信息等等。
通过上面三个推荐维度可以作为数据基础,分析当前用户处于什么环境,结合用户画像以及文章的内容分类来推荐,尽量做到推送的内容都是用户所感兴趣的。算法系统还会通过内容分类、分析抽取,把文本相似度高的文章,包括新闻主题、内容相似的文章进行消重,解决推送重复的问题,进一步对目标用户进行精确且不重复的内容推荐。最后过滤质量低俗色情的内容,以免造成平台会有负面倾向。
3.4 “今日头条”新闻推荐算法的价值取向
3.4.1 “用户为上”
“今日头条”的算法推送是站在用户的立场上的,以满足用户个性化和推送的精准性,“今日头条”也重新衡量了新闻价值标准:以用户为上,用户对新闻内容和阅读方式的满意度便是平台推送新闻的价值宗旨。传统媒体时代,只有报纸和电视,有什么受众就得看什么,而如今“今日头条”根据用户兴趣去进行推送。算法推送平台用户范围广,很多用户热衷关注负面,也有许多用户都有窥视欲和好奇心,喜欢无聊八卦和无聊新闻,而且在好奇心作用下用户都有从众心理。这使得生产者过度去迎合受众,只要是用户喜欢看就可以发表在“今日头条”上。
3.4.2 “算法主导”
“今日头条”更注重技术分发,生产者是用户,受众者也是用户,这样一来内容监管和分发就很困难。算法推送机制根据用户爱好进行推送,这样生产的内容快、也无疑会加速内容配送效率。在算法推送模型中,用户点击频率、阅读时间、点赞评论以及转发在算法时代都是可以进行量化的目标。在这样情况下生产的内容,想要获得较大点击率和推送率,需要标题才能吸引用户,因为用户在平台一眼能看到的就是标题和配图。标题和配图决定用户是否会打开你的内容,这导致许多内容生产者在编辑新闻标题时陷入标题党的怪圈,还有导致低俗内容的呈现,以制造冲突制造悬念贴标签等方式引用户点击,意图把自己的文章做成爆文。对于海量的信息内容,即使今日头条数据和智能推荐做的再好,目前来说也难以抵挡海量的垃圾信息。
4.算法推送新闻引发的伦理问题
在如今网络时代的传播思维中,“用户为上”、“算法主导”的新闻价值取向已经在算法聚合类平台成为了普遍,算法推送技术作为吸引用户的手段,搭建起一个充满诱导的媒介环境,以此增加用户对平台的粘性。算法推送技术在获取信息、传播速度等方面与以往相比有着跨时代的进步,但与此同时,由于算法推送技术的加入,衍生出新的伦理问题,并且日渐复杂化。
4.1 算法推送引发的伦理问题
4.1.1 算法推送过于机械化,没有思考能力
单向的算法推荐对用户来说经常会带来内容杂乱无章、信息量过大、信息价值低等问题。从逻辑讲,算法只是从关键字的检索匹配来完成统计推荐,但对新闻报道或文学作品具有艺术性、专业性的内容来说,是不能保证推送的质量的。算法方面,目前主要基于匹配检索与统计,大部分都是个人关注的信息类型和标签,难以达到较好的推送效果。一千个人眼里有一千个哈姆雷特,但是计算机只有只有一个。算法技术过于注重机械化的统计,只根据关键词来推荐用户,对我们中国具有博大精深的中国文字文化底蕴,推荐算法是远远不够的。整个新闻客户端显得像是一个菜市场,没有态度、没有风格,阅读感受单一化,呈现了碎片化的特点。新闻不只是让用户能够了解身边发生的新鲜事,还有宣传正面思想和传播正能量的作用,新闻应该还要给人们带来新的思考。让机器做出正确判断很简单,但是让机器综合心理学、社会学、乃至某细分领域内的规则做出判断还要正确地引导受众则很难,正如现在算法技术还不能完成一篇富有人文性、文学性和批判性的深度报道,它止步在了碎片式的、表层的传播范畴。
4.1.2 容易引起“信息茧房”效应
“信息茧房”这一概念是凯斯.桑斯坦在《信息乌托邦》一书中提出的。意指受众在过度的信息自我选择之中,这样会降低接触外界其他信息的可能,从而将自己的生活桎梏于蚕茧一般的“蚕房”中的现象。人们的信息领域会习惯性被自己的兴趣引导,信息窄化带来了受众对信息接收的单一性,这种单一性的可能会使受众陷入循环,加重受众信息同质化。
在互联网的普及初期,受众主要是从主流媒体和门户网站获取新闻信息,主流媒体能够保障新闻的质量;对于其他资讯的获取,由于技术的限制,此时的茧房并没有过度被放大,受众是有适当的自主选择性阅读新闻的。但到了如今以智能技术的互联网时代,情况发生了改变,信息茧房的现象越来越明显,用户被标签的情况下,算法系统进行大量的主动推送,使受众被动地成为信息的接收者。用户的阅读兴趣不可能涵盖所有的知识领域,算法分发的核心逻辑是根据用户的行为数据来进行精确推荐的,但同时算法又会自动过滤掉“不感兴趣”“不认同”的信息,实现“看我想看,听我想听”。在此过程中,因为算法技术的力量将用户的信息选择效果放大了倍数,进而将受众困住在信息茧房当中,受众也很难凭借自身力量打破茧房,甚至在不知觉中受到更多负面的影响。
4.1.3 算法推送的“伪中立性”
客观和全面是新闻伦理的基本要求,新闻从业者必须从可好信息源来获取真实的信息,以客观的态度反应现实。我们惯常认为,互联网技术服务商是技术中立者,不需要承担约束大众媒体的社会责任,然而当信息把关人又新闻编辑转变为算法工程师,传统的媒介伦理似乎已经失效。算法具有商业倾向性,“中立性”是算法平台用以逃避媒体责任的理由,给大众媒介造成传播乱象,如此一来更像是一场算法平台“肆意妄为又不想负责”的诡辩。
算法平台的信息源是经过选择和过滤的,“头条号”的内容占“今日头条”整个信息系统的绝大部分,然而在“人人都可以做新闻人”的时代,头条号平台是一个开放的网络媒介环境,存在大量的偏见和错误的认知。无论是“今日头条”平台设立的算法规则,还是其他爬虫的抓取的关键词,算法系统的信息源很多是具有目的性的、有偏见和非客观的信息,所以信息源不能直接作用于用户。因此,筛选算法系统的信息源与传统的人工编辑相比较,范围极广且很难把关,若算法被恶意利用,那么使整个传播系统将会被轻易控制。
4.1.4 算法推送里的“议程设置”
原议程设置功能揭示的重要内涵是:“受众对新闻的看法虽然被大众媒体议程设置功能所主导,但其更深刻的是议程设置给大众媒体新闻带来放大与延伸,从而使受众对新闻选择做出能动性修正,让受众在满足需求和媒介依赖中逐渐培养出的潜在认同感”。
推送算法技术在互联网平台的运用,使原来传统媒体主导的议程设置过程发生了变化,伴随着传播权的转移、公众参与度的提高和信息量剧增等原因导致议程设置功逐渐能减弱。过往传统新闻的内容是由编辑有选择地进行报道后再呈现在受众面前的,而个性化新闻推送是用户自己来选择看哪一方面的内容,而这一环节中,天然的技术赋权将传播权从传统媒体下放至平台的用户,使得受众和社会的连接无需依赖传统媒介,新闻媒体作为把关人的作用和议程设置功能都在减弱。
4.2 算法新闻治理缺陷下的算法权利异化
算法作为人工智能的基石之一,是“一种有限、确定、有效并适合用计算机程序来实现的解决问题的方法,是计算机科学的基础”。近年来,伴随人工智能深度学习算法取得的重大突破和大数据时代的到来,人工智能的应用场景不断拓展,人工智能时代正逐渐从想象成为现实。借助于海量的大数据和具备强大计算能力的硬件设备,拥有深度学习算法的人工智能机器可以通过自主学习和强化训练来不断提升自身的能力,解决很多人类难以有效应对的治理难题。伴随人工能算法在国家和社会治理中重要性的日渐凸显,国家和社会对于算法的依赖也逐渐加深,一种新型的权力形态——算法权力也随之出现。
可以把算法权利分为四种:数据主权、算法设计权、研发的资本权和算法控制权。由于前三种权利都是单向的、算法开发者赋予算法的权利,是属于算法开发者的,与算法分发平台呈现的效果没有直接的影响,所以本文将着重论述算法控制权。
算法控制权是双向的,用户是算法技术数据行为的提供者,同时又是被算法技术控制的受害者。例如我们看到“今日头条”会通过推送算法来监管用户的发布和浏览行为,同时平台会通过算法决策系统来实现内容的发布去引导用户。算法控制权当然是一种天然技术赋予的权利,但算法控制权是在用户提供数据行为的情况下才得以实现的,因此算法控制权既存在内容生产权,同时有要尊重和保护算法相对人的义务。
正因为如此,算法技术被认为是一种双刃剑,一方面算法能够做出精准的行为预测,可以为管理者提供非常好的循环干预机制;对于公共行为主体来说,可以通过对大数据的应用来解决社会治理问题,对于私人主体来说可以借助数据来提供个性化和定制化的服务;另一方面,算法技术存在着诸如利益和风险不对称等问题,而且由于算法技术发展的超前性,新科技的创造者具备不对称的信息和技术优势,能够按照自身利益的需求来塑造在平台上的算法推送逻辑和社会系统,这带来了监管的不确定性。人们要通过集体行为去承担社会责任,通过这样的方式规制算法权利,可以让我们能够对算法分发系统的意义和价值得到更深刻的思考。
二、人民搜索是什么
人民搜索网络股份公司,于2010年5月31日由人民日报社和人民网共同出资组建。人民搜索即Goso.cn于2010年6月20日正式上线测试。2010年9月25日,邓亚萍正式担任人民搜索网络股份公司总经理。2010年12月20日,人民搜索正式推出第一个产品“新闻搜索1.0”。2011年6月20日人民搜索改版更名为“即刻搜索”,新域名为www.jike.com。
人民搜索是由人民日报社和人民网共同出资组建的搜索运营企业。
人民搜索依托人民日报社与人民网在新闻媒体领域的优势与资源,从新闻搜索作为切入点,腾空出世,进入到搜索引擎的产业中。新闻搜索是一个切入点,也是一个起点,人民搜索还将不断推出新的搜索服务。
人民搜索从创立之初,即强调“共建、共赢”的开放理念,愿与产业链中相关的机构与企业共同构建具有公信力、有创新力、有影响力的搜索平台。公司不仅通过校园招聘、社会招聘等多种渠道广泛吸纳了优秀的创新人才,而且从创立之初就建立在一个产学研用一体化的机制之上,人民搜索与中科院计算所等建立了密切的战略合作关系,并计划与国内具有相关技术专长的科研机构,为中国实践产学研用一体化的运作模式作出了积极而有成效的探索。
人民搜索的页面上提供了新闻、网页、图片、博客、论坛、财经、时政 等搜索分类。2010年12月20日上线的新闻搜索1.0版,改变了过去以关键词为核心的信息检索模式,而是通过关键词聚焦为新闻事件,再对每一个新闻事件通过新闻、信息、评论、博客、论坛、微博、图片、视频等多个维度来立体展现——对海量信息进行了“缩”和“放”的处理,这与过去完全平铺式的简单信息检索模式相比,还是作出了有益的探索性创新。
新闻搜索1.0,以对媒体从业者需求的深度把握,还推出了“媒体转载率”、“传播热度”等特色指标,让网友能够感受到新闻的生命力、新闻的传播过程和传播的温度,读新闻不再是读信息,而是在读故事。
新版通用搜索引擎平台——即刻搜索以网页搜索为默认结果,致力于成为大众探索求知的工具、工作生活的助手和文化交流的平台。
三、人民日报批评网络虚假流量,虚假流量是如何做出来的?
机器作弊常见的手段有:通过机器发送假流量、肉食机访问网页、 DNS/IP访问网页、爬虫技术访问网页等手段制造假流量,以模拟浏览行为产生大量的浏览痕迹或点击,从而提高了流量,机器作弊的成本相对较低,但都离不开编码程序。当前更有效的防范措施,是通过基本的用户行为分析来识别出这类假流量,再通过补量、屏蔽来减少这类假流量。比如:频繁更换用户身份,在一家 cookie上猛薅羊毛,一位用户展示了上千次;“人为欺骗”场景的手段有,通过雇佣、诱骗等方式大量雇佣人员点击广告,下载 APP,访问网页,因为属于人为操作。
这种虚假流量很难屏蔽,但是成本比较高。这类虚假流量可以通过深入的用户行为分析,如转化等来识别,可以通过增加“人工作弊”的运营成本来减少这类虚假流量。说到虚假流量的盈利形式,与上述广告支付形式密不可分。每一个广告都会有相应的结算和考核指标,这已经成为虚假流量欺诈的痛点之一。每一个广告都有对应的付费形式,每一个付费形式都有一个虚假流量利益的主张点,构成了虚假流量利益的形式。这些虚假流量的出现通常具有明显的特征,比如频繁点击却没有有效互动,同一个人在一段时间内频繁访问广告等等。
虚假流量之所以能够成为生态圈,是因为供求双方都有共同的利益。在这个生态圈中,虚假流量的提供者、虚假流量的获得者是两个重要的角色。面对审查指标的压力:企业(广告主)过度追求的KPI和效果指标时,根据审查指标的压力越来越大,暴露、点击等指标无法完成时,无意识地忽视广告刷量的影响。
归因分析可以帮助企业识别最终转型来自于哪个渠道,但企业往往忽略了这一功能。常见的原因是在预算充足,客户情况符合KPI的情况下,企业的营销运作会忽略不同渠道的虚假流量。但是,有些渠道有混合流量。如果不追踪每个渠道的流量质量,就会纵容虚假流量对营销效果的长期影响。这对于针对效果的营销来说是最重要的,尤其是每年复盘的时候,才发现亏损不是小数目。
虚假流量没有先进的技术含量,流量诈骗的成本极低。相关数据显示,刷流量的成本不到正常流量成本的十分之一。广告主对流量质量的评价,除出版者提供的报道外,没有直接证据证明对方存在欺诈行为,因此很难追究虚假流量维权。
四、人民日报的的投稿要求
大多数报刊杂志都有相对稳定的作者群和稿源,要在激烈的用稿竞争中获胜,为自己争得一席之地,使自己的作品尽可能变成铅字,让你的研究成果为更多的人认可和受益,也让大家与你共同分享成功的喜悦,投稿时须注意以下5个问题:
1.投稿要对路
每种报刊杂志都有自己特定的办报(刊)方针和宗旨,有自己的读者对象,投稿前必须先对此进行了解,搞清它的发行出版周期是双月刊、季刊、月刊还是半月刊、周刊,如果是报纸的话,是日报、周二报、周报还是半月报、月报,接下来要了解各种报刊都开设了哪些栏目,各栏目都发表些什么样的文章,可能的话还应该了解一下报刊的办刊历史,看看近年都发表过什么样的文章,对照一下你研究的问题以及撰写的论文原来有没有人研究过写过,研究现状如何,原来发表过的此类文章是从哪些角度写的,你的文章有无创新发展。此外,还应对报刊的发稿动态和走向以及下一步热点稿件是哪一类进行研究,最后看看你撰写的文章适合于哪些报刊的哪些栏目,投寄时最好在信封上注明栏目名称,以便于编辑人员及时准确地处理稿件。要做到这一点,平时对有关报刊必须多看、多翻阅, 至少对近期目录做到心中有数,这样投稿时才能做到有的放矢,不致于把中学化学教学方面的稿件寄给适合小学生阅读的报刊。
例如:中学化学教学研究的权威杂志——《化学教育》是中国化学会主办的综合性学术月刊。经常在每年第一期刊登《化学教育》栏目简介,《化学教育》征稿简则。如果要向这家杂志投稿,就必须仔细研究这两篇文章。其它几家杂志如:中学化学教学参考、中学化学等也会对其读者对象、投稿要求、杂志栏目等方面进行介绍。
2.注意把握时机
教研论文按时效性大体可分为两类:一类时效性强,与教学进度配合(例如《中学化学教学参考》的新教材教学参考,各种同步练习等),另一类时效性不强,与教学进度无关。后者什么时候投稿都行, 而前者必须掌握一定的提前量,到底提前多长时间投稿,一般报刊都会通过报刊启示提醒读者和作者。正常情况下,如果报刊没有规定,与教学进度配合的稿件,双月刊、月刊应提前4—6个月。总的说来,新闻类稿件越及时越好,报刊发行周期越短,提前量相应要小些。投稿最忌讳“马后炮”,一般不是很出色的稿子,“马后炮”是很难发表的,比如:与下学期一开学要学的内容有关的稿件, 一般在上学期期末最迟在假期当中就要发,这样才能给教师备课提供借鉴和参考,如果你等到教完这部分内容后再写出来投出去,那就成了“马后炮”,这类稿件不是极有价值一般不会保留到第二年再发。这便产生了矛盾,因为大多数与教学进度有关的稿件都是在教学后发现了问题才研究撰写出来的,而此时已经错过了投稿时机。怎么办?笔者的经验是可以先写出来慢慢加工仔细斟酌,到第二年合适的时候再投出去,这样经过冷加工后,稿件会更成熟。有些报刊采用期长达几个月甚至半年,即使只有一个月,由于不能一稿多投,等到收到答复,再投给其它报刊也已错过了时机。这种情况下也可以采用上述办法,只是最好有个发稿记录,记下何时发给谁?结果如何?再投稿时心中有数。
3.注意格式要规范
如果稿件是手写的,要注意书写认真规范,整洁清楚,无错别字,标点符号准确无误,而且必须使用方格稿纸誊清,注明每页字数。如果是打印稿,还应注意字不可太小,一般正文部分以三号字或小三号字为宜,页脚须注明页数与字数,便于编辑排版时参考。一般报刊编辑部都不收复写稿和复印稿。不少报刊编辑部对稿件格式都有详细而明确的要求,投稿前要认真研究。正规论文的格式应该是标题、标题之下是通讯地址、通讯地址之后是加小括号的邮政编码,然后空格后是作者姓名。较长的论文在正文之前应有200—300字的“摘要”,和不超过5个的关键词,以便于编辑阅稿时节约时间,了解要点,通常正文之后还应注明“引文出处”或“备注”以及主要参考书目,参考书目要写清书名、出版社名、版本、编著者等。如果是第一次投稿,最好文后加“作者简介”,以方便编辑了解情况,建立作者档案,同时这也是自我推销的需要。当然,简介必须实事求是,不可海吹,因为稿件最后能否采用,不是看你的简介来决定,关键还是稿件的质量,提高命中率的根本还在于稿件质量。
4.适当控制字数
不同的刊物,对论文字数的要求不同,而且差别很大,有的喜欢长篇大论,有的喜欢短小精悍,投稿时应对各刊物发表的文章进行研究,总结归纳出一些规律,这样投稿才有针对性。一般说来,寄给报刊发表的文章,应尽量短些,选题最好小一点,内容实用些,可操作一些,让别人看了能受到启发教育或拿过来就可以用;而参加评选的论文,理论性应强些,选题可稍大点,字数亦应适当多一些,这样才能将问题说清说透。通常组织论文评选的部门下通知或发启示时,对论文选题、格式、字数都有明确要求,撰写时应充分注意,如果没有要求,笔者以为参加评选的论文字数以3000- 5000字为宜,一般不要少于3000字,也不要多于7000字,根据选题只要论述清楚了就行,不必把过多的注意力放在字数多少上。就发表的文章来看,字数多少的差别亦很大,这主要与选题性质、报刊容量、些读者对象等因素有关,一般理论性较强的选题可稍长些,应用性较强的选题应短些,投给杂志的稿件可稍长些,而投给报纸的稿件应尽量短些,面向教师及研究工作者的论文可稍长些,面向学生的作品应尽量短些,选题较大的、学术性强的论文可稍长些,选题很小、学术性不强的、普及性的作品应尽量短些。这里的“稍长”或“稍短”是相对而言,没有严格规定,在笔者看来,“稍长”一些的文章可掌握在 3000-5000字之间,当然,如果1500-2000字能解决问题则最好;“ 稍短”一的文章以不超过2000字为宜,如果500-1000字顶多1500 字能说清问题则最好。不论哪类文章,在控制字数的同时应十分注意文章的科学性和可读性。所谓科学性是指文章的观点不能出错,引用的论据资料应准确无误,论证过程应经得住推敲;所谓可读性主要是指文字表述要让人喜闻乐读,一看题目就想看内容,一看内容就让人爱不释手,非一口气读完不可,当然这不是一日之功,需要长时间磨炼,文字功底是练出来的。
例如:《化学教育》的“化学与社会”栏目字数应在5000字以内,“复习指导”字数应在3000字内,“调查报告”字数在3000字内,“实验教学与教具研制”字数在500—2000。
5.讲究投稿策略
刚开始投稿的人,将稿子投出后总希望尽快得到编辑部的回音。事实上,由于编辑部每天要处理的稿件无以数计,所以,不少刊物收到稿件后常常连收稿通知都懒得发,这挫伤了不少作者的积极性,甚至有人从此不再写稿。还有个别刊物大量地照顾“关系稿件”,眼睛只盯住几个“名人”,结果使很多新人退避三舍。但应该承认,任何刊物都会考虑自己的信誉,真正有生命力的刊物在用稿上一定会坚持认稿不认人的原则,只要稿件对路时机合适,质量属于上乘之作,任何编辑部都没有舍优求次的道理。基于这种考虑,从撰稿者角度出发,笔者以为,投稿时应注意以下策略:一是持之以恒,管寄不管发,即经常投稿,投出后就不要再去想它,不要指望它一定能发表,压低期望值,用不用让编辑部去考虑,事实上你想也没有用;二是猛打猛冲,以多取胜,越不发越寄,时间长了,编辑就会有印象,特别是一些稿源充足级别较高的刊物,很可能你寄的稿子连仔细看都未来得及就提出了处理意见,“屡投屡退,屡退屡投”就可能感动上帝,如果你写的稿件确有水平,不用说,只仔细看一次就可能改变你的命运,甚至连你以前投的稿子都会引起编辑的注意; 三是认准的路走到底,只要你感到你的稿件确有价值,就可以反复投,也可以转投其它同类刊物,相信是金子就一定有被人发现认可的时候;四是由低到高,循序渐进,一般来说,刊物的级别越低,发行范围越小,稿源越不足,同样质量的稿件投给这样的刊物就可能增加命中的机会,刚开始写稿打知名度的新人尤其应注意这一点,梦想一鸣惊人一口吃成个胖子是不现实的;五是趁热打铁,即收到刊物的采用通知后马上再寄,趁编辑部对你的稿子还有印象,继续开拓。六是注意对准档次,即投稿时注意稿件的质量与刊物的级别影响对应一致,这可以分为两种情况:第一种情况是原来发表过文章有一定知名度的作者,可以“好稿子”对“高级别”刊物,这样可以扩大影响、创牌子、打名声,提高知名度,当然作品一定是“ 拳头产品”,如刊物多次发表过你的稿子属于“熟门熟路”,可采取中档稿子对高级刊物的策略;第二种情况是原来未发表过文章,没有什么名气,门路不熟,属于淌路子的作者,可采用“田忌赛马”的办法,以好对中、以中对低,如此可取得“三局二胜”的效果。
最后说一下“一稿多投”。各刊物都有自己的规定,都反对“ 一稿多投”,都要求过了采用期之后再改投它刊。但是很多稿子时效性很强,特别是配合教学进度的稿件常常是“过了这个村就没那个店”了。在这种情况下,有两个办法:一是按规定办,过期改投或留待明年再投,二是采取变相的“一稿多投”,变通的办法就是作好投稿记录,收到采用通知后立即通知其它刊物,不要再发。一般说来,知名度不大、刚开始写稿的作者,特别是质量一般的稿件,即使一稿多投,也很少会出现几家刊物同时采用的情况。从这个角度出发,从维护作者权益的角度出发,笔者赞成第二种办法,各报刊杂志编辑部似亦不应反对这种办法。要说责任的话,作者写稿很不容易,你不用又不及时通知作者,耽误了用稿时机,这个责任编辑部应该负,不知笔者的看法是否正确。
各大报纸的投稿地址参考如下http://zhidao.baidu.com/question/4073053.html?si=5
以上就是关于爬虫人民日报关键词相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。
推荐阅读: