HOME 首页
SERVICE 服务产品
XINMEITI 新媒体代运营
CASE 服务案例
NEWS 热点资讯
ABOUT 关于我们
CONTACT 联系我们
创意岭
让品牌有温度、有情感
专注品牌策划15年

    火车头小说采集规则(火车头采集器小说采集)

    发布时间:2023-05-24 22:41:32     稿源: 创意岭    阅读: 149        

    大家好!今天让创意岭的小编来大家介绍下关于火车头小说采集规则的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。brM创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等brM创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    只需要输入关键词,就能返回你想要的内容,有小程序、在线网页版、PC客户端和批量生成器brM创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    问友Ai官网:https://ai.de1919.combrM创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    本文目录:brM创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    火车头小说采集规则(火车头采集器小说采集)brM创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    飞飞火车头采集器怎么写发布规则brM创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    1
    首先讲一讲网站结构,通常网站结构为树形结构,一个网站主要包以下几种页面:首页、栏目页、文章页,其结构如下图。
    其次讲一讲火车头采集原理,火车头的运行需要一套规则来指定该如何采集所需数据,即需要编写火车头采集规则,编写采集规则也是新手最头痛的问题。
    火车头采集器通常通过网址抓取网站返回的源代码,然后在源代码中提取需要的信息。因此,采集数据需要先采集网址,然后再采集数据。
    2
    下面开始编写采集规则:
    运行LocoyPlatform.exe
    3
    在左侧“任务列表树”选择一个分组点击右键,选择“新建任务”弹出新建任务对话框。填写任务名,网站编码一般选择自动即可。
    添加起始网址
    填写“第一步:采集网址规则”这里需要按照网站的树形结构逐级获取下一级结构的网址,直至获取到内容页的网址。先填写起始网址,通常为目标站首页地址。点击“添加”,在单条网址处填上火车头博客的首页地址,然后依次点击“添加” ->“完成”。
    编写“多级网址获取”规则
    这里需要先在起始地址页面找到所有需要采集的栏目页的代码区域,先查看起始页地址的源码,找到如图所示代码区域:
    点击右侧“添加”按钮打开“添加多级网址采集规则”,选择“从页面自动分析得到地址链接”单选按钮,在下面“从该选定区域中提取网址”,“从”(左侧)文本框填上栏目地址代码区域开始之前的标志性代码(要保证其在该页的唯一性),“到”右侧文本框填上栏目地址代码区域结束之后的标志性代码,在“结果网址过滤”的“必须包含”和“不得包含”文本框填上相应代码,如果该区域没有多余的链接不需要过滤,可以不填,这里的栏目页网址必须包含“category-”。然后点击“保存”返回。
    现在需要获取内容页的地址。先打开栏目页查看源码,查找内容页地址存在的区域及地址规律。按照上一步的方法先填写内容页所在区域的起始和结束标志性代码,然后分析这个区域中包含的链接与我们说需要的内容页地址链接规律,添加过滤代码。这里起始代码为“<!--显示-->”,结束代码为“<div class="page" style="float:right">”过滤代码为必须包含“read-”不得包含“#”。如图:
    需要注意的是这里文章比较多会有很多分页,所以需要填写“列表分页获取”规则。通常只需要指定分页代码的区域,如有必要可以填写“组合生成列表页分页”规则。这里的列表分页规则其实代码为“<li class="pageNumber">”,结束代码为“title="下一页">”。如果勾选“自动识别分页”的话,会自动提取a标签的href属性,如果不勾选自动识别的话,需要填写组合生成列表页分页”规则。
    然后保存返回,可以通过“测试网址采集”来测试规则是否正确,不正确可以返回修改规则,正确的话可以开始编写“第二步采集内容规则”。
    编写“第二步采集内容规则”
    先打开内容页以及内容页的源码,找到需要提取的信息的前后代码特征。以提取标题和内容为例。首先复制文章标题,然后在源码中查看该标题出现的几处地方,找一处前后代码在每一篇文章都一样的地方,该例共出现了3处,第二处的代码没有其他干扰代码。点击“添加”,标签名填“标题”,提取数据方式选择前后截取,前后代码分别为“<h1 class="ContentTitle"><strong>”和“</strong></h1>”。如果采集的内容需要作进一步处理(如替换删除编码转换过滤html等),在下方“数据处理”点击添加填写相应规则。
    再添加一个标签,标签名为“内容”,按照上述方法填写内容的前后代码片段,需要注意的是,前后代码片段最好不要出现不完整的标签(如:“<div class="Content-body"” 应该写作“<div class="Content-body">”,一个完整的标签应该是以“<”开始,以“>”结束,如果<>之间的内容在各个内容页有一部分不一样,将不一样的部分用(*)代替即可),否则提取的内容会包含部分不完整的标签。通常正文包含的HTML会比较多,可以添加HTML过滤功能,建议仅保留段落(p)、图片(img)、换行(br)等标签。
    测试内容采集规则
    保存规则后返回采集内容规则页面,在右侧“规则测试”的典型页面文本框填上一个内容页的地址,然后点击测试,如果下面显示到的内容符合预期说明可以了,如果未获取到内容或者获取到内容不正确,返回检查并修改规则。
    开始采集
    选择要采集的任务规则,勾选“采网址”和“采内容”复选框,点击工具栏“开始”按钮。
    后续工作
    采集到的数据保存在数据库,可以通过在任务名上点右键,选择“打开DATA下任务文件夹”打开数据库所在位置,该数据库可以通过ACCESS打开和编辑。如果想要重新采集,需要通过右键选择“清空该任务网址库”和“清空任务所有采集数据”。

    如何写火车头采集器的采集规则,采集页面上图片内的文字?brM创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    不得不说火车头是有一定用处,但是个人觉得不怎么好用,光是写那些采集规则,设定什么的就一大堆不明不白的东西。拿钱购买嘛,一开始那客服还很热情的为你解答,一交完钱买下来了,写规则,好了,有问题要找客服解决,结果一拖再拖,弄了一个多月还没弄好,整个网站的工作进程全拖慢了,还不如自己辛苦点自己手动写文章,还采集啥啊~
    言归正传,火车头使用:新建站点—>新建任务—>填写你要采集的网站文章列表—>点下面的开始测试网址—>如果有采集到很多文章,看各个地址相同部分(如system/2012/03/07),点返回修改,把system/2012/03/07这部分加到“文章内容必须包含”那里,再测试一下,就可以采集到3月7日的文章地址了—>前面准备好网址后接下来就是第二步的采集内容规则了,点第二步,设定标签,一般采集包括标题<title></title>、关键字<meta name=keyword...>、内容<div>...</div>,这些设置从你要采集的网站代码上可以找到相应的——>采集页面上的图片,在第四步,“文件保存及高级设置”,选择所有文件本地保存文件夹(这里是从页面下载图片存放的位置),然后下面有个FTP同步文件上传的,填好服务器、用户名、密码什么的,文件上传根目录就是你网站服务器放置图片的文件夹位置,你可以在服务器新建一个文件夹试试看,OK!到此为止,不过有一些网站写了反采集代码,有可能会被封IP,整体来说,个人不提倡使用火车头采集器,还不如个人手动来得实在,就算一天少发点也行,只要保证每天更新量、伪原创和原创,一样有很大效果。

    火车头小说采集规则(火车头采集器小说采集)brM创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    火车头如何采集还有缩略图的文章呢brM创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    1、首先在采集列表页的源码中将带有缩略图的那部分源码复制下来,如图:brM创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    2、查看网站的源码,找到这行代码,如图:brM创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司


    brM创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    3、打开火车头,进入采集网址规则—添加多级网址采集规则,选中手动填写链接地址规则,并将第二步骤中选中的代码粘贴进去,如图:brM创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    4、将代码进行如下修改:brM创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    5、改好后保存并进行采集测试,如图所示brM创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    6、然后再在采集内容规则里进行修改,选中“缩略图”标签,打开,进行内容替换,如图:brM创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    7、然后点击文件下载,选中下载图片,并填好缩略图保存路径及命名方式,如图:brM创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    8、在“文件保存及部分高级设置”里设定缩略图的保存盘符及其前缀,我设定为桌面,前缀为“./”,如图:brM创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司


    9、我们保存后测试一下,一起顺利,缩略图顺利采集下来了
    brM创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    追问

    是最近版本的吗?brM创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司

    以上就是关于火车头小说采集规则相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。brM创意岭 - 安心托付、值得信赖的品牌设计、营销策划公司


    推荐阅读:

    天津火车站餐饮品牌设计(天津站餐饮店)

    火车站前广场景观设计(火车站前广场景观设计方案)

    景区火车站台景观设计(景区火车站台景观设计方案)

    景观设计sl(景观设计su)

    杭州职业技术学院是大专还是专科(杭州职业技术学院是不是本科)