- 我用火车头采集的时候为什么只有标题和内容两个标签能采集到,其他就是固定值 1了 图片
- 用火车头采集器采集时如何去掉标题中的标点符号
- 火车头采集器怎么采集今日头条文章?
- 火车头采集器采集正常,发布失败提示无标题(实际上标题采集正常)
火车头采集标题(火车头采集标题时,请求默认页面出错)
大家好!今天让创意岭的小编来大家介绍下关于火车头采集标题的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。
开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等
只需要输入关键词,就能返回你想要的内容,有小程序、在线网页版、PC客户端和批量生成器
问友Ai官网:https://ai.de1919.com。
本文目录:
我用火车头采集的时候为什么只有标题和内容两个标签能采集到,其他就是固定值 1了 图片
那么有多页列表的采集就要用“[var:分页]”来替换分页页码,截图如下文章网址需包含 网址不能包含 这两个一般不用写第四步、采集文章标题,文章内容,文章作者,文章来源等规则写法,分页采集等。“起始html”和“结束html”用火车头采集器采集时如何去掉标题中的标点符号
把标点符号替换成空就成了,记的给我分哈火车头采集器怎么采集今日头条文章?
第一步采集网址,下载好火车头采集器后打开,新建一个任务,任务名随意。把需要采集的网站文章列表页网址添加到起始网址。从图中看出该列表页有34页,每页有N篇文章。2
列表页会一级网址,添加多级网址获取,从而获取二级网址(文章页网址)
设置列表分页获取,3个地方分别是:分页源代码前面和后面还有中间位置。这一步用于获取列表页面链接,因为有34个列表页面。设置完保存。
网址获取选项,这一步用于获取列表页上面文章页的链接,根据自己需要设置需要截取的部分和根据网址的结构设置包含与不包含某些字符。为空即没限制,设置完保存。
设置好链接采集规则后,可以测试网址,看测试结果调整规则。看图可以看到采集链接规则从起始链接到全面列表页再到列表页上的文章页链接都已经成功采集。
第二步是采集内容,首先修改标题规则,在页面源代码里面找到标题的代码,把标题前后代码负责过去截取出标题。保存。
修改内容采集规则,跟标题规则差不多,也是源代码里面找到内容的前后代码。这里内容会有一些其他html标签,所以得添加一个html标签排除的规则。
完成后,测试看一下结果,从测试结果来调试规则,直到测试结果是自己想要的内容为止。
第三步是采集导出。前面1、2两步把规则设置好,最后就要把文章导出了。先做一个导出的模版。
然后选择方式二,把每一篇文章都分别记录到一个txt文本,保存位置自己选择,模板选择刚刚做好的导出模版.保存的文件名用文章标题为命名。其他默认,保存。
把采集网址,采集内容,发布3个选项框都勾选,然后开始采集。完成后文本就自动生成在刚刚保存的文件夹里面了。
火车头采集器采集文章教程到此就完成了,由于每个网站都是不一样的,所以这里只能用一个网站演示,只是一个方法思路,自己采集文章还需要灵活变通。追问
这样复杂粘贴有意思吗?
火车头采集器采集正常,发布失败提示无标题(实际上标题采集正常)
1大家都知道php有个函数htmlspecialchars()是将预定义字符串做转换的,而htmlspecialchars()这个函数在php5.4默认为utf8编码的
2
一般建站新手站长搭建织梦环境都是用的dedeampz织梦集成环境一键搭建的织梦环境,原因就在这里了,dedeampz搭建完成的CMS网站默认的编码格式是gbk的
3
如果你安装的是织梦5.3或者5.6可能没事,因为dede5.6之前的版本其中php的版本默认配置的是5.3版本的php,但是织梦5.7开始集成其中的php是5.4版本的,而这时的php5.4默认编码格式跟环境的编码格式冲突(格式不一致)
4
格式不一致的时候如果你输入的标题是纯英文+数字,这没问题,能正常使用,因为编码格式utf-8跟gbk的区别在于中文字符
5
如果你输入的是中文字符,那么htmlspecialchars()函数在转换的时候因为编码格式不同导致的乱码是他不识别,所以就直接输出空,因为他什么也没有转过来,这也就是为什么你输入汉语标题提交,却提示“标题不能为空”的原因!
6
问题分析清楚了,解决方法也很明显了,下面提供两种解决方法
第一种:将php的版本切换回5.3版本或者比5.3更早的版本的,这个问题自然就解决了
7
第二种:给htmlspecialchars(函数)添加ENT_COMPAT ,'GB2312'
就是给php的这个函数强制设定编码格式,这样也能解决这个问题,具体对应的位置是
①:dede/article_add.php 这个php文件中查找
$title = htmlspecialchars(cn_substrR($title,$cfg_title_maxlen));
改成
$title = htmlspecialchars(cn_substrR($title,$cfg_title_maxlen),ENT_COMPAT ,'GB2312');
②:然后再找到dede/article_edit.php这个php文件中查找
$title = htmlspecialchars(cn_substrR($title,$cfg_title_maxlen));
改成
$title = htmlspecialchars(cn_substrR($title,$cfg_title_maxlen),ENT_COMPAT ,'GB2312');
③:include/ckeditor/ckeditor_php5.php 查找
htmlspecialchars($value)
改为htmlspecialchars($value, ENT_COMPAT ,'GB2312')
这样也能解决以上问题
本文采用http://jingyan.baidu.com/article/11c17a2c60027df446e39d0c.html站点信息
解决的请点赞
以上就是关于火车头采集标题相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。
推荐阅读: