HOME 首页
SERVICE 服务产品
XINMEITI 新媒体代运营
CASE 服务案例
NEWS 热点资讯
ABOUT 关于我们
CONTACT 联系我们
创意岭
让品牌有温度、有情感
专注品牌策划15年

    关键词每半小时抓取(关键词时长)

    发布时间:2023-03-21 02:43:20     稿源: 创意岭    阅读: 733        问大家

    大家好!今天让创意岭的小编来大家介绍下关于关键词每半小时抓取的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。

    开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

    只需要输入关键词,就能返回你想要的内容,越精准,写出的就越详细,有微信小程序端、在线网页版、PC客户端

    官网:https://ai.de1919.com

    本文目录:

    关键词每半小时抓取(关键词时长)

    一、如何使用python根据关键词抓取微博

    基本的套路就是利用微博账号模拟登陆,这个过程比较复杂,因为微博有加密处理,推荐去github下载一个python模拟登陆新浪的源码。

    当你通过模拟登陆进入微博界面的时候,尝试如何用python的模块去提交query,然后通过beautifulsoup或者是httpparse来获取内容信息。当然,自己学习正则表达式来获取也是可以的。

    二、如果在excel中的一列抓取关键字汇总

    就是求B列出现江苏或上海的个数吧,如果是,假设数据在B2:B10,公式可为

    =SUM(COUNTIF(B2:B10,{"江苏*","上海*"}))

    如果对应的A列有重名,要去重,或其它算法,请再说明。

    三、网站关键词出现的频率是怎么计算的?

    我可以很负责任的告诉你,关键词密度不是最佳答案所说的!

    关键词密度是 关键词/页面所有词语 是词语 不是字数!

    仔细想一下也可以知道了 比如关键词长度为3个字 出现5次 页面只有这5个相同的关键词 页面所有字3*5=15 关键词出现5词 那频率就是 5/15=33%了? 但事实是100% 最佳答案那个是错误的!

    四、微博爬虫系列之关键词及指定用户博文爬取

    近期的一些微博爬虫内容,本篇主要将怎么根据关键词或指定用户进行博文爬取。

    准备写的内容:

    定向词及指定用户博文爬取方面,用的是微博网页版( https://weibo.cn )。对于微博网页版中相关博文的爬取,需要使用到 cookies 。这方面的爬取参考了github上的资源:

    写的时候发现网页版的关键词检索接口已经不见了···可能是微博删除了网页版的接口吧···之后再看看怎么在pc端爬取。

    这里先介绍怎么指定用户进行博文爬取吧···

    指定用户的时候,需要有用户的用户id。通常用户id是一串数字,也有一些账号更改后是字符串,举个例子,何同学跟央视新闻的微博:

    在这里何同学的 uid = 6529876887 ,央视新闻的 uid = cctvxinwen 。当然也可以获取到央视新闻以数字存储的id,之后再讲怎么获取,这里直接放出来就是 uid = 2656274875 ,点击可以发现确实是央视新闻的微博 https://weibo.cn/2656274875

    这个问题在爬取用户博文方面没有影响,不过在爬取用户信息时会有影响,后面写用户信息爬取再说这个情况怎么解决。

    下面以央视新闻为例看看怎么爬用户的博文。

    点击进入 央视新闻 的微博,可以看到这个账号发布了很多很多微博,在网页版观看就会显示很多页,那么要爬取的时候就要先获取他的页数。

    当点击第二页时,会发现 url 会变成 https://weibo.cn/cctvxinwen?page=2 。也就是说这个翻页是以 page 这个字段进行翻页的,这就好办很多了。

    将 page 改成 1 可以发现网页跳转到所有博文的第1页,接下来那我们就先获取到所有的页面url。

    首先进入 https://weibo.cn/cctvxinwen?page=1 ,打开开发者模式,在文件中找到自己的 cookies 。

    在网页开发者模式下,点开文件可以发现没有json格式的数据输出。因此这里不能直接通过解析json数据获取到页面数据。

    这里就需要查看网页返回的文本信息了。这里再定位具体信息时,我用的是 lxml 库里的 etree 方法。

    这里要查看具体要定位到哪里,可以在网页上的源码进行定位,比如我们要定位到页数,找到页数所在的地方:

    拿到用户的所有博文网页后,就可以进行博文的爬取了。这里每一页的数据是一样的,所以直接用第一页为例就可以了。同样的将页面数据爬下来:

    还是在网页上看,定位到某一条博文,可以看到源码是这样子的:

    可以看到第1页这里展示了11条博文(这个不一定),每条博文放在 div class="c" id="" 的控件里,这里的id是对应的博文id,于是我们就可以拿到博文的控件:

    选择其中一个博文来看

    这里我们可以看到要的信息全在这里了,接着就按着控件抓信息。这里拿其中一个节点为例。

    首先获取微博的url以及微博id,这个从上面看到,可以从点赞、转发、评论处的链接获取,这里选择最简单的转发链接,对应的点赞数、转发数、评论数也可以顺便爬下来了:

    接下来看下微博的创建时间,这里我们看到还有微博的来源,有一些可能会没有这个信息:

    接下来就是博文的主体了:

    博文方面的内容提取基本就是从github上搬过来的,对内容部分字符串进行了一些匹配清洗:

    上面是比较简单的博文情况,有一些可能有图片、视频、转发等情况,这里直接放GitHub的做法,具体爬取方式是一样的,定位控件,找信息:

    到这里,指定用户的博文爬取就结束了,主要还是参考了GitHub的大神~

    以上就是关于关键词每半小时抓取相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。


    推荐阅读:

    文本关键词抓取工具(文本关键词抓取工具有哪些)

    小说关键词生成器(小说关键词生成器app)

    关键词文章生成器(关键词 生成)

    硬派越野车排行榜

    您的商品不符合类目准入要求(您的商品不符合类目准入要求 极速退)