正文

关键词每半小时抓取（关键词时长）

发布时间：2023-03-21 02:43:20 稿源：创意岭阅读： 733 问大家

大家好！今天让创意岭的小编来大家介绍下关于关键词每半小时抓取的问题，以下是小编对此问题的归纳整理，让我们一起来看看吧。

开始之前先推荐一个非常厉害的Ai人工智能工具，一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

只需要输入关键词，就能返回你想要的内容，越精准，写出的就越详细，有微信小程序端、在线网页版、PC客户端

官网：https://ai.de1919.com

本文目录:

1、如何使用python根据关键词抓取微博
2、如果在excel中的一列抓取关键字汇总
3、网站关键词出现的频率是怎么计算的?
4、微博爬虫系列之关键词及指定用户博文爬取

关键词每半小时抓取（关键词时长）

一、如何使用python根据关键词抓取微博

基本的套路就是利用微博账号模拟登陆，这个过程比较复杂，因为微博有加密处理，推荐去github下载一个python模拟登陆新浪的源码。

当你通过模拟登陆进入微博界面的时候，尝试如何用python的模块去提交query,然后通过beautifulsoup或者是httpparse来获取内容信息。当然，自己学习正则表达式来获取也是可以的。

二、如果在excel中的一列抓取关键字汇总

就是求B列出现江苏或上海的个数吧，如果是，假设数据在B2：B10，公式可为

=SUM(COUNTIF(B2:B10,{"江苏*","上海*"}))

如果对应的A列有重名，要去重，或其它算法，请再说明。

三、网站关键词出现的频率是怎么计算的?

我可以很负责任的告诉你，关键词密度不是最佳答案所说的！

关键词密度是关键词/页面所有词语是词语不是字数！

仔细想一下也可以知道了比如关键词长度为3个字出现5次页面只有这5个相同的关键词页面所有字3*5=15 关键词出现5词那频率就是 5/15=33%了？但事实是100% 最佳答案那个是错误的！

四、微博爬虫系列之关键词及指定用户博文爬取

近期的一些微博爬虫内容，本篇主要将怎么根据关键词或指定用户进行博文爬取。

准备写的内容：

定向词及指定用户博文爬取方面，用的是微博网页版（ https://weibo.cn ）。对于微博网页版中相关博文的爬取，需要使用到 cookies 。这方面的爬取参考了github上的资源：

写的时候发现网页版的关键词检索接口已经不见了···可能是微博删除了网页版的接口吧···之后再看看怎么在pc端爬取。

这里先介绍怎么指定用户进行博文爬取吧···

指定用户的时候，需要有用户的用户id。通常用户id是一串数字，也有一些账号更改后是字符串，举个例子，何同学跟央视新闻的微博：

在这里何同学的 uid = 6529876887 ，央视新闻的 uid = cctvxinwen 。当然也可以获取到央视新闻以数字存储的id，之后再讲怎么获取，这里直接放出来就是 uid = 2656274875 ，点击可以发现确实是央视新闻的微博 https://weibo.cn/2656274875

这个问题在爬取用户博文方面没有影响，不过在爬取用户信息时会有影响，后面写用户信息爬取再说这个情况怎么解决。

下面以央视新闻为例看看怎么爬用户的博文。

点击进入央视新闻的微博，可以看到这个账号发布了很多很多微博，在网页版观看就会显示很多页，那么要爬取的时候就要先获取他的页数。

当点击第二页时，会发现 url 会变成 https://weibo.cn/cctvxinwen?page=2 。也就是说这个翻页是以 page 这个字段进行翻页的，这就好办很多了。

将 page 改成 1 可以发现网页跳转到所有博文的第1页，接下来那我们就先获取到所有的页面url。

首先进入 https://weibo.cn/cctvxinwen?page=1 ，打开开发者模式，在文件中找到自己的 cookies 。

在网页开发者模式下，点开文件可以发现没有json格式的数据输出。因此这里不能直接通过解析json数据获取到页面数据。

这里就需要查看网页返回的文本信息了。这里再定位具体信息时，我用的是 lxml 库里的 etree 方法。

这里要查看具体要定位到哪里，可以在网页上的源码进行定位，比如我们要定位到页数，找到页数所在的地方：

拿到用户的所有博文网页后，就可以进行博文的爬取了。这里每一页的数据是一样的，所以直接用第一页为例就可以了。同样的将页面数据爬下来：

还是在网页上看，定位到某一条博文，可以看到源码是这样子的：

可以看到第1页这里展示了11条博文（这个不一定），每条博文放在 div class="c" id="" 的控件里，这里的id是对应的博文id，于是我们就可以拿到博文的控件：