正文

简单python爬虫完整代码（简单python爬虫完整代码可用的）

发布时间：2023-04-15 17:31:06 稿源：创意岭阅读： 92

大家好！今天让创意岭的小编来大家介绍下关于简单python爬虫完整代码的问题，以下是小编对此问题的归纳整理，让我们一起来看看吧。

开始之前先推荐一个非常厉害的Ai人工智能工具，一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

只需要输入关键词，就能返回你想要的内容，越精准，写出的就越详细，有微信小程序端、在线网页版、PC客户端

官网：https://ai.de1919.com。

创意岭作为行业内优秀的企业，服务客户遍布全球各地，如需了解SEO相关业务请拨打电话175-8598-2043，或添加微信：1454722008

本文目录:

1、求一个python3爬虫代码，可以从小说网站上直接把小说的文字抄下来，并整合到一个新的文本里
2、如何利用python写爬虫程序
3、python爬虫入门教程
4、如何入门 python 爬虫

简单python爬虫完整代码（简单python爬虫完整代码可用的）

一、求一个python3爬虫代码，可以从小说网站上直接把小说的文字抄下来，并整合到一个新的文本里

from bs4 import BeautifulSoup
from requests.exceptions import RequestException
import re
import requests
import os
def get_html_text(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        return r.text
    except RequestException:
        return None
def get_chapter_names(html):
    soup = BeautifulSoup(html, 'lxml')
    charpter = soup.select('.bg')
    charpter_names = []
    for entry in charpter[1:]:
        charpter_name = re.findall('<h4>(.*?)</h4>', str(entry))
        file_name = re.findall('<a href.*?>(.*?)</a>', str(entry))
        if charpter_name and file_name:
            for name in file_name:
                name = name.split(' ')[0]
                charpter_names.append(charpter_name[0] + '_' + name)
        else:
            pass
    return set(charpter_names)
def get_each_url(html):
    soup = BeautifulSoup(html, 'lxml')
    urls = soup.select('ul li a')
    for url in urls:
        link = url.get('href')
        text = url.text.split(' ')[0]
        full_name = url.text.replace('?','')
        yield {'url': link, 'text': text,'full_name':full_name}
        print(text)
def get_text(url):
    r = requests.get(url)
    r.encoding = r.apparent_encoding
    soup = BeautifulSoup(r.text, 'lxml')
    items = soup.select('div.content-body')
    item = re.findall(';(.*?);', items[0].text, re.S)
    return item[0].encode()
def save_to_file(url, text, full_name):
    base_dir = 'daomu'
    path = '{}\{}\{}'.format(os.getcwd(), base_dir, text)
    if not os.path.exists(path):
        try:
            os.makedirs(path)
        except:
            pass
    try:
        with open(path +'\'+ full_name +'.txt', 'wb') as f:
            f.write(get_text(url))
    except:
        pass
def main():
    url = 'http://seputu.com/'
    html = get_html_text(url)
    chapters = get_chapter_names(html)
    for chapter in chapters:
        for each in get_each_url(html):
            if each['text'] == chapter.split('_')[-1]:
                save_to_file(each['url'],chapter,each['full_name'])
if __name__ == '__main__':
    main()

二、如何利用python写爬虫程序

利用python写爬虫程序的方法：

1、先分析网站内容，红色部分即是网站文章内容div。

简单python爬虫完整代码（简单python爬虫完整代码可用的）

2、随便打开一个div来看，可以看到，蓝色部分除了一个文章标题以外没有什么有用的信息，而注意红色部分我勾画出的地方，可以知道，它是指向文章的地址的超链接，那么爬虫只要捕捉到这个地址就可以了。

简单python爬虫完整代码（简单python爬虫完整代码可用的）

3、接下来在一个问题就是翻页问题，可以看到，这和大多数网站不同，底部没有页数标签，而是查看更多。

简单python爬虫完整代码（简单python爬虫完整代码可用的）

4、不过在查看源文件时有一个超链接，经测试它指向下一页，那么通过改变其最后的数值，就可以定位到相应的页数上。

简单python爬虫完整代码（简单python爬虫完整代码可用的）

代码如下：

简单python爬虫完整代码（简单python爬虫完整代码可用的）

三、python爬虫入门教程

工具/材料

IELD(python 3.6.2)，windows 7

01
首先打开IDLE,输入import requests模块，如果没有报错，就说明已经安装了这个模块，请跳过此步骤；如果报错，先打开命令行，win+r，弹出运行窗口，然后输入cmd，点击确定即可。
02
然后输入pip3 install requests 安装模块即可
03
然后在IDLE窗口中输入如下图所示的命令
04
在浏览器中输入https://zhinan.sogou.com/，就可以打开网页，这时点击鼠标右键，然后点击查看网页源代码，就可以发现，打印的结果和在浏览器中看到的源代码是一样的

四、如何入门 python 爬虫

如何入门 python 爬虫

先自己答一个，期待牛人的回答。

自己学Python不久，列举自己做过的和知道的。

1. Python做爬虫很方便，有现成的库。我在学习python的过程中也遇到过一个非常简单的例子，代码：python/primer/20/Cralwer.py at master · xxg1413/python · GitHub 。好像有开源的项目叫什么supercrawler，具体可以看看。

2.Python做游戏。Pygame还是不错的，但只适合做小游戏。用Pygame写个植物大战僵尸还是可以的。推荐教程用Python和Pygame写游戏。Python在游戏服务器方面也有应用。EVE这种游戏都大量用Python。

3.Python作为黑客第一语言，在黑客领域的应用就不多说了。

4.Python做网站，有几个web框架 WebFrameworks。用得最多的是Django。

5......各方面都有，什么推荐系统，都是用python，在此就不一一列举了。

以上就是关于简单python爬虫完整代码相关问题的回答。希望能帮到你，如有更多相关问题，您也可以联系我们的客服进行咨询，客服也会为您讲解更多精彩的知识和内容。