HOME 首页
SERVICE 服务产品
XINMEITI 新媒体代运营
CASE 服务案例
NEWS 热点资讯
ABOUT 关于我们
CONTACT 联系我们
创意岭
让品牌有温度、有情感
专注品牌策划15年

    简单python爬虫完整代码(简单python爬虫完整代码可用的)

    发布时间:2023-04-15 17:31:06     稿源: 创意岭    阅读: 92        

    大家好!今天让创意岭的小编来大家介绍下关于简单python爬虫完整代码的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。

    开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

    只需要输入关键词,就能返回你想要的内容,越精准,写出的就越详细,有微信小程序端、在线网页版、PC客户端

    官网:https://ai.de1919.com

    创意岭作为行业内优秀的企业,服务客户遍布全球各地,如需了解SEO相关业务请拨打电话175-8598-2043,或添加微信:1454722008

    本文目录:

    简单python爬虫完整代码(简单python爬虫完整代码可用的)

    一、求一个python3爬虫代码,可以从小说网站上直接把小说的文字抄下来,并整合到一个新的文本里

    from bs4 import BeautifulSoup

    from requests.exceptions import RequestException

    import re

    import requests

    import os

    def get_html_text(url):

        try:

            r = requests.get(url)

            r.raise_for_status()

            return r.text

        except RequestException:

            return None

    def get_chapter_names(html):

        soup = BeautifulSoup(html, 'lxml')

        charpter = soup.select('.bg')

        charpter_names = []

        for entry in charpter[1:]:

            charpter_name = re.findall('<h4>(.*?)</h4>', str(entry))

            file_name = re.findall('<a href.*?>(.*?)</a>', str(entry))

            if charpter_name and file_name:

                for name in file_name:

                    name = name.split(' ')[0]

                    charpter_names.append(charpter_name[0] + '_' + name)

            else:

                pass

        return set(charpter_names)

    def get_each_url(html):

        soup = BeautifulSoup(html, 'lxml')

        urls = soup.select('ul li a')

        for url in urls:

            link = url.get('href')

            text = url.text.split(' ')[0]

            full_name = url.text.replace('?','')

            yield {'url': link, 'text': text,'full_name':full_name}

            print(text)

    def get_text(url):

        r = requests.get(url)

        r.encoding = r.apparent_encoding

        soup = BeautifulSoup(r.text, 'lxml')

        items = soup.select('div.content-body')

        item = re.findall(';(.*?);', items[0].text, re.S)

        return item[0].encode()

    def save_to_file(url, text, full_name):

        base_dir = 'daomu'

        path = '{}\{}\{}'.format(os.getcwd(), base_dir, text)

        if not os.path.exists(path):

            try:

                os.makedirs(path)

            except:

                pass

        try:

            with open(path +'\'+ full_name +'.txt', 'wb') as f:

                f.write(get_text(url))

        except:

            pass

    def main():

        url = 'http://seputu.com/'

        html = get_html_text(url)

        chapters = get_chapter_names(html)

        for chapter in chapters:

            for each in get_each_url(html):

                if each['text'] == chapter.split('_')[-1]:

                    save_to_file(each['url'],chapter,each['full_name'])

    if __name__ == '__main__':

        main()

    二、如何利用python写爬虫程序

    利用python写爬虫程序的方法:

    1、先分析网站内容,红色部分即是网站文章内容div。

    简单python爬虫完整代码(简单python爬虫完整代码可用的)

    2、随便打开一个div来看,可以看到,蓝色部分除了一个文章标题以外没有什么有用的信息,而注意红色部分我勾画出的地方,可以知道,它是指向文章的地址的超链接,那么爬虫只要捕捉到这个地址就可以了。

    简单python爬虫完整代码(简单python爬虫完整代码可用的)

    3、接下来在一个问题就是翻页问题,可以看到,这和大多数网站不同,底部没有页数标签,而是查看更多。

    简单python爬虫完整代码(简单python爬虫完整代码可用的)

    4、不过在查看源文件时有一个超链接,经测试它指向下一页,那么通过改变其最后的数值,就可以定位到相应的页数上。

    简单python爬虫完整代码(简单python爬虫完整代码可用的)

    代码如下:

    简单python爬虫完整代码(简单python爬虫完整代码可用的)

    简单python爬虫完整代码(简单python爬虫完整代码可用的)

    简单python爬虫完整代码(简单python爬虫完整代码可用的)

    三、python爬虫入门教程

    工具/材料

    IELD(python 3.6.2),windows 7

    • 01

      首先打开IDLE,输入import requests模块,如果没有报错,就说明已经安装了这个模块,请跳过此步骤;如果报错,先打开命令行,win+r,弹出运行窗口,然后输入cmd,点击确定即可。

    • 02

      然后输入pip3 install requests 安装模块即可

    • 03

      然后在IDLE窗口中输入如下图所示的命令

    • 04

      在浏览器中输入https://zhinan.sogou.com/,就可以打开网页,这时点击鼠标右键,然后点击查看网页源代码,就可以发现,打印的结果和在浏览器中看到的源代码是一样的

    四、如何入门 python 爬虫

    如何入门 python 爬虫

    先自己答一个,期待牛人的回答。

    自己学Python不久,列举自己做过的和知道的。

    1. Python做爬虫很方便,有现成的库。 我在学习python的过程中也遇到过一个非常简单的例子,代码:python/primer/20/Cralwer.py at master · xxg1413/python · GitHub 。好像有开源的项目叫什么supercrawler,具体可以看看。

    2.Python做游戏。Pygame还是不错的,但只适合做小游戏。用Pygame写个植物大战僵尸还是可以的。推荐教程 用Python和Pygame写游戏。Python在游戏服务器方面也有应用。EVE这种游戏都大量用Python。

    3.Python作为黑客第一语言,在黑客领域的应用就不多说了。

    4.Python做网站,有几个web框架 WebFrameworks。 用得最多的是Django。

    5......各方面都有,什么推荐系统,都是用python,在此就不一一列举了。

    以上就是关于简单python爬虫完整代码相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。


    推荐阅读:

    二手房简单改造(二手房简单改造翻修)

    一键生成app制作器(简单app制作软件)_1

    企业形象墙展示墙(简单大气公司形象墙)

    碧桂园景观设计(碧桂园景观设计师待遇)

    张家湾镇景观设计(张家湾镇景观设计招标)