Python爬取发表情站表情包

开发编程
来源：52破解
21年11月24日
编辑

桃知X官方

一、爬取页面： https://fabiaoqing.com

二、能学到了什么（专业非Python：有错误请指正，看到会及时调整修改，还是比较适用于入门爬虫，基本上不是前后端分离的都可以使用）

爬取 HTML 页面
使用 XPath 语法解析页面
asyncio 进行同步调用，防止爬取过快
保存图片到文件夹
简单的正则表达式，剔除 windows 不运行出现的字符
定时器 time.sleep 延时
etree 解析页面，基本上爬取页面都能这样用
错误处理：错误重试，多次错误则跳过
tqdm 进度条显示（用法在百度上面有很多 https://blog.csdn.net/qq_33472765/article/details/82940843）

# -*- coding: utf-8 -*-
# [url=home.php?mod=space&uid=238618]@Time[/url] : 2021/11/23 10:39
# [url=home.php?mod=space&uid=686208]@AuThor[/url] : Melon
# [url=home.php?mod=space&uid=406162]@site[/url] : 
# [url=home.php?mod=space&uid=786562]@note[/url] : 
# [url=home.php?mod=space&uid=267492]@file[/url] : Test.py
# @Software: PyCharm
import asyncio
import os
import re
import time
 
import requests
from lxml import etree
from tqdm import tqdm
 
# 错误次数
err_num = 0
 
 
async def saveImg(image_url, file_name):
    global err_num
    # Windows 保存文件时不能出现这些字符，全部替换成_
    file_name = re.sub(r'[\\/:*?"<>|\r\n]+', "_", file_name)
    try:
        # 文件夹名称
        dir_name = '表情包'
        # 没有文件夹 就 创建文件夹
        if not os.path.exists(dir_name):
            os.mkdir(dir_name)
        # 加延迟防止过快
        time.sleep(0.5)
        result = requests.get(image_url)
        # 保存图片
        with open(dir_name + "/" + file_name, "wb") as f:
            f.write(result.content)
    except Exception as e:
        # 异常：1.打印错误信息 2.延迟 3S 后重新调用 3.错误超过3次则跳过
        err_num += 1
        print("\nError Total %s Sleep 3 saveImg：%s Message: %s" % (err_num, image_url, e))
        if err_num == 3:
            pass
        else:
            time.sleep(3)
            await saveImg(image_url, file_name)
 
 
async def get_img(start_page, end_page):
    for i in range(start_page, end_page):
        url = "https://fabiaoqing.com/biaoqing/lists/page/{}.html".format(i)
        get = requests.get(url=url)
        # xpath解析
        html = etree.HTML(get.content)
        divs = html.xpath("//div[@class='tagbqppdiv']")
        # 设置进度条
        pbar = tqdm(total=len(divs))
        # 设置进度条前面的文字
        pbar.set_description("Processing 第%s页" % i)
        for div in divs:
            # 设置进度条后面的文字
            pbar.set_postfix_str(div.xpath("./a/img/@title")[0])
            # 保存图片
            await saveImg(div.xpath("./a/img/@data-original")[0], div.xpath("./a/img/@title")[0] + '.png')
            # print('\n' + div.xpath("./a/img/@title")[0], div.xpath("./a/img/@data-original")[0])
            # time.sleep(0.5)
            # 更新进度条
            pbar.update(1)
        # 关闭进度条
        pbar.close()
 
 
if __name__ == '__main__':
    # 1. 创建一个事件循环
    loop = asyncio.get_event_loop()
    tasks = [
        loop.create_task(get_img(1, 3)),
    ]
    # 3. 执行事件队列
    loop.run_until_complete(asyncio.wait(tasks))
    loop.close()

ModuleNotFoundError: No module named ‘xxxx’

如果遇到类型需要安装模块时，请先安装模块

pip install  <模块名>   //如：pip install tqdm

声明：本站大部分下载资源收集于网络，只做学习和交流使用，版权归原作者所有，未及时购买和付费发生的侵权行为，与本站无关。

{{userData.name}}已认证

Python爬取发表情站表情包

PHP基金会宣布成立、也许并不是什么坏事

【实战】Python股票量化交易从入门到实践

初夏女神 NO.001 依依~校服搭配37码运动鞋拍摄

初夏女神 NO.002 雪糕法式复古连衣裙搭36码白皮鞋

初夏女神 NO.003 依依黑色瘦身衣搭配37码高跟鞋

初夏女神 NO.004 邻家女孩校园生活篇-肉丝帆布鞋

[Mzsock]爱美足 No.201 茜茜

[Mzsock]爱美足 No.199 圆子

[YITUYU艺图语] 银杏青霜鹅

[YITUYU艺图语] 银杏木景抒

[YITUYU艺图语] 夏末歌谣倩儿

[YITUYU艺图语] 少女心事 rosie

[YITUYU艺图语] 苗疆少女阿瑶

[棉袜踩踏]XiuRen秀人网 No.7398 周于希Sally情趣服写真

模特玥儿玥er No.7102 脱西服性感红色情趣服+黑丝吊袜写真

[XIAOYU语画界]VOL.732 梦心玥制服诱惑

玉足控美脚舞蹈生日记 105 幻影

[女王小时候的脚奴] VOL.853 XIAOYU语画界波巧酱护士服丝袜

优惠活动

桃知优选

法律声明

在线工单

设计有偶 | 想做网络营销要怎么做？

物恋传媒 No.1547 菜菜-绿野仙踪

【负载均衡】LVS集群工作模式与算法介绍

[舔足vk]XiuRen秀人网 No.7560 浅浅Danny短裙配超薄肉丝写真

{{userData.name}}已认证

PHP基金会宣布成立、也许并不是什么坏事

【实战】Python股票量化交易从入门到实践

Python爬虫、游戏和机器学习从入门到实战开发项目案例

解决阿里云CentOS 7使用yum无法安装htop等工具

PHP基金会宣布成立、也许并不是什么坏事

初夏女神 NO.001 依依~校服搭配37码运动鞋拍摄

初夏女神 NO.002 雪糕 法式复古连衣裙搭36码白皮鞋

初夏女神 NO.003 依依 黑色瘦身衣搭配37码高跟鞋

初夏女神 NO.004 邻家女孩校园生活篇-肉丝帆布鞋

[Mzsock]爱美足 No.201 茜茜

[Mzsock]爱美足 No.199 圆子

[YITUYU艺图语] 银杏 青霜鹅

[YITUYU艺图语] 银杏 木景抒

[YITUYU艺图语] 夏末歌谣 倩儿

[YITUYU艺图语] 少女心事 rosie

[YITUYU艺图语] 苗疆少女 阿瑶

优惠活动

桃知优选

法律声明

在线工单

设计有偶 | 想做网络营销要怎么做？

物恋传媒 No.1547 菜菜-绿野仙踪

【负载均衡】LVS集群工作模式与算法介绍

[舔足vk]XiuRen秀人网 No.7560 浅浅Danny短裙配超薄肉丝写真

初夏女神 NO.002 雪糕法式复古连衣裙搭36码白皮鞋

初夏女神 NO.003 依依黑色瘦身衣搭配37码高跟鞋

[YITUYU艺图语] 银杏青霜鹅

[YITUYU艺图语] 银杏木景抒

[YITUYU艺图语] 夏末歌谣倩儿

[YITUYU艺图语] 苗疆少女阿瑶