重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
本篇内容介绍了“用python爬虫爬取表情包”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
创新互联公司专注于商水企业网站建设,自适应网站建设,商城网站建设。商水网站建设公司,为商水等地区提供建站服务。全流程按需网站建设,专业设计,全程项目跟踪,创新互联公司专业和态度为您提供的服务
import requests import os from bs4 import BeautifulSoup
还需要有一个 lxml库 但不需要导入 BeautifulSoup 在 beautifulsoup4 的包下
if not os.path.isdir("./img/"): #如果当前目录下没有img文件夹 os.mkdir("./img/") #创建img文件夹
headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0' }
那么为什么要创建请求头呢,因为在网站访问的过程中,有大部分网站会对当前请求做验证,来判断当前的请求是否合法(不是使用浏览器来获取网站数据的话会被认为非法请求)。如果不添加请求头的话,可能会出现当前网站没有访问权限。
提示:请求头的内容可用Burpsuite来抓取
def pa(num): url = 'https://fabiaoqing.com/biaoqing/lists/page/'+str(num)+'.html' #构造url rp = requests.get(url,headers).text #请求url 用文本返回 soup = BeautifulSoup(rp,'lxml') #构建soup img_list = soup.find_all('img',class_='ui image lazy') #筛选所有img标签 条件为class=xxx for img in img_list: img_url = img['data-original'] #获取这个属性的内容 img_title = img['title'] print(img_url,img_title) try: with open('img/'+img_title + os.path.splitext(img_url)[-1],'wb') as f: #图片文件 image = requests.get(img_url).content #请求img_url 以二进制返回 f.write(image) except: pass
for i in range(1,201): #网站有多少页就设置多少 pa(i) # 将每一页的图片都抓下来
import requests #请求模块 import os from bs4 import BeautifulSoup #抓取网站内容 if not os.path.isdir("./img/"): os.mkdir("./img/") headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0'} #创造头 def pa(num): url = 'https://fabiaoqing.com/biaoqing/lists/page/'+str(num)+'.html' #构造url rp = requests.get(url,headers).text #请求url 用文本返回 soup = BeautifulSoup(rp,'lxml') #构建soup img_list = soup.find_all('img',class_='ui image lazy') #筛选所有img标签 条件为class=xxx for img in img_list: img_url = img['data-original'] #获取这个属性的内容 img_title = img['title'] print(img_url,img_title) try: with open('img/'+img_title + os.path.splitext(img_url)[-1],'wb') as f: image = requests.get(img_url).content #请求img_url 以二进制返回 f.write(image) except: pass for i in range(1,201): pa(i)
“用python爬虫爬取表情包”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注创新互联网站,小编将为大家输出更多高质量的实用文章!