【python爬虫】 python 爬取知乎的公开收藏夹

前言

看看如何用 python 爬取知乎的公开收藏夹

创新互联坚持“要么做到，要么别承诺”的工作理念，服务领域包括：成都网站设计、成都网站制作、企业官网、英文网站、手机端网站、网站推广等服务，满足客户于互联网时代的尼玛网站设计、移动媒体设计的需求，帮助企业找到有效的互联网解决方案。努力成为您成熟可靠的网络建设合作伙伴！

内容

尝试

第一个方法
开始的时候用 python ，request 库进行的网页请求，在请求你的收藏夹总界面的时候还可以返回信息，这个 url, https://www.zhihu.com/people/xxx/collections,,xxx 部分可以查看自己知乎账号那儿是长怎么样的。再进入了具体的收藏夹页面的时候 https://www.zhihu.com/collection/xx request 就返回不了内容。这应该是因为知乎这个页面是 js 动态加载的 (需要 js 逆向)，request 这个链接返回不了，你要的内容。。
第二个方法
用 selenium 模拟浏览器进行爬虫，selenium 是 python 一个用来控制浏览器的库 (pip 下载)，可以用来做关于浏览器的自动化，也可以用来爬虫。它需要搭配浏览器的驱动进行使用。火狐，chrome，edge 都有自己的驱动。火狐驱动地址，谷歌驱动地址，edge驱动地址。

selenium

登录知乎

下好库和驱动后，开始写一下，发现在用 selenium 操作浏览器打开知乎，输入密码登录时会出现错误，一个博客上写是因为 js 判断识别出来这是机器在操作，网上有一些解决方法，这里选取了用浏览器 debug 模式，新建了一个用户文件夹，每次打开浏览器直接控制这个新的浏览器。

如何新建浏览器用户文件
1. 找到浏览器 exe 文件目录，在这里进入 cmd 命令行模式。
2. 输入以下代码 chrome.exe --remote-debugging-port=9222 --user-data-dir="E:\data_info\selenium_data 。chrome. exe 就是对于浏览器的 exe 文件 (edge 就是 msedge. exe) , 9222 自己选一个端口号等下在代码中要写一下，最后那个是生成的新的用户目录自己写一个。
3. 对浏览器创建一个新的快捷方式放到桌面，然后右键属性，在目标这一栏填上 2 中的代码，点击就会打开一个新的浏览器，然后在这里先登录好知乎。

具体代码

from requests import options
from selenium import webdriver # 用来驱动浏览器的
import time
import selenium
from selenium.webdriver.edge.options import Options
from selenium.webdriver.edge.service import Service
from selenium.webdriver.common.by import By
import os
os.startfile("C:\\Users\\Administrator\\Desktop\\Microsoft Edge (1).lnk") # 打开设置好的浏览器快捷方式
options = Options() # 得到edge的设置
options.add_experimental_option("debuggerAddress", "127.0.0.1:6001") # 配置浏览器的端口地址
#options.add_experimental_option('excudeSwitches',['enable-automation'])
driver=webdriver.Edge(service =Service("D:\\BaiduNetdiskWorkspace\\Lite Code\\python脚本\\firefox_selenium\\msedgedriver.exe"),options=options) # 浏览器驱动的放置地址
time.sleep(3)
write = ""

def get_all_folder(url):
  driver.get(url)
  time.sleep(2)
  href=[]
  title = driver.find_elements(By.XPATH,'(//a[@class="SelfCollectionItem-title"])')
  for ind,i in enumerate(title):
    href.append(title[ind].get_attribute('href'))
  return href

def pythonpazhihu(url,write):
  driver.get(url)
  time.sleep(3)
  #h2 = driver.find_elements(By.CLASS_NAME,"ContentItem-title")
  title = driver.find_elements(By.XPATH,'(//h2[@class="ContentItem-title"]//a)')
  h3 = driver.find_elements(By.XPATH,'(//h2[@class="ContentItem-title"]//a[@href])')
  for ind,i in enumerate(h3):
    content = str(title[ind].text)+" , "+str(h3[ind].get_attribute('href'))
    write=write+content+"\n"
    print(title[ind].text,h3[ind].get_attribute('href'))
  #print(h3.text)
  time.sleep(2)
  return write
try:  
  url_all1 = "https://www.zhihu.com/collections/mine?page=1" # 总收藏也有两页，得到这两页每个收藏夹的具体链接
  url_all2 = "https://www.zhihu.com/collections/mine?page=2"
  href1 = get_all_folder(url_all1)
  href2 = get_all_folder(url_all2)
  href2 = href1+href2
  #print(href2)
  for url_son in href2:
    for i in range(5):
      #url = 'https://www.zhihu.com/collection/xx?page=%s'%(i+1)
      url = url_son+'?page=%s'%(i+1) # 对每个收藏夹链接进行5页的循环
      write = pythonpazhihu(url,write) # 把读到的标题和链接写到write变量中
finally:
  driver.close()
  with open("./zhihu.txt","w",encoding="utf-8") as fp:
    fp.write(write)

小结

代码思路就是，先打开浏览器快捷方式，访问总的收藏夹页面，得到每个的收藏夹链接，再访问每个具体链接获取收藏的标题和地址。
注意的，1. 浏览器驱动地址填写用的 service 的方式，这是 selenium 更新后新的写法。2. selenium 新的定位变成了 find_elements 有两个参数，By. xxx ，用来表示用什么方式定位，例如 By. xpath, 注意 xpath 内容要用 () 括起来。

网页题目：【python爬虫】 python 爬取知乎的公开收藏夹
文章地址：http://cqcxhl.cn/article/dsogcjh.html

重庆分公司，新征程启航

【python爬虫】 python 爬取知乎的公开收藏夹

前言

内容

尝试

selenium

登录知乎

具体代码

小结

其他资讯