重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
这篇文章主要介绍python爬虫为什么会获取知乎内容失败,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!
成都创新互联服务项目包括岚山网站建设、岚山网站制作、岚山网页制作以及岚山网络营销策划等。多年来,我们专注于互联网行业,利用自身积累的技术优势、行业经验、深度合作伙伴关系等,向广大中小型企业、政府机构等提供互联网行业的解决方案,岚山网站推广取得了明显的社会效益与经济效益。目前,我们服务的客户以成都为中心已经辐射到岚山省份的部分城市,未来相信会继续扩大服务区域并继续获得客户的支持与信任!问题:已经进行模拟登入后,在获取首页信息时还是获取到了注册登入页面的,是根本没有登入上还是什么情况?
解决:
关于取不到内容的原因,应该就是登录需要验证码的问题。
代码:
_Zhihu_URL = 'http://www.zhihu.com' _Login_URL = _Zhihu_URL + '/login' _Captcha_URL_Prefix = _Zhihu_URL + '/captcha.gif?r=' _Cookies_File_Name = 'cookies.json' _session = None _header = {'X-Requested-With': 'XMLHttpRequest', 'Referer': 'http://www.zhihu.com', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; ' 'Trident/7.0; Touch; LCJB; rv:11.0)' ' like Gecko', 'Host': 'www.zhihu.com'} def get_captcha_url(): """获取验证码网址 :return: 验证码网址 :rtype: str """ return _Captcha_URL_Prefix + str(int(time.time() * 1000)) def _save_captcha(url): global _session r = _session.get(url) with open('code.gif', 'wb') as f: f.write(r.content) def login(email='', password='', captcha='', savecookies=True): """不使用cookies.json,手动登陆知乎 :param str email: 邮箱 :param str password: 密码 :param str captcha: 验证码 :param bool savecookies: 是否要储存cookies文件 :return: 一个二元素元祖 , 第一个元素代表是否成功(0表示成功), 如果未成功则第二个元素表示失败原因 :rtype: (int, dict) """ global _session global _header data = {'email': email, 'password': password, 'rememberme': 'y', 'captcha': captcha} r = _session.post(_Login_URL, data=data) j = r.json() c = int(j['r']) m = j['msg'] if c == 0 and savecookies is True: with open(_Cookies_File_Name, 'w') as f: json.dump(_session.cookies.get_dict(), f) return c, m def create_cookies(): """创建cookies文件, 请跟随提示操作 :return: None :rtype: None """ if os.path.isfile(_Cookies_File_Name) is False: email = input('email: ') password = input('password: ') url = get_captcha_url() _save_captcha(url) print('please check code.gif for captcha') captcha = input('captcha: ') code, msg = login(email, password, captcha) if code == 0: print('cookies file created!') else: print(msg) os.remove('code.gif') else: print('Please delete [' + _Cookies_File_Name + '] first.') def _init(): global _session if _session is None: _session = requests.session() _session.headers.update(_header) if os.path.isfile(_Cookies_File_Name): with open(_Cookies_File_Name, 'r') as f: cookies_dict = json.load(f) _session.cookies.update(cookies_dict) else: print('no cookies file, this may make something wrong.') print('if you will run create_cookies or login next, ' 'please ignore me.') _session.post(_Login_URL, data={}) else: raise Exception('call init func two times') _init()
以上是python爬虫为什么会获取知乎内容失败的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注创新互联行业资讯频道!