重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
这期内容当中小编将会给大家带来有关Python如何搭建爬虫程序,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。
成都创新互联公司专注于株洲企业网站建设,自适应网站建设,商城网站开发。株洲网站建设公司,为株洲等地区提供建站服务。全流程按需求定制网站,专业设计,全程项目跟踪,成都创新互联公司专业和态度为您提供的服务
开发工具
Python版本:3.6.4
相关模块:
scrapy模块;
pyecharts==1.5.1模块;
wordcloud模块;
jieba模块;
以及一些python自带的模块。
安装Python并添加到环境变量,pip安装需要的相关模块即可。
先随手推一波自己开源的利用requests进行模拟登录的库:
https://github.com/CharlesPikachu/DecryptLogin
目前该库支持模拟登录的网站包括:
1\. 微博
后续会不断添加和完善该库的功能以及该库相关的一些小应用。当然,今天是用不上了,因为我发现他喵的知乎的粉丝数据竟然一直是一个裸的API,即使是改版之后,也不需要验证什么登录后的cookies之类的东西直接就能抓取到了。
言归正传,简单说说这个数据怎么抓取吧,其实很简单,F12打开开发者工具,刷新一下关注者页面,就可以发现:
请求这个接口直接就能返回目标用户的粉丝数据了,接口的组成形式为:
https://www.zhihu.com/api/v4/members/{用户域名}/followers?
没有什么特别需要注意的地方,不用怀疑,就是这么简单,scrapy新建一个项目爬就完事了:
scrapy startproject zhihuFansSpider
定义一下items:
class ZhihufansspiderItem(scrapy.Item):
然后新建并写一个爬虫主程序就OK啦:
'''知乎粉丝小爬虫'''
运行以下命令开始爬取目标用户的粉丝数据:
scrapy crawl zhihuFansSpider -o followers_info.json -t json
数据可视化
老规矩,可视化一下爬到数据呗(这里就以我自己知乎账号的关注者数据为例好了T_T)。
先画个粉丝主页标题的词云压压惊?
![/upload/otherpic68/2539976-ada286149ecb2285%7CimageView2/2/w/1240)
上述就是小编为大家分享的Python如何搭建爬虫程序了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注创新互联行业资讯频道。