重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
小编给大家分享一下Python如何爬取链家网二手房数据,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!
定制制作可以根据自己的需求进行定制,成都网站建设、成都做网站构思过程中功能建设理应排到主要部位公司成都网站建设、成都做网站的运用实际效果公司网站制作网站建立与制做的实际意义
本文的文字及图片来源于网络,仅供学习、交流使用
爬取链家网二手房信息
地址
https://cs.lianjia.com/ershoufang/pg%7B%7D/
python 3.6
pycharm
导入工具
import requests import parsel import time
请求网页,爬取数据
for page in range(1, 101): print('===========================正在下载第{}页数据================================'.format(page)) time.sleep(1) url = 'https://cs.lianjia.com/ershoufang/pg{}/'.format(page) headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36' } response = requests.get(url=url, headers=headers) selector = parsel.Selector(response.text) lis = selector.css('.sellListContent li') dit = {} for li in lis: title = li.css('.title a::text').get() dit['标题'] = title positionInfo = li.css('.positionInfo a::text').getall() info = '-'.join(positionInfo) dit['开发商'] = info houseInfo = li.css('.houseInfo::text').get() dit['房子信息'] = houseInfo followInfo = li.css('.followInfo::text').get() dit['发布周期'] = followInfo Price = li.css('.totalPrice span::text').get() dit['售价/万'] = Price unitPrice = li.css('.unitPrice span::text').get() dit['单价'] = unitPrice csv_writer.writerow(dit) print(dit)
保存数据
import csv f = open('二手房信息.csv', mode='a', encoding='utf-8-sig', newline='') csv_writer = csv.DictWriter(f, fieldnames=['标题', '开发商', '房子信息', '发布周期', '售价/万', '单价']) csv_writer.writeheader()
运行代码,效果如下
以上是“Python如何爬取链家网二手房数据”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注创新互联行业资讯频道!