Python多进程爬取上海房价数据并画热力图

一、分析目的 1.探索上海市的房价区域分布 2.看看购房者都喜欢购买哪里的房子 二、数据采集 采集我爱我家上海区域的一万两千个小区的数据,采集的字段有小区、位置、最近30条成交套数、在售、在租、成交均价、成交总价、小区详细介绍等数据。直接上代码: import requests,codecs import pymongo,time from lxml import html from multiprocessing import Pool def get_content(j): print('正在爬取第{}页,还剩{}页'.format(j,561-j)) url='https://sh.5i5j.com/xiaoqu/n{}/_?zn='.format(j)...
Click to read more ...

Python分析微信朋友圈

最近看了wxpy这个包,感觉还不错,分析一下微信的好友。 分析的目的: 1.看看好友的性别占比、地域分布 2.分析好友的个性签名 3.对好友的签名进行情感分析 环境:python 3.6 需要的包wxpy、jieba、snownlp、scipy、wordcloud 过程如下: 先导入需要的所有包。利用wxpy的bot()接口,可以获得好友、公众号、群聊等属性,可以完成大部分web端微信的操作,比如自己跟自己聊天,添加好友等。 from wxpy import * from snownlp import SnowNLP,sentiment import re,jieba from scipy.misc ...
Click to read more ...

Python爬取前程无忧和拉勾数据分析岗位并分析

一、明确需求 分析数据分析岗位的招聘情况,包括地区分布、薪资水平、职位要求等,了解最新数据分析岗位的情况。 环境:python 3.6 设计的工具:Tableau工具、pandas 二、数据采集 首先编写爬虫,这里主要是爬取前程无忧和拉勾网,直接上前程无忧的代码: 关于前程无忧爬虫代码,网上有很多教程,不过大部分只取了地区、职位、工资和日期这几个字段, 没有涉及到岗位要求和岗位职责,因为要了解职位的需求以及后面方便画词云,我就自己写了一个代码。 说一下拉勾和前程无忧两者的区别,前程无忧爬了2000页,不过大概只有前24页是跟数据分析有关的岗位, 拉勾网的数据量比较少,全国主要城市爬下来,一共也才2000多条,而且基本集中在北京上海杭州。 调整一下前程无忧爬虫格式跟拉勾一样,把两个表...
Click to read more ...

爬取贝壳租房信息存储到mongodb

前几天链家网升级成贝壳找房了,融合了十几家知名公寓的租房信息,太赞了,正好有多方面数据来源可以分析。代码是存储到mongoDB上(忍不住吐槽一下,mongoDB对32位的系统真不友好,各种问题,要么要安装补丁,每次打开都要更改存储位置,有时候还要解除进程锁),也可以改成存储到Excel中,把注释去掉就行了。下面是贝壳找房的代码: import pymongo import requests,codecs import pymongo,time from lxml import html from multiprocessing import Pool client = pymongo.MongoClient('mongodb://localhost:27017') db=client...
Click to read more ...

Python爬取前程无忧数据写入mysql

只获取公司、职位、地区、薪水,没有其他详细的信息,所以代码很简单。体验体验python和mysql的交互,刚开始插进去的数据都是乱码,在连接mysql的时候指定utf8编码就解决了 # -*- coding:utf-8 -*- import requests import re,pymysql def get_content(page): url ='http://search.51job.com/list/000000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE%25E5%2588%2586%25E6%259E%2590,2,'+ str(page)+'.html' html=requ...
Click to read more ...