验证码识别

爬虫有时候遇到验证码识别,试了一下,简单纯数字的识别率还是很高的。先要在电脑安装tesseractOCR软件,然后调用pytesseract库就可以了。 from PIL import Image import pytesseract im=Image.open('a.jpg') gray=im.convert('L')#图像灰度化 threshold=150 table=[] #图像二值化,就是大于阈值的变成1,小鱼阈值的变成0 for i in range(256): if i<threshold: table.append(0) else: table.append(1) out=gray.point(table,'1'...
Click to read more ...

调用百度ai进行情感分析探索股票价格与股民情绪之间的关系

听闻有人在Twitter上分析股民的情绪来炒股,盈利不少。就来试试看。 具体过程: 一、数据采集 通过采集东方财富上某只股票一段时间内股票的评论,这里以恒生电子为例。我自己编写了爬虫代码。如下: import re,requests,codecs,time,random from lxml import html #proxies={"http" : "123.53.86.133:61234"} proxies=None headers = { 'Host': 'guba.eastmoney.com', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (K...
Click to read more ...

企查查

# -*- coding: UTF-8 -*- from urllib import request from urllib import parse from urllib.request import urlopen # from lxml import etree from bs4 import BeautifulSoup import csv import time import requests from util import * QICHACHA_DOMAIN_URL = 'http://www.qichacha.com/' STATIC_QICHACHA_HEADER = {'user-agent': 'Mozilla/5.0 (Windows NT ...
Click to read more ...

利用朴素贝叶斯进行垃圾邮件分类

朴素贝叶斯在文本分类、垃圾邮件识别、情感分析等方面有很好的应用。进来就来体验一下,数据借用了https://github.com/shijing888/BayesSpam,他文件夹里面有分类好的正常邮件,垃圾邮件和测试邮件。也有代码,不过我这个代码我自己写的。 主要过程:读取邮件-分词-转化为词袋模型、调用朴素贝叶斯进行分类。代码比较乱,直接上代码: import jieba,re import os import numpy as np from sklearn.naive_bayes import BernoulliNB filepath=r'C:\Users\lbship\Desktop\脚本\BayesSpam-master\data\\' #获取停用词,...
Click to read more ...

Python生成词云

词云在现在有很广泛的应用。尤其是汇总大量文字报告的时候,很容易直接找到主题。利用python的wordcloud库可以简单生成自定义图库的词云 环境:python 3.6 工具:结巴分词库,wordcloud库,matplotlib import pandas as pd import jieba,re from scipy.misc import imread from wordcloud import WordCloud, ImageColorGenerator,STOPWORDS import matplotlib.pyplot as plt data=pd.read_excel('51jobanaly1.xlsx')#读取Excel转为dabafram...
Click to read more ...