验证码识别
爬虫有时候遇到验证码识别,试了一下,简单纯数字的识别率还是很高的。先要在电脑安装tesseractOCR软件,然后调用pytesseract库就可以了。
from PIL import Image
import pytesseract
im=Image.open('a.jpg')
gray=im.convert('L')#图像灰度化
threshold=150
table=[]
#图像二值化,就是大于阈值的变成1,小鱼阈值的变成0
for i in range(256):
if i<threshold:
table.append(0)
else:
table.append(1)
out=gray.point(table,'1'...
Click to read more ...调用百度ai进行情感分析探索股票价格与股民情绪之间的关系
听闻有人在Twitter上分析股民的情绪来炒股,盈利不少。就来试试看。
具体过程:
一、数据采集
通过采集东方财富上某只股票一段时间内股票的评论,这里以恒生电子为例。我自己编写了爬虫代码。如下:
import re,requests,codecs,time,random
from lxml import html
#proxies={"http" : "123.53.86.133:61234"}
proxies=None
headers = {
'Host': 'guba.eastmoney.com',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (K...
Click to read more ...企查查
# -*- coding: UTF-8 -*-
from urllib import request
from urllib import parse
from urllib.request import urlopen
# from lxml import etree
from bs4 import BeautifulSoup
import csv
import time
import requests
from util import *
QICHACHA_DOMAIN_URL = 'http://www.qichacha.com/'
STATIC_QICHACHA_HEADER = {'user-agent': 'Mozilla/5.0 (Windows NT ...
Click to read more ...利用朴素贝叶斯进行垃圾邮件分类
朴素贝叶斯在文本分类、垃圾邮件识别、情感分析等方面有很好的应用。进来就来体验一下,数据借用了https://github.com/shijing888/BayesSpam,他文件夹里面有分类好的正常邮件,垃圾邮件和测试邮件。也有代码,不过我这个代码我自己写的。
主要过程:读取邮件-分词-转化为词袋模型、调用朴素贝叶斯进行分类。代码比较乱,直接上代码:
import jieba,re
import os
import numpy as np
from sklearn.naive_bayes import BernoulliNB
filepath=r'C:\Users\lbship\Desktop\脚本\BayesSpam-master\data\\'
#获取停用词,...
Click to read more ...Python生成词云
词云在现在有很广泛的应用。尤其是汇总大量文字报告的时候,很容易直接找到主题。利用python的wordcloud库可以简单生成自定义图库的词云
环境:python 3.6
工具:结巴分词库,wordcloud库,matplotlib
import pandas as pd
import jieba,re
from scipy.misc import imread
from wordcloud import WordCloud, ImageColorGenerator,STOPWORDS
import matplotlib.pyplot as plt
data=pd.read_excel('51jobanaly1.xlsx')#读取Excel转为dabafram...
Click to read more ...