数据分析之利用arma算法对销售进行预测

一、目标      销售数据是随着时间变化的序列,通过对未来的销售进行预测,方便对人员、物料等各种资源投入的把控,控制好库存,减少浪费,也可以制定未来的营运策略,提高管理效率。     这里使用ARMA(AutoRegressive Moving Average)算法,不仅与前P期的序列值有关,也与前q期的随机扰动有关。 二、数据采集和处理 1.数据采集 采集随着时间变化的销售数据,为了数据保护需要,销售数据做了特殊处理,不代表真实销售。 2.平稳性检验 平稳ARMA(p,q)的均值和方差都是常数,用什么模型主要看自相关系数和偏自相关系数。如果自相关拖尾,偏自相关截尾,即p<>0 &q=0 则用AR,反之MA,如果p阶拖尾,q阶也拖尾...
Click to read more ...

数据分析之利用apriori关联算法看看客户最喜欢买什么

一、背景和目标 源于沃尔玛的啤酒和尿布的经典营销案例,把这两个看似并无太大关系的商品联系到一起了。这里就用到了关联算法。我们今天就用关联算法对某餐饮连锁企业的商品进行关联分析,观察用户的消费习惯。 环境:python3.5+pycharm 算法:Apriori 二、数据采集和处理 原始数据是长这样的,不过这样的数据并不利于进行关联分析: 不过阿里云分析型数据库ADB提供了强大的group_concat函数,类似于分组效果,可以把聚合之后的查询结果放在一起。 用法:select 日期,订单,group_concat(产品) from 表 group by 日期,订单 具体结果如下: 三、过程 a和b的支持度support(a->b)=P(a&b)...
Click to read more ...

Hive使用python编写的自定义函数udf进行etl

Hadoop使用Streaming技术来替代Java编程,允许用户使用其他语言实现业务逻辑处理Streaming采用UNIX标准输入输出机制(stdin/stdout)作为应用程序和Hadoop计算框架之间的数据接口标准只要符合标准I/O接口,开发人员便可以选择任意语言编写 Map/Reduce模块                    下面来做个测试: 表里一共有两列数据,当第二列的sex为1时,输入为man,当sex为2 时输出为women 一、在Hive里面创建表 CREATE TABLE IF NOT EXISTS test (name String,sex int) row format delimited fields terminated by ','; ...
Click to read more ...

跨数据库数据传输:利用odbc从mysql传输数据到sql server

要做数据库迁移和增量备份,把MySQL数据每天移动到SQL server中 1.设置ODBC工具 首先电脑要先安装好 MySQL的ODBC connector,百度一下就可以了。安装完成之后,在控制面板的ODBC数据源管理里面就可以看到了。 填好相关的连接信息。记住这个datasource name,等会儿要用 2.在SQL server中设置link 3.测试 SELECT * into xxx..temp1 FROM OPENQUERY(MYSQL, ‘select * from channel’ )  测试成功
Click to read more ...

数据分析之利用深度学习和机器学习对餐饮客户进行分类

一、目标       在上一篇博客中,利用RFM模型,使用Kmeans算法,把客户分成了三类,并打好标签,生成了带标签的训练数据。接下来利用这些打好标签的分类数据,使用深度学习和机器学习方法对未打标签的客户进行分类。 环境: python3.5 机器学习:随机森林 深度学习:基于TensorFlow的TFlearn,这个用起来跟sklearn比较相似   二、数据采集和分析 代码 import numpy as np import tflearn from sklearn.preprocessing import LabelEncoder, OneHotEncoder from sklearn.model_selection import train_test_spli...
Click to read more ...