Sparkstreaming使用sql

例子来源于官网的wordcount例子 package Sparkstreaming import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.sql.SparkSession import org.apache.spark.storage.StorageLevel import org.apache.spark.streaming.{Seconds, StreamingContext, Time} object SQLtest { def main(args: Array[String]): Unit = { val conf = new S...
Click to read more ...

Sparksteaming实时接收网络端口数据和hdfs做wordcount

一、POM配置 因为使用windows的IDEA连接虚拟机中的Spark,所有要配置一下依赖 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.imooc.spark</grou...
Click to read more ...

Kafka+flume实时采集数据

一、模拟产生日志 在IDEA的resource文件夹下面新建log4j.properties定义日志格式,其中flume和log4j的整合配置可以查看Log4j Appender #设置日志格式 log4j.rootCategory=ERROR,console,flume log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{...
Click to read more ...

Hive使用技巧

1.使用MSCK命令导入输入到hive表 我们有时候会遇到很多小文件需要导入到一张hive表里面,但是一个个导入非常麻烦。 假设创建一个外部表,这个表在hdfs的order文件夹里,但是这个文件夹现在是空的。所以用select * 是没有数据的。 CREATE EXTERNAL TABLE order( order STRING , time STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LOCATION '/hive/order'; 我们通过hdfs dfs -put 方式把数据导入到hdfs的order 文件夹下。 然后在hive里面输入命令 msck repair table order; ...
Click to read more ...

Spark1.6.1和2.4读取csv文件,转为为dataframe和使用sql

一、spark1.6读取csv spark2.0才开始源码支持CSV,所以1.6版本需要借助第三方包来实现读取CSV文件,有好几种方法, 1.如果有maven的,到https://spark-packages.org/package/databricks/spark-csv下载对应scala版本的第三方jar包然后再maven的pom里面添加denpency,然后根据官网的用法用–packages传入。这样它就会自动去maven里面寻找了。 2.如果是Python开发的,用Python自带的库,比如pandas、csv等,可以参考这个博客。 3.如果没有maven可以通过textfile读入,然后通过opencsv来转化。到这...
Click to read more ...