农场大数据平台项目主要包含:种植数据采集模块、种植数据业务分析模块、农产品销售分析模块。
种植数据采集模块:
1、农业大棚传感器产生数据,将数据上传至日志服务器。
2、日志服务器将每天收集到的数据以天命令存储至本地磁盘。
3、flume将每天的数据实时收集存到kafka集群,此过程会进行日志的轻微清洗处理。
4、kafka按照日志的不同主题,进行存储。
5、flume再将数据从kafka读取,存储进hdfs分布式存储系统。
6、mapreduce将存储进hdfs的数据进行最后的数据清理,整理为符合开发需要的json格式。
种植数据业务分析模块:
1、将数据采集模块采集的数据进行搭建数仓
2、搭建ods层
3、搭建dwd层
4、hive用到一些自定义函数的编写
5、搭建dws层并完成相应种植业务需求
6、搭建ads层并进行echarts展示
农产品销售分析模块:
1、将农产品的销售数据通过sqoop同步到hdfs数仓
2、构建ods层
3、构建dwd层
4、搭建dws层进行销售数据分析
5、构建ads层
6、echarts数据展示
内容 技术亮点 数据采集 json、log4j、logback、解析数据 数据传输 flume、sqoop、kafka 数据存储 hdfs、zookeeper、lzo、mysql 数据清洗 flume、mapreduce、yarn 数据分析 hive、tez、 结果展示 echarts 任务调度 crontab、azkaban、shell脚本