还剩3页未读,继续阅读
文本内容:
背景描述大数据时代背景下,电商经营模式发生很大改变在传统运营模式中,缺乏数据积累,人们在做出一些决策行为过程中,更多是凭借个人经验和直觉,发展路径比较自我封闭而大数据时代,为人们提供一种全新的思路,通过大量的数据分析得出的结果将更加现实和准确商家可以对客户的消费行为信息数据进行收集和整理,比如消费者购买产品的花费、选择产品的渠道、偏好产品的类型、产品回购周期、购买产品的目的、消费者家庭背景、工作和生活环境、个人消费观和价值观等通过数据追踪,知道顾客从哪儿来,是看了某网站投放的广告还是通过朋友推荐链接,是新访客还是老用户,喜欢浏览什么产品,购物车有无商品,是否清空,还有每一笔交易记录,精准锁定一定年龄、收入、对产品有兴趣的顾客,对顾客进行分组、标签化,通过不同标签组合运用,获得不同目标群体,以此开展精准推送因数据驱动的零售新时代已经到来,没有大数据,我们无法为消费者提供这些体验,为完成电商的大数据分析工作,你所在的小组将应用大数据技术,以Scala作为整个项目的基础开发语言,基于大数据平台综合利用Spark.Flink、Vue.js等技术,对数据进行处理、分析及可视化呈现,你们作为该小组的技术人员,请按照下面任务完成本次工作模块大数据平台及组件的部署管理分)A(10环境说明服务端登录地址详见各模块服务端说明补充说明各主机可通过Asbru工具进行SSH访问;Master节点MySQL数据库用户名/密码root/123456;相关软件安装包在主节点的/opt目录下,请选择对应的安装包进行安装,用不到的可忽略;所有模块中应用命令必须采用绝对路径任务一Hadoop完全分布式安装部署本环节需要使用用户完成相关配置,安装需要配置前置环境命root Hadoop令中要求使用绝对路径,具体部署要求如下、将节点安装包解压并移动到路径(若路径不存在,则需1Master JDK/usr/java新建),将命令复制并粘贴至客户端桌面【模块提交结果.中Release A docx]对应的任务序号下;、修改文件,设置环境变量,配置完毕后在节点分别2/root/profile JDKmaster执行和命令,将命令行执行结果分别截图并粘贴至客户端桌面“java”“javac”【模块提交结果.】中对应的任务序号下;Release Adocx、请完成相关配置,将三个节点分别命名为、并做免3host masterslavel slave2,密登录,使用绝对路径从复制解压后的安装文件到、master JDKslavel slave2节点,并配置相关环境变量,将全部复制命令复制并粘贴至客户端桌面【模块提交结果.】中对应的任务序号下;Release Adocx、在将解压到目录下,并将解压包分发至中,4Master Hadoop/opt slavel.slave2配置好相关环境,初始化环境将初始化命令及初始化结果复Hadoop namenode,制粘贴至客户端桌面【模块提交结果】中对应的任Release A.docx务序号下;、启动集群,查看节点进程,将查看结果复制粘贴至客户端5hadoop masterjps桌面【模块提交结果.】中对应的任务序号下Release Adocx任务二Hive安装部署本环节需要使用用户完成相关配置,已安装及需要配置前置环境,root Hadoop具体部署要求如下、将节点安装包解压到目录下,将命令复制并粘贴至客户端桌1Master Hive/opt面【模块提交结果.】中对应的任务序号下;Release Adocx、设置环境变量,并使环境变量生效,并将环境变量配置内容复制并粘贴至2Hive客户端桌面【模块提交结果.】中对应的任务序号下;Release Adocx、完成相关配置并添加所依赖包,将数据库作为元数据库初始化3MySQL HiveHive元数据,并通过相关命令执行初始化,将初始化结果复制粘贴至客schematool户端桌面【模块提交结果】中对应的任务序号下Release A.docx任务三Fl ink onYarn安装部署本环节需要使用用户完成相关配置,已安装及需要配置前置环境,root Hadoop具体部署要求如下、将包解压到路径目录下,将完整命令复制粘贴至客户端桌面【1Flink/opt Release模块提交结果.中对应的任务序号下;]Adocx、修改文件,设置环境变量,并使环境变量生效将环境变量2/root/profile Flink配置内容复制粘贴至客户端桌面【模块提交结果.】中对应的任Release Adocx务序号下;、开启集群,在上以模式(即分离模式,不采用3Hadoop yarnper jobJob Session模式)运行将运行结果最后$FLINK_HOME/examples/batch/WordCount.jar,行复制粘贴至客户端桌面【模块提交结果】中对应的任务10Release A.docx序号下示例flink run-m yarn-cluster-p2-yjm2G-ytm2G$FLTNKJIOME/examples/batch/WordCount.jar模块离线数据抽取分)B(15环境说明:服务端登录地址详见各模块服务端说明补充说明各主机可通过Asbru工具进行SSH访问;Master节点MySQL数据库用户名/密码root/123456(已配置远程连接);Hive的元数据启动命令为nohup hive一一service metastoreHive的配置文件位于/opt/apache-hive-
2.
3.4-bin/conf/Spark任务在Yarn上用Client运行,方便观察日志任务一全量数据抽取编写工程代码,将的库中表Scala MySQLshtd_store CUSTOMER.NATION.、的数据全量抽取到的库中对应表PART PARTSUPP.REGION.SUPPLIER Hive ods中customer,nation,part,partsupp,region,supplier、抽取库中的全量数据进入的库中表字1shtd storeCUSTOMER Hiveods customero段排序,类型不变,同时添加静态分区,分区字段类型为且值为当前String,比赛日的前一天日期(分区字段格式为并在执行)yyyyMMdd hivecli show命令,将结果截图复制粘贴至客户端桌面【partitions ods.customer Release模块提交结果.】中对应的任务序号下;B docx、抽取库中的全量数据进入的库中表字段2shtd_store NATIONHiveodsnation排序,类型不变,同时添加静态分区,分区字段类型为且值为当前比String,赛日的前一天日期(分区字段格式为并在执行)yyyyMMdd hivecli show命令,将结果截图复制粘贴至客户端桌面partitions ods.nation【模块提交结果.中对应的任务序号下;]Release Bdocx。