还剩4页未读,继续阅读
文本内容:
智慧环保生态环境大数据平台技术方案
一、技术特点、面向海量环保数据的高效存储1HDFS采用时下流行的分布式存储系统()来实现对建设项目附件等非结构化文HDFS,件、大文件的存储是一个高度容错性的系统,能提供高吞吐量的数据访问,HDFS非常适合大规模数据集上的应用通过存储技术,不仅实现了对库表文件等结HDFS构化文件存储、对建设项目附件等非结构化文件存储,极大的缓解了环保局原数据中心的存储压力,还能跟随环保数据的不断增长,进行动态的扩容,满足环保数据的长期存储、管理需求、批量+实时的混合式数据处理2面对着海量数据在不同业务场景中的应用,传统的关系数据库已经难以支撑对这些数据的高效处理通过采用架构,通过大规模的并行化计算提升批处Map-reduce理能力;结合的内存计算能力,提升在短、频、快的交互式访问场景中的计算spark处理性能通过对上述技术的应用,平台将具备批量与实时的混合式数据处理能力,为数据使用者挖掘数据价值提供支撑、基于大数据的环保数据分析及展示3环保数据经过多年的积累,呈现出数据类型多、数据体量大等大数据典型特征,传统的关系数据库已经难以满足海量环保数据深层次挖掘与分析展现的需求通过采用流处理、数据抽取与集成、数据分析、数据解释、关键技术分析等大数据技术,对环保大数据进行分析和展示,实现对生态环境大数据的高效处理和利用、高效安全的三层架构体系4J2EE采用三层结构体系,前端采用浏览器界面,以主流数据库做数据存储与管J2EE理,以应用服务器做流程应用,根据业务特点分别在三层体系结构中实现负载均衡,便于每一层独自升级和在平台上分布式部署采用三层架构技术体系,可以在J2EE业务应用的开发、部署,系统运行的可靠性、可扩容性等多方面都有较好的技术保障、面向服务的体系结构5SOA采用面向服务的体系结构面向服务的架构为大规模的应用系统建设提供SOA了很多有价值的特性,例如通过寻找并使用已有的服务而不必重复地开发某种功能,降低了系统的投资;异构的系统之间能够方便地集成;已有的系统能够更容易地扩展等基于的理念,各个应用系统以及保留系统、地市局特色系统等都可以被认为SOA是一些服务的提供者和使用者,它们提供或者使用一些业务服务这样,应用系统不再作为一个个“信息孤岛”,而是整个软件系统的有机组成部分,相互之间可以方便地共享数据和功能,协作完成完整的业务处理流程
二、主要内容、大数据基础支撑平台1部署环保大数据基础支撑平台,包括大数据计算与存储集群、虚拟化集群、中间数据库、用户接入集群等、数据采集与处理2本平台需采集的数据包括环保内部的结构化和非结构化数据,其他委办局如气象、水务、测绘院、交通、农业、绿化市容、工商法人库等的数据,以及互联网舆情数据如从社交媒体、微博、社会团体等渠道获得的信息平台提供数据交换、文件传输、流数据采集、网页爬取等手段对多源异构的数据进行采集,并对数据进行标准转换和规整化;运用分布式存储、关系数据存储等方式构建环境数据资源池;提供批处理、流处理、内存处理技术,为数据利用提供支撑、数据管理与监控3实现对数据从采集、存储、分析、到共享使用全过程的统一管控,结合已有的数据标准规范实现环保大数据管理平台统一监管主要包括数据源管理、数据治理等、数据分析利用与开放共享4集成一系列数据挖掘工具、算法,构建分析利用环境,面向具备不同技术能力的用户提供全链路的大数据应用工具支持,包括数据分析建模设计环境、模型算法库、分析应用试验区、数据可视化等;提供灵活多样的数据检索服务以及数据共享服务,包括目录服务、接口池、共享访问控制等功能API环保人也IK应用■务反欧评分柝平台运保障体察*嬉*・食,«
三、核心功能数据采集与处理生态环境数据源包括环保内部业务部门产生的、汇集到中心数据的数据,相关业务部门产生的外部数据,以及通过互联网获取的网页、社交媒体数据通过数据采集与处理,实现面向多源异构数据对象的高效数据采集能力,提供了面向关系型、文件式、流式、网页等多种数据形式的采集能力,并实现对采集任务进行全程管理、统一监控,保障数据采集任务的安全高效同时对输入数据进行预处理,解决冗余数据、不同数据类型处理、数据缺失处理、异常值处理、不同量纲数据处理、降维处理、平均值处理、数据子集摘取等问题,保证输入数据质量满足模型要求数据计算存储基于海量环保数据存储需求、结合上层环保大数据应用的场景,采用数据仓库技术,通过文件系统实现数据的统一存储,构建面向通用型环保数据应用的主题HDFS库,包括污染源主题库、环境质量主题库、环保政务主题库、空间数据主题库等,以支撑环保大数据的高效检索、调用、分析与展现,为上层应用提供高效支撑同时,在数据处理能力上,提供了批处理、流处理、内存计算三种计算框架,适应不同的数据应用场景数据治理通过数据标准和流程管理实现了数据标准的线上线下统一化;通过数据预处理与数据质量管理实现了数据质量的优化、监管、修复,为上层应用提供优质数据资源;通过数据全生命周期管理实现了数据存储、管理、使用等全过程的资源管理、访问控制、使用监控、异常告警、血缘追溯;通过数据资源目录,实现对数据资源的有序重构,构建一套符合环保业务逻辑与安全保密要求的数据目录体系数据分析挖掘支撑数据的价值将通过分析应用直观的展现,平台将构建一站式大数据分析挖掘体系,通过提供对数据资源分析利用所需的分析建模设计环境、模型算法库、分析模型工具、引擎以及可视化展现等多项大数据工具,为数据需求方,业务分析人员高效挖掘数AI据价值提供技术支撑能力,提高数据分析使用者的工作效率同时也通过对分析应用试验区数据读写的控制、数据分析过程的监控,保障环保数据的使用安全数据开放共享平台将对外提供开放共享服务,提供目录服务、数据服务、接口池、共享访API问控制功能,通过这些服务用户可以快速检索平台中的数据,获取数据目录信息,通过接口调用数据集,实现面向各级委办局、企业、公民的数据安全开放和共享,API提升生态环境大数据资源的共享开放能力环保大数据应用服务平台面向上层业务需求,构建企业画像、在线监测数据反欺诈分析、建设项目大附件分布式存储检索应用等大数据应用服务,为环保业务应用提供支撑基于污染源全生命周期业务数据,结合社会舆情、市民评价等客观数据,绘制企业污染源画像,通过建立各类标签和业务规则,发现生态环境管理中的潜在问题并进行预警,为污染源全生命周期管理提供支撑根据领导和业务工作人员的不同关切重点,建设领导驾驶舱和业务分析系统,实现领导对生态环境总体情况“一屏掌握,一屏管控”,辅助领导决策管理。