还剩6页未读,继续阅读
文本内容:
省政务大数据管理平台项目技术方案XX
一、项目概况-建设目标通过大数据管理平台建设,建立统一的数据资源汇聚、数据治理、数据资源引擎和数据安全管理能力,实现大数据基础设施的集约共用和对全省政务信息资源的统筹管理和数据治理将现有“逻辑集中、物理分散”数据共享交换方式向数据实体集中存储管理方式转变,建立完善的数据安全管理体系,实现由数据“资源”向数据“资产”的提升-建设原则
1.开放性平台应具备良好的开放性,提供开放接口便于和第三方系统对接或者基于该接口构建新的业务
2.先进性在设计理念和技术体系等方面需借鉴先进的互联网技术,确保应用系统架构满足未来业务发展需求
3.扩展性平台应具备规范的开发接口和高可扩展性,保证未来新的需求提出时可以方便地应用到现有系统中
4.可维护性平台应具备良好的维护性,方便今后的扩展应用和运行维护
5.安全性平台应具备高安全性,确保系统正常运行的同时防止政府内部数据泄露三建设周期6个月四建设清单序号名称单位数量技术要求1数据汇聚系统项1具体要求见数据汇聚系统建设内容2数据治理系统项1具体要求见数据治理系统建设内容3数据资源引擎项1具体要求见数据资源引擎建设内容数据安全管理建设项1具体要求见数据安全管理建设内容4
二、建设内容
1.
1.21数据汇聚系统建设内容数据汇聚平台支持通过图形化的操作方式,把不同系统来源、不同类型的数据汇聚到大数据平台,能够兼容以SHE(Spark HadoopElasticSearch)为首的大数据生态技术栈;并提供基础算子如关联、去重、过滤等完成数据转换可以通过机器学习实现多人协作开发,提供脚本开发,工作流开发环境,能够针对任务资源实现共享以提升实施效率,可以提供基于消息流和文本的实时采集能力;提供精细化的任务调度管理,便于查看每个任务具体的数据处理情况,实现数据汇聚和加工处理一站式开发管理
2.
1.1多源数据采集1)支持离线数据采集,实现对各种主流数据库系统的支持,如Oracle、DB
2、SQL ServerSybase、InfoMix等主流数据库,MySQL PostgreSQL等开源数据库,达梦、汉高、神通、GBase8tKingBase LibrA等国产数据库2)支持提供触发器、时间戳、全表对比、系统日志分析等多种数据增量采集方式3)支持大数据采集,实现HBase的输入输出转换组件,可连接的数据库类型支持HadoopHive,提供Hadoop HDFS文件拷贝的任务组件4)支持实时数据采集,实现基于Flume+Kafka技术来采集流数据,能够接入HDFS、Hbase或Storm消费数据5)支持对FTP、SFTP、MONGODB文件服务器的文件采集,支持包括普通文本、CSV、XML、Excel等多种格式的文件
2.
1.2可视化的流程设计1)支持ETL作业调度流程和转换流程,能够通过图形化界面设计FTL转换过程和作业,支持后台批量运行ETL转换2)支持200种以上的主流数据处理组件,包括数据文件采集组件,清洗组件,大数据组件等3)支持图形化拖拽方式进行任务编排,将多类有顺序或者依赖关系的任务能够串接起来同时提供任务流的管理能力
2.
1.3统一的任务调度1)支持多种任务管理,包括批量采集任务、实时采集任务、数据流任务等,支持多种调度参数设置,可以根据业务分类或者组织分类进行任务流分类管理2)支持任务监控,能够实现可视化多角度的作业运行监控,包括总览全局的总体监控、明细型的计划监控和事件监控等3)支持任务流的调度管理支持人工触发执行,也支持周期性调度执行支持分钟、小时、天、月、年4)支持邮件报警,可配置报警规则,可通过邮件报警的方式通知责任人
2.
1.4多人协同作业1)支持多账户管理创建、删除、权限管理,以及账户间的数据隔离2)支持多用户随时操作同一资源库中的流程,支持多人同时协同开发
2.
1.5集群化管理1)支持平台分布式部署,通过分布式架构,可进行数据采集、处理节点的扩展,提高任务执行效率2)支持集群化管理,对所有节点进行统一管理3)支持ETL负载均衡,根据任务执行情况,合理调度任务的执行
2.2数据治理系统建设内容数据治理平台为政务数据资源提供集中的数据治理服务,支持元数据管理、数据标准管理、数据质量管理、数据资产管理、数据安全管理、数据服务管理、主数据管理以及全生命周期管理等,建设数据标准规范,支持元数据的血缘分析、影响分析和全链分析,提供数据资源的注册、审核、发布,对业务进行拆分和微服务化,支持对资源服务接口的快速封装,和对外多种方式提供数据资源,可以为用户提供一套完整的数据治理解决方案
2.
2.1工作台1)数据治理平台提供代办事项工作台的快捷入口2)支持在工作台中实现标准配置、质量检核任务配置、任务监控、问题数据处理与分析、数据服务管理、数据源管理等功能3)支持从工作台中直接快捷进入各功能模块,支持图形化操作
2.
2.2元数据管理1)数据治理平台支持OMG CommonWarehouse Metamodel(CWM)元数据标准,实现对业务元数据、技术元数据、管理元数据的统一管理和存储2)支持从数据采集系统、数据仓库、以及Oracle、mySqk MppDB等主流数据库中采集元数据、定义元数据采集频率3)支持元数据基本信息管理,如元数据的增加、删除、修改、技术元数据基本信息比对、版本比对4)支持基于元数据的分析,如分析继承关系、组合关系和依赖关系,数据血缘分析、数据影响分析等
2.
2.3数据标准管理1)支持制定数据标准来防止数据用语的混乱使用,保障数据的正确性和准确性2)为数据质量规则检核提供标准支撑,数据标准包括数据元、数据集、代码集3个类别3)支持数据标准规则管理,支持数据标准的分类管理、目录分类、编码规则管理和标准审核等功能4)支持数据标准的配置、删除、修改、发布5)支持行业数据标准集成
2.
2.4数据质量管理★1)支持对数据采集、数据存储、数据服务过程每个阶段数据质量的核查和管理能力;支持对数据资源库中的数据进行稽查2)支持从格式、构成、编码、内容等方面对数据提出质量要求;支持数据质量规则的配置、编辑、执行,包括数据比对、数据质量检核等规则的配置3)支持定制数据质量核验脚本,对数据进行人工检查与清洗4)支持对数质量问题进行处理管理,在平台中发起数据问题工单,并对质量问题处理工单进行过程管理5)支持在数据采集、数据整合、数据共享服务过程中质量规则的执行情况进行监测监督6)支持对数据质量检验、管理工作的处理结果进行统计分析,定期形成数据质量报告,数据质量报告中包括数据问题处理单数、问题数据比例、数据问题(一致性、准确性、完整性等)、质量问题原因、改进措施等
2.
2.5数据服务管理1)支持数据资源服务的注册,审核、授权、发布、调用和监控等功能★2)支持快速接入新数据服务,方便用户与上层应用快速获取和使用数据,应包括服务管理、服务审核、订阅审核、服务监控、数据访问API快速发布与管理、用户管理、系统管理等内容3)提供数据资源目录,支持数据资源查看、下载、接口调用、数据调阅四种方式4)支持数据资源目录查找,按数据源和数据表查询,并能看到最近历史查询和我的查询记录等5)支持敏感数据确定和脱敏规则定义
2.
2.6调度中心1)提供强大调度引擎支撑各种复杂的任务调度流程高效运行,能够为海量异构数据的校验和同步提供保障2)支持数据治理任务的统一调度管理与监控,应包括任务管理、任务监控和报警规则等功能3)支持数据治理任务的配置、修改、删除4)支持预警报警规则的设置,对数据治理过程中的执行错误、质量问题发出通知227消息中心1)数据治理平台支持统一的消息机制2)支持数据治理任务导入后在后台运行3)支持监控后台运行任务的进度和执行结果,应包括消息类型、运行状态、操作人、开始时间范围等内容
2.
2.8数据资产管理1)支持对数据资产进行全生命周期管理,支持在采集、整合、共享应用阶段中对数据资产监控的能力2)提供数据资产的统计分析和灵活查询能力,以及对数据的使用情况等进行查看和展现,应包括数据查询、数据网盘和数据地图等功能;通过查询功能方便政务数据申请者检索所需数据资源;通过数据网盘,方便用户对数据的储存共享分享;数据地图支持用户便捷的了解数据资源分布情况3)通过采集汇总数据资产的标签信息,对数据进行分类统计
2.
2.9基础配置数据治理平台应提供基础配置功能,支持对整个系统的相关功能模块的基础性参数配置和管理,应包括1)支持数据源管理,通过对集成收集来的数据源配置信息和元数据进行分析,对数据源进行集中、分级管理2)支持建模设计,构建数据治理过程中所需的数据模型3)支持系统日志分析,监控任务运行状态跟踪、数据资源使用记录、数据安全等4)支持用户管理,对用户进行集中管理,实现用户角色、角色权限的管理
2.
2.10数据标准规范建设在数据治理平台在开发实施过程中,需要根据数据治理建设目标、以及数据标准与规范的现状,制订一套适用于XX省政务业务的数据标准规范,并指导用户完善数据标准体系建设,规范各类政务数据的标准,提升省政务数据的整体质量
2.
2.11数据治理服务在数据治理平台实施过程中,需要根据委办局的治理需求,提供端到端的数据治理服务,帮助委办局的数据产生者、数据使用者提升数据质量,对数据质量问题进行处理;并根据业务特性和行业标准规范,指导用户对数据进行标准化改造
2.3数据资源引擎建设内容数据资源管理1)支持大规模集群的安装部署、性能监控、告警、用户管理、权限管理、服务管理、日志采集、升级和补丁等功能2)支持基于分层解耦的多层架构,解决了海量节点的管控问题3)支持多种类型的北向能力,并且有能力快速支持未来出现的北向接口需求,确保平台有机融入用户管理系统4)支持按照不同的组织结构,操作权限和数据权限等创建不同的角色,实现灵活配置;5)可实现一个用户只属于一个用户组或拥有多个角色及多个权限,可实现集成用户组的用色和权限控制6)所有的维护人员凭借有效的帐号和正确的密码登录ETL系统7)所有用户在进行对作业的各种操作室,进行认证鉴权是否有相应的操作权限8)日志管理功能记录管理平台自身运行情况、管理员和用户的操作情况9)具备故障告警、上报等功能10)支持向导式备份任务管理,把集群中元数据与业务数据备份到另一个集群11)数据资源引擎需为国产化商用产品,可提供本地化原厂服务能力批量数据采集1)支持实时采集流式数据,针对Socket流或者日志文件等的数据实时采集,可以实现数据准实时同步,保证数据的一致性,将实时数据同步到相关数据库中2)支持采集批量数据,实现与关系型数据库、ftp文件服务器之间数据批量导入/导出工具;同时提供任务调度接口,供第三方调度平台调用3)支持对Redis操作按照读取、写入、管理进行细分的权限控制,不同的用户赋予不同的权限,避免越权的操作,redis组件支持Redis集群异常告警,包括集群下线告警、持久化失败告警、槽位分布不均告警、主备倒换事件、集群高可靠性受损告警批量数据存储1)提供行列存储、数据压缩、横向扩容,兼容SQL扩展,采用多级数据保护机制,支持数百节点、PB级数据的稳定运行,可以对单表百亿条的数据进行分析,实现实时计算处理能力2)支持对冷热数据分级存储,自适应压缩算法,可以根据不同的数据分布方式和数据类型自动选择最优算法,并且基于数据结构相同的列存储技术,最高可达1:20压缩比3)支持将现有数据库中的多个具有相似功能或者存在业务关联的数据表聚簇到一个大表中,从存储层面确保在关键场景下的跨表关联查询的高性能4)支持集群内硬件设备跨代兼容,支持不同配置的硬件设备,可均衡利用资源,保护投资,并且支持在线扩容扩容过程中支持数据增、册k改、查,及主流DDL操作(Drop/Truncate/Alter table)o5)后期版本升级2小时内完成数据展示主题实施根据大数据分析展示要求,设计并开发指标体系,设计并开发展示元素和布局效果等,实现3个主题呈现
2.4数据安全管理建设内容数据安全管理系统支持在数据的采集、存储、使用、分享等整个生命周期中的安全性和保密性在数据采集汇聚过程中进行数据传输加密;对存储在资源池中的重要数据进行加密管理,并对数据访问者进行身份认证与访问授权控制,并对数据访问进行日志记录与审计;在数据共享前,对敏感数据进行脱敏和溯源处理,确保数据隐私保护数据加密1)支持数据的传输加密、存储加密,支持保障数据在采集、汇聚环节的传输安全2)支持在统一密钥管理的基础上,对数据存储采用列、表级别的加密3)支持对称密钥、非对称密钥、数字证书和认证令牌等多种加密对象的统一管理,支持KMIP协议数据访问授权管理1)支持对访问大数据资源池的数据等实体进行细粒度的身份认证及授权访问控制2)对不同的业务租户采用实例级资源隔离3)支持认证、访问控制和权限授权等功能4)支持基于角色的权限管理模型,不同用户有不同访问权限243数据脱敏1)支持敏感信息自动发现能力,通过灵活的规则配置方式,包括字段信息匹配、数据信息匹配来自动探测数据库敏感信息字段,可以扩展任意的敏感字段范围,不受限制2)支持丰富的脱敏处理算法数据安全审计1)系统支持监控、日志、审计与告警等安全预防措施2)重要的系统操作(如系统配置文件修改,操作员维护等)均被记录日志,数据应用日志被安全存储,防止被删除或随意篡改3)包括数据审计引擎及管理后台软件、策略管理、告警管理、权限管理、系统日志、系统配置。