还剩4页未读,继续阅读
文本内容:
习题
1.5请阐述什么是大数据1大数据有什么价值?2大数据有哪些意义?3大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集1big data,合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产大数据是一种新的非物质生产要素,蕴含巨大的经济和社会价值,并将导致科学研究的深2刻变革,对国家的经济发展、社会发展、科学进展具有战略性、全局性和长远性的意义数据成为当今社会生产力的重要因素,只有将现有的数据进行归类整理,将零散的、3不规范的数据进行清洗关联,创建数据模型,进行分析探索才能挖掘数据背后的价值,发现事物运行的规律,找到问题出现的根源所在,从而掌握业绩增长的钥匙习题
2.6请阐述什么是云计算1请阐述什么是人工智能2请阐述什么是区块链3请阐述大数据与云计算、人工智能以及区块链的区别和联系4云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进1入可配置的计算资源共享池资源包括网络,服务器,存储,应用软件,服务,这些资源能够被快速提供,只需要投入管理工作,或与服务供应商进行很少的交互人工智能是研究、开发用于模拟、延伸和扩展人的智能的理2Artificial Intelligence,Al论、方法、技术及应用系统的一门新的技术科学人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作区块链在本质上是一种去中心化的分布式账本区块链技术作为一种持续增长的、按序整3理成区块的链式数据结构,通过网络中多个节点共同参与数据的计算和记录,并且互相验证其信息的有效性云计算与大数据之间又有着非常紧密的联系,大数据是云计算非常重要的应用场景,4而云计算则为大数据的处理和数据挖掘都提供了最佳的技术解决方案大数据技术的发展为人工智能打造了坚实的素材基础大数据具有体量大、多样性、价值密度低、速度快等特点,大数据技术能够通过数据采集、预处理、存储及管理、分析及挖掘等方式,从各种各样类型的海量数据中,快速获得有价值信息,为深度学习等人工智能算法提供坚实的素材基础人工智能的发展也需要学习大量的知识和经验,而这些知识和经验就是数据、人工智能需要有大数据支撑,反过来人工智能技术也同样促进了大数据技术的进步,两者相辅相成,任何一方技术的突破都会促进另外一方的发展通过把大数据与区块链相结合,能让区块链中的数据更有价值,也能让大数据的预测分析落实为行动,它们都将是数字经济时代的基石习题
3.5请阐述什么是数据采集1请阐述大数据采集平台有哪些2请阐述什么是数网络爬虫3请阐述什么是协议4robots数据采集又称数据获取,是指利用某些装置,从系统外部采集数据并输入到系统内部1的一个接口在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分布式领域,比如摄像头、麦克风以及各类传感器等都是数据采集工具目前常用的开源日志采集平台包含有、、2Apache FlumeFluentd LogstashChukwa Scribe以及等这些采集平台大部分采用的是分布式架构,以满足大规模日志采集Splunk Forwarder的需要网络爬虫是一种按照一定的规则,自动地抓取信息的程序或者脚本网络爬虫可以自3Web动采集所有其能够访问到的页面内容,为搜索引擎和大数据分析提供数据来源协议全称叫作“网络爬虫排除标准该协议是互联网中的道德规范,主要用于保护4robots网站中的某些隐私网站可以通过告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取robots
4.6习题请阐述什么是大数据存储1请阐述什么是分布式存储2请阐述什么是3Hadoop请阐述什么是4NoSQL请阐述什么是数据仓库5大数据存储通常是指将那些数量巨大、难于收集、处理、分析的数据集持久化到计算1机中在进行大数据分析之前,首先的步骤就是要将海量的数据存储起来,以便今后的使用分布式存储最早是由谷歌提出的,其目的是通过廉价的服务器来提供使用与大规模,高并2发场景下的访问问题与常见的集中式存储技术不同,分布式存储技术并不是将数据存Web储在某个或多个特定的节点上,而是通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在企业的各个角落()是软件基金会旗下的一个开源分布式计算平台以分布式文件3Hadoop ApacheHadoop系统()和(的开源实现)Hadoop distributedfile system,HDFS MapReduceGoogle MapReduce为核心的为用户提供了系统底层细节透明的分布式基础架构Hadoop()数据库又叫作非关系数据库,和数据库管理系统()相比,不使用4NoSQL RDBMSNoSQL作为查询语言,其存储也可以不需要固定的表模式,用户操作时通常会避免使用SQL NoSQL的操作RDBMS JION()数据仓库()简称顾名思义,数据仓库是一个很大的数据存储5Data WarehouseDW,集合,出于企业的分析性报告和决策支持目的而创建,并对多样的业务数据进行筛选与整合通常,数据定期从事务系统、关系数据库和其他来源流入数据仓库习题
5.5()请阐述什么是数据清洗1()请阐述什么是数据质量2()请阐述什么是数据缺失值3()请阐述什么是异常数据4()在大数据时代,数据清洗通常是指把“脏数据”彻底洗掉,所谓“脏数据”是指不完整、1不规范、不准确的数据,只有通过数据清洗才能从根本上提高数据质量()数据质量就是确保组织拥有的数据完整且准确,只有完整、准确的数据才可以供企业分2析、共享使用()在数据集中,若某记录的属性值被标记为空白或等,则认为该记录存在缺失值(空值),3它也常指不完整的数据()异常值也叫做离群值,通常是指采集数据时可能因为技术或物理原因,数据取值超过数4据值域范围值得注意的是异常值是数据分布的常态,处于特定分布区域或范围之外的数据通常被定义为异常或噪声异常值常分为两种伪异常和真异常习题
6.5()请阐述什么是大数据分析1()大数据分析有什么价值?2()大数据分析有哪些步骤?3()请阐述什么是数据挖掘4()请阐述决策树算法的原理5()大数据分析就是利用一些数据分析工具、手段、方法或者思维,从海量和异构的数1据中发现规律,从而揭示出数据背后的真相,为人们提供决策的依据,指导业务发展
(2)一般来讲,大数据分析是通常是指对规模巨大的数据进行分析,其目的是提取海量数据中的有价值的内容,找出内在的规律,从而帮助人们做出最正确的决策
(3)一般来讲,典型的大数据分析包含六个步骤,分别是明确需求、收集数据、处理数据、分析数据、展现数据以及撰写报告()数据挖掘()是指通过大量数据集进行分类的自动化过程,以通过数据4Data Mining分析来识别趋势和模式,建立关系来解决业务问题换句话说,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程()决策树算法最早产生于上世纪年代,该算法首先对数据进行处理,利用归纳算法560生成可读的规则和决策树,然后使用决策对新数据进行分析,因此在本质上决策树是通过一系列规则对数据进行分类的过程决策树是一个预测模型,它表示对象属性和对象值之间的一种映射,树中的每一个节点表示对象属性的判断条件,其分支表示符合节点条件的对象树的叶子节点表示对象所属的预测结果习题
7.5()请阐述什么是数据可视化1()请阐述数据可视化的应用有哪些2()请阐述什么是文本可视化3()请阐述什么是社交网络可视化4()数据可视化,是关于数据视觉表现形式的科学技术研究,它为大数据分析提供了一1种更加直观的挖掘、分析与展示当代手段,从而让大数据更有意义()数据可视化越来越普及,在工业物联网、电信、智慧医疗、智能交通、现代农业等2多个行业都有广泛的应用()文本可视化是指将文本中复杂的或者难以通过文字表达的内容和规律以视觉符号3的形式表达出来,同时向人们提供与视觉信息进行快速交互的功能,使人们能够利用与生俱来的视觉感知的并行化处理能力快速获取大数据中所蕴含的的关键信息()社交网络可视化通常是展示数据在网络中的关联关系,一般用于描绘互相连接的实体4习题
8.4()请阐述什么是数据安全1()大数据有什么特点?2()大数据安全的关键技术有哪些?3()请阐述什么是数据治理4()请阐述数据治理的思路5()数据即资产,对企业单位业务深度和广度的扩展具有重要的意义,数据安全则是企业单1位生存和发展的根基数据安全中涉及到的数据不仅包括静态的、存储层面的数据,也包括流动的、使用中的数据()大数据的广泛应用对数据安全的定义与防护带来了根本性的变革首先,传统数据全生2命周期安全保障被扩展至了近乎无限的开放空间中,互联网的每个节点和用户都成为数据保障与泄露的攻防点,数据保障体系的涵盖范围空前扩大;其次,数据种类海量导致信息泄露渠道的多元化与高几率,多条低敏感度泄露数据的关联综合可能会组合成一条高敏感度数据,分布式的存储机制使数据泄露位置更加分散和随机,这导致控制与查找数据泄露来源的难度空前提高;最后,高速的海量数据处理速度,也使原始数据被重复和多种维度利用的成本更加降低,原始数据被反复泄露、售卖的几率与次数更高,数据安全问题所造成的影响更加巨大()数据加密技术、身份认证技术、访问控制技术、安全审计、数据脱敏、数据溯源3()数据治理就是以服务组织战略目标为基本原则,通过组织成员的协同努力,流程制度的4制定,以及数据资产的梳理、采集清洗、结构化存储、可视化管理和多维度分析,实现数据资产价值获取、业务模式创新和经营风险控制的过程()在进行数据治理时,常常包含以下几步数据采集、数据标准管理、主数据管理、元5数据管理、数据仓库建模、数据集成、数据清洗以及架构治理等习题
9.6()请阐述什么是农业大数据1()农业大数据有什么特点?2()请阐述什么是工业大数据3()请阐述什么是金融大数据4()请阐述什么是交通大数据5()请阐述什么是智慧交通6()农业大数据,一般指利用现代信息技术和信息系统为农业产供销及相关的管理和服务提1供有效的信息支持,并提高农业的综合生产力,促进农业结构战略性调整和经营管理效率的总称()农业大数据主要具有复杂性和不平衡性两大特点2()工业大数据即难以通过传统的分析工具进行有效分析的工业数据的集合,具备明显的大3数据的容量大、数据类型多、数据价值高、数据更新快的特性()金融大数据内涵,可以理解为大数据中蕴含的反映人们金融交易行为互动的基本信4息,这是一种依据“信息来源于大数据”的认知而得出的理论考量金融大数据内涵具有极大量、多维度和完备性等特征,人们根据金融大数据进行决策,需要有处理这些特征的新科技手段()大数据对于智能交通的意义,在于人们可以应用大数据解决跨越行政区域的限制,5o实现数据信息的共享,在信息集成优势和组合效率上,有助于建立综合性立体的交通信息体系;另外在车辆安全、交通资源配置以及利用大数据的快速性和可预测性来提升交通预测水平上都有着极大的帮助()智慧交通是在智能交通的基础上发展起来的,所谓智能交通,通常也叫作智能交通6系统,它是将先进的信息技术、数据通信技术、传感器技术、电子控制技术以及计算机技术等有效地综合运用于整个交通运输管理体系,从而建立起一种大范围内、全方位发挥作用的,实时、准确、高效的综合运输和管理系统而智慧交通则是在智能交通的基础上,通过全方位地融入物联网、云计算、大数据、移动互联等高新技术来实现的,它是智慧城市的一个组成部分,同时也是一个独立运行的子IT系统。