还剩54页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
华为大数据HCIE-V
2.0版本笔试题库.(判断)数据挖掘是通过对大量的数据进行分析,以发现和提取隐含在其中的具有价值的信息和知识的过程[单选题]*A.TRUE(正确答案)B.FALSE.数据挖掘的开发工具除了Python以外,还包含以下哪些工具?*A.SparkMLlib(正确答案)B.MLS(机器学习服务)(正确答案)C.IBMSPSSModeler(正确答案)D.OracleDataMining(正确答案)
3.以下哪些属于Python运算符?*A.算数运算符(正确答案)B.推理运算符C.逻辑运算符(正确答案)D.比较运算符:正确答案).(单选)假设AB.C是三个矩阵,A是2X2B是2X2阶,C是3x2阶,以下哪一个矩阵的运算是有意义的?[单选题]*A.A+B(正确答案)B.ACC.AB+ACD.B+C.以下关于Python列表的描述正确的是?*.(单选)以下不属于决策树算法?[单选题]*A.ID3(正确答案)B.CARTC.C
4.
5.(判断)SVM的核心要想就是建立一个最优决策超平面,使得该平面两侧距离该平面最近的两类样本之间的距离最大化[单选题]*A.TRUE1正确答案)B.FALSE.除了精确率(Precision)和召回率(Recall)以下还有哪些常用的模型评估指标?*A.AUC数据正确答案)B.ROC曲线(ReceiverOperatingCharacteristic)正确答案)C.F1值(F1-Measure)三确答案)D.混淆矩阵((ConfusionMatrix)三确答案)
43.BasicStatistic为数据度处理数据中统计分析提供支撑方法,包括(),(),()等数据分析方法*A.ElementwiseProductB.Stratifiedsampling:确答案)C.Summarystatistics(正确答案)D.Hypothesistesting(正确答案).可以用来计算相似度的指标有?*A.Tanimoto系数(正确答案)B.Pearson相关系数(正确答案)C.Cosine相似度1正确答案).关于FP-groqth算法,以下描述正确的是?*A.FP-growth算法与Apriori算法不同,该算法的第二步使用后缀树(FP-tree)结构正确答案)来编码事务,不显式生成候选集B.SparkMLlib中实现关联规则算法的包是org.apache.spark.mllib.fpa.(正确答案)C.SparkMlib中实现了FP-growth的平行版本,叫做PFP.PFP可以将FP-growth的工作分发到其他机器,比单机运行有更好的扩展性(正确答案)D.给定一个交易数据集,FP-growth的第一步骤是计算项目的频率,并确定频繁项目.(判断)使用Breeze库时,需要同时导入相关包;bTeaze.finalg」和breeze.numerics._[单选题]*A.TRUE(正确答案)B.FALSE.(单选)关于SparkMLlib中SVD算法的使用说法错误的是?[单选题]*A.必须先通过已有数据创建出相应矩阵类型的对象,然后调用该类的成员方法来进行SVD分解(正确答案)B.如果需要获得U成员,可以在进行SVD分解时,指定computet参数,令其等于False即可在分解后的svd对象中拿到U成员.C.SparkMLlib中SVD方法位于org.apache.spark.mllib.Linalg包下的RowMatrix和IndexedRowMatrix类中..(判断)K-Means算法选择初始中心点的基本思想就是,初始的聚类中心之间的相互距离要尽可能的近[单选题]*A.TRUEB.FALSE(正确答案).(判断)华为M机S机器学习服务以MLS实例的方式提供给用户,具备的优势包括开放交互式Notebook支持多种开源建模语言(Python等)[单选题]*B.FALSE.(判断)MS即MachineLearningService是一一期数据挖掘分析平台服务,可以帮助用户通过机器学习技术发现已有数据中的趣律,从而创建机器学习模型,并基于机器学习模型处理新的数据,为业务应用任成预测结果[单选题]*A.TRUE(正确答案)B.FALSE.(单选)购买与登录专属版MS的描述不正确的有?[单选题]*A.确认集群信息无误后,依次单击“立即购买“、“提交”.(正确答案)B.在购买专属版S实例之前需要先购买MapReduce服务”C.在购买界面上,依次配置所需参数,其中,Kerberos认证关闭或者开启均可.E.一旦提交,集群会立刻创建完成.在华为MLS中,使用、梯度提升树回归”算法进行建模,以下操作描述正确的有?*A.创建工作流需要在主菜单中选择“项目创建,在弹出的对话框中的名称栏输入“Rearesen”(正确答案)B.选择“建模回归梯度提升树回归二并拖拽到右侧的画布中,并进行连线(正确答案)C把实验数据以csv格式下载到本地后,就可以进入MLS主菜单界面,选择”数据文件系统”-%©-”上传文件”.(正确答案)D.选择“数据转换字段操作修改元数据”,并拖拽到右侧的画布中,并进行连线(正确答案)E.选择“输入““保存模型”,并拖拽到右侧的画布中,并进行连线.(判断)大数据统架构将机器学习和数据处理进一步整合,从核心上来说,统一架构依然以大数据基础架构为主,只是对其进行了优化和改造,重点是在流处理层新增了数据服务层(数据挖掘、机器学习等[单选题]*B.FALSE.以下关于大数据架构重要性的描述正确的有?*A.好的大数据架构可扩展性强,可维护性高,能为企业未来的业务发展提供数据支撑(正确答案)B.大数据架构作为数据提供者角色为大数据系统提供可用的数据(正确答案)C.好的大数据架构需要围绕着企业的业务进行设计,而不是单单围绕着技(正确答案)术架构业务是核心,而技术是业务的支持,好的大数据架构能满足业务的持续发展,D.大数据架构作为大数据应用程序提供者可以是单个实例,也可以是一组更细粒度的大数据应用提供者实例的集合、集合中的每个实例执行数据生命周期中的不同活动(正确答案).(单选)一个典型的大数据平台系统架构不包括以下哪个层次?[单选题]*A.数据平台层B.数据服务层C.数据应用层D.数据可视化层正确答案).(单选)以下关于大数据Kappa架构描述不正确的是?[单选题]*A.Kappa架构在Lambda架构的基础上进行了优化将实时和流部分进行了合并,将数据通道以消息队列进行替代,依旧以流处理为主,但是数据却在数据湖层面进行了存储B.在Kappa架构中,如果需要进行离线分析或者我次计算的时候,不必像实时分析那样将数据湖的数据再次经过消息队列重播少次(正确答案)CKappa架构的缺点实施难度相对较高,第其是在数据重播的部分D.Kappa架构的优点解决了Lambda架构里面的冗余部分,以数据可重播的超凡脱俗的思想进行了设计,整个架构军常简洁.以下关于大数据流式架构的相关描述正确的有*A.对于流式架构来说,不存在批处理,因此对于数据的重播和历史统计无法很好的支撑对于离线分析仅仅支撑窗口之内的分析正确答案)B・流数据是一组顺序、大量、快速、连续到达的数据序列应用于网络监控、(正确答案)传感器网络、航空航天、气象测控和金融服务等领域流式架构在数据接入端没有7ETL转而替换为数据通道经过流处理加工后的数据,以消息的形式直接推送给了消费者,满足了用户对数据的实效性需求C.大数据流式架构在大数据基础架构上,去掉批处理部分,从而更专注处理流式数据(正确答案)D.流式架构在数据接入端没有E配,转而替换为数据通道经过流处理加工后的数据,以消息的形式直接推送给了消费者,满足了用户对数据的实效性需求(正确答案).(单选)以下关于数据挖掘描述不准确的是?[单选题]*A.大数据挖掘主要基于人工智能、机器学习、模式学习、统计学等通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式B.通过数据挖掘可以建立起企业整体而不是某个业务过程局部的不同类型的模型(正确答案)C.目前,在很多领域尤其是在商业领域如银行、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、企业风险规避等D.大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程.(单选)在案例银行客户精准画像”中,数据阶段可以做的质量核查不包括?[单选题]*A.数据的有效性校验B.数据的可替换性校验(正确答案)C.数据的缺失性校验D.数据的连续性校验
60.以下描述属于数据准备阶段的是*A.因数据来自数据仓库中多个数据表,可以经过数据采集、清理和集成,生成个针对数据挖掘目标,确定与交易行为有关的数据项集合(正确答案)B.考虑样本是否具有代表性(正确答案)C.为了确保各变量在分析中的地位相同,可以对数据进行中心化和标准化变换(正确答案)D.检查数据的逻辑性,区分数据缺失“和“0“根据逻辑推断某些值、寻找反常数
61.(判断)一家公司或企使用数据挖掘作为工具或方法处理商业问题就像拥有了一把金钥匙,这往往比拥有大量的熟悉和理解业务的人员更重要[单选题]*A.TRUE(正确答案)B.FALSE
62.Python常用数据结构,除了Number(数值)和String(字符串)外,还有哪些?*A.List(列表)(正确答案)B.Tuple(元组)(正确答案)CSet(集合)(正确答案)□.Dictionary(字典)(正确答案)
63.(单选)以下关于Python中函数定义的描述不正确的是?[单选题]*A.函数内容以冒号起始,并且缩进B.在python中只能用关键字def创建函数(正确答案)C.Return用于返回一个函数执行的结果D.用def声明函数,后面跟函数名和小括号,括号内可以放置所需参数.(单选)设X、XI、X
2、丫是四个随机变量,ab是常数,以下关于协方差的性质描述错误的是?[单选题]*A.如果Cov(XY)=0则随机变量X丫相互独立B.Cov(X1+X
2.丫尸Cov(XlY)+Cov(X2Y)C.Cov(aXbY)=abCov(XY)(正确答案)D.如果随机变量x丫相互独立,则Cov(XY)=
0.设x、丫是两个随机变量,C是常数,以下关于数学期望的性质描述正确的是[单选题]*A.E(X+Y)=E(X)+(Y)(正确答案)B.E(CX)=CE(X)C.E(C)=C.(单选)以下关于Python正则表达式描述不正确的是?[单选题]*A.re正则表达式可以处理字符串数据,也能处理数值数据(正确答案)B.re正则表达式模块使Python语拥有部分正则表是式功能C.re正则表达式是用于处理字符串的强大工其.以下关于特征值与特征向量分解的应用,说法正确的有?*A.在二次型最优化中,矩阵特征值的大小与函数值的变化快慢有关,在最大特征值所对应的特征方向上函数值变化最大,也就是该方向上的方向导数最大(正确答案)B.如果某几个特征值很小,说明这个方向上的信息量很小,可以用来降维,(正确答案)也就是删除小特征值对应方向的数据,只保留大特征值方向对应的数据,这样做以后数据维度减少,但有用信息量变化不大C从线性空间的角度看,特征值越大,说明矩阵在对应的特征向量上的方差越大,功率越大,信息量越多(正确答案)D.在数据挖掘中,最大特征值对应的特征向量上包含最多的信息量(正确答案).(单选)在数据抽取、转换和加载过程中,以下哪种不是数据抽取的方式?[单选题]A.全量抽取B.倒置抽取正确答案)C.更新抽取D.增量抽取
69.(单选)一般而言,若数据类别比例超过(),即认为数据集中存在不均衡数据的现象[单选题]*A.2:lB.4:l(正确答案)C.l:lD.3:l
70.(单选)以下哪个选项不属于数据减洗的范畴?[单选题]*A.缺失值处理B.不均衡数据处理C.异常值处理D.数据加载处理正确答案).(判断)若数据集中存在不均衡数据,都需要进行不均衡数据处理[单选题]*A.TRUE(正确答案)B.FALSE.(单选)以下哪个选项不属于直按册除包含缺失值的元组(或记录)产生的影响?[单选题]*A.降低模型准确性B.可能会引入噪音节点(正确答案)C.数据缺失占比较多时,直接删除可能会改变原始数据的分布情况D.破坏数据的历史完整性.(单选)以下关于特征选择方法中哪个不属于特征减少的方法?[单选题]*A.Embedded(嵌入法)B.Wrapper(包装法)C.交叉验证方法(正确答案)D.Filter(过滤法).(单选)下列方法中,不可以用于特征降维的方怯包括[单选题]*B.主成分分析PCAC.矩阵奇异值分解SVDD.局部线性嵌入LLEE.线性判别分析LDA.(判断)两个变量的Pearson相关性系数为零,但这两个变量的值同样可以相关[单选题]*A.TRUE(正确答案)B.FALSE.(单选)以下关于PCA算法(主成分分析)说法不正确的是《D)[单选题]*A.必须在使用PCA前规范他数察B.使数据降低到低维度上做数据可视化C.应该选择使得模型有最小variance的主成分D.应该选择使得模型有最大variance的主成分(正确答案).(单选)以下关于Wrapper(包装法)和Filter(过滤法)的描述不正确的是?[单选题]*A.对于大规模数据集来说,Wrapper算法的执行时间很长B.相对于Filter(过滤法),WTrapper方法找到的特征子集分类性能通常更好C.Wrapper方法由于每次对子集的评价都要进行分类器的训练和测试,所以算法计算复杂度很高D.Wrapper方法选出的特征通用性较强,当改变学习算法时,也不需要针对该学习算法重新进行特征选择(正确答案)
78.以下哪些方法可以用来做分受梦*A.KNN(正确答案)B.支持向量机正确答案)C.K-MeansD.决策树1正确答案).(判断)GBDT(GradientBoostingDecisionTree简称GBDT)梯度提升决策树中的树都是回归树,不是分类树[单选题]*A.TRUE(正确答案)B.FALSE.以下关于逻街口归的抽述正确的是?*A.当特征空间很大时逻独回归的性能不是很好,容易欠拟合,一般准确度不太高(正确答案)B.对逻辑回归而言,多重共线性并不是问题,它可以结合L2正则化来解决该问题(正确答案)C.分类时计算量非常小,速度很快,存储资源低(正确答案)D.只能处理两分类问题,且必须线性可分(正确答案)
81.以下关于决策树的描述正确的是?*A.数据准备工作简单,能够同时处理数据型和常规型属性,其他的技术往往要求数据属性的单一(正确答案)B.不容易导致过拟合问题C.对中间值的缺失不敏感,比较适合处理有缺发属性值的样本,能够处理不相关的特征(正确答案)D.信息增益度量会偏向于取值较少的属性作为分类属性.关于各种分类算法的特点,以下说法正确的是?[单选题]*A.给定n个数据点,如果其中一半用于训练,一半用户测试,则训练误差和测试误差之间的差别会随着n的增加而减少(正确答案)B.bazging改进了预测准确率,但损失了解释性C.在adaboost算法中,所有被分错样本的权重更新比例相同.(判断)PP-Growth算法改进字pr3ori算法的I/O瓶颈,巧妙的利用树结构提高了算法运行速度[单选题]*A.Python中的列表可以随时进行元素的添加和删除(正确答案)B.Python中的列表是可变的,定的元素可以是任何的数据类型(正确答案)CPython中的列表由个括号包裹住元素,元素用逗号隔开(正确答案)D.Python中的列表企形式上类似于数组,是一个有序的序列
6.(单选)以下哪个选项不是矩阵乘法对向量的变换?[单选题]*A.投影B.伸缩C.曲线化(正确答案)D.旋转.(单选)若随机变量X服从正态分布N(uo人2)则随机变量Y=aX+b服从以下哪个正态分布?[单选题]*A.N(aA2u+baA2oA2).N(au+baA2o人2)(正确答案)C.N(au+baA2o人2+b)D.N(auaA2oA2).与面向过程相比,以下哪些是面向对象的特点?*A.程序可拓展性没有明显的变化.提高代码复用性(正确答案)C.增加了开发效率正确答案)D.使程序的编码更加灵活,提高了代码的可维护性।正确答案)(单选)以下哪个措施属于反爬措施?[单选题]*A.字体B.滑块验证码A.TRUB(正确答案)B.FALSE
84.(单选)下列哪个选项不是常用的聚类算法?[单选题]*A.SYM(正确答案)B.HierarchicalClustering算法、BIRCH算法C.K-means算法D.DBSCAN算法
85.凸优化是机器学习的一个根本性问题,很多能A问题可以通过一定的手段或方法转化为一个凸问题,一旦转化为一个题,那么理论上来说,这个问题便得到了解诀以下哪些是非凸优化问要转化为凸优化问题的方法?*A.目标函数为凸函数B.约束条件为凸集C.抛弃一些约束条件,使新的可市城为凸集并且包含原可行域(正确答案)D.修改目标函数,使之转化为凸函数(正确答案)
86.我们可以使用以下哪些方法来划分训练集、测试集和验证集?*A.K-中心点法B.K-折交叉验证法(正确答案)C.留出法(正确答案)D.自助法(正确答案).(单选)以下关于K-折交叉验证法物逢排误的是?[单选题]*A.K折交叉验证取K k最常用的以值是10此时称为10折交叉验证其他常用的K值还有
5、20等(正确答案)B.交叉验证的思想是,每次用k个子集的并集作为训练集,余下的那个子集作为测试集,这样就有k种训练集/测试集划分的情况,从而可进行K次训练和测试,最终返回k次测试结果的均值,C.如果训练集相对较小,则增大K值.单选以下关于模型超参数的特征描述不正确的是?[单选题]*A.模型超参数通常根据给定的预测建模问题而调整B.模型超参数常应用于估计模型参数的过程中C模型的超参数可以通过数据直接得到,也可以通过人的经验来设定正确答案D.模型超参数通常可以使用启发式方法来设置E.模型超参数通常由实践者直接指定.单选以下关于模型评估描述不止房的是?[单选题]*A.在分类问题中,AUC越小,分类的质量越好正确答案B.在聚类问题中,常用的性能度量参数包括Silhonette轮毅系数、兰德系数AdjustedRandindex.C在回归问题中,最常用的性能度量参数是均方误差Mse、均方根误差fmse、平均绝对误差MaeD.在分类问题中,常见的评估指标包括混淆矩阵ConfusionMatrix、精确率Precisionx召回率Recall、Fl值Fl-Measure、AUC、ROC曲线ReceiverOperatingCharacteristicsPR曲线PrecisionandRecall
90.单选现实中大数据挖掘任务往社特征属性过多,而一个普遍存在的事实是,大数据集带来的关键信息只聚集在部分甚至少数特征上,因此我们需要进行以下哪种操作?[单选题]*A.特征标准化B.特征选择正确答案C.特征归一化D.特征清洗.判断SVM的核心思想就是建立一个最优决策超平面,使得该平面两侧距离该平面最近的两类样本之间的距离最大化[单选题]*A.TRUE正确答案B.FALSE.(单选)以下哪些不属于无量纲化特征缩放的为法?[单选题]*A.最大-最小归化B.OneHot编码C缩放成单位向量D.特征标准化E.均值归一化(正确答案).在进行完数据预处理和特征工程后,接下来要进行的就是选择合适的模型来训练我们己经处理好的数据和选择的特征假如你是一名数据挖掘工程师一般会从以下哪几个方面来进行特征分析?*A.其他要求性能、时间、空间(正确答案)B.特征是否独立(正确答案)C.对拟合程度的要求(正确答案)D.特征空间的维度(正确答案)E.是否为线性特征(正确答案).(单选)以下关于SparkLlib中FP-Growth的超参数描述不正确的是?[单选题]*A.minConfidence生成关联规则的最小置信度置信度表明关联规则被发现的真实程度B.minSupport:对项目集的最小支持被识别为频繁C.numPartitions:用于分发工作的分区数D.transform以高于minConfidence的置信度生成的关联规则(正确答案).(单选)SparkMLlib中的BasicStatistic是专门用于进行大数据集群上的统计分析工具,以下哪个不属于BasicStatisti6发持的功能?[单选题]*A.假设检验B.特征抽取C.汇总统计D.生成随机数:正确答案).(判断)SparkLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、关联规则、优化计算、协同过滤、降维和推荐多种机器学习算法[单选题]*A.TRUE(正确答案)B.FALSE.(单选)如一个原始数据为3行4列的数据框需要降维至两维,利用SparkLlib的实现思路下述不正确的是[单选题]*A.在PCA中,可以选取值最小的2个待征值对应的特征向量,并由该两个特征向量组成矩阵C(正确答案)B.求协方差矩阵B的右特征向量C.求取矩阵A的协方差矩BD.将原始3行4列的数据转换得到一个3乘4的矩阵A.以下哪些方法是对数据集根据一定规则按列变换?*Normaslizer()(正确答案)Standardscaler()(正确答案)MaxAbsScaler()(正确答案)MinMaxScaler()(正确答案).在MLS中,使用”决策树分类”节点建或的工作流包括如下*A.修改元数据(正确答案)B.决策树分类正确答案)C.读取HDFS文件(正确答案)D.保存模型:正确答案)
104.关于FusionTnsightMiner的描述正确的是?*A.支持模型构建及发布模型,让模型得到复用,组不提供打包功能B.交互式Notebook能够灵活编写代码,交互性强,适用于具备编程能力,了解数据分析及算法的数据科学家(正确答案)C.Web管理界面,提供项目、模型、数据管理,让管理更方便(正确答案)D.提供拖拽式工作流,可以直观的展示处理流程,适合对算法和接口无深入了解的数据分析业务人员正确答案).(单选)购买与登录专属版航s的描述不正确的有?[单选题]*A确认集群信息无误后,依次单击“立即购买“、“提交B.在购买专属版MLs实之前需要先购买MapReduce服务”C.在购买界面上,依次配置所需参数,其中Kerberos认证关闭或者开启均可D.一旦提交,集群会立刻创建完成(正确答案).(判断)大数据架构是关于大数据平台系统整体结构与组件的抽象和全局描述,用于指导大数据平台系统各个方面的设计和实施[单选题]*A.TRUE(正确答案)B.FALSE.在“运营商数据治理”案例中,可以结合新江移动11核心系统现状,其数据治理工作的重点是围绕
0、0两个方面展开*A.数据流管理B.主数据管理C.数据模型管理(正确答案)D.数据生命周期管理(正确答案)
104.大数据治理系统整体架构包含如下哪些部分?*A.数据运维(正确答案)B.组织架构正确答案)D.数据治理工具正确答案)
105.(单选)在提升信用卡安全案例”中,其商业理解的阶段可以选择建立各类信用评分模型,其中不包括哪个类型?[单选题]*A.行为信用评分卡B.模式信用评分卡(正确答案)C.申请信用卡评分卡D.催收信用评分卡
106.以下哪些选项是属性的类别?*A.二元属性[正确答案)B.数值属性(正确答案)C.标称属性〔正确答案)D.序数属性(正确答案)
107.若随机变量X服从参数为,入的泊松分布,以下关于X的期望和方差描述正确的是*A.方差是AA2B.期望是A9C.期望是A(正确答案)D.方差是A(正确答案).(判断)Python语青可以在同一行中使用多条语句,语句之间使用逗号”分害鼠[单选题]*A.IRCFB.FALSE(正确答案).(判断)赖牢就是极率[单选题]*A.TRUEB.FALSE(正确答案).与面向过程相比,以下哪些是面向对象的特态?*A.使程序的编码更加灵活,提高了代码的可纸护性(正确答案)B.增加了开发效(正确答案)C提高代码复用正确答案)D.程序可拓展性没有明显的变化
112.(单选)以下哪个选项是求解等式约来最优化的常用方法[单选题]*A.牛顿*B.梯度下降C.拉格朗日正确答案)D.KKT.(判断)ETL主要负责将分布的、异构的数据(Extract阶段)根据一定的业务规则进行数据清洗、转换、集成(Tra立sferr阶段)最终将处理后的数据加载到数据目的地(亿*ad阶段),比如数据仓库,[单选题]*A.TROLE(正确答案)B.FALSE.传统的ETL与ELT存在局限性,为了更好地适应多数据源.实时数据处理.高容惜.并行化等业务需求,基于Kafka的ETL矿架应运而生,以下关于KafkaConnec的描述正确的是?*A.ApacheKafka是由ApacheHadoop开发的,能够实时处理数据,为所有的消息处理目的地提供现实状况来源管道,B.KafkaConect将数据源和数据目的地视为彼此独立的任务,源端和目的端完全解耦,彼此不知道对方的存在,(正确答案)C.Sources负责从其他异构系统中读取数据井导入到aflca中(正确答案)D.Sinks负责把Kafka中的数据写入到其他的系统中(正确答案)
115.(单选)以下关于特征缩放的处理方法,量小值一最大值归一化和标准化的应用场景描述错误的是?[单选题]*A.在实际应用中,特征缩放的标准化操作更常用B.标准化方法在分、聚类算法中需要使用PCA技术进行降维C.最小值一最大值归一化的数据不符合正态分布D.最小值最大值归一化和标准化都需要使用距高来度量相似性(正确答案).(单选)下列哪些方法不适合用来对高维数据进行降维?[单选题]*A.小波分析法B.线性判别分析LDAC.聚类分析(正确答案)D.主成分分析法.在SVM算法中,常用的核函数有哪些?*A.线性核函数(LinearKernel)(正确答案)B.多项式核函数(PolymomialKernel)(正确答案)C径向基(高斯)核函数(RadicalbasisfunctionKernel)(正确答案)D.以上全不对
118.(单选)决策树是一种树形结构,其中每个内部节点表示个上的测试,每个分支代表个测试(),每个叶节点代表一种().[单选题]*A.输出、类别、属性B.属性、类别、输出(正确答案)C.属性、输出、类别D.类别、输出、属性
119.(判断)强规则是指同时满足最小支持度阈值和最小置信度阈值的规则[单选题]*A.TRUE(正确答案)B.FALSE
120.(单选)在有监督学习中,我们如何使用聚类方法?[单选题]*
1.我们可以先创建聚类类别,然后在每个类别上用监督学习分别进行学习
2.我们可以使用聚类“类别id”作为一个新的特征项,然后再用监督学习分别进行学习(正确答案).在进行监督学习之前,我们不能新建聚人[填空题].我们不可以使用聚类“类别id”挣为一个新的特征项,然后再用监督学习分别进行学习[单选题]*A.3和4B.1和4C.1和3D.1和2(正确答案)
121.以下关于对数损失函数描述正确的是?*A.预测正确的概率越大,损失函数的值越大B.预测正确的概率越大,损失函数的值越小(正确答案)C.逻辑回归算法可以使用对数损失函数(正确答案)D.对数损失函数(CrossEntroryLoss)用到了极大似然估计的思想(正确答案).(判断)在函数图像上任取两个点,如果函数图像在这两点之间的部分总在连接这两点线段的上方,则为凸函数[单选题]*A.TRUEB.FALSE(正确答案).(判断)最小二乘法常被用于线性回归中,它将回归的问题转化为凸优化的问题[单选题]*A.IRUE;正确答案)B.FALSE.算法的最优化问题根据约束条件可以分成哪几类?*A.不等式约束的优化(正确答案)B.等式约束的优化(正确答案)C.部分约束优化D.无约束优化(正确答案)
125.下哪些属于模型的超参数?*A.支持向量机的惩罚系数c和超参数(正确答案)B.训练神经网络的学习速率,选代次数,批次大小(正确答案)C.训练神经网络的激活函数,神经元的数量(正确答案)D.K近邻中的K.(正确答案)
126.以下哪些属于数据挖掘的基本流程?*A.模型评估(正确答案)B.数据加载(正确答案)C.特征工程D.数据预处理(正确答案)E.需求分析(正确答案)F.模型选择(正确答案)
127.(判断)如果没有特殊要求,尽量选择简单的模型,越商单的越合适[单选题]C.数据收费D.以上全部正确正确答案)
10.(判断)数据的ETL其中E为ExtractT为TransformL为Load[单选题]*A.TRUE(正确答案)B.FALSE.(单选)以下哪些选项不属于数值特征离散化的必要性?[单选题]*A.数值高散化实际是一个数据简化机制,通过数值离散化过程,一个完整的数据集变成一个个按照某种规则分类的子集,增强了模型的稳定性B.离散化数值在提高建模速度和提高模型精度上有显著作用C.离散化过程并没有带来信息丢失(正确答案)D.离散化后的特征对异常数据有很强的鲁棒性,能减少噪音节点对数据的影响.(判断)不要在整个数据集上做归一化处理,要区分训练集和测试集[单选题]*A.TRUEB.FALSE(正确答案).数据挖掘中用于解决预测问题的模型主要包括哪几大类?*A.分类(正确答案)B.流行C.回归(正确答案)D.复变
14.(判断)可以利用Python中的KNN算法进行数据缺失值的处理[单选题]*A.TRUE(正确答案)B.FALSEA.TRUEB.FALSE(正确答案)
128.(单选)在python中,关于Pandas模块中的数据读取函数read_table以下说法不正确的是?[单选题]*A.Dames:读取数据时,可以通过names属性设置列索引B.header用来制定标题行,如果数据禁中保有标题行,则制定为NoneC.index_col可以将数据集中的某列某几列)设置为行索引,通过indexcol来进行指定D.usecola:通过usecol3参数来设置需要使用的列,E.se/edaiter用来制定数据之间的分隔符,read_table默认为逗号,redcav默认为表符(正确答案).(单选)下列哪个不属于决策树的是?[单选题]*A.KNN正确答案)B.CARTC.ID3D.C
4.
5.以下关于线性判别分析()和主成分析法PCA的描述不正确的是?*A.主成分分析法(PCA)可以理解为是一种无监塔的降维方法(正确答案)B.线性判别分析(LDA)是一种有监怪的降维方法C.线性判别分析(LDA)是一种无监督的降维方法D.主成分分析法(PCA)可以理解为是有监督的降维方法(正确答案)
131.(单选)以下关于Spark的说法不正确的是?[单选题]*A.可以扩展MapReduce计算模型,高效支持多种计算模式,包括交互式查询和流处理(正确答案)B.擅长处理大规模数据集,速度快
132.(单选)以下关于SparkNI16中-Means优化参数描述不正确的是?[单选题]*A.initializationjode指定随机初始化B.Runs:运行Kneans实法的微数C.maxlterations:要运行的最大迭代次数D.Epsilon确定K-Means收敛的距离阈值(正确答案)133G[M)RDDResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个可变、可分区、里面的元素可并行计算的集合[单选题]*A.TRUE(正确答案)B.FALSE
134.(单选)以下关于SparkMLlib中决策树模州础参数描述不正确的是?[单选题]*A.impurity用于在候选分割之间进行选并的条质度量(正确答案)B.subsamplingRater用于学习决策树的训练数据的分数,但对于训练单个决策树,该参数不太有用C.maxBins:树的最大深度D.maxMemorylnMB用于收集足够统计信息的内存量.(判断)K-Means算法选择初始中心点的基本思想就是,初始的聚类中心之间的相互距离要尽可能的近.[单选题]*A.TRUEB.FALSB(正确答案).(判断)虹S即MchineLearoiung、Service是一项数据挖掘分析平台服务,可以帮助用户通过机器学习技术发现已有数据中的规律,从而创建机器学习模型,并基于机器学习模小处埋新的数据,为业务应用生成预测结果[单选题]*A.TRUE(正确答案)B.FALS.(判断)FusioninsightMiner是企业级的机器学习平台,基于华为FusioninsightHD的分布式存储和并行计算技术,提供从海量数据中挖掘出有价值信息的平台[单选题]*A.TRUE(正确答案)B.FALSE.FusioninsightMiner典型应用场贯有*A.客户分群(正确答案)B.异常检查(正确答案)C.语音识别D.精准营销(正确答案)
139.(单选)在MS中,”决策树分类”节点的参数设置描述不准确的是?[单选题]*A.不纯度树节点标签的混杂度计算标准,选值仅有“Gini”.(正确答案)B.最大树深度模型训练的最大迭代次数取值区间为【130]oC.最大分销数对连续的值进行范围划分,不能小于各分类特征的最大取值D.处理异常值选项中可以选择,mull值代替.(判断)大数据架构是关于大数据案负系统整体结构与组件的抽象和全局描述,用于指导大数据平台系统答个面的设计和实施[单选题]*A.TRUE(正确答案)B.FALSE.以下关于大数据治理描述正确的有*A.数据治理是门将数据视为一项企业资产的学科(正确答案)B.数据治理涉及到对组织内的人员.流程.技术和策略的编排,以从企业数据获取最优的价值(正确答案)C.数据治理涉及到以企业资产的形式对数据进行优化.保护和利用的决策权利(正确答案)D.从一开始,数据治理就在协调不同的、孤立的且常常冲突的策略(可能导致数据异常)的过程中扮演着重要角色.(单选)建设一个完整的数据治理平件作)数据平台的管控系统,从制度、标准、()、流程几个方面提升数据信总管理能力解决目前所面临的数据标准问题、数据质量问题、元数据管理问题和数据服务问题[单选题]*A.实时B.管理(正确答案)C.分化D.监控
143.(单选)一个典型的大数据平台系统架构不包括以下哪个层次?[单选题]*A.数据服务层B.数据可视化层।正确答案)C.数据应用层D.数据平台层144•多选以下关守大安秀流式架构的相关描述正确的有,*A.大数据流式架构在大数据基础架构上,去掉批处理部分,从而更专注处理流式数据(正确答案)B.流数据是一组顺序、大量、快速、连续到达的数据序列应用于网络监控.传感器网络、航空航天、气象测控和金融服务等领域流式架构在数据接入端没有了ETL转而替换为数据通道(正确答案)C.流式架构在数据接入端没有了ETL转而替换为数据通道经过流处理加工后的数据,以消息的形式直接推送给了消费者,满足了用户时数据的实效性需求(正确答案)D.对于流式架构来说,不存在批处理,因此对于数据的重播和历史统计无法很好的支撑,对于离线分析仅持窗口分析(正确答案)
145.数据挖掘可以为企业实现如下哪些价值?*A.能为企业开发新的产品或服务(正确答案)B.可以用来预测当条件发生变化后可能发生的状况(正确答案)C.可以描述企业当前发展的现状和规律(正确答案)D.能为企业机构的重组提供决策支持依据(正确答案).(单选)在案例银行客户精准画像”中,关于其数据挖掘不同阶段的操作描述,属于数据建模阶段的是?[单选题]*A.在客户分类问题中采用的主要是数据挖掘中分类和聚类的算法,需要结合需求规划出适用模型(正确答案)B.将来自数据仓库中多个数据表,经过乙数据采集.清理和集成,生成一个针对数据挖掘目标确定与交易行为有关的数据项集合C.结果分析,并提供参看策略D.对最近三个月的原始交易数露进行计算获得变量并整合在客户的实际交易情祝上定义客户的行为,每个客户作为一条观测从中隧机抽取2867个客户作为研究实例的代表性样本.(单选)KDD是KDD-Knowledgediscoveryindatabasese的缩写,中文含义是数据库内的知识发现[单选题]*A.TRUE(正确答案)B.FALSE.(单选)以下关于数据分析与数据挖掘的描述错误的是?[单选题]*A.数据分析更侧重于统计学上面的一些方法,经过人的推理演译得到结论数据挖掘更侧重于侧重由机器进行自学习,直换制列结论B.数据挖掘是从大量的数据中,挖掘出未知的一宜有价值的信息和知识的过程,重点是从数据中发现“知识规则”c.数据分析和数据挖掘的界限是非常消晰的(正确答案)D.数据分析会用到成熟的分析工具、比如EXCBL.SPSS.SAS等数据挖掘则需楚有编程基础149以下哪些属于Python运算符?*A.逻辑运算符正确答案)B.推理运算符C.比较运算符(正确答案)D.算数运算符正确答案)
150.(单选)设X.Y是两个随机变量C是常数,以下关于方差的性质描述错误的是[单选题]*A.D(C)=0(正确答案)B.D
(0)=0的充要条件是复概率取常数E(X)即P{X=E(X)=1C.D(X+Y)=D(X)+D(Y).(单选)梯度下降法找到的一定是全局最优解[单选题]*ATRUEB.FALSE(正确答案).(单选)数据的ETL其中E为ExtractT为TransturmL为Load.[单选题]*A.TRUE(正确答案)B.FALSE.(单选)以下哪个选项是异常值处理的方法?[单选题]*A.删除异常值B.将异常值视为缺失值,按照缺失值处理方法来处理异常值C.估算异常值D.以上全都正确正确答案).(单选)下列哪个不属于常用的文本分类的特征选择算法?[单选题]*A.主成分分析(正确答案)B.信息增益C.互信息法D.卡方检验.(单选)对于PCA(成方分析)转化过的特征,得到的所有主成分的[单选题]*A.TRUE(正确答案)B.FALSE.(单选)决策树中不包含以下哪种节点?[单选题]*A.内部节点(internalnode)B.外部节点(externalnode)(正确答案)C.根节点(rootnode)D.叶节点.(单选)以下哪一项不是KNN算法的三要[单选题]*A.分类决策规则B.K值的选取C.距离度量的方式D.特征的顺序正确答案).(单选)我们想在大数据集上训练决策树,为了使用较少时间,我们可以[单选题]*A.减少树的数量B.增加树的深度C.减少树的深度正确答案)D.增加学习率(learningrate)
159.以下关于小批量梯度无降(Mini-BatchGradientDescent--BGD)算法的描述正确的是?*A.MBGD算法的诞生是为了解决随机梯度下降(SGD)的缺点(正确答案)B.EGD算法的诞生是为了解决批量梯度下降(BGD)的缺点(正确答案)CMBGD算法最终参数训练的准确率保证性较好(正确答案)D.MBGD算法的训练过程相对BGD和SGD比较快.
160.(单选)对于随机森林和GradientBostingTrees.下面说法正确的是?[单选题]*A.可以并行地生成GradientRoostingTrees单个树,因为它们之间是没有依赖的B.这两个模型都使用随机特征子集,来生成许多单个的树(正确答案)C.在随机森林的单个树中,树和树之间是有依赖的而GradientBostingTrees中的单个树之间是没有依赖的D.GradientBoostingTrees训练模型的表现模是比随机森林好.(判断)在聚类算法中,规则总体过交叉和变异操作“进化”直到总体中所有的规则都满足指定的阈值[单选题]*A.TRUB(正确答案)B.FALSE.(单选)当不知道数据所带标签时,可以使用哪种技术促使相似的数据与其他不相似的数据相分离?[单选题]*A.分类B.关联分析C.聚类(正确答案)D.隐马尔科夫过程.(判断)632自助法指的是,在平均情况下,
63.2%的原数据元组将出现在检验集中[单选题]*A.TRUEB.FALSB(正确答案).以下关于0-1损失函数意义理解正确的是?*A.当预测错误时,损失函数值为0B.预测正确时,损失函数值为1C当预测错误时,损失函数值为1(正确答案)D.预测正确时,损失函数值为0(正.(判断)最优化问题的目标函数必须是凸函数,才能保证优化的最优结果是全局最优而不是局部最优,否则要进行凸优化,[单选题]*A.TRUE(正确答案)B.FALSE.除了精确率Precisien)和召回率(Recall).以下还有哪些常用的模型评估指标?*A.ROC曲线(ReceiverOperatingCharacteristic)三确答案)B.AUC数据(正确答案)C.F1值(Fl-Measure)(正确答案)D.混淆矩阵(ConfusionMatrix)E确答案).(单选)协同过滤推荐算法心是最经典、最常用的推荐算法要实现协同过滤以下哪个步骤不需要?[单选题]*A.计算推荐B.找到相似的用户或物品C.收集用户偏好D.收集用户来源正确答案)
168.以下关于SpakMLlib中分类模型评估指标描述正确的是?*A.F1值就是PrecisionRecall的调和均值B.多分类评估指标位于包org.apache.spark.mllib.util.MLUtilsC.二分类评估指标位于包org.apache.spark.mllib.evaluation.BinaryClassificationMetrics中(正确答案)D.多标记分类问题涉及在一个数据集中的每个样本映射到一组类的标签在这种类型的分类问题中,标签不是互斥的.(正确答案)
169.(单选)在华为MS中,“线性回归”书点的参数设置描述错误的是?[单选题]*A.最大迭代次数,模型训练的最大选代次数B.正则化函数正则化方法,可选参数仅包括Auto、None、LI、L2(正确答案)C.正则化参数用于调节正则化项的权重.D.弹性网络参数,L1和L2正则化的分配权重.以下关于大数据架构重要性的描述正确的有?*A.大数据架构作为数据提供者角色为大数据系统提供可用的数据(正确答案)B.大数据架构作为大数据应用程序提供者可以是单个实例,也可以是一组更结粒度的大数据应用提供者实例的集合集合中的每个实例执行数据生命周期中的不同活动(正确答案)C.好的大数据架构可扩展性强奇维护性高,能为企业来来的业务发展提供教据支撑.(正确答案)D.好的大数据架构需要阴旁着企业的业务进行设计,而不是单单海围绕着技术架构的业务是核心而技术是业务的支持,好的大数据架构是能满足业务的持续发展(正确答案).(单选)0咏上数据治理产品包括OracleDatabase12cx()、Oracle大数据SOL、和大数据连接器开始入手[单选题]*A.Oracle大数据共享系统B.Oracle大数据清洗系统C.Oracle大数据存储系统D.Oracle大数据管理系统正确答案).(单选)DUGP(UnitiedDataGovernance中latform)华为大数据统一数据治理平台,为运营商提供全面高效的数据资产管控环境实现了数据集中.统一和共享包括统的数据采集和整合统一的全、标准、生命周期和质量管理以及多维度数提云图功能提供开箱即用的可以实现全生命周期的主数据管理包括主数据的集中存储、
0、主数据清洗、主数据监管和主数据的共享满足集团对于企业级别主数据的管理平台的要求[单选题]*A.主数据合并〔正确答案)6(单选)”点击率问题”是这样一个预测问题,99%的人不会点击,而1%的人会点击,所以这是一个非常不平衡的数据集假设,现在我们已经建了一个模型来分类,而且有了99%的预测准确率,我们可以下的结论是?[单选题]*A.模型预测准确率已经很高了,我们不需要做什么了B.模型预测准确率不高,我们需要做点什么改进模型(正确答案)C.无法下结论D.以上都不对
16.机器学习中做特征选择时,以下哪种技术属于Filter(过滤法)[单选题]*A.方差选择法B.B.互信息法C.C.卡方检验D.相关系数法E.以上全都正确正确答案)
17.(单选)我们可以使用Python中scikit-learn库的()函数,来对样本集进feature_selection(特征选择)和dimensionalityreduction(降维)?[单选题]*A.sklearn.neighborsB.sklearn.feature_selectionB确答案)C.sklearn.linearmodelD.sklearn.cluster
18.当数据预处理完成后,我们需要选择有意义的特征输入算法和模型进行训练通常来说,可以从哪些方面考虑来如何进行特征选择?*A.特征是否发散(正确答案)B.特征与目标的相关性(正确答案)C.特征的名称B.主数据关联C.主数据标记D.主数据迁移D.以上全都正对
19.对于特征选择中的互信息法,以下理解正确的是?*A.互信息法是从信息嫡的角度分析特征和输出值之间的关系评分.(正确答案)B.在Python工具的sklearn模块中,可使用mutual_info_classif(分类)(正确答案)和mutual_info_regression(回归)来计算各个输入行征和输出值之间的互信息C.互信息的结果对离散化的方式不敏感D.互信息值越大,说明该特征和输出值之间的相关性越大,越需要保留(正确答案).(单选)以下关于Trapper(包装法)和FiLter(过滤法)的描述不正确的是?[单选题]*A.Wrapper方法由于每次对子集的评价都要进行分类器的训练和测试,所以算法计算复杂度很高B.Trapper方法选出的特征通用性较强,当改变学习算法时,也不需要针对该学习算法重新进行特征选择(正确答案)C.相对于Filter(过滤法),Wrapper方法找到的特征子集分类性能通常更好D.对于大规模数据集来说,Wrapper算法的执行时间很长.机器学习的分类主要有哪些?*A.无监督学习(正确答案)B.强化学习(正确答案)C.监督学习(正确答案)D.半监督学习(正确答案).关于装袋((Bagging)算法的特点,以下描述正确的有?*A.Bagzing改进了预测准确率,也具有非常好的解释性B.由于每一个样本被选中的概率相同,因此装袋并不侧重于训练数据集中的任何特定实例(正确答案)C.对于噪声数据,装袋不太受过分拟合的影响.(正确答案)Dragging通过降低基学习器的方差改善了泛化误差(正确答案).(单选)当决策树出现过拟合后,需要使用)技术来缩小树的结构和规模[单选题]*A.剪枝(正确答案)B.回归C小波D.调和.(单选)以下哪项不是KNN算法的三要素?[单选题]*A.K值的选取B.分类决策规则C.距离度量的方式D.特征的顺序(正确答案).(单选)在其它条件不变的前逞下家以千哪一方法容易引起模型的过拟合问题?[单选题]*A.增加训练集数量(正确答案)B.减少神经网络险敲层市索数C删除稀疏的特征D.SVM算法中使用高斯核/RBP核替代.(单选)朴素贝叶斯分类方法(NaiveBayes)是一种特殊的Bayes分类器,特征变量是x类别标签是C它的一个假定是?[单选题]*A.以为均值,sqr
(2)/2为标准差的正态分布B.P(XIC)是高斯分布C.特征变量x的各个属性之间互相独立(正确答案)D.各类别的先验概率P(C)是相等的.以下哪些是朴素贝叶斯算法的特点[单选题]*A.低偏差1正确答案)B.高方差C.低方差D.高偏差答崇CD.(单选)下列哪个选项不是常用的聚类算法?[单选题]*A.SYM(正确答案)B.DBSCAN算法C.K-means算法D.HierarchicalClustering算法、BIRCH算法.(单选)以下关于聚类算法的理华确的是?[单选题]*A.簇内的相似性越大,族间的差别越小,聚类的效果就越好簇内的相似性越大,簇间的差别越小,聚类的效果就越差,C.簇内的相似性越大,族间的差别越大,聚类的效果就越好,(正确答案)D.簇内的相似性越大,簇间的差别越大,聚类的效果就越差
30.影响K-均值算法的主要因素有?*A.K值的大小(正确答案)B.模式相似性测度正确答案)C.初始中心点的选择(正确答案)D.聚类准则.(单选)以下哪一项不属于抽样的类别?[单选题]*A.简单随机抽样B.分层抽样C.系统抽样D.整群抽样E.循环抽样正确答案).分类和回归是预测问题的两种主要类型,以下关于分类和回归理解正确的是?*A.回归的输出是连续数值(正确答案)B.分类的输出是离散的类别值(正确答案)C.回归的输出是离散的类别值D.分类的输出是连续数值
33.(单选)以下哪一项不是最优化问题的三个基本要素?[单选题]*A.约束条件需要满足的误判条件,B.参数值未知的因子且需要通过数据来确定C.目标函数用来衡量结果的好坏D.数据规模(正确答案).(单选)以下哪种场景比较适用于在保证召回率的前提下,尽量提升精确率的情况[单选题]*A搜索(正确答案)B.地震检测C.金融欺诈D.癌症检测.以下关于模型过拟合、欠拟合的理解正确的是?*A.一般来说,模型过拟合容易出现高方差,低偏差(正确答案)B.一般来说,模型过拟合容易出现高偏差,低方差C.一般来说,模型欠拟合容易出观高方差,低偏差D.一般来说,模型欠拟合容易出现高偏差,低方差।正确答案).(判断)最小二乘法常被用于线性回归中,它将回归的问题转化为凸优化的问[单选题]*A.TRUE(正确答案)B.FALSE.使用单独的测试集或者验证集对于模型会有哪些局限性?*A.分割后的测试转样本规模太小,(正确答案)B.不同测试集生成的结果不同,则会造成测试集具备极大的不确定性,(正确答案)C.测试集是对模型的单次评估,无法完全展现评估结果的不确定性(正确答案)D.将大的测试集划分成测试集和验证集会增加模型性能评估的偏差E.模型可能需要每个可能存在的数据点来确定模型值.以下哪些属于数据挖掘的基本流程?[单选题]*A.特征工程:正确答案)B.模型评估C.数据加载D.需求分析E.模型选择F.数据预处理答案bcdf
39.(判断)哑编码与OneHot编码很实似区别在于哑变量认为对于一个具有N个类别的特征,我们只需要考察N-1个类别是否存在,第N个类别自然就能得到[单选题]*A.TRUE(正确答案)。