还剩9页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
数据科学与大数据专业课程教学大纲数据仓库与数据挖掘
一、说明
(一)课程性质本课程以数据仓库和数据挖掘为主要内容,讲述数据仓库与数据挖掘的基本概念和方法包括数据预处理、数据仓库与联机分析处理、数据仓库的设计与开发、以及数据挖掘的主要功能、数据挖掘、机器学习算法和应用,并通过对实际数据的分析更加深入地理解常用的数据挖掘与机器学习模型培养学生数据分析和处理的能力该课程的先修课程有概率论与数理统计、数据库原理和程序设计等
(二)教学目的本课程的主要目的是培养学生的数据仓库与数据挖掘的基本理论分析与应用实践的综合能力通过本课程的教学,使学生掌握数据仓库和数据挖掘的一般原理和处理方法,能使用机器学习理论解决数据挖掘相关的问题
(三)教学内容本课程全面而又系统地介绍了仓库与数据挖掘的方法和技术,反映了当前数据仓库与数据挖掘研究的最新成果本课程主要学习的内容包括Python数据分析与可视化基础、认识数据、数据预处理、回归分析、关联规则挖掘、分类与预测、聚类分析、神经网络与机器学习基础、离群点检测以及Python数据挖掘案例分析等内容
(四)教学时数本课程的教学时数为72学时,理论教学54学时,实验教学18学时
(五)教学方式多媒体机房教学、案例导向、项目驱动等教学方法、启发学生对学科知识的把握理解和实际操作能力课程教学方法的改革以调动学生的积极性为核心除讲授、提问、学生分析、讨论等常用的方法外,结合管理课程的特点,适应本科生培养的要求,探索并完善以参与式、体验式、交互式和模拟教学等实践教学为基本形式的多种方法并建立纸质、声音、电子、网络等多种媒体构成的立体化教学载体本课程的教学方式主要采用课堂讲授和实验操作,包括课堂讲授、多媒体教学、实验操作、算法分析与设计、习题解析、课堂讨论、批改作业、课外辅导等多种形式相结合,保证学生掌握数据挖掘与机器学习的基本知识,理解算法的实现,培养学生的自学能力、分析问题和解决问题的能力教学方法采用启发式教学和探究式教学,以学生为主体,鼓励学生自己针对某种数据挖掘与机器学习算法进行分析和研究,培养学生的自学能力教学手段充分利用电子教案、CAI课件和网络教学平台等多种教学手段和资源考试环节两次课堂小测验;学期末学生分为若干小组,每个小组研究讨论并实现某一前沿的数据挖掘算法或者实现实际的数据挖掘案例,以报告的形式进行讲解,最后提交一份课程学术报告
二、本文理论部分基本要求实验是数据仓库与数据挖掘课程教学中不可分割的重要组成部分实验课程设计的思想是帮助学生理解和掌握数据仓库和数据挖掘的基本概念、算法、技术和原理,熟练掌握利用Hive进行数据仓库设计,利用Python进行数据挖掘和机器学习的使用方法,通过适当的编程提高学生的编程能力以及实践动手能力,提高学生对课程的学习兴趣,加强创新精神与综合素质的培养实践课程课时18学时课程思政内容.培养学生民族认同感,树立远大职业理想梳理国产操作系统的发展历史与现状,包括华为、中兴等国产企业在全球市场的崛起,在操作系统领域的新架构,向学生展示中国的信息技术领域成就,增强使命感与荣誉感;通过华为孟晚舟事件、美国的芯片垄断一引出民族认同感党的十八届五中全会通过的“十三五”规划《建议》,明确提出实施网络强国战略以及与之密切相关的“互联网+〃行动计划国家正着力实现关键技术自主可控,为维护国家安全、网络安全提供技术保障中国信息化需求巨大,但在一些关键技术领域如操作系统、芯片技术、CPU技术等方面,还难以做到自主可控,对国家安全造成威胁引导学生明确建设网络强国,不仅仅是靠网络技术,还要有软件技术等其他各类技术的支撑引导学生作为软件技术专业的一员,应更加明晰专业人才的培养目标,更加明确专业领域内工作岗位和工作内容的社会价值,自觉树立远大职业理想,将职业生涯、职业发展脉络与国家发展的历史进程融合起来•向学生介绍中国在人工智能领域的布局,重点分析当代人工智能下软件技术如何支撑中国制造的智能化发展;.通过专业知识的学习,引导学生深刻理解与认识所学软件开发知识对于国家信息产业发展、智慧城市建设、大数据智能信息处理等各方面的重要意义,使学生在学习过程中逐渐树立专业荣誉感;4培养学生精益求精、工匠精神告诉学生在学好软件技术之后,走上工作岗位会成为程序员、软件系统运维人员、软件测试员、售前售后服务人员等在这些职位岗位上,要发挥工匠精神,精益求精地将程序开发、系统运维、程序测试、需求分析及技术问题处理等工作内容完成好,保证软件系统运行时正确、稳定,保证客户的需求被精确采集和纳入软件开发计划,保证软件运行时遇到问题能被及时解决引导学生在学习时,将知识夯实、精技强能,方能在今后工作中本领过硬,不出纸漏,工作成果令用户满意引导学生认识到,作为职业人,其专注、敬业、责任担当对完成好本职工作,进而促进软件行业整体的高水平、优质化发展具有重要意义5培养学生团结协作,合作共赢的精神通过实践项目、竞赛等,告诉学生今天的社会无论什么行业想要做出一番成就,靠一个人打拼已经不现实了所谓人多力量大,三个臭皮匠顶个诸葛亮……强调团队成员之间的资源共享、协同合作精神,团队成员在一个项目中要各司其职每个人发挥自己的特长完成分配的任务,最终才能高质量、有效率地完成项目,从而形成更强大而持久的生产力和创造力第一章绪论教学要点L理解和掌握数据仓库与数据挖掘的基本概念、数据仓库的定义、组成以及数据挖掘的过程、数据挖掘的主要任务以及数据挖掘使用的主要技术.了解数据仓库和数据挖掘的应用和面临的问题•对数据挖掘能够解决的问题和解决问题思路有清晰的认识.熟练应用Jupyternotebook的开发环境教学时数学时教学内容第一节数据仓库简介.了解数据仓库的定义和特点第二节数据仓库与操作型数据库的关系
1.熟练掌握数据仓库与数据库的区别第三节数据仓库的组成
1.掌握数据仓库系统的组成第四节数据仓库的应用
1.了解数据仓库的应用场景第五节基于Hadoop/Hive的数据仓库技术
1.了解基于Hadoop/Hive的数据仓库技术第六节数据挖掘的主要任务和数据源
1.理解数据挖掘中的主要问题,任务和数据源第七节数据挖掘与机器学习常用的建模工具
1.了解数据挖掘的商用和开源工具第八节利用Python进行数据挖掘.掌握Python数据挖掘的常用类库.熟悉JupyterNotebook的使用方法第九节数据仓库与数据挖掘的区别与联系
1.掌握数据仓库与数据挖掘的区别及联系考核要点掌握数据仓库与数据挖掘的定义和功能,理解数据挖掘在何种数据上进行,数据挖掘可以挖掘什么类型的模式,掌握初级的数据仓库技术第二章认识数据教学要点.理解和掌握数据对象和属性类型,数据的基本统计描述,掌握度量数据相似性和相异性的方法.了解数据可视化的方法教学时数学时教学内容第一节数据对象与属性类型
1.熟练掌握数据的属性类型第二节数据的基本统计描述
1.熟练掌握中心趋势度量的方法、度量分散程度的方法、数据基本统计描述图形显示的方法第三节数据可视化
1.了解数据可视化的方法第四节度量数据的相似性和相异性.熟练掌握度量数据相似性和相异性的方法考核要点了解数据的属性类型,理解数据的基本统计描述掌握度量数据相似性和相异性的方法第三章数据预处理教学要点.了解数据预处理的目的和意义.掌握如何对数据进行清理.掌握如何对不同数据源的数据进行合并.掌握如何对数据进行变换,使之适合建模的需要.掌握如何对数据进行消减,使得在消减后的数据集上挖掘更有效.掌握利用Python进行数据预处理的方法教学时数4学时教学内容第一节数据预处理概述.了解为什么要对数据预处理.数据的质量要求第二节数据清理.理解缺失值、噪音数据的处理方法.利用Python进行数据清理的方法第三节数据集成.理解数据集成的方法.利用Python进行数据合并第四节数据变换与数据离散化.了解数值数据的离散化和概念分层产生.熟练掌握数据变换和数据离散化的方法第五节数据归约.了解维归约可以检测并删除不相关、弱相关或冗余的属性或维.理解数据压缩使用编码机制压缩数据集.理解数值压缩用替代的、较小的数据表示替换或估计数据,如参数模型(只需要存放模型参数,而不是实际数据)或非参数方法,如聚类、选样和使用直方图考核要点理解数据清理、数据集成、数据规约、数据变换于数据离散化的方法,掌握数据预处理的基本方法第四章数据仓库与联机分析处理教学要点L掌握数据仓库的体系.掌握多维数据模型与OLAP.掌握数据仓库的维度建模.了解数据仓库的发展教学时数4学时教学内容第一节数据仓库的体系.理解数据仓库的体系结构.理解数据仓库中的ETL、数据集市和元数据第二节多维数据模型与OLAP.掌握多维数据模型的概念.理解OLAP的含义和基本操作.掌握多维数据建模的实现过程第三节数据仓库的维度建模.理解数据仓库的维度建模.理解星型模型和雪花模型第四节数据仓库的发展了解动态数据仓库了解数据中心和数据中台考核要点掌握数据仓库体系、OLAP及维度建模第五章数据仓库设计与开发教学要点L掌握数据仓库设计的过程2掌握基于Hive的数据仓库实现教学时数4学时教学内容第一节数据仓库设计概述.了解数据仓库设计的特点.掌握数据仓库的构建模式第二节数据仓库设计.掌握数据仓库规划、需求分析及概念设计.理解数据仓库逻辑模型设计.理解数据仓库物理设计.了解数据仓库的部署与维护第三节基于Hive的数据仓库实现.理解Hive数据仓库和数据库比较.掌握数据仓库的常用操作.掌握利用Hive建立数据仓库考核要点掌握数据仓库的设计过程与方法,利用Hive进行数据仓库设计开发第六章回归分析教学要点L掌握回归分析原理.掌握一元线性回归分析.掌握多元线性回归分析掌握逻辑回归.了解其他回归分析教学时数4学时教学内容第一节回归分析概述.理解回归分析的定义与分类.理解回归分析的过程第二节一元线性回归分析.掌握一元线性回归方法.理解一元线性回归模型的参数估计.理解一元线性回归模型的误差方差估计.掌握利用Python进行一元线性回归第三节多元线性回归.理解多元线性回归模型.理解多元线性模型的参数估计.了解多元线性回归的假设检验及其评价.掌握利用Python进行多元线性回归第四节逻辑回归.理解Logistic回归模型.掌握利用Python进行Logistic回归考核要点掌握回归的定义,各类回归的原理及Python实现第七章关联规则挖掘教学要点L了解关联规则的基本思想、概念和意义.了解关联规则挖掘的应用背景;掌握常用的关联规则算法.掌握利用Python实现关联规则分析.了解其它方法的内容、了解关联规则挖掘的研究动态教学时数4学时教学内容第一节关联规则分析概述.了解购物篮分析.熟练掌握频繁项集、闭项集和关联规则的概念.理解频繁模式挖掘的路线图第二节频繁项集挖掘方法.掌握Apriori算法使用候选项集找频繁项集.掌握由频繁项集产生关联规则的方法.理解提高Apriori算法有效性的方法.掌握挖掘频繁项集的模式增长方法第三节关联规则评估方法.了解强关联规则不一定是有趣的使用提升度进行相关分析考核要点了解频繁项集、闭项集和关联规则的概念,理解模式评估方法,掌握Apriori算法和挖掘频繁项集的模式增长方法第八章分类教学要点.了解分类及预测的基本思想、概念和意义.掌握常用的分类及预测算法(或模型)了解分类及预测挖掘的研究动态.掌握利用Python实现各种分类算法的方法教学时数12学时教学内容第一节基本概念L了解分类和预测的定义第二节决策树规约.理解决策树归纳的概念.掌握属性选择度量的方法.理解树剪枝.决策树的Python实现第三节K近邻算法.K近邻算法原理.Python算法实现第四节支持向量机.SVM算法原理
2.Python算法实现第五节贝叶斯分类.理解贝叶斯定理.掌握朴素贝叶斯分类算法.朴素贝叶斯算法的Python实现第六节模型评估与选择.分类器性能的度量.模型选择.利用Python实现模型的评估与选择第七节组合分类.组合方法简介.袋装.提升和AdaBoosto.随机森林考核要点了解分类的概念,理解评估分类器性能的度量方法,掌握决策树分类算法、SVM、贝叶斯分类算法、模型评估与选择、组合分类及利用Python实现分类的方法第九章聚类教学要点L了解如何计算由各种属性和不同的类型来表示的对象之间的相异度2掌握K-Means聚类、层次聚类、基于密度的聚类和其他常用方法3掌握利用sklearn实现聚类的方法教学时数10学时教学内容第一节聚类分析的概念.理解什么是聚类分析了解对聚类分析的要求掌握基本的聚类方法第二节K-Means聚类.掌握典型的划分方法K-Means和K-MedoidSo.掌握利用sklearn实现K-means聚类第三节层次方法.理解凝聚的和分裂的层次聚类.掌握簇间的距离度量.分裂和凝聚的层次聚类算法.算法实现第四节基于密度的方法.算法原理.掌握DBSCAN算法.掌握算法的Python实现第五节其他聚类算法.了解STING算法.了解COBWEB算法.掌握模糊聚类算法第六节聚类评估L估计聚类趋势.学习确定簇数的方法.测定聚类质量考核要点了解聚类的概念,掌握k.Means和k-Medoids算法、层次方法和基于密度的方法等典型算法及其Python的实现方法第十章神经网络与深度学习教学要点L了解理解神经网络与深度学习的原理.掌握感知机与BP神经网络的原理.了解深度学习基础教学时数2学时教学内容第一节神经网络基础.理解神经元模型.理解感知机与多层网络第二节BP神经网络.理解多层前馈神经网络.理解后向传播算法.了解BP神经网络应用第三节深度学习.理解深度学习基本原理.了解常用的深度学习算法考核要点了解神经网络的概念,掌握感知机模型和BP神经网络、了解深度学习算法第十一章离群点检测教学要点L了解离群点的概念与检测方法2掌握sklearn中的异常值检测方法教学时数2学时教学内容第一节离群点概述.理解离群点的概念和类型.理解离群点检测的挑战第二节离群点检测.理解基于统计学的离群点检测方法.理解基于临近性的离群点检测方法.理解基于聚类的离群点检测方法.理解基于分类的离群点检测方法第三节sklearn中的异常值检测方法.了解利用Python进行异常值检测的方法考核要点了解离群点的概念、类型以及离群点检测的常用方法,掌握sklearn中的异常值检测方法第十二章文本和时序数据挖掘教学要点L掌握文本数据挖掘的过程和基本方法掌握时序数据挖掘主要方法教学时数学时教学内容第一节文本数据挖掘.理解文本数据挖掘的任务第二节文本分析与挖掘的主要方法.理解文本挖掘预处理的方法.理解文本表征、文本分类、聚类与文本可视化方法第三节时序数据挖掘.掌握时间序列平稳性与随机性判定方法.掌握时序数据的典型分析挖掘模型,主要包括自回归滑动平均模型、差分整合移动平均自回归模型和季节性差分自回归移动平均模型考核要点掌握文本挖掘的主耍任务和基本方法,时序数据预测的主要模型第十三章数据挖掘案例教学要点L掌握数据挖掘的分析与实现2掌握利用sklearn进行综合数据挖掘教学时数4学时教学内容.良/恶性乳腺肿瘤预测.泰坦尼克号乘客生还预测.图像的聚类分割考核要点掌握利用Python进行数据挖掘与机器学习的实现过程本课程使用教具和现代教育技术的指导性意见本课程教材力求内容新颖,应采用多样化的方式进行教学,让学生在理论与实践相结合的基础上,对课程所要求的实际操作能力有进一步的提高充分利用多媒体等现代化教学手段,整体优化教学过程和教学内容,调动学生学习积极性;布置实际操作任务给学生上机操作并及时指导实验部分。