还剩11页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
课程编号6001420363《数据挖掘》课程教学大纲分析哪些商品会和啤酒一起购买1s、分析不同性别、年龄以及家庭主妇们有怎样的消费偏好
2、探寻不同购买物品之间的联系,为货架的摆放提供依据
3、探寻购买不同商品(以酒和饮料为例)的顾客的特征,确定促销信息发放的对象4实验使用节点比较不同模型的优劣3Binary Classifier【实验目的】、理解分类挖掘原理
1、掌握二元分类器”节点的使用2【实验内容】本次实验将使用系统自带数据作为数据源pm_customer_trainl.sav从数据上看,在过去的活动中最多的记录数都是在下Premium accountcampaign值为整数定义类型节点(例如二)数据中也包含了“响Campaign2Premium accounto应(对建议的接受与否)的值域()它将是数据挖掘的目标、预0=no,and1=yes,测的对象基于顾客的属性,例如收入、年龄、每个月的交易次数等,用这些信息构建或者训练一个模型来预测“响应”率希望预测数据中的看看预测结果与实际结果匹配的程度response,实验在中使用进行聚类分析4Clementine K-means【实验目的】、理解聚类分析挖掘原理
1、掌握节点使用2K-means【实验内容】本次实验将使用系统自带文件夹中的数据作为数据源L DEMOsnapshottrainN.db通过使用建立模型,主要是根据收集的个人的一系列K-means属性把人群进行聚类分析,并分为(这里取)类的过程k
5、现有数据收集了种饮料的热量()、咖啡因()2drink.sav,16calorie caffeines钠()及价格()四个变量的值现在希望利用这四个变量对这种饮料sodium price16进行聚类、分析经济发展水平这里,以我国个省市自治区年各地区经济发展的3312008数据为例(在“数据与案例”文件夹中),讨论的具体操作K-Means.sav K-Means变量从到依次表示人口数及分性别人口数,反映各地的人口水平;出生预期寿xl xll命和每万人平均病床数,反映各地区人民健康水平;大专以上文化程度人口比例反映各地区的教育水平;人均、第三产业增加值占比例、人均道路面积、省会城市GDP GDP空气质量达到并好于二级的天数以及人均环境污染治理投资额,反映各地区的经济发展和社会环境水平等分析目标根据所给变量,研究我国个省市自治区的综合发展水平,分析那些省市31自治区处在相同的发展结构水平上
六、教学方法与手段本课程采用案例教学法教师通过讲解带有一定应用背景的实例,提升学生学习的兴趣,并使学生通过课堂学习了解理论知识,并能带着问题去查阅相关资料,提升学生的自学能力作业题均为一些实际问题,要求学生能利用数据挖掘基本原理和方法,结合软件Clementine完成一定量的数据分析
七、各教学环节学时分配理论讲授实验(践)学讨论、测验序号教学章学时时等学时12第章数据挖掘和使用概述1Clementine第章数据管理22Clementine4第章数据的基本分析33Clementine42第章关联规则挖掘4462第章分类与预测5562就章聚类分析66422
八、考核方式考核方法阶段测试成绩构成本课程的总成绩主要由两部分组成平时成绩(包括作业情况、出勤情况等)占期末阶段测试实验成绩占40%,60%
九、推荐教材及参考资料、推荐教材1教材名称基于的数据挖掘Clementine编著者薛薇陈欢歌出版单位中国人民大学出版社版次第一版2012-3教材类型教育部规划教材、参考资料2(美)韩家炜()等著,范明等译.数据挖掘概念与技术(原书第版).机械
[1]Han,J.3工业出版社.年月20128大纲制定人《数据挖掘》课程组大纲审定人吉林财经大学二oo五年八月《数据挖掘》课程教学大纲
一、课程基本信息课程编号
1.
1.6001420363英文名称
1.
2.Data Mining程模块专业限选课
1.
3.课程学时总计学时,其中,实验(践)学时
1.
4368.学分
1.52先(预)修课程概率与统计,数据库原理
1.
6.适用专业计算机科学与技术、电子商务、信息管理与信息系统
1.7,.修订时间
1.
82015.8
二、课程简介数据挖掘是管理科学与信息工程学院开设的一门重要的专业限选课程本课程主要讲授数据挖掘的基本概念,原理、方法和技术,具体包括数据的预处理、分类预测、关联挖掘、聚类分析等内容通过学习,使学生理解数据挖掘的基本流程,掌握数据挖掘的基本理论和技术,熟悉数据挖掘成果的表达;掌握数据挖掘的基本方法,能熟练地应用数据挖掘技术对现实数据进行有效的分析,能够结合软件从大量统计数据中获取有价值的信息Clementine
三、课程教学目标数据挖掘是高级数据处理和分析技术通过本课程学习,使学生了解数据挖掘这种现代数据分析和知识挖掘方法的思想与技术,了解数据挖掘的基本理论,掌握重要的数据挖掘方法,掌握如何利用实现数据分析和挖掘,并使学生具有进一步学习的基础与能力Clementine
四、教学内容与要求第一章数据挖掘和使用概述Clementine【教学目的与要求】本章作为绪论,其目的是让学生对数据挖掘技术有一个总体的认识因此,主要内容是对数据挖掘技术的概念、产生背景、发展趋势以及应用等进行提炼和概括,并熟悉clementine软件的使用环境要求学生掌握以下内容>数据挖掘的发展>数据挖掘基本知识>数据挖掘功能>数据挖掘应用>数据挖掘的热点问题>熟悉软件Clementine【教学重点】数据挖掘概念1s、数据挖掘分类2【教学难点】、操作基础1Clementine【教学内容】数据挖掘的产生背景
1.
9、数据挖掘产生的背景
1、数据挖掘的发展
2、数据挖掘概述3么是数据挖掘
1.10数据挖掘概念1s、数据挖掘分类
2、数据挖掘体系结构3软件概述
1.11Clementine、的配置1Clementine、操作基础2Clementine第二章数据管理Clementine【教学目的与要求】本章中的数据管理主要是指数据挖掘中的数据预处理部分对数据进行预处理,不但可以节约大量的空间和时间而且得到的挖掘结果能更好地起到决策和预测作用数据预处理一般包括数据清理,数据集成,数据变换,数据归约等方法要求学生掌握本章讲授的所有数据管理技术【教学重点】、数据源节点1Sources、记录选项节点2Record Ops、字段选项节点3Field Ops【教学难点】【教学内容】数据源节点
2.1Sources、从开放数据库中导入数据
1、从文本文件中读取数据
2、导入格式的数据3Excel、用户手动创建数据4记录选项节点
2.2Record Ops、选择节点1Select、对数据的抽样2Sample、修正数据集中的不均匀性3Balance、统计汇总4Aggregate、对节点数据的排序
5、区分节点来清除重复记录6字段选项节点
2.3Field Ops、变量说明
1、变量值的重新计算
2、变量类别值的调整
3、生成新变量
4、变量值的离散化处理
5、生成样本集分割变量6第三章数据的基本描述分析Clementine【教学目的与要求】基本描述分析是数据分析的基础,通常对数值型变量进行描述分析,涉及数据的集中趋势和离散程度描述集中趋势的描述性统计量一般有均值、中位数和众数;描述离散程度的描述性统计量一般有方差、标准差和极差要求学生掌握数据的基本分析方法Clementine【教学重点】、数据质量探索
1、数据基本描述分析2【教学难点】、两分类变量相关性的研究1【教学内容】数据质量探索
3.
1、数据的基本描述与质量探索
1、离群点和极端值的修正
2、缺失值的替补
3、数据质量管理的其他功能4数据基本描述分析
3.
2、计算基本描述统计量
1、绘制散点图2两分类变量相关性的研究
3.3两分类变量相关性的图形分析1s、两分类变量相关性的数值分析2两总体的均值比较
3.4变量重要性分析
3.5第四章关联规则挖掘【教学目的与要求】关联规则是形如的蕴涵式,其中,和丫分别称为关联规则的先导或X-Y Xantecedent和后继或其中,关联规则left-hand-side,LHS consequentright-hand-side,RHS oX—Y,存在支持度和信任度本章对关联规则挖掘中的概念、方法、算法进行全面的分析和讲解由于关联规则挖掘是数据挖掘技术中研究最早、成果最多、相对比较成熟的分支,因此本章重点在于一些经典理论和算法、热点问题的介绍要求学生掌握以下内容>关联规则相关概念>算法Apriori>在中应用算法Clementine Apriori【教学重点】关联规则相关概念L、算法2Apriori【教学难点】序列模式挖掘L【教学内容】关联规则概述
4.
1、基本概念
1、关联规则表示
2、关联规则挖掘算法简介3算法
4.2Apriori、算法生成频繁项集的过程1Apriori、算法从频繁项集产生关联规则2Apriori在中应用算法
4.3Clementine Apriori序列模式挖掘
4.4序列与序列模式1s、算法2AprioriAII、在中应用序列模式挖掘3Clementine第五章分类与预测【教学目的与要求】分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类预测可以涉及数据值预测和类标记预测,但预测通常指值预测两者的区别是,分类是用来预测数据对象的类标记,而预测则是估计某些空缺或未知值分类与预测在数据挖掘中是一项非常重要的方面,本章对分类与预测的基本概念与步骤、经典的方法以及有关的问题进行了阐述要求学生掌握如下内容:分类和预测数据分析形式算法ID3算法C
4.5回归分析logistic【教学重点】决策树概述L、算法2ID
3、算法3C
4.5【教学难点】、回归分析1logistic【教学内容】分类与决策树概述
5.
1、分类和预测数据分析形式介绍
1、决策树概述
2、与算法及应用
5.2ID3C
4.5C
5.0信息熔计算L、决策树归纳策略
2、算法及缺点3ID
3、算法4C
4.
5、算法及优点5C
5.
0、在中应用6Clementine C
5.0二项回归分析
5.3logistic二项回归分析应用
5.4logistic第六章聚类分析【教学目的与要求】聚类是将数据分类到不同的类或者簇的过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤聚类是数据挖掘技术中一个重要组成部分,内容很多,因此要求学生掌握聚类分析原理、基本方法和主要算法【教学重点】、聚类分析原理
1、主要聚类方法分类2【教学难点】、算法1K-means、两步聚类算法2【教学内容】聚类分析的一般问题
6.
1、聚类分析介绍
1、聚类分析应用领域
2、聚类分析原理
3、主要聚类方法分类4的聚类及应用
6.2Clementine k-means、算法1K-means、算法的优缺点2K-means、在中应用3Clementine K-Means的两步聚类及应用
6.3Clementine两步聚类算法K、的两步聚类应用2Clementine
五、实践环节实验一个完整的数据挖掘过程1【实验目的】、理解数据挖掘过程
1、熟练掌握选项卡中各功能节点的使用2Record、熟练掌握选项卡中各功能节点的使用3Field【实验内容】本实验数据源是,以往有大批患有同种疾病的不同病人,在服用了五种drug.txt”药物中的一种之后都取得了同样的治疗效果这里的数据是随机挑选的部分病人服用药物前的基本临床检查数据,包括血压(分为高血压、正常、低血压)、BP,High NormalLow胆固醇(分为正常和高胆固醇)、唾液中钠元素()和钾Cholesterol,Normal HighNa元素()含量,以及病人年龄()、性别(包括男和女)等K AgeSex,M F通过数据分析发现以往处方适用的规律,给出不同临床特征病人更适合服用那种药物的建议,为未来医生填写处方提供参考实验在中进行关联规则挖掘2:Spss-Clementine【实验目的】理解关联规则挖掘原理1s、掌握节点和节点使用、用软件实现基本的关联分2Apriori GRI3Spss-Clementine析【实验内容】结合老师所提供数据,做如下实验。