还剩7页未读,继续阅读
文本内容:
数据挖掘知识点
一、数据挖掘是从大量的数据中挖掘那些令人感兴趣的实用的隐含的先前未知的和不可能实用的模式和知识数据库系统最主要的功能DB数据存储、查询处理、事物处理数据挖掘的主要功能关联分析、时序模式、聚类分析、分类、偏差检测、预测数据预处理是从大量的数据属性中提取出对目标有重要影响的属性来降低原始数据的维数,或者是处理一些不好的数据,从而改善实例数据的质量和提高数据挖掘的速度数据预处理功能数据集成,数据清理,数据变换,数据简化
0.940计算属性天气的烯::54天气=°E12,3+14,0513,2=
0.971+一114414(天气)=()(天气)Gain Is1,s2—E晴朗
30.971Gain(温度)=
0.029多云400(湿度)=Gain
0.151有雨
320.971(风况)=Gain
0.048天气号C”pTn贝叶斯分类方法贝叶斯分类方法是一种基于统计的学习方法,利用概率统计进行学习分类,如预贝叶斯定理()()P X|H PHPH|X二测一个数据对象属于某个类别的概率主要算法朴素贝叶斯分类、贝叶斯信念网络分类算法等朴素贝叶斯分类朴素贝叶斯分类算法利用贝叶斯定理来预测一个未知类别的样本属于各个类别的可能性,选择可能性最大的一个类别作为该样本的最终类别原理设样本有个属性每一个样本可看做是维空间的一个点1n A1,A2,...,An,nX=x1,x2,...,xno假定有个不同的类别,是一个未知类别的样本预测的类别2m C1,C
2....Cm XXs为后验概率最大的那个类别,即算法将未知类别的样本归到类当且仅当X Ci,对于所有的成立即最大PCi|XPCj|X,j1WjWm,jWi PCi|X根据贝叶斯定理得知3PCi|X=PX|CiPCi/PXo对于所有类为常数,因此只需取最大即可PX PX|CiPCi类的先验概率由估算PCi PCi=si/s训练样本中属于类的样本数,全部训练样本的样本数Si Cis给定具有多属性的数据集,计算的开消可能非常大,为降低计算的4Px|Ci Px|Ci开消,朴素贝叶斯做了类条件独立假设,即假定一个属性值对给定类的影响独立于其他属性值,属性之间不存在依赖关系,则PX|Ci=Px1|CiPx2|Ci...Pxn|Ci对未知样本分类,对每一个类分别计算5X Ci,PX|CiPCi样本被指派到类当且仅当X Ci,即被指派到其最大的类PX|CiPCiPX|CjPCj,1WjWm,jWi X PX|CiPCi Cio算法描述函数名NaiveBayes输入类别号未知的样本X={x1,x2,…xn}输出未知的样本所属类别号X1forj=1tom计算属于每一个类别的概率2X CjPX|Cj=Px1|CjPx2|Cj...Pxn|Cj;计算训练集中每一个类别的概率;3Cj PCj计算概率值4Q=PX|Cj*PCj;5end for选择计算概率值最大的作为类别输出6Q Ci1=i=m例题Da outlookWind PlayballTemperatu Humidityrey1晴Hot HighWeak No2晴Hot High!Strong No多云3Hot HighA/eak Yes4有雨mild High\/Veak Yes5有雨Cool NormalWeak Yes有雨6Cool NormalStrong No多云7Cool NormalStrong Yes晴8mild HighWeak No晴9Cool NormalWeak Yes有雨10mild NormalWeak Yes晴11mild NormalStrong Yes多云12mild HighStrong Yes多云13hot NormalWeak Yes有雨14mild HighStrong No使用朴素贝叶斯算法预测未知样本属性为还是的概率x={rainy,hot,normal,weak,}play yesno1P play=yes|x=P x|play=yes*P play=yes=Pxj play=yes*P x2|play=yes*...*Px4|play=yes*Pplay=yesPx11play=yes=Poutlook=rainy|play=yes=3/9Px2|play=yes=Ptem=hot|play=yes=2/9Px3|play=yes=Phumidity=normal|play=yes=6/9Px4|play=yes=Pwind=weak|play=yes=6/9所以,Pplay=yes|x=3/9*2/9*6/9*6/9*9/14=
0.
021、2Pplay=no|x=Px|play=no*Pplay=no=Px1|play=no*Px2|play=no*...*Px4|play=no*Pplay=noPx11play=no=Poutlook=rainy|play=no=2/5Px2|play=no=Ptem=hot|play=no=2/5Px3|play=no=Phumidity=normal|play=no=1/5Px4|play=no=Pwind=weak|play=no=2/5所以,P play=no|x=2/5*2/5*1/5*2/5*5/14=
0.0045拉普拉斯()朴素贝叶斯分类算法在计算概率的时候存在概率及概率值Laplace=0,可能很小的情况,所以,在某些情况下,需要考虑条件概率的估计和解决小Laplace概率相乘溢出问题条件概率用条件概率的估计=0,Laplace估计定义Laplace睡PXi|Yj=nc+l*p/n+l类楠融总娄Yj例题:一Yes Single125K No2No Married100K No3No Single70K No4Yes Married120K No5No DivorcedYes6No MarriedNoDivorced No7YesSingle Yes8NoMarried No9NoSingle Yes10No当条件概率为时,用估计求()拖欠贷款的属性为0Laplace X=yes,single,80k,yes还是的概率no设是否有房为婚姻状况为年收入为X,X2,X.13)触欠贷款=丫)(拖欠贷款=丫)(拖欠贷款)1P6$|x=P x|6$X P=yes(拖欠贷款=丫)(引拖欠贷款=丫)(拖欠=P X/0$XP35XP Xg|贷款)(拖欠贷款)=yes xP=yes(]施欠贷款=丫=()P x00+3X1/3/3+3=1/6(以拖欠贷款)P x=yes=2/3(拖欠贷款=丫目=疝P xJ6%=
0.589ci(平均)()X=95k+85k+90k/3=90k3)(拖欠贷款|)(拖欠贷款)X(拖欠贷款)2P=n x=P x|=n P=n(1拖欠贷款句)X(以拖欠贷款)X(拖欠贷=P xP x=no P x113款印)x(拖欠贷款)P=no(拖欠贷款印)=Px1|3/7拖欠贷款句)=P%|2/7[80-110拖欠贷款印)=^^—=P%|d211cci(平均)=()Xq125k+100k+70k+120k+60k+220k+75k=11OkJ、聚类2)聚类()是一个将数据集划分为若干组()或者类()的过程,a Clusteringclass cluster并使得同一个组内的数据对象具有较高的相似度;而不同组中的数据对象是不相似的)有关的聚类方法(类型)主要有划分类方法、分层类方法、基于密度类方法、基b于网格类方法和基于模型类方法聚类和分类的相同点和不同点分析一是按照定义区分;二是聚类不依赖于预先定O义好的类,它要划分的是未知的;是无指导学习,聚类是观察式学习,而不是示例式学习(聚类又称分段,是一种对具有共同趋势和模式的数据元组进行分组的方法))无论如何最大程度的实现类中对象相似度最大,类间相似度最小是聚类分析的指导d思想)数据挖掘对聚类算法的典型要求如下e可伸缩性处理不同类型属性的能力发现任意形状的聚类需要由用户决定的输入参数至少处理噪声数据的能力对输入记录顺序不敏感高维问题基于约束的聚类可解释性和可用区间标度变量计算方法数据标准化计算绝对偏差的平均值s=1|x m|+|x m|+…+|x mJ廿f”f2f f nfm=1x+x x++什十…十f if2fnf计算标准度量值亿-scorex mz=sif b二元变量计算方法一个二元变量惟独两个状态或者1,0表示该变量为空,1表示该变量存在两个变量0和I没有优先权,则二元变量为对称,相反,如果两个状态输出不是同等重要,那末该二元变量是不对称的对称的二元变量计算其相异度公式di,j=r+s/q+r+s+t非对称的二元变量di,j=r+s/q+r+s其中q表示对象i和j都为1的变量数目,r是对象i为1而对象j为0的变量数目S是对象i为0对象j为1的变量数目,t是对象i和j都为0的变量数目变量的总数是p=q+r+s+t例题计算相异度Name是对象标识,gender是对称的二元变量,其余的属性都是非对称的二元变量计算非对称二元变量Name GenderFever CoughTest-1Tcst-2Test-3Test-4Jack MY N p N N NMaryF YNpNpJJun MY PN\NN「d Jack,Mary=0+1/2+0+1=
0.33dJack,Jim=l+l/l+l+l=
0.67d Jim,Mary=1+2/1+1+2=
0.75上面的值显示Jim和Mary不可能有相似的疾病,因为他们有着最高的相似度在这三人中,Jack和Mary最有可能有类似的疾病相对于对称的二元变量,不对称的二元变量基于不对称的二元变量的相似度称为非恒定的相似度,且变量的两个状态的重要性不同,可用di,j=b+c/a+b+c。