还剩6页未读,继续阅读
文本内容:
青岛理工大学课程设计川报告院(系):理学院专业信息与计算科学班级一计科学号082202201057学生姓名吕齐鸣指导教师姚惠萍完成日期年月日20221222目录第一章数据挖掘基础知识第二章系统分析3系统背景
2.13健康管理中数据挖掘技术的应用
2.23基于决策树的数据挖掘
2.34第三章数据采集5第四章数据预处理5第五章数据挖掘6第六章数据挖掘结论的体现7第七章个人体味7第一章数据挖掘基础知识近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成实用的信息和知识获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等特殊地,需要数据库系统提供有效的存储、索引和查询处理支持源于高性能(并行)计算的技术在处理海量数据集方面往往是重要的分布式技术也能匡助处理海量数据,并且当数据不能集中到一起处理时更是至关重要数据挖掘,在人工智能领域,习惯上又称为数据库中知识发现()也有人把数KDD,据挖掘视为数据库中知识发现过程的一个基本步骤知识发现过程以下三个阶段组成()1数据准备,()数据挖掘,()结果表达和解释数据挖掘可以与用户或者知识库交互23并非所有的信息发现任务都被视为数据挖掘例如,使用数据库管理系统查找个别的记录,或者通过因特网的搜索引擎查找特定的页面,则是信息检索领域的任务虽然这些任Web务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息尽管如此,数据挖掘技术也已用来增强信息检索系统的能力可以分为两类直接数据挖掘;间接数据挖掘直
1.接数据挖掘目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述间接数据挖掘目标中没有选出某一具体的变量,用模型
2.进行描述;而是在所有的变量中建立起某种关系分类、估值、预言属于直接数据挖掘;相关性分组和关联规则、会萃、描述和可视化、复杂数据类型挖掘属于间接数据挖掘第二章系统分析系统背景
2.1随着社会进步和科学发展,人口老龄化及生活水平的提高,人们越来越关注自身的健康状况健康管理的概念最早起源于美国1929年美国洛杉矶水利局成立了世界上第一个健康管理组织(Health ManagementOrganization,I IMO),该组织通过注重预防的全面健康管理的方式,有效降低会员疾病发病率,提高人们的健康水平健康管理系统中积累大量的数据资料,如何从海量的数据中提取隐含在其中的事先未知的、潜在的、深层次、有价值的信息,辅助专家或者群众个体进行诊断决策,是健康管理系统必须考虑的问题,而这正是数据挖掘的长处本文主要针对中老年慢性病的管理的需求,以糖尿病为例,采集居民的健康档案信息指标,利用决策树方法生成对当前数据有效的模型,并对模型进行分析,筛选高危人群,提高糖尿病的早期发现率,使人们不断提高对健康的认识程度,疾病要以预防为主,减少身体及经济上的负担健康管理中数据挖掘技术的应用
2.2健康管理系统是对个人或者人群的健康危(wei)险因素进行全面检测、分析、评估以及预测和预防的全过程的系统它普通由以下几部份组成基本信息管理(含基本项管理)、体检项目管理(含健康评估、健康报告、健康指导)、个人(企业)健康档案数据采集、信息查询、综合数据分析和系统管理健康管理系统的总体结构如图所示:在这个系统中,输入用户(病人)的各项生理参数,诸如身高,体重,心电,血压,血氧,体温等,这些参数将与用户的个人信息,社区信息一起被存档,作为个人的病史记录针对以上的记录,数据挖掘可以应用在以下两个方面一是用户根据个人的生理参数,寻求合适的保健方法或者治疗方法此外一方面是相关科技工作者,社区医疗组织,计生人员主动到系统上去搜寻必要的信息,然后根据用户的病症,治疗过程以及治疗结果挖掘出更有效的治疗方法等比如社区医务人员可以通过系统查看本辖区的慢性病表征情况,筛选出慢性病的高危人群,挖掘出引起慢性病的主要因素,提醒居民对健康情况引起注意基于决策树的数据挖掘
2.3决策树算法
2.
43.1ID3算法[]是由提出的一种基于信息增益的典型的自上而下决策树归纳算法,主ID31Quinlan要特征是在一个结点上使用最大的信息增益量,作为启示式来决定应用选择哪一个属性来进行树的展开算法的基本原理如下已知训练例子集设训练例子集中含有个正例ID3E,E p和个反例,则一个例子属于正例集的概率为属性于反例集的概率为n PEP/P+n,NE n/P+n,一棵决策树可以看做正、反例集的消息源,所需要的“、P P1n1n=_-------loglog信息烯为〃〃〃设属性取个不同的值{P+P+P+P+A VA1,)它们将划分为个子集{尸必郎〉…,尸,假设中含有个正例和个反例,A2,...Av,E VE Pin那末子集所需要的期望信息是()并且以为根的树所需要的期望():且上i EI Pi,ni,A£4=)■/5%信息为各子集所需要的期望信息的加权平均值,即大尸+,以N A为根的信息增益是算法选择最大的属性作为根结点,GainA=Ip,n-EAID3GainA A对,的不同取值对应的的个子集递归调用上述过程生成的,子结点A EV iE AB1,B
2...BV O3健康管理系统的档案数据记录庞大,对应的属性值较多,算法是基于所有属性值都确定ID3的情况下分类的,而实际应用中时常浮现有些记录的属性值缺失或者空白的情况,算法ID3就直接抛却数据库中所有丢失数据的样本,在建模数据挖掘时就不能对健康档案数据进行正确的分类或者预测同时算法对健康管理进行数据挖掘时确定树根节点时选择居民的年ID3龄有种值作为首选判断的属性根节点,但实际中医学专家却认为这个属性在判断糖尿病7诱因时不是最重要的,算法往往选择取值较多的属性作为测试属性健康管理系统进行数ID3据挖掘时算法每选择一个分裂节点,算法都要经过多次的对数运算,影响了决策树的生ID3成效率决策树的算法改进
2.
3.2ID3针对以上算法在健康管理系统应用中存在的问题,提出以下几方面的改进方案ID31对属性值缺失或者空白情况的处理,通过对训练集中其他完整的实例,进行比较来选择一个较优的填充值,在构造决策树之前,对训练集中缺失或者空白的属性进行填充对算法要2经过多次对数运算,影响决策树生成效率的处理,对信息增益公式的对数运算进行转换,找到一种属性选择的新方法,使算法生成决策树的时间大大减少,提高决策树分类的效率,提出了简化端的计算方法算法根据每一个属性信息端的值来判断数据集中的分裂属性,3ID3信息崎反映每一个属性对整个数据集的不确定程度,往往选择取值较多的属性,为克服ID3这一缺点,我们为每一个属性的信息熠引入一个权值,来平衡每一个属性的不确定程度,更符合实际的数据分布但要保证决策树生成效率,这里选择对每一个属性的简化端引入一个权值,权值为每一个属性在数据集中的取值个数,再用该权值乘以简化蜡,使信息燧的结果还依赖于属性的取值个数,乘积结果称为加权简化牖,再通过比较加权简化燧的大小来选择最优的属性作为决策树的分裂节点构造决策树,这样既克服了倾向属性选择较多值的问题,又可以提高决策树的构建速度第三章数据采集本系统采集了某地区多个社区年月日到年月两年居民健康档案20051120221231数据,包括居民基本信息、病史、家族史、生活方式每日膳食、运动锻炼、吸烟、饮酒等、体检信息等,共人为了确保实验结果,保留年月日到年月两553120051120221231年的档案数据为筛选因素属性数据,从年月日到年月日期间,更新的20221120221231居民健康档数据中糖尿病诊断或者检查结果作为结局数据,两年内糖尿病患者总共有人,53根据个人号,将筛选因素数据表和结局数据表连接成一张大表,将所有记录随机分为训练ID集和测试集两组第四章数据预处理数据预处理,需要对连续的属性进行离散化处理,并要去掉一些对挖掘来说没有意义的属性,在进行挖掘时,应该根据不同的数据有选择的选取挖掘属性,比如说去掉一些居民的基本家庭信息、联系方式等等本系统根据数据库中数据选用了其中个属性、属性的取值12即离散值和人数进行数据挖掘,如表所示
4.1属性取值(离散)人数年龄大于403253小于等于402278体育锻炼缺失3缺少5001偶尔57经常470性别男2714女2817舒张压ngr181低2正常范围5374缺失1心率心率过快68心率正常5463高血压史____________有645无4886体重正常3620超标20%1911食脂肪多的食物(天)126841-219043-43885-779不详476食甜食(天)125801-218093—45385-7131不详473感到压力____________辂松1851尚可2790有压力410精神紧张有102无5429表
4.1随机抽取原始数据中的条记录作为训练数据集,剩余数据作为测试数据集应用改进3500算法克服属性选择多值化的办法构建决策树,计算化简信息燧值及加权简化燧值,选取加权简化崎值最小的属性作为决策树的根结点,递归调用这种方法建立各棵子树第五章数据挖掘为验证改进算法的有效性,对测试数据进行分析,见表所示:2表两种算法结果对比2预符合规检测信息测误检率准确率则的平计算时率增益方%4均覆盖间ms°0率®法率R原算
63.
3512.
35283.
3548.
4342.
54.58法改进
70.
658.
54387.
3757.
4863.
73.65算.法由以上分析结果可以看出,改进的算法优于原算法,充分说明改进算法,能够以更快的速度及准确率构造决策树,基本达到实验要求,更适合健康管理系统的挖掘工作根据决策树对居民健康档案数据进行挖掘得出结论具有高血压病史的人、脂肪饮食不详的人或者体重超标、体育锻炼缺失的人、年龄大于岁的人可能患有糖尿病的高风险20%40第六章挖掘结论的呈现本文通过对决策树算法进行研究,针对算法在健康管理系统中,应用存在的一ID3ID3些问题提出了改进算法,克服属性选择多值性、处理属性值空白或者缺失的情况及提高决策树构建速度等方法本文使用决策树对居民健康档案数据进行糖尿病诱因的数据挖掘,得出了可能得糖尿病的相关属性,结果和实际数据及患病背景知识相一致,证明使用其进行数据挖掘得出的结论是有效的在其他慢性病的预防及治疗中也起到了重要作用第七章个人体味、挖掘工具主要分商业数据产品和集成数据挖掘产品两类商业数据挖掘产品具有代1表性的;SPSS Clementine,SAS EnterpriseMinerJBM IntelligentMiner SQLServer2005属于集成为了挖掘模型类的,挖掘算法与数据库产品密不可分SQL、数据挖掘过程的重点绝对是数据预处理,普通认为预处理工作会占时间不260%-80%等,这在整个领域都是成立的商业智能-既然提到智能层面,那就不只是展现,还要做BI分析和预测无非现阶段不少项目确实只是在做展现,最多加点多维分析概念提出之BI BI初就是辅助战略决策的产物,固然向操作型发展的趋势这里不做过多介绍,经验告诉我们BI战略决策是基于历史和别人现成经验的,怎样从历史数据的展现和分析过程中得到实用知识,不管你是通过报表或者多维分析得到企业各领域指标相关性,还是通过挖掘模型的实施来根据历史数据预测企业未来发展,这一切都是基于企业历史数据的没有数据质量基础的保证,展现得多华丽的走势图表都是垃圾如果是基于数据仓库或者数据集市的挖掘,那末可直接在仓库或者数据集市中建立挖1掘模型源输入也可叫暂时宽表,这个表是根据挖掘业务需求对其他维度表属性的一个综合提取,合适的时间窗口在这里是个要考虑的关键因素;如果是没有仓库或者集市这一数据基础,那末就需要一个针对挖掘业务需求字段属性的简单过程了ETL上面只是挖掘源数据的建立,接下来才进入数据预处理的核心阶段,由于源数据暂2时宽表里面不少数据是有偏差的,比如空值,错误值,异常值等.・.这就需要根据每一个业务字段属性的规范标准来进行处理,这步是一个繁杂的工程,数据预处理技术各式各样,比较有代表性的有数据清理、数据集成、数据变换、数据归约、离散化和概念分层等等;而且针对不同字段数据特征,不同的数据处理技术往往会导致挖掘的结果差异虽然商业数据挖掘产品都提供了常用的数据预处理技术,但要用好,除了需要一些统计学,数据分布等知识外,对该字段对应的业务理解和挖掘过程的数据预处理方法差异的经验积累才是关键因素就拿属性归约来将,不少挖掘产品有因子分析工具,貌似可以自动对所有属性字段做一个挖掘相关重要性因素从大大小的排序,但这也不能全信,毕竟工具是死的,它只能从数据本身的数理特征去理解和自动分析,例如有些业务字段可能数据分布的特征不符合因子分析的重要性条件,但对该数据挖掘模型贡献确是很大的这样的情况虽说不多,却是值得注意的地方、经过上面两步,挖掘模型数据输入算是初步建立起来了接下来需要对所应用的挖3掘模型有个初步理解,有朋友赞成挖掘模型是“黑匣子”的观点,有朋友赞成需要对挖掘模型的专业理解我保持中庸的观点如果不是做算法研究的朋友,只是做挖掘模型应用,却需要对挖掘模型算法有专业理解是不现实的,毕竟公司讲的效益和效率,不比是在实验室,有的是时间让你查资料,折腾进而对模型有个深入全面的理解;但彻底黑匣子也是不妥的,一个对该挖掘模型彻底不理解的人,指望能利用该模型挖掘出实用知识是不可能的一是他不可能对挖掘结果有很好的理解;二是参数的调整是最大障碍,挖掘过程本来就是迭代过程,对算法彻底不了解的参数设置乱设一通就指望得出较优模型更是天方夜潭个人认为对挖掘模型大致原理是有必要了解的,再就是每一个参数的范围及所代表的意义和对模型所起作用也是需要了解的、数据规模也是个关键因素
4、不管是需求分析还是挖掘模型的评估及应用,和业务人员和决策者们的充分沟通交5流是彻底必要的闭们造车的数据挖掘模型是脆弱的。