还剩8页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
新媒体数据预处理
一、课时安排课时(理论讲授课时,实践课时)64
二、教学课型理论、实践课
三、教学目标()了解新媒体数据可用性鉴别指标1()掌握新媒体数据预处理方法2建立目标任务()掌握新媒体数据预处理应用3
四、教学重点难点()新媒体数据预处理方法(重点在于利用进行数据预处理)1python()新媒体数据预处理应用2明确重难点
五、教学方法多媒体教学(讲授法、实验法)
六、教学过程与内容课程导入新媒体数据分析面临的不规范性问题以及预处理价值的体现课程导入,激发本章概述学习兴趣数据预处理()是指在主要的处理和分析以前对数据Data Preprocessing进行的一些必要的加工整理,主要目标是清理异常值、纠正错误数据、统一数据格式等讲授法,建立学本章首先介绍新媒体数据可用性鉴别指标,分别是数据真实性、数据完习内容的总体印整性和数据价值性鉴别;其次,介绍数据预处理的四种基本方法,分别是数象据清洗(缺失值处理、重复值处理和异常值发现)、数据集成(实体识另冗余和数据值冲突问题)、数据变换(平滑、会萃、数据概化、规范化和属性构造)以及数据规约(数据立方体会萃、维规约和数值规约);最后,以某旅游的酒店客户信息数据为例,介绍数据预处理在新媒体领域的实际应APP用第一节新媒体数据可用性鉴别指标
(一)数据真实性鉴别、数据来源真实1数据来源真实是保证数据真正的首要条件数据来源整体可以分为官方和其他渠道(包括行业数据、抓取数据和问卷数据等)两种普通来说,官方统计的数据相对权威,能够保障真实性,其他渠道获取的数据更要认真进行鉴别,防止因利益、主观倾向等因素造成的不真实、数据细节真实2失之毫厘,差之千里,统计数据中某个参数的不许确,都有可能导致结果浮现极大偏差,因此,对数据细节进行核实,是保证数据真实准确的重要手段如网络问卷调查中,设置每一个地址只能回答一次;纸质问卷调查中,多次核查录入数据以避免失误IP
(二)数据完整性鉴别、记录是否完整1根据关系型数据库相关概念,可以把数据表中的每一行叫做一个“记录”每一个记录包含该行中的所有信息,就像在通讯录数据库中某个人全部的信息,但记录在讲授,演示数据数据库中并没有专门的记录名,往往用它所在的行数表示这是第几个记录完整性、字段完、字段是否完整2整性案例字段是比记录更小的单位,字段集合组成记录,每一个字段描述文献的某一特征,即数据项,并有惟一的供计算机识别的字段标识符
(三)数据价值性鉴别、数据时效性分析1数据是什么时间产生的,是否还合用于现在的情况是对数据进行价值判断时必须要考虑的问题,惟独确定数据产生的时间,才干更好地确定数据的时效性和合用范围例如,要研究年青少年短视频使用情况,年前的相关数据显然不能合用于当前的研究,数据也就202210失去了它的价值、数据支持性分析2数据能否有效支撑研究主题或者观点是数据价值判断的一个重要方面,有些数据即使本身没有任何问题,但它不能对主题起到匡助,于是在此主题下它就是没有价值的如了解中国青少年网络使用情况,老年人网络使用情况调查数据在这里是没有价值的、数据全面性分析3某些数据确实可以为主题服务,但仅用这些数据不能充分说明问题,需要有更多的数据作为它的背景或者比较对象才干揭示主题因此,全面结合特定主题下的相关数据才干最大程度发挥数据的价值如研究婚姻状况,仅有结婚率、离婚率数据是不够的,需要结合适婚男女性别比、夫妻双方收入情况、文化水平等多方面数据分析,才干体现相关意义,揭示研究主题第二节新媒体数据预处理方法
(一)数据清洗数据清洗()是指发现并纠正数据文件中可识别的错误的最后一道程序,Data Cleaning包括纠正不一致的数据、填补遗漏数据、消除异常数据以及平滑噪音数据等与问卷审核不同,数据录入后的清洗普通是由计算机而不是人工完成进行数据清洗的原因在于直接采集来的数据是“脏”的,主要体现在数据的不完整性、异常性、错误性以及冗余性、缺失值处理1参考教材讲授、数据并不总是完整的对于缺失值的处理,主要是通过判断进行填补,大演示利用多数情况下缺失的值必须手工填入(即手工清洗)python进行缺、重复值处理2失值处理数据库中属性值相同的记录被认为是重复的记录,通过判断记录间的属性是否相等来检测记录是否相等,相等的记录合并为一条记录(即合并/清除)参考教材讲授、本部份内容将介绍运用Excel删除重复数据的三种方法演示利用Excel、异常值发现进行重复值处3数据清洗中的异常值常用画箱形图()这一方法发现箱形图又理Box-plot称为盒须图、盒式图或者箱线图,是一种用作显示一组数据分散情况资料结合图示讲解的统计图,因形状如箱子而得名箱形图的绘制方法是先找出一组数据的箱形图原理上边缘、下边缘、中位数和两个四分位数;然后连接两个四分位数画出箱体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间
(二)数据集成数据集成()主要指将多个数据源中的数据整合到一个一致的存储中,Data Integration解决数据的分布性和异构性问题其意义在于联通“信息孤岛”,共享信息在企业数据集成领域,目前通常采用联邦式、基于中间件模型和数据仓库等方法构建集成的系统数据集成的关键是要建立统一的数据规范结构在数据集成中主要有以下三大问题需要解决实体识别问题、冗余问题、数据值冲突问题
(三)数据变换数据变换是指对数据进行规范化处理,将数据转换或者统一成适合挖掘结合教材实例的形式数据变换包括平滑、会萃、数据概化、规范化和属性构造五种途径讲解数据变换、平滑的五种途径1平滑指去除噪声、将连续的数据离散化、增加粒度实现平滑主要有三种方法分箱、聚类和回归、会萃2会萃主要指对数据进行汇总,例如在中可以通过、等函数实现应用Excel SUMCOUNT中如每班学生数可以进行求和操作以获得每专业或者每笔院学生总数、数据概化3数据概化是指用更高层次、更抽象的概念来取代低层次或者数据层的数据对象例如,街道属性就可以泛化到更高层次的概念一一城市、国家;对于数值型的属性,如年龄属性(20岁、岁、岁),也可以映射到更高层次概念——年轻、中年和老年
4060、规范化4规范化是指将数据按比例进行缩放,使之落入一个特定的区域,以消除数值型属性因大小不一而造成挖掘结果的偏差数据规范化的主要作用有两个,一是去掉量纲,使得指标之间具有可比性;二是将数据限制到一定区间,使得运算更为便捷规范化包括最小-最大规范化、零均值规范化和小数定标规范化0-------------------------------------------------------------------------------------------------------------------------------------------------------、属性构造5属性构造是指利用已有属性集构造出新的属性,并加入到现有属性集合中以匡助挖掘更深层次的模式知识,提高挖掘结果准确性例如根据宽、高属性可以构造一个新属性一一面积
(四)数据归约(数据归约)是指在尽可能保持数据原貌的前提下,最大限度地Reduce结合教材实例精简数据量(完成该任务的必要前提是理解挖掘任务和熟悉数据本身内容,详讲解数据规约见本书第二章)数据归约得到的数据比原数据小得多,但可以产生与原数据的三种方法相同或者基本相同的分析结果,提高挖掘效率常见的数据规约方法包括数据立方会萃、维归约、数据压缩和数值归约等、数据立方体会萃1数据立方体会萃指的是将维数据会萃为维数据立方体其中,数据立方体是数据n n-1的多维建模和表示,由维(属性)和事实(数据)组成、维归约2维归约指去掉无关的属性,减少数据挖掘处理的数据量维归约的目标是寻觅出最小的属性子集并确保新数据子集的概率分布尽可能接近原来数据集的概率分布如挖掘网民是否愿意购买视频软件的分类规则时,网民的电子邮箱很可能与挖掘任务无关,应该可以去VIP掉维归约的重点是选择相关属性的子集,这里主要介绍三种方法逐步向前选择,逐步向后删除和判定树(决策树)归纳其中,逐步向前选择和逐步向后删除可以结合使用、数值归约3数值归约指用较小的数据表示数据,或者采用较短的数据单位,或者月数据模型代表数据,减少数据量数值归约常用的方法有直方图、聚类、抽样、参数回归法、离散化与概念分层生成聚类和参数回归法具体内容参考上文,下面主要介绍直方图、抽样、离散化与概念生成第三节新媒体数据预处理应用本节内容以某旅游的酒店客户信息数据为例,介绍数据预处理在新媒体领域的实际APP应用一数据源介绍抓取至两年内有入住记录的所有客户的详细数据,共计2022-03-312022-03-311279条其中包含个属性42二数据预处理、缺失值处理1由于类别属性类缺失值填充难度大,且原始数据量大,故对其所在记录采取丢弃处理、重复值处理2课堂实验参考以会员号作为每条记录的惟一标识,查询会员号是否有重复值教材指导学生对数据预处理、异常值处理3进行操作实验用条件格式查找工作地城市和工作地所在省份中的异常值,对于无法识别的异常值进行丢弃;对于可以修正的异常值,比如已知工作地所在城市,可以对工作地所在省份的异常数据修正、数据概化4将个属性概化为客户基本信息、入住信息以及积分信息大属性,如423下图所示在中对数据进行有效分类Excel、会萃5利用求和函数,根据第一年总入住消费和第二年总入住消费求出两SUM年总入住消费,如下图所示、维规约6由于原始数据中属性太多,结合案例中数据预处理的三大目标,采用逐步向后删除法,去掉与其不相关、弱相关或者冗余的属性思量与练习新媒体数据可用性鉴别有哪些指标1利用进行数据清洗2python对照分析数据变换方法在应用中的差异3利用数据规约方法对新媒体数据进行规约处理4教学反思:教学成功之处1教学反思教学不足之处2布置作业、巩固学生获得知识和创新知识掌握、技能获取、价值观理念树立:3知识,进行形改进措施和方案4成性评价新媒体文案授课教师专业(学科)新媒体教学课题新媒体文案的创作技巧学时安排2学时(90分钟)教学年级所选教材《新媒体文案》
一、学习目标1知识目标1)轻松写出文案的5个步骤2)捕捉文案创作灵感的4种方法
2、能力目标1)阅读能力能够按照思维导图快速掌握相关章节的大体内容;2)总结能力能快速总结每次课堂上老师所讲的基本概念;3)应用能力能独立进行文案撰写4)自学能力文案创作灵感的来源
3、德育目标1)提高学生的创新意识和创业精神;2)增强学生学习自信和主动性;3)提倡试错并勇于承受挫折;
二、学习重点及难点学习重点写出文案的5个步骤学习难点文案创作灵感的来源
三、教学问题预测
1、不适应以项目(输出)为主线的教学方式;
2、学生不配合,制作中产生懈怠
四、教学问题解决方案
1、教师在课堂中应随时给学生反馈,引导学生不断反思;
2、引入课堂测验以及平时分制度,并对学生作品进行投票打分;
五、学习者特征分析(教师填写)学习特点:学习习惯交往特点
六、教学资源
1、教学PPT;
2、参考资料《新媒体营销概论(第2版)》,秋叶编著,2022年,人民邮电出版社
七、预习成果展示实践项目1撰写文案
八、教学项目(任务)设计------------------------------------------------------------------------------------------------------------------------------------------
31、学生集体讨论“文案创作灵感的来源”等问题;
2、应用思维导图掌握相关章节的大致内容;
3、学生集体讨论并向教师反馈寻常的学习方法;者在日常生活中不断积累,思量方法需要新媒是九宫格思量法、同体文案创作者刻意训练类产品卖点汇总法、三段式写作法、头能力脑风暴法目标2【教法学法】自主【设计意图】九宫格思量法、同类产品卖点汇总法、三阅读输出鼓励学生自己去分段式写作法、头脑风暴法析、归纳德育目标【项目任务】【设计意图】Z尝试分别用九宫格继续培养学生的学习思量法、三段式写作主动性和探索性反馈学生是否理解该内容?法、头脑风暴法捕捉一款熟悉的产品的文案创作灵感反思可否挖掘类似案例加深理解?【教法学法】小结1)轻松写出文案的5个步骤教师能力时,教师可采用思5小结目标/)捕捉文案创作灵感的4种方法维导图的方式进行,清晰明了作业课后德育将今天所学的内容尝试用思维导图画出来5作业目标1
十、教学后记(教师填写)。