还剩25页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
《数据统计与分析》ppt课件•数据统计基础目录•数据预处理CONTENTS•描述性统计分析•推理性统计分析•数据可视化•大数据处理技术01CHAPTER数据统计基础数据的来源观测数据调查数据行政数据网络数据通过观察和实验获取,通过问卷、访谈等方式政府部门、企事业单位通过爬虫等技术从互联如天气预报中的气温、收集,如人口普查、消等内部数据,如企业财网获取,如网页浏览量、降雨量等费者调查等务报表、医疗记录等社交媒体上的评论等数据类型01020304定量数据定性数据分类数据顺序数据可以量化的数据,如长度、重描述性的数据,如性别、婚姻将数据分为几个类别,如血型、有顺序关系的分类数据,如星量、时间等状况、教育程度等教育层次等级评价、评分等级等数据收集方法随机抽样分层抽样从总体中随机选取一部分样本将总体分成不同的层次,然后进行调查在每一层内进行随机抽样系统抽样多阶段抽样按照一定的间隔或顺序选取样先从总体中选取一些大的单元,本再从这些单元中选取更小的单元或个体02CHAPTER数据预处理数据清洗缺失值处理描述缺失数据的处理方式,如填充缺失值、删除含有缺失值的记录等异常值检测与处理阐述如何检测异常值,以及如何处理这些异常值,如四分位区间、Z-score等数据转换数据类型转换说明如何将数据从一种类型转换为另一种类型,例如将分类数据转换为虚拟变量数据标准化和归一化解释如何对数据进行标准化或归一化,以消除不同特征之间的尺度差异数据重塑数据整合描述如何将多个数据源的数据整合到一起,解决数据孤岛问题数据重塑阐述如何对数据进行重塑,以适应特定的分析需求,例如将宽格式数据转换为长格式数据03CHAPTER描述性统计分析频数分析总结词通过频数分析,可以了解数据集中每个数值出现的次数,从而对数据的分布情况有初步了解详细描述频数分析是描述性统计分析的基础,它通过统计每个数据值出现的次数,帮助我们了解数据分布的稀疏或密集程度,进而了解数据的离散程度和变化范围集中趋势分析总结词集中趋势分析用于描述数据的中心趋势,即数据的平均水平或典型值详细描述集中趋势分析主要包括平均数、中位数和众数等统计量平均数反映数据的平均水平,中位数则表示数据的中等水平,而众数则表示数据中出现次数最多的数值这些统计量可以帮助我们了解数据的中心趋势离散程度分析总结词离散程度分析用于描述数据的离散程度,即数据之间的差异或波动情况详细描述离散程度分析主要包括方差、标准差和变异系数等统计量方差表示数据与平均数的偏差总和,标准差则是方差的平方根,变异系数则表示相对离散程度这些统计量可以帮助我们了解数据的离散程度和波动情况04CHAPTER推理性统计分析参数检验参数检验概述参数检验的步骤参数检验是推理性统计分析中的一种重要参数检验通常包括提出假设、选择合适的方法,它基于样本数据对总体参数进行估统计方法、计算统计量、确定临界值和做计和检验出决策等步骤参数检验的优缺点参数检验的应用场景参数检验具有理论完善、计算方法成熟等参数检验在社会科学、医学、经济学等领优点,但也存在对总体分布和样本大小的域有广泛的应用,用于估计和检验总体参依赖等局限性数,如均值、比例等非参数检验非参数检验概述非参数检验是推理性统计分析中的另一种重要方法,它不依赖于总体分布的假设,而是基于数据本身的性质进行统计分析非参数检验的步骤非参数检验通常包括描述数据分布、选择合适的非参数统计方法、计算统计量、做出决策等步骤非参数检验的优缺点非参数检验具有对总体分布和样本大小的依赖较小等优点,但也存在计算复杂度较高、解释性较差等局限性非参数检验的应用场景非参数检验在探索性数据分析、小样本分析等领域有广泛的应用,用于比较两组数据或多个组数据的分布是否相同等方差分析方差分析概述方差分析的步骤方差分析是一种常用的推理性统方差分析通常包括数据分组、计计分析方法,用于比较不同组数算每组的均值和方差、计算F统计据的均值是否存在显著差异量、比较F统计量与临界值等步骤方差分析的应用场景方差分析的优缺点方差分析在社会科学、医学、经方差分析具有简单易懂、计算方济学等领域有广泛的应用,用于法成熟等优点,但也存在对数据比较不同组数据的均值是否存在分布和样本大小的依赖等局限性显著差异05CHAPTER数据可视化图表类型选择折线图散点图用于展示时间序列数据的变化用于展示两个连续变量之间的趋势关系柱状图饼图热力图用于展示分类数据之间的比较用于展示分类数据的占比关系用于展示数据的密度和分布情关系况数据可视化工具Tableau适用于数据分析和可视化,界面Power BID
3.js友好且功能丰富适用于企业级的数据可视化,功适用于网页端的数据可视化,可能强大且易用定制性强Excel Python的可视化库如Matplotlib、Seaborn、Plotly适用于简单的数据可视化,功能等,适用于数据科学和机器学习较为基础领域可视化案例展示用户行为分析市场趋势分析通过热力图展示用户在网站或应用上通过折线图展示销售额随时间的变化的点击和浏览行为,以评估用户兴趣趋势,以分析市场发展状况和预测未和需求来趋势用户画像构建相关性分析通过柱状图和饼图展示用户的基本信通过散点图和线性回归线展示两个连息和行为特征,以构建用户画像和细续变量之间的关系,以分析它们之间分市场的相关性06CHAPTER大数据处理技术大数据处理概述大数据处理定义大数据处理挑战大数据处理是指对大规模数据集合进大数据处理面临着数据量大、处理速行快速、可靠、可扩展的分析和挖掘,度快、数据类型多样等挑战,需要采以提取有价值的信息和知识的技术用高效、可靠的技术和算法进行处理大数据处理发展随着数据规模的不断扩大,大数据处理技术也在不断发展,从传统的批处理模式到流处理、实时分析等新型处理模式大数据处理工具010203Hadoop SparkFlink一个分布式计算框架,用一个大规模数据处理引擎,一个流处理框架,可以对于大规模数据的存储和处可以进行快速、可靠的数大规模数据进行实时流处理,具有高可靠性、高扩据处理和分析,支持多种理和分析,具有高吞吐量、展性和高容错性等特点数据源和算法低延迟等特点大数据处理案例社交媒体分析电商推荐系统金融风控通过对社交媒体上的用户通过对用户行为和购买历通过对金融交易数据进行行为和言论进行分析,可史进行分析,可以为用户实时监测和分析,可以发以挖掘用户兴趣、情感倾推荐相关商品和服务,提现异常交易和欺诈行为,向和社会关系等信息高用户满意度和忠诚度保障金融安全THANKS谢谢。