还剩17页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
Pandas学习笔记常用功能本文是关于pandas的学习笔记,由于pandas会用到numpy,可能需要读者简单了解一下numpy的内容,不过有用到的部分我会在文中进行简单解释说明资料来源主要是两块,一是pandas:powerful Pythondata analysistoolkit;另一个《利用python进行数据分析》Wes McKinney目录
一、pandas的安装和使用
二、python数据结构
三、对数据类型的操作
四、总结
一、pandas的安装和使用Pandas和其他python的库安装方式一样,whl、源码或者pip,在此就不赘述了,Python DataAnalysis Library上面有github源码和whl文件注意pandas安装会用到numpy库,因此在安装pandas之前一定要安装好numpy Pandas安装的时候还有两个大坑如果如0果是VC++is required,说明要装Visual Studio,这个百度VisualStudio安装即可;如果是excention isrequired,比如我碰到的CExcention,说明需要安装对应的拓展包,这个情况可以通过PythonExtension Packagesfor Windows这个网站下载由于欧皇血统,安装过程不算崎岖,希望踩到其他坑的小伙伴可以多留言让我们整理一下碰到的问题Pandas在使用的时候一般会和numpy一起使用,并且官方给pandas简称pd,numpy简称np,原因我就不知道了
二、python数据结构说明pandas当中数据类型会具体涉和到int
32、int64等等,没有进行设置的时候pandas默认输出64位,如果考虑内存使用效率的话可以自行修改
1、SeriesSeriesd
0.0e
0.0s[l:]+s[:3a NaNb
10.0c
10.0d NaNeNaN命名创建的时候使用使用name参数;使用rename方法可以通过name方法进行查询s=pd.Series np.random,randn5,name=somethings.name输出somethings2=s.renamedifferents
2.name输出different
2、对DataFrame操作查询DataFrame.head可以查询前几行的数据,默认为前五行;DataFrame.tail查看后几行书,默认为5行;DataFrame.describe查看全部数据排序df.sort indexaxis=,ascending=axis为0/1的参数,表示按行/按列排序;ascending为boolean参数,False表示降序,True表示升序df.sort_value by=,ascending二by表示按哪一个columns参数排序删除使用del或者pop columns方法需要注意的是所有删除的方法都会改变原来DataFrame,而不是像其他方法一样内存当中新建一个DataFramepop由于弹出特定的列,会返回被弹出的列中的数值.df=pd.DataFrame.from items[,A5,[1,2,3],B,[4,5,61],orient=index,columns=[one,two,three5]#后面用到的df都是从这边开始一直往下走的del df[two_df.popone,输出A1B4Name:one,dtype:int64df输出threeA3B6运算+、-、*、/、exp以和关系运算等,类似于Series,两个DataFrame运算是一个DataFrame每个位置的值和对应位置另一个DataFrame的值进行运算,因此这里的*不是矩阵相乘叉乘;在处理矩阵的时候会用到numpy.linalg函数用来处理矩阵相关运算的函数,在此不赘述另外转置的方法为DataFrame.To同时除了可以整个Data frame参及运算以外还可以选取特定的columns参及运算,例如df「three]=df[one[*df[two]DataFrame修改和添加利用二即可实现修改功能,同时可以在二右边加上赋值的范围,赋值号同样会改变原来DataFrame当中的数值举例df[fore]=1df输出one two three foreA1231B4561df[five]=df[one][:1]df输出one two three fore fiveA
12311.0B4561NaN同样的需要注意,控制赋值范围时当心其余范围的NaN处理添加新的列首先肯定是重新创建一个新的DataFrame;其二就是上述的赋值做法,给原来DataFrame当中的新列进行赋值,如上面df[five]的例子;其三就是通过insert子oc,column,value,allowduplicates=False方法进行,insert同样会改变DataFrame数据,例如df.insert1,bar,df[one]df输出one bar two three fore fiveA
112311.0B44561NaN另外可以通过DataFrame.assign对表格进行改动,该方法会返回改动后的DataFrame,但不是改动原来的DataFramedf.assign ration=df[one_/df Jone]输出one two three forefive rationA
12311.
01.0B4561NaN
1.0df输出:one two threefore fiveA
12311.0B4561NaN当然使用loc、iloc等都可以添加新列,这个就不赘述了选择/切片直接按照行/列进行选择用columns选择列,用index选择行注意选择列的时候单次只能选择某一列的数据,不能同时选择多列;而使用index的时候一定要使用范围(类似于[1:2]),单独某个index会报错df[one]2输出A FalseTrueName:one,dtype:bool dff two]输出A2B5Name:two,dtype:int64df[:l]输出:one bar twothreefore fiveA
112311.0使用loc方法,通过位置标签选择统一格式为DataFrame.loc[index:index,[columns]],loc方法当中的columns可以选择多列,如果表示只按列选择的话index可以不填但是冒号()和逗号(,)一定要写,例如df.loc[:,[J two,one,]]输出two oneA21B54df.loc[A:B,[one,two]]输出one twoA12B45另外,如果loc还能这么用DataFrame.loc[index,[4columns]],这时的index为特定能够的label或值,这样用会返回一个Series;DataFrame.loc[index,columns,这里面的index和columns都是唯一的,返回一个值由于降维的问题,pandas会对精度进行转换举例df.loc VA,[one]]输出one
1.0Name:A,dtype:float64df.loc[A,one输出
1.0使用iloc方法,通过绝对位置选择思路及loc方法基本相同,只是把标签换成绝对位置简答举个例子df.iloc[[0,1],2:3]输出twoA2B5使用where操作通过表达式过滤部分值,并且将过滤掉的值作为NaN,不过即使用了where操作还是需要跟上其他操作,个人实际使用不多df[df3]输出one bartwothreeforefiveANaN NaN NaN NaN NaN NaNB
4.
04.
05.
06.0NaN NaN使用isin[value]方法通过isin方法可以去除特定列当中及变量值相等的行,返回一个DataFrame举个例子,df[df[one,].isin
[1]]输出one bartwothreeforefiveA112311对于NaN的处理DataFrame.dropna.axis,how常用参数为axis和how,axis为0/1参数;how为any/all参数,any是存在NaN就把对应的整行/列删除,all是全部为NaN才把对应的整行/列删除df.dropnaaxis=1,how=,any,输出one bartwothreeforeA11231B44561DataFrame.fillnavalue将所有NaN赋值为value,比较简单就不举例了DataFrame.isnull判断DataFrame是否为null,返回是boolean的DataFrame,也比较好理解合并在做合并的时候尽量保证columns是相同的,有利于后续操作pd.concat[DataFramel,•••],ignore_index可以多个DataFrame进行合并,ignore_index是boolean值,用来确定要不要重新对index从0开始赋值pd.merge DataFrame1,DataFrame2DataFrame1在合并后的上面DataFrame2在合并后的下面;on是确定合并的列同时merge会重新分配index,不会出现index重合merge是个大坑,合并完一定是个乱七八糟的,后面一定要跟上一系列选择剔除的操作才能好好用而且merge参数较多,情况复杂,之后的分享当中会继续深挖DataFrame.append object,ignore_index在DataFrame尾部添加一个object,可以是DataFrame也可以是Series,ignore_index就是用来确定要不要重新对index从0开始赋值,这个比较好理解分组分组是通过groupby命令实现的,主要实现的功能是按照一些规则将数据分为不同的组;对于每组数据分别执行一个函数;将结果组合到一个数据结构中DataFrame.groupbyby=None,axis=0,as_index=Trueby是按照分组的列名;axis是作用维度,0为行,1为列;as_index指的是分组依据是否作为索引存在,有多个分组依据时,会合并成一个tuple,作为一列通过aggregate arg方法可以打印分好组的group,arg可以为diet类型或者list类型df2输出A BC0foo one111bar one112foo two113bar three114foo two115bartwo116foo one117foo three11g=df
2.groupby[A,B]g.aggregate np.sum输出C DABbar one11three11two11foo one22three11two22g=df.groupby「ABas_index=Falseg.aggregate np.sum输出A BCD0bar one111bar three112bartwo113foo one224foo three115foo two22然后可以通过agg arg方法对分好组的group进行计算arg可以为diet类型或者list类型例如g=df.groupby Ag[D].agg[np.mean]输出meanAbar1foo1时间时间部分比较复杂,涉和到时区,时间戳,时间跨度等转换,希望下次有机会在做分享
3.Panel/PanelND多维数组由于篇幅和内容深度的问题无法继续展开,但是基本操作的框架和前面两个相似,相信大家查阅本文的参考资料可以自己解决,这里就不详谈了总结pandas是一个框架比较清晰,操作没那么复杂但是很实用的东西,笔记是我的一些学习心得,努力把自己学到的框架压缩进行分享,希望大家可以实际找点数据进行分析一下本文参考资料当中的书和官网doc内容相当丰富,在碰到问题的时候也可以查阅更多项目介绍,请关注我们的项目专栏China sPrices Project-知乎专栏项目联系方式项目邮箱@iGuo的邮箱,请联系CH0@Suri@iGuo CEO@Suri C00CH0,Human@林行健@DementiaCTO@张土不CF0@张一CRO,Research作者周韵丰链接知乎专栏著作权归作者所有商业转载请联系作者获得授权,非商业转载可以理解为一个一维的数组,只是index可以自己改动创建的方法统一为pd.Series data,index=打印的时候按照index赋值的顺o序,有的时候会看着很别扭某个index对应的值为空就用NaNoindex参数默认从0开始的整数,也是Series的绝对位置,即使index被赋值之后,绝对位置不会被覆盖Series可以通过三种形式创建python的diet、numpy当中的ndarray numpy中的基本数据结构、具体某个数值index赋值必须是list类型Python的diet创建:s=pd.Series{a=1,b=2,d=3},index=[a,d,c,b]输出a1d3c NaNb2dtypeint64numpy中的ndarray s=pd.Series np.random,randn5,index=list ABCDE输出A-
1.130657B-
1.539251C
1.503126D
1.266908E
0.335561请注明出处dtype:float64具体某个值s=pd.Series5输出05dtype:int64s=pd.Series[5,4]输出0514dtype:int64s=pd.Series[5,4],index=list[abed]输出:ERRORS=pd.Series5,index=list iabcd,a5b5c5d5dtype:int64像这种具体某个值的创建方法,保证每行数据精准性的话很麻烦,并且用起来会不小心把其他数据覆盖掉,因此我个人用的比较少注意创建Series的时候要注意创建行数和索引数量匹配的问题,如果默认的话会自动匹配创建的行数除了创建肯定需要查询,这时候会用到s.values和s.index,分别查询值和索引
2、DataFrameDataFrame是一个类似于表格的数据类型,如图有这样一些参数data(方框内的数据)numpy ndarray(structured orhomogeneous),diet,or DataFrameindex(行索弓I索弓I):Indexor array-1ikecolumns(歹U索弓I):Index orarray-1ikedtype(data的数据类型):dtype,default NoneDataFrame可以理解为一个二维数组,index有两个维度,可更改DataFrame统一的创建形式为pd.DataFrame(data,columns=,index=)其中columns为歹U的索引,index为行的索引index或者columns如果不进行设置则默认为0开始的整数,也是行的绝对位置,不会被覆盖;而通过外部数据(比如打开文件)创建DataFrame的话需要注意列名匹配的问题,给columns赋的值如果和数据来源当中列名不一样的话,对应的列下面会出现NAN还有个常用参数为orient,默认为空,如果赋值index则将输入Series的index值作为DataFrame的columns栗子0如下a=pd.read_csv,c:/users/15418/Desktop/bajiao.csvJ输出a bcommentsNumpd.DataFrame a,columns=[a,b,commentsNum,]0NaN NaN97951NaN NaN210882NaN NaN41073NaN NaN41154NaN NaN39300Data的创建形式有以下几种一维数据类型进行创建、二维ndarray创建、外部输入二维数组创建,由于比较简单就先说pd.DataFrame(二维数组,columns二,index=),由于比较简单就不举代码了外部输入就是读取文件等手段,如csv、excel等文件上面那个例子已经说明了读取文件创建过程概括来说就是先读取一个文件对象(pd.read_xxx,xxx是对应的文件类型,常用有csv、excel、table等)的对象,然后再通过该对象创建DataFrame,但要注意columns列名的命名一维数据类型创建(一维数据类型主要有一维ndarray>列表、字典、Series等)首先是字典和Series类型创建DataFrame一个是将字典或者Series组合成列表进行创建;另一个是将两者放入字典里面创建例子如下第一种方法a={a:1,b:2}b=pd.Series([1,2,3],index=list(5abc,))pd.DataFrame([a,b],columns二list Cabcd,))输出a bc d012NaNNaN
1123.0NaN第二种方法a={a:1,b:2}b=pd.Series([1,2,3],index=list(5abc,))data={one:a,‘two:bpd.DataFrame data,columns=[one,two,a,d]输出one twoa da
1.01NaN NaNb
2.02NaN NaNcNaN3NaNNaN这两种方法都要注意列名匹配的问题然后是数组和列表类型的创建列表或者一维的ndarray可以通过转化为Series见
1、Series或者字典进行创建,或者变为对应的二维的数据类型进行处理,在此不佳赘述了强烈给个建议在创建之前最好把data变量先写好然后放到DataFrame方法里面,包括对原始数据的改动也最好写在data里面类似于Series,DataFrame.index,DataFrame.columns可以查询DataFrame二维参数的数值
3、Panel/PanelNDPanel可以理解为三维数组,panelND可以理解为N维数组高维的数组就是在三维的基础上加入更多维度参数,基本方法相同,具体差异在此就不深入展开,这里以三维为例介绍统一的创建方法就是pd.Panel data,items=,major_axis=,minor_axis=,三个维度就分另ll是items、major_axis minor_axis,还有个常用参数就是orient后面会提到跟DataFrame类似的,三维参数如果不进行设置则默认为0开始的整数,也是行的绝对位置,不会被覆盖;如果希望把输入的DataFrame的columns作为panel的items就需要吧orient赋值为minoro在创建panel的时候一般会采用两种形式和DataFrame类似,照搬就行采用字典;使用items参数创建具体举例如下字典:data=ItemT:pd.DataFrame np.random,randn4,3,’Item2’:pd.DataFrame np.random,randn4,2pd.Panel data输出Dimensions:2items x4major_axis x3minor_axis Itemsaxis:Iteml toItem2Major_axis axis:0to3Minor_axis axis:0to2这里面的键就是对应items参数,当然panel这个没办法通过表的形式打印Items参数df=pd.DataFrame{5a:[foo,bar,5baz,],b:np.random,randn3}data={iteml:df,item2:df}pd.Panel.from_dictdata,orient=minor输出Dimensions:2items x3major_axis x2minor_axisItems axis:a tobMajor_axis axis:0to2Minor_axis axis:iteml toitem2
三、对数据类型的操作
1、对Series操作查看简单来说就是通过索引查看一种是通过index对应的标签;另一种就是通过绝对位置查看举个例子s=pd.Series
5.,index=[a,b,c,d,e]如果通过绝对位置查看,会使用s[XXX],XXX可以是绝对位置的数字,列表,或者表达式等s[
0.输出
5.0s[[4,3,1]]输出e
5.0d
5.0b
5.0dtype:float64s[sL输出a
5.0b
5.0c
5.0d
5.0e
5.0dtype:float64如果通过标签查询的话可以使用s[a,]、e ins、或者s.getf,np.nan三种方式查看s[a,]返回标签对应数值或者NaN;e ins返回true/false;s.getf返回label对应的值,如果没有读取到就无返回值,加入np.nan参数可在没有读取到时返回NaNos「a]输出
5.0f ins输出falses.gete输出
5.0s.getf,np.nan输出nan运算常见操作运算符,+、-、*、/、np.exp以和关系运算等运算符,两个Series运算是其中一个Series中每个index位置和另一个Series对应index位置进行算数运算;也可以选取部分进行运算,在选取部分运算的时候要注意只能运算index相同的部分,不重合的部分则是NaNos-sa
0.0b
0.0。