
在此附上視頻教程
一、基本介紹
1.pandas是基于numpy的一種工具,或者說pands與numpy是相輔相成的兩個進行數(shù)據(jù)處理與分析的工具,pands提供了大量能使我們便捷地處理數(shù)據(jù)的函數(shù)和方法。它是使Python成為強大而高效的數(shù)據(jù)分析環(huán)境的重要元素之一。
2.pandas是python的一個數(shù)據(jù)分析包,最初由AQR Capital Management于2008年4月開發(fā),并于2009年底開發(fā)出來,目前由專注于Python數(shù)據(jù)包開發(fā)的PyData開發(fā)team繼續(xù)開發(fā)和維護,屬于PyData項目的一部分。Pandas最初被作為金融數(shù)據(jù)分工具而開發(fā)出來,因此,pandas為時間序列分析提供了很好的支持。Pandas的名稱來源與面板數(shù)據(jù)(Panel data)和python數(shù)據(jù)分析(data analysis)。panel data是經濟學中關于多維數(shù)據(jù)集的一個術語,在Pandas中也提供了panel的數(shù)據(jù)類型。
二、Pandas 安裝(Win10)
在命令行中鍵入以下命令就可以啦(Win + R呼出cmd命令行窗口)
pip install pandas

二、數(shù)據(jù)類型
Series:序列,如下定義
如下圖:s = pd.Series([1, 3, 6, np.nan, 44, 1]) # np.nan相當于None

可以看到打印出來的序列中的元素前都有一個與之對應的序號,dtype:float64為序列中的數(shù)據(jù)類型
時間序列:
如下圖:dates = pd.data_range('20190421', periods = 6) # 表示從20190421開始生成6個數(shù)據(jù)

DataFrame: 二維的表格型數(shù)據(jù)結構。很多功能與R中的data.frame類似??梢詫ataFrame理解為Series的容器。以下的內容主要以DataFrame為主,如下定義
df = pd.DataFrame(np.arange(24).reshape((6,4)), index=dates, columns=['A','B','C','D'])
如下圖:

可看出,生成二維的表格型數(shù)據(jù)結構,行的索引index為上面所定義的dates,列的索引為columns,如果不自定義行或列的索引,會默認為從0開始的數(shù)列為索引
或者用字典類型進行定義:
df2 = pd.DataFrame({'A': 1.,
'B': pd.Timestamp('20190421'),
'C': pd.Series(1, index=list(range(4)), dtype='float32'),
'D': np.array([3] * 4, dtype='int32'),
'E': pd.Categorical(["test", "train", "test", "train"]),
'F': 'foo'})
如下圖:

DataFrame的屬性的查看:
如下圖:df2.dtypes

其他方法:
df2.index # 查看行的名稱及屬性
df2.columns # 查看列的名稱及屬性
df2.value # 輸出表格中的所有數(shù)據(jù)
df2.T # 相當于矩陣中的轉置
df2.sort_index(axis=1, ascending=False) # 對列進行倒序
df2.sort_index(axis=0, ascending=False) # 對行進行倒序
df2.sort_values(by='E') # 對表中E列的數(shù)據(jù)進行排序
好啦,以上就是這次對Pandas的介紹與一些簡單的定義。
歡迎大家在下方評論與留言或者給出建議,如有錯誤請指出。希望這篇博文能幫助到剛學習這個的同學,也歡迎大家分享給需要的人。
如需轉載,請注明出處。