對於金融行業的用戶,pandas提供了大量適用於金融數據的高性能時間序列功能和工具。事實上,我一開始就是想把pandas設計為一款適用於金融數據分析應用的工具。
對於使用R語言進行統計計算的用戶,肯定不會對DataFrame這個名字感到陌生,因為它源自於R的data.frame對象。但是這兩個對象並不相同。R的data.frame對象所提供的功能隻是DataFrame對象所提供的功能的一個子集。雖然本書講的是Python,但我偶爾還是會用R做對比,因為它畢竟是最流行的開源數據分析環境,而且很多讀者都對它很熟悉。
pandas這個名字本身源自於panel data(麵板數據,這是計量經濟學中關於多維結構化數據集的一個術語)以及Python data analysis(Python數據分析)。
matplotlib
matplotlib是最流行的用於繪製數據圖表的Python庫。它最初由John D.Hunter(JDH)創建,目前由一個龐大的開發人員團隊維護。它非常適合創建出版物上用的圖表。它跟IPython(馬上就會講到)結合得很好,因而提供了一種非常好用的交互式數據繪圖環境。繪製的圖表也是交互式的,你可以利用繪圖窗口中的工具欄放大圖表中的某個區域或對整個圖表進行平移瀏覽。
IPython
IPython是Python科學計算標準工具集的組成部分,它將其他所有的東西聯係到了一起。它為交互式和探索式計算提供了一個強健而高效的環境。它是一個增強的Python shell,目的是提高編寫、測試、調試Python代碼的速度。它主要用於交互式數據處理和利用matplotlib對數據進行可視化處理。我在用Python編程時,經常會用到IPython,包括運行、調試和測試代碼。
除標準的基於終端的IPython shell外,該項目還提供了:
·一個類似於Mathematica的HTML筆記本(通過Web瀏覽器連接IPython,稍後將對此進行詳細介紹)。
·一個基於Qt框架的GUI控製台,其中含有繪圖、多行編輯以及語法高亮顯示等功能。
·用於交互式並行和分布式計算的基礎架構。
我將在一章中專門講解IPython,詳細地介紹其大部分功能。強烈建議在閱讀本書的過程中使用IPython。
SciPy
SciPy是一組專門解決科學計算中各種標準問題域的包的集合,主要包括下麵這些包:
·scipy.ie:數值積分例程和微分方程求解器。
對於金融行業的用戶,pandas提供了大量適用於金融數據的高性能時間序列功能和工具。事實上,我一開始就是想把pandas設計為一款適用於金融數據分析應用的工具。
對於使用R語言進行統計計算的用戶,肯定不會對DataFrame這個名字感到陌生,因為它源自於R的data.frame對象。但是這兩個對象並不相同。R的data.frame對象所提供的功能隻是DataFrame對象所提供的功能的一個子集。雖然本書講的是Python,但我偶爾還是會用R做對比,因為它畢竟是最流行的開源數據分析環境,而且很多讀者都對它很熟悉。