1. 簡單的例子
先從一個簡單的例子說起,包含了兩個文件 foo.py 和 demo.py
//[foo.py]
def add(a, b):
return a + b
[demo.py]
import foo
a = [1, 'python']
a = 'a string'
def func():
a = 1
b = 257
print(a + b)
print(a)
if __name__ == '__main__':
func() foo.add(1, 2)
執(zhí)行這個程序
python demo.py
輸出結(jié)果
a string258
同時,該文件目錄多出一個 foo.pyc 文件
2. 背后的魔法
看完程序的執(zhí)行結(jié)果,接下來開始一行行解釋代碼。
2.1 模塊
Python 將 .py 文件視為一個 module,這些 module 中,有一個主 module,也就是程序運(yùn)行的入口。在這個例子中,主 module 是 demo.py。
2.2 編譯
執(zhí)行 python demo.py
后,將會啟動 Python 的解釋器,然后將 demo.py 編譯成一個字節(jié)碼對象 PyCodeObject。
有的人可能會很好奇,編譯的結(jié)果不應(yīng)是 pyc 文件嗎,就像 Java 的 class 文件,那為什么是一個對象呢,這里稍微解釋一下。
在 Python 的世界中,一切都是對象,函數(shù)也是對象,類型也是對象,類也是對象(類屬于自定義的類型,在 Python 2.2 之前,int, dict 這些內(nèi)置類型與類是存在不同的,在之后才統(tǒng)一起來,全部繼承自 object),甚至連編譯出來的字節(jié)碼也是對象,.pyc 文件是字節(jié)碼對象(PyCodeObject)在硬盤上的表現(xiàn)形式。
在運(yùn)行期間,編譯結(jié)果也就是 PyCodeObject 對象,只會存在于內(nèi)存中,而當(dāng)這個模塊的 Python 代碼執(zhí)行完后,就會將編譯結(jié)果保存到了 pyc 文件中,這樣下次就不用編譯,直接加載到內(nèi)存中。pyc 文件只是 PyCodeObject 對象在硬盤上的表現(xiàn)形式。
這個 PyCodeObject 對象包含了 Python 源代碼中的字符串,常量值,以及通過語法解析后編譯生成的字節(jié)碼指令。PyCodeObject 對象還會存儲這些字節(jié)碼指令與原始代碼行號的對應(yīng)關(guān)系,這樣當(dāng)出現(xiàn)異常時,就能指明位于哪一行的代碼。
2.3 pyc 文件
一個 pyc 文件包含了三部分信息:Python 的 magic number、pyc 文件創(chuàng)建的時間信息,以及 PyCodeObject 對象。
magic number 是 Python 定義的一個整數(shù)值。一般來說,不同版本的 Python 實現(xiàn)都會定義不同的 magic number,這個值是用來保證 Python 兼容性的。比如要限制由低版本編譯的 pyc 文件不能讓高版本的 Python 程序來執(zhí)行,只需要檢查 magic number 不同就可以了。由于不同版本的 Python 定義的字節(jié)碼指令可能會不同,如果不做檢查,執(zhí)行的時候就可能出錯。
下面所示的代碼可以來創(chuàng)建 pyc 文件,使用方法
python generate_pyc.py module_name
例如
python generate_pyc.py demo
[generate_pyc.pyc]
import imp
import sys
def generate_pyc(name):
fp, pathname, description = imp.find_module(name)
try:
imp.load_module(name, fp, pathname, description)
finally:
if fp:
fp.close()
if __name__ == '__main__':
generate_pyc(sys.argv[1])
2.4 字節(jié)碼指令
為什么 pyc 文件也稱作字節(jié)碼文件?因為這些文件存儲的都是一些二進(jìn)制的字節(jié)數(shù)據(jù),而不是能讓人直觀查看的文本數(shù)據(jù)。
Python 標(biāo)準(zhǔn)庫提供了用來生成代碼對應(yīng)字節(jié)碼的工具 dis
。dis 提供一個名為 dis 的方法,這個方法接收一個 code 對象,然后會輸出 code 對象里的字節(jié)碼指令信息。
s = open('demo.py').read()
co = compile(s, 'demo.py', 'exec')
import dis
dis.dis(co)
執(zhí)行上面這段代碼可以輸出 demo.py 編譯后的字節(jié)碼指令
1 0 LOAD_CONST 0 (-1)
3 LOAD_CONST 1 (None)
6 IMPORT_NAME 0 (foo)
9 STORE_NAME 0 (foo)
3 12 LOAD_CONST 2 (1)
15 LOAD_CONST 3 (u'python')
18 BUILD_LIST 2
21 STORE_NAME 1 (a)
4 24 LOAD_CONST 4 (u'a string')
27 STORE_NAME 1 (a)
6 30 LOAD_CONST 5 (<code object func at 00D97650, file "demo.py", line 6>)
33 MAKE_FUNCTION 0
36 STORE_NAME 2 (func)
11 39 LOAD_NAME 1 (a)
42 PRINT_ITEM
43 PRINT_NEWLINE
13 44 LOAD_NAME 3 (name)
47 LOAD_CONST 6 (u'main')
50 COMPARE_OP 2 (==)
53 POP_JUMP_IF_FALSE 82
14 56 LOAD_NAME 2 (func)
59 CALL_FUNCTION 0
62 POP_TOP
15 63 LOAD_NAME 0 (foo)
66 LOAD_ATTR 4 (add)
69 LOAD_CONST 2 (1)
72 LOAD_CONST 7 (2)
75 CALL_FUNCTION 2
78 POP_TOP
79 JUMP_FORWARD 0 (to 82)
>> 82 LOAD_CONST 1 (None)
85 RETURN_VALUE
2.5 Python 虛擬機(jī)
demo.py 被編譯后,接下來的工作就交由 Python 虛擬機(jī)來執(zhí)行字節(jié)碼指令了。Python 虛擬機(jī)會從編譯得到的 PyCodeObject 對象中依次讀入每一條字節(jié)碼指令,并在當(dāng)前的上下文環(huán)境
中執(zhí)行這條字節(jié)碼指令。我們的程序就是通過這樣循環(huán)往復(fù)的過程才得以執(zhí)行。
2.6 import 指令
demo.py 的第一行代碼是 import foo
- import 指令用來載入一個模塊,另外一個載入模塊的方法是 from xx import yy
- 用 from 語句的好處是,可以只復(fù)制需要的符號變量到當(dāng)前的命名空間中(關(guān)于命名空間將在后面介紹)。
前文提到,當(dāng)已經(jīng)存在 pyc 文件時,就可以直接載入而省去編譯過程。但是代碼文件的內(nèi)容會更新,如何保證更新后能重新編譯而不入舊的 pyc 文件呢。答案就在 pyc 文件中存儲的創(chuàng)建時間信息
- 當(dāng)執(zhí)行 import 指令的時候,如果已存在 pyc 文件,Python 會檢查創(chuàng)建時間是否晚于代碼文件的修改時間,這樣就能判斷是否需要重新編譯,還是直接載入了。如果不存在 pyc 文件,就會先將 py 文件編譯。
2.7 絕對引入和相對引入
前文已經(jīng)介紹了 import foo 這行代碼。這里隱含了一個問題,就是 foo是什么,如何找到 foo。這就屬于 Python 的模塊引入規(guī)則,這里不展開介紹,可以參考 pep-0328。
2.8 賦值語句
接下來,執(zhí)行到 a = [1, 'python'],這是一條賦值語句,定義了一個變量 a,它對應(yīng)的值是 [1, 'python']。這里要解釋一下,變量是什么呢?
按照[維基百科]("https://en.wikipedia.org/wiki/Variable_(computer_science 的解釋變量是一個存儲位置和一個關(guān)聯(lián)的符號名字,這個存儲位置包含了一些已知或未知的量或者信息。
變量實際上是一個字符串的符號,用來關(guān)聯(lián)一個存儲在內(nèi)存中的對象。在 Python 中,會使用 dict(就是 Python 的 dict 對象)來存儲變量符號(字符串)與一個對象的映射。
那么賦值語句實際上就是用來建立這種關(guān)聯(lián),在這個例子中是將符號 a
與一個列表對象 [1, 'python']建立映射。
緊接著的代碼執(zhí)行了 a = 'a string',這條指令則將符號 a與另外一個字符串對象 a string建立了映射。今后對變量 a的操作,將反應(yīng)到字符串對象 a string上。
2.9 def 指令
我們的 Python 代碼繼續(xù)往下運(yùn)行,這里執(zhí)行到一條 def func(),從字節(jié)碼指令中也可以看出端倪 MAKE_FUNCTION。沒錯這條指令是用來創(chuàng)建函數(shù)的。Python 是動態(tài)語言,def 實際上是執(zhí)行一條指令,用來創(chuàng)建函數(shù)(class 則是創(chuàng)建類的指令),而不僅僅是個語法關(guān)鍵字。函數(shù)并不是事先創(chuàng)建好的,而是執(zhí)行到的時候才創(chuàng)建的。def func()將會創(chuàng)建一個名稱為 func的函數(shù)對象。實際上是先創(chuàng)建一個函數(shù)對象,然后將 func 這個名稱符號綁定到這個函數(shù)上。
Python 中是無法實現(xiàn) C 和 Java 中的重載的,因為重載要求函數(shù)名要相同,而參數(shù)的類型或數(shù)量不同,但是 Python 是通過變量符號(如這里的 func)來關(guān)聯(lián)一個函數(shù),當(dāng)我們用 def 語句再次創(chuàng)建一個同名的函數(shù)時,這個變量名就綁定到新的函數(shù)對象上了。
2.10 動態(tài)類型
繼續(xù)看函數(shù) func里面的代碼,這時又有一條賦值語句 a = 1。變量 a現(xiàn)在已經(jīng)變成了第三種類型,它現(xiàn)在是一個整數(shù)了。那么 Python 是怎么實現(xiàn)動態(tài)類型的呢?答案就藏在具體存儲的對象上。變量 a僅僅只是一個符號(實際上是一個字符串對象),類型信息是存儲在對象上的。在 Python 中,對象機(jī)制的核心是類型信息和引用計數(shù)(引用計數(shù)屬于垃圾回收的部分)。用 type(a),可以輸出 a 的類型,這里是 int b = 257跳過,我們直接來看看 print(a + b),print 是輸出函數(shù),這里略過。這里想要探究的是 a + b。因為 a和 b 并不存儲類型信息,因此當(dāng)執(zhí)行 a + b 的時候就必須先檢查類型,比如 1 + 2 和 "1" + "2" 的結(jié)果是不一樣的??吹竭@里,我們就可以想象一下執(zhí)行一句簡單的 a + b,Python 虛擬機(jī)需要做多少繁瑣的事情了。首先需要分別檢查 a
和 b 所對應(yīng)對象的類型,還要匹配類型是否一致(1 + "2" 將會出現(xiàn)異常),然后根據(jù)對象的類型調(diào)用正確的 + 函數(shù)(例如數(shù)值的 + 或字符串的 +),而 CPU 對于上面這條語句只需要執(zhí)行 ADD 指令(還需要先將變量 MOV 到寄存器)。
2.11 命名空間 (namespace)
在介紹上面的這些代碼時,還漏掉了一個關(guān)鍵的信息就是命名空間。在 Python 中,類、函數(shù)、module 都對應(yīng)著一個獨立的命名空間。而一個獨立的命名空間會對應(yīng)一個 PyCodeObject 對象,所以上面的 demo.py 文件編譯后會生成兩個 PyCodeObject,只是在 demo.py 這個 module 層的 PyCodeObject 中通過一個變量符號 func 嵌套了一個函數(shù)的 PyCodeObject。命名空間的意義,就是用來確定一個變量符號到底對應(yīng)什么對象。命名空間可以一個套一個地形成一條命名空間鏈,Python 虛擬機(jī)在執(zhí)行的過程中,會有很大一部分時間消耗在從這條命名空間鏈中確定一個符號所對應(yīng)的對象是什么。
在 Python中,命名空間是由一個 dict 對象實現(xiàn)的,它維護(hù)了(name,obj)這樣的關(guān)聯(lián)關(guān)系。
說到這里,再補(bǔ)充一下 import foo 這行代碼會在 demo.py 這個模塊的命名空間中,創(chuàng)建一個新的變量名 foo,foo 將綁定到一個 PyCodeObject 對象,也就是 foo.py 的編譯結(jié)果。
2.11.1 dir 函數(shù)
Python 的內(nèi)置函數(shù) dir 可以用來查看一個命名空間下的所有名字符號。一個用處是查看一個命名空間的所有屬性和方法(這里的命名空間就是指類、函數(shù)、module)。
比如,查看當(dāng)前的命名空間,可以使用 dir(),查看 sys 模塊,可以使用 dir(sys)。
2.11.2 LEGB 規(guī)則
Python 使用 LEGB 的順序來查找一個符號對應(yīng)的對象
locals -> enclosing function -> globals -> builtins
locals,當(dāng)前所在命名空間(如函數(shù)、模塊),函數(shù)的參數(shù)也屬于命名空間內(nèi)的變量
enclosing,外部嵌套函數(shù)的命名空間(閉包中常見)
def fun1(a): def fun2(): # a 位于外部嵌套函數(shù)的命名空間 print(a)
globals,全局變量,函數(shù)定義所在模塊的命名空間
a = 1def fun(): # 需要通過 global 指令來聲明全局變量 global a # 修改全局變量,而不是創(chuàng)建一個新的 local 變量 a = 2
builtins,內(nèi)置模塊的命名空間。Python 在啟動的時候會自動為我們載入很多內(nèi)置的函數(shù)、類,比如 dict,list,type,print,這些都位于 builtins
模塊中,可以使用 dir(builtins)
來查看。這也是為什么我們在沒有 import 任何模塊的情況下,就能使用這么多豐富的函數(shù)和功能了。
介紹完命名空間,就能理解 print(a) 這行代碼輸出的結(jié)果為什么是 a string 了。
2.12 內(nèi)置屬性 name
現(xiàn)在到了解釋 if name == 'main'
這行代碼的時候了。當(dāng) Python 程序啟動后,Python 會自動為每個模塊設(shè)置一個屬性 name
通常使用的是模塊的名字,也就是文件名,但唯一的例外是主模塊,主模塊將會被設(shè)置為 main。利用這一特性,就可以做一些特別的事。比如當(dāng)該模塊以主模塊來運(yùn)行的時候,可以運(yùn)行測試用例。而當(dāng)被其他模塊 import 時,則只是乖乖的,提供函數(shù)和功能就好。
2.13 函數(shù)調(diào)用
最后兩行是函數(shù)調(diào)用,這里略去不講。
3. 回顧
講到最后,還有些內(nèi)容需要再回顧和補(bǔ)充一下。
3.1 pyc 文件
Python 只會對那些以后可能繼續(xù)被使用和載入的模塊才會生成 pyc 文件,Python 認(rèn)為使用了 import 指令的模塊,屬于這種類型,因此會生成 pyc 文件。而對于只是臨時用一次的模塊,并不會生成 pyc 文件,Python 將主模塊當(dāng)成了這種類型的文件。這就解釋了為什么 python demo.py 執(zhí)行完后,只會生成一個 foo.pyc 文件。
如果要問 pyc 文件什么時候生成,答案就是在執(zhí)行了 import 指令之后,from xx import yy 同樣屬于 import 指令。
3.2 小整數(shù)對象池
在 demo.py 這里例子中,所用的整數(shù)特意用了一個 257,這是為了介紹小整數(shù)對象池的。整數(shù)在程序中的使用非常廣泛,Python 為了優(yōu)化速度,使用了小整數(shù)對象池,避免為整數(shù)頻繁申請和銷毀內(nèi)存空間。
Python 對小整數(shù)的定義是 [-5, 257),這些整數(shù)對象是提前建立好的,不會被垃圾回收。在一個 Python 的程序中,所有位于這個范圍內(nèi)的整數(shù)使用的都是同一個對象,從下面這個例子就可以看出。
>>> a = 1
>>> id(a)
40059744
>>> b = 1
>>> id(b)
40059744
>>> c = 257
>>> id(c)
41069072
>>> d = 257
>>> id(257)
41069096
id 函數(shù)可以用來查看一個對象的唯一標(biāo)志,可以認(rèn)為是內(nèi)存地址
對于大整數(shù),Python 使用的是一個大整數(shù)對象池
。這句話的意思是:
每當(dāng)創(chuàng)建一個大整數(shù)的時候,都會新建一個對象,但是這個對象不再使用的時候,并不會銷毀,后面再建立的對象會復(fù)用之前已經(jīng)不再使用的對象的內(nèi)存空間。(這里的不再使用指的是引用計數(shù)為0,可以被銷毀)
3.3 字符串對象緩沖池
如果仔細(xì)思考一下,一定會猜到字符串也采用了這種類似的技術(shù),我們來看一下
>>> a = 'a'
>>> b = 'a'
>>> id(a)
14660456
>>> id(b)
14660456
沒錯,Python 的設(shè)計者為一個字節(jié)
的字符對應(yīng)的字符串對象 (PyStringObject) 也設(shè)計了這樣一個對象池。同時還有一個 intern
機(jī)制,可以將內(nèi)容相同的字符串變量轉(zhuǎn)換成指向同一個字符串對象。
intern 機(jī)制的關(guān)鍵,就是在系統(tǒng)中有一個(key,value)映射關(guān)系的集合,集合的名稱叫做 interned。在這個集合中,記錄著被 intern 機(jī)制處理過的 PyStringObject 對象。不過 Python 始終會為字符串創(chuàng)建 PyStringObject 對象,即便在interned 中已經(jīng)有一個與之對應(yīng)的 PyStringObject 對象了,而 intern 機(jī)制是在字符串被創(chuàng)建后才起作用。
>>> a = 'a string'
>>> b = 'a string'
>>> a is b
False
>>> a = intern('a string') # 手動調(diào)用 intern 方法
>>> b = intern('a string')
>>> a is b
True
關(guān)于 intern 函數(shù) 可以參考官方文檔,更多擴(kuò)展閱讀:
http://stackoverflow.com/questions/15541404/python-string-interning
值得說明的是,數(shù)值類型和字符串類型在 Python 中都是不可變的,這意味著你無法修改這個對象的值,每次對變量的修改,實際上是創(chuàng)建一個新的對象。得益于這樣的設(shè)計,才能使用對象緩沖池這種優(yōu)化。
Python 的實現(xiàn)上大量采用了這種內(nèi)存對象池的技術(shù),不僅僅對于這些特定的對象,還有專門的內(nèi)存池用于小對象,使用這種技術(shù)可以避免頻繁地申請和釋放內(nèi)存空間,目的就是讓 Python 能稍微更快一點。更多內(nèi)容可以參考這里。
如果想了解更快的 Python,可以看看 PyPy
3.4 import 指令
前文提到 import 指令是用來載入 module 的,如果需要,也會順道做編譯的事。但 import 指令,還會做一件重要的事情就是把 import 的那個 module 的代碼執(zhí)行一遍,這件事情很重要
。Python 是解釋執(zhí)行的,連函數(shù)都是執(zhí)行的時候才創(chuàng)建的。如果不把那個 module 的代碼執(zhí)行一遍,那么 module 里面的函數(shù)都沒法創(chuàng)建,更別提去調(diào)用這些函數(shù)了。
執(zhí)行代碼的另外一個重要作用,就是在這個 module 的命名空間中,創(chuàng)建模塊內(nèi)定義的函數(shù)和各種對象的符號名稱(也就是變量名),并將其綁定到對象上,這樣其他 module 才能通過變量名來引用這些對象。
Python 虛擬機(jī)還會將已經(jīng) import 過的 module 緩存起來,放到一個全局 module 集合 sys.modules 中。這樣做有一個好處,即如果程序的在另一個地方再次 import 這個模塊,Python 虛擬機(jī)只需要將全局 module 集合中緩存的那個 module 對象返回即可。
你現(xiàn)在一定想到了 sys.modules 是一個 dict 對象,可以通過 type(sys.modules) 來驗證
3.5 多線程
demo.py 這個例子并沒有用到多線程,但還是有必要提一下。
在提到多線程的時候,往往要關(guān)注線程如何同步,如何訪問共享資源。Python 是通過一個全局解釋器鎖 GIL(Global Interpreter Lock)來實現(xiàn)線程同步的。當(dāng) Python 程序只有單線程時,并不會啟用 GIL,而當(dāng)用戶創(chuàng)建了一個 thread 時,表示要使用多線程,Python 解釋器就會自動激活 GIL,并創(chuàng)建所需要的上下文環(huán)境和數(shù)據(jù)結(jié)構(gòu)。
Python 字節(jié)碼解釋器的工作原理是按照指令的順序一條一條地順序執(zhí)行,Python 內(nèi)部維護(hù)著一個數(shù)值,這個數(shù)值就是 Python 內(nèi)部的時鐘,如果這個數(shù)值為 N,則意味著 Python 在執(zhí)行了 N 條指令以后應(yīng)該立即啟動線程調(diào)度機(jī)制,可以通過下面的代碼獲取這個數(shù)值。
import syssys.getcheckinterval() # 100
線程調(diào)度機(jī)制將會為線程分配 GIL,獲取到 GIL 的線程就能開始執(zhí)行,而其他線程則必須等待。由于 GIL 的存在,Python 的多線程性能十分低下,無法發(fā)揮多核 CPU 的優(yōu)勢,性能甚至不如單線程。因此如果你想用到多核 CPU,一個建議是使用多進(jìn)程
。
3.6 垃圾回收
在講到垃圾回收的時候,通常會使用引用計數(shù)的模型,這是一種最直觀,最簡單的垃圾收集技術(shù)。Python 同樣也使用了引用計數(shù),但是引用計數(shù)存在這些缺點:
頻繁更新引用計數(shù)會降低運(yùn)行效率
引用計數(shù)無法解決循環(huán)引用問題
Python 在引用計數(shù)機(jī)制
的基礎(chǔ)上,使用了主流垃圾收集技術(shù)中的標(biāo)記——清除和分代收集兩種技術(shù)。
關(guān)于垃圾回收,可以參考
基礎(chǔ)概念
變量的引用
一般的高級語言在使用變量時,都會有下面4個過程。當(dāng)然在不同的語言中也會有著區(qū)別。
- 聲明變量:讓編輯器知道有這一個變量的存在
- 定義變量:為不同數(shù)據(jù)類型的變量分配內(nèi)存空間
- 初始化:賦值,填充分配好的內(nèi)存空間
- 引用:通過引用對象(變量名)來調(diào)用內(nèi)存對象(內(nèi)存數(shù)據(jù))
變量 和 數(shù)據(jù) 都是保存在 內(nèi)存 中的。在 Python 中 函數(shù) 的 參數(shù)傳遞 以及 返回值 都是靠 引用
在 Python的引用理解:變量 和 數(shù)據(jù) 是分開存儲的,數(shù)據(jù) 保存在內(nèi)存中的一個位置,變量 中保存著數(shù)據(jù)在內(nèi)存中的地址,就叫做 引用
使用 id() 函數(shù)可以查看變量中保存數(shù)據(jù)所在的 內(nèi)存地址。
可變和不可變類型
-
不可變類型,內(nèi)存中的數(shù)據(jù)不允許被修改:
- 數(shù)字類型 int, bool, float, complex, long(2.x)
- 字符串 str
- 元組 tuple
-
可變類型,內(nèi)存中的數(shù)據(jù)可以被修改:
- 列表 list
- 字典 dict
作用域
在Python程序中創(chuàng)建、改變、查找變量名時,都是在一個保存變量名的空間中進(jìn)行,我們稱之為命名空間,也被稱之為作用域。python的作用域是靜態(tài)的,在源代碼中變量名被賦值的位置決定了該變量能被訪問的范圍。即Python變量的作用域由變量所在源代碼中的位置決定。
在Python中并不是所有的語句塊中都會產(chǎn)生作用域。只有當(dāng)變量在Module(模塊)、Class(類)、def(函數(shù))中定義的時候,才會有作用域的概念。在if-elif-else、for-else、while、try-except\try-finally等關(guān)鍵字的語句塊中并不會產(chǎn)成作用域。
作用域的類型
- 局部作用域
- 嵌套作用域 : 閉包
- 全局作用域
- 內(nèi)置作用域
搜索變量名的優(yōu)先級:局部作用域 > 嵌套作用域 > 全局作用域 > 內(nèi)置作用域
globalVar = 100 #G
def test_scope():
enclosingVar = 200 #E
def func():
localVar = 300 #L
print __name__ #B
Python中的函數(shù)也可以當(dāng)作變量來對待