數(shù)據(jù)分析之 Python 基礎(chǔ)

基礎(chǔ)知識

一、Python3 中有六個標(biāo)準(zhǔn)的數(shù)據(jù)類型:

  • Number(數(shù)字)
  • String(字符串)
  • List(列表)
  • Tuple(元組)
  • Set(集合)
  • Dictionary(字典)

二、Python3 的六個標(biāo)準(zhǔn)數(shù)據(jù)類型中:

  • 不可變數(shù)據(jù)(3 個):Number(數(shù)字)、String(字符串)、Tuple(元組);
  • 可變數(shù)據(jù)(3 個):List(列表)、Dictionary(字典)、Set(集合)。

三、四種不同的數(shù)值類型

  • int(有符號整型):在 64 位系統(tǒng)上,取值范圍為 [-2^63 ~ 2^63-1];
  • long(長整型,可代表八進(jìn)制和十六進(jìn)制):沒有指定位寬,即沒有限制長整型數(shù)值的大?。?/li>
  • float(浮點(diǎn)型):帶有小數(shù)的數(shù)字,占 8 個字節(jié)(64 bit),其中 52 位表示底,11 位表示指數(shù),剩下的一位表示符號;
  • complex(復(fù)數(shù)):由實(shí)數(shù)部分和虛數(shù)部分組成,一般形式為 x + yj,其中 x 為實(shí)數(shù)部分,y 為虛數(shù)部分。

四、變量賦值

賦值語句包含一個變量名,一個等號(稱為賦值操作符),以及要存儲的值。Python 中的變量不需要聲明數(shù)據(jù)類型,變量的類型是指內(nèi)存中被賦值對象的類型。

五、變量賦值傳遞時的引用和拷貝

Python 賦值過程中不明確區(qū)分拷貝和引用時,一般對靜態(tài)變量(不可變數(shù)據(jù)變量)的傳遞為拷貝,對動態(tài)變量(可變數(shù)據(jù)變量)的傳遞為引用。

## Tuple 與 Set
## Tuple 元祖與列表類似,不同之處在于元祖的元素不能修改??梢允褂眯±ㄌ杽?chuàng)建元祖,里面的元素可以重復(fù)
## Set 是一個無序的不重復(fù)元素序列??梢允褂么罄ㄌ杽?chuàng)建集合,往里添加的元素將會去重輸出,使用 set() 可以轉(zhuǎn)換其他數(shù)據(jù)類型為集合。
tup1 = ('physics', 'chemistry', 1997, 2000)
tup2 = (1, 2, 3, 3, 4, 5, 6, 7)
print("tup1[0]:", tup1[0])
print("tup2[1:5]:", tup2[1:5])

basket = {'apple', 'orange', 'apple', 'pear', 'orange', 'banana'}
print(basket)
print(set(tup2))

## 復(fù)數(shù)
aa = 123-12j
print(aa.real)
print(aa.imag)

## 拷貝(傳值)與引用(傳址)
dict = {'a': [1, 2, 3, 4, 5], 'b':2}
x = dict['a']
for i in range(5):
    x[i] = 0
print(dict)

x = dict['b']
x = x+3
print(dict)

控制流

一、操作符

  • 比較操作符:==,!=,<,>,<=,>=,
  • 布爾操作符:and,or,not

二、控制流語句
控制流語句會根據(jù)判斷條件是 True 還是 False,來決定后面執(zhí)行什么。有時候判斷條件為某些特定值,如 0,0.0 和 ''(空字符串)等價于 False,其他值等價于 True

  • if-else
  • while(只要 while 語句的條件為 True,while 子句的代碼就會一遍又一遍地執(zhí)行),可結(jié)合 break,continue,讓執(zhí)行提前跳出 while 循環(huán)子句.
    • break 是跳出整個循環(huán)
    • continue 是跳出本次循環(huán)并重新跳回到循環(huán)開始處
## while 循環(huán)
name = ''
while name != 'davidac':
    print('Please type your name.')
    name = input()
print('Thank you!')

while True:
    print('Who are you?')
    name = input()
    if name != 'davidac':
        continue
    print('Hello, davidac. What is the password?')
    password = input()
    if password == '123':
        break
print('Access granted.')

函數(shù)

一、def 語句

def 語句滯后的代碼塊是函數(shù)體,在函數(shù)調(diào)用時執(zhí)行,而不是在函數(shù)第一次定義時執(zhí)行。在代碼中,函數(shù)調(diào)用就是函數(shù)名后跟上括號,如果需要參數(shù),則把參數(shù)寫在括號內(nèi)。

二、返回值和 return 語句

return 語句指定應(yīng)該返回什么值,可以返回特定值,也可以將返回值作為參數(shù)傳遞給另一個函數(shù)調(diào)用。

三、None 值

None 是 NoneType 數(shù)據(jù)類型的唯一值,必須大寫首字母 N。對于沒有 return 語句的函數(shù)定義,Python 都會在末尾加上 return None。如果函數(shù)里只有 return 關(guān)鍵字本身,那么就返回 None。

四、關(guān)鍵字參數(shù)

大多數(shù)參數(shù)是由他們在函數(shù)調(diào)用中的位置來識別的,但關(guān)鍵字參數(shù)是由調(diào)用時加在它們前面的額關(guān)鍵字來識別的。比如 print('cats', 'dogs', 'mice', sep=',')

五、局部和全局變量

在被調(diào)用函數(shù)內(nèi)賦值的變元(參數(shù)賦值的變量)和變量,處于該函數(shù)的「局部作用域」,稱為局部變量,在所有函數(shù)之外賦值的變量,屬于「全局作用域」,被稱為全局變量。

  • 全局作用域的代碼不能使用任何局部變量
  • 局部作用域可以訪問全局變量
  • 一個函數(shù)的局部作用域中的代碼不能使用其他局部作用域中的變量
  • 避免局部變量與全局變量或其他局部變量同名
  • 在一個函數(shù)中,一個變量要么總是全局變量,要么總是局部變量

六、global 語句

使用 global 語句,可以將函數(shù)內(nèi)的變量修改為全局變量。

七、異常處理

錯誤可以由 try 和 except 語句來處理,那些可能出錯的語句被放在 try 子句中,如果錯誤發(fā)生,程序執(zhí)行就轉(zhuǎn)到接下來的 except 子句開始處。此處若在 try 子句中的代碼導(dǎo)致一個錯誤,會拋出 except 子句輸出的錯誤信息,并繼續(xù)往后執(zhí)行。

列表與字典

一、列表操作

  • 列表連接和列表復(fù)制:+,*
  • 從列表刪除值:使用 del 語句將列表中下標(biāo)處的值刪除,其后面的所有值,都將向前移動一個下標(biāo)。
  • 使用循環(huán)和 append() 將元素追加到空列表里
  • 常用的 for 循環(huán):[i for i in range(len(somelist))]
  • 判斷一個值是否在列表中:in 和 not in
  • 多重賦值技巧:變量的數(shù)目和列表的長度必須嚴(yán)格相等

二、列表方法

  • index():判斷一個值是否在列表中,就返回它的下標(biāo),如果該值不存在,就報 ValueError
  • append():將參數(shù)添加到列表末尾
  • insert():第一個參數(shù)是新值的下標(biāo),第二個參數(shù)是要插入的新值
  • remove():將列表中的值,若該值不在列表中,則報 ValueError,若該值在列表中出現(xiàn)多次,只會刪除第一個。跟 del 語句相比,如果知道想要刪除的值,則使用 remove()
  • sort():對數(shù)值或字符串的列表進(jìn)行排序,同樣不能寫成 spam = spam.sort()。

三、元祖
元祖數(shù)據(jù)類型幾乎與列表數(shù)據(jù)類型一樣,主要區(qū)別在于,元祖是不可變的,元祖不讓它們的值被修改、添加或刪除。如果元祖中只有一個值,可以在括號內(nèi)該值的后面跟上一個逗號。如 ('hello',)

四、字典方法

  • keys():返回字典的鍵
  • values():返回字典的值
  • items():返回字典的鍵-值對(元祖格式)
  • 多重賦值:[k + ', ' + str(v) for k, v in spam.items()]
  • get():有兩個參數(shù),一是要取的鍵,二是該鍵不存在時的備用鍵,如 str(picnicItem.get('cups', 0))
## 使用列表
catNames = []
while True:
    print('Enter the name of cat' + str(len(catNames)) + '(Or enter nothing to stop.):')
    name = input()
    if name == '':
        break
    catNames.append(name)
print('The cat names are:')
for name in catNames:
    print(' ' + name)

## 常用列表 for 循環(huán)(推導(dǎo)式)
catList = [str(i) + '_' + catNames[1] for i in range(len(catNames))]
print(catList)

## 多重賦值
cat = ['fat', 'black', 'loud']
size, color, disposition = cat

## append() 和 insert() 的返回值為 None
cat_spam = catList.append('Akira')
print(cat_spam)

## remove() 和 del
spam = ['cat', 'bat', 'rat', 'cat', 'hat', 'cat']
spam.remove('cat')
del spam[1]
spam

字符串操作

一、isX 字符串方法

  • isalpha():如果字串符只包含字幕,并且非空,返回 True
  • isalnum():如果字符串只包含數(shù)字和字母,并且非空,返回 True
  • isdecimal():如果字符串只包含數(shù)字字符,并且非空,返回 True
  • isspace():如果字符串只包含空格、制表符和換行,并且非空,返回 True

二、字符串連接和分割

  • join():是在一個字符串上調(diào)用,參數(shù)是一個字符串列表,如 ','.join(['cats', 'rats', 'bats'])
  • split():針對一個字符串,參數(shù)為分割字符,返回一個字符串列表

三、對齊

  • rjust()/ljust()/center():第一個參數(shù)是一個整數(shù)長度,用于對齊字符串,默認(rèn)為空格

四、刪除空白字符

  • strip():默認(rèn)刪除字符串頭尾的空白字符,若傳入字符串作為參數(shù),則在字符串兩端刪除出現(xiàn) a、m、p 和大寫 S,字符的順序并不重要,strip('ampS') 與 strip('mapS'),strip('Spam') 效果一樣。
## 填充字符
'Hello'.rjust(10, '-')
'Hello'.center(20, '*')

## 刪除空白字符
spam = 'SpamSpamBaconSpamEggSpamSpam'
spam.strip('Spma')

文件讀寫

一、文件路徑

  • os.getcwd():獲取當(dāng)前工作目錄
  • os.makedirs():創(chuàng)建新文件夾
  • os.path.abspath(path):將相對路徑轉(zhuǎn)換為絕對路徑的簡便方法,返回參數(shù)的絕對路徑的字符串
  • os.path.relpath(path, start):將返回從 start 路徑到 path 的相對路徑的字符串
  • os.path.dirname(path):返回最后一個斜杠之前的所有內(nèi)容
  • os.path.basename(path):返回最后一個斜杠之后的所有內(nèi)容
  • str.split(os.path.sep):返回一個列表,包含該路徑的所有部分
  • os.path.getsize(path):返回 path 參數(shù)中文件的字節(jié)數(shù)
  • os.listdir(path):返回文件名字符串的列表

二、檢查路徑有效性

  • os.path.exists(path):判斷所指的文件或文件夾是否存在
  • os.path.isfile(path):判斷是否文件
  • os.path.isdir(path):判斷是否目錄/文件夾

三、文件讀寫過程

三個步驟:

  1. 調(diào)用 open() 函數(shù),返回一個 File 對象。
  2. 調(diào)用 File 對象的 read() 或 write() 方法
  3. 調(diào)用 File 對象的 close() 方法,關(guān)閉該文件
  • open() 需要指明讀寫模式
    • r(讀),r+(可讀可寫),若文件不存在,均會報錯不創(chuàng)建。
    • w(寫),w+(可讀可寫),兩者都會將文件內(nèi)容清零,以 w 方式打開,不能讀出。
    • a(追加),a+(可讀可寫)
模式 可做操作 若文件不存在 是否覆蓋
r 只能讀 報錯 -
r+ 可讀可寫 報錯
w 只能寫 創(chuàng)建
w+ 可讀可寫 創(chuàng)建
a 只能寫 創(chuàng)建 否,追加寫
a+ 可讀可寫 創(chuàng)建 否,追加寫
  • read(),readline() 與 readlines()

    • read():從文件當(dāng)前位置起讀取 size 個字節(jié),若無參數(shù) size,則表示讀取至文件結(jié)束為止,它范圍為字符串對象。
    • readline():每次讀出文件的一行內(nèi)容。
    • readlines():從文件獲得一個字符串列表,列表的每個字符串就是文本的每一行。
  • write()

對文件對象(可寫模式)寫入內(nèi)容,在讀取或?qū)懭胛募?,需要調(diào)用 close() 方法,這樣在下次讀取時才能查看到新寫入的內(nèi)容。

## 路徑方法
import os
print(os.getcwd()) ## /Users/davidaclee/OneDrive/Code/python/practice
print(os.path.relpath('/Users/davidaclee/OneDrive/', '.'))
print(os.path.dirname(os.getcwd()))  ## /Users/davidaclee/OneDrive/Code/python/practice
print(os.path.basename(os.getcwd())) ## practice

calcFilePath = '/usr/local/hadoop/apache-hive-3.1.1-bin'
calcFilePath.split(os.path.sep)

print(os.path.getsize(calcFilePath))
print(os.listdir(calcFilePath))

totalSize = 0
for filename in os.listdir(calcFilePath):
    if os.path.isfile(os.path.join(calcFilePath, filename)) == True:
        totalSize = totalSize + os.path.getsize(os.path.join(calcFilePath, filename))
print(totalSize)

調(diào)試

一、拋出異常

拋出異常相當(dāng)于是說:”停止運(yùn)行這個函數(shù)中的代碼,將程序執(zhí)行轉(zhuǎn)到 except 語句“。拋出異常使用 raise 語句,并對 Exception 函數(shù)進(jìn)行調(diào)用,傳遞給 Exception 函數(shù)的字符串,作為報錯信息。如果沒有 try 和 except 語句覆蓋拋出異常的 raise 語句,該程序就會崩潰,并顯示異常的出錯信息。

except Exception as err 如果 try 的子句返回一個 Exception 對象,這條語句就會將它保存在名為 err 的變量中,再使用 str(err) 將它轉(zhuǎn)換成字符串,得到自定的出錯信息。

二、斷言

斷言相當(dāng)于是說:”我斷言這個條件為真,如果不為真,程序中什么地方就有一個缺陷“。條件不成立,程序也不一定報錯,但會讓程序輸出跟預(yù)期不一致的結(jié)果。所以通過這樣快速的失敗,能減少為了排查時間。

三、日志

記日志是一種很好的方式,可以理解程序中發(fā)生的事,以及事情發(fā)生的順序。Python 的 logging 模塊使得你很容易創(chuàng)建自定義的消息記錄,并列出你指定的任意變量當(dāng)時的值。另一方面,確實(shí)日志信息表明有一部分代碼被跳過,從未執(zhí)行。

雖然用 print() 也能輸出每一個步驟的結(jié)果,但調(diào)試完成后,需要花很多時間從代碼中清楚每條調(diào)試結(jié)果的 print() 調(diào)用,甚至有可能刪除一些必要的 print() 調(diào)用。日志消息的好處是,可以隨心所欲地在程序中加日志,隨后只要調(diào)用一次 logging.disable(logging.CRITICAL),就可以禁止日志。

四、日志級別

  • DEBUG - logging.debug(),最低級別,用于小細(xì)節(jié),在診斷問題時才會關(guān)心這些消息
  • INFO - logging.info(),用于記錄程序中一般事件的信息,或確認(rèn)一切工作正常
  • WARNING - logging.warning(),用于表示可能的問題,它不會阻止程序的工作,但將來可能會
  • ERROR - logging.error(),用于記錄錯誤,它導(dǎo)致程序失敗
  • CRITICAL - logging.critical(),最高級別,用于表示致命的錯誤,它導(dǎo)致或?qū)⒁獙?dǎo)致程序完全停止工作
## 拋出異常

def boxPrint(symbol, width, height):
    if len(symbol) != 1:
        raise Exception('Symbol must be a single character string.')
    if width <= 2:
        raise Exception('Width must be greater than 2.')
    if height <= 2:
        raise Exception('Height must be greater than 2.')
    print(symbol * width)
    for i in range(height - 2):
        print(symbol + (' ' * (width -2)) + symbol)
    print(symbol * width)

for sym, w, h in (('*', 4, 4), ('0', 20, 5), ('x', 1, 3), ('ZZ', 3, 3)):
    try:
        boxPrint(sym, w, h)
    except Exception as err:
        print('An exception happened: ' + str(err))
        
## 斷言
podBayDoorStatus = 'open'
assert podBayDoorStatus == 'open', 'The pod bay doors need to be "open".'
# podBayDoorStatus = "I'm sorry, Dave. I'm afraid I cant't do that."
# assert podBayDoorStatus == 'open', 'The pod bay doors need to be "open".'

## 日志
import logging
logging.basicConfig(level = logging.DEBUG, format = '%(asctime)s - %(levelname)s - %(message)s')
logging.debug('Start of program')

def factorial(n):
    logging.debug('Start of factorial(%s)' % (n))
    total = 1
    for i in range(n + 1):
        total *= i 
        logging.debug('i is '+ str(i) + ', total is ' + str(total))
    logging.debug('End of factorial(%s)' % (n))
    return total

print(factorial(5))
logging.debug('End of program')

## 禁用日志
import logging
logging.basicConfig(level=logging.INFO, format = '%(asctime)s - %(levelname)s - %(message)s')
# logging.critical('Critical error! Critical error!')
# logging.critical('Critical error! Critical error!')
logging.error('Error! Error!')
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Lua 5.1 參考手冊 by Roberto Ierusalimschy, Luiz Henrique de F...
    蘇黎九歌閱讀 14,264評論 0 38
  • 官網(wǎng) 中文版本 好的網(wǎng)站 Content-type: text/htmlBASH Section: User ...
    不排版閱讀 4,737評論 0 5
  • 一、Python簡介和環(huán)境搭建以及pip的安裝 4課時實(shí)驗(yàn)課主要內(nèi)容 【Python簡介】: Python 是一個...
    _小老虎_閱讀 6,356評論 0 10
  • 5Python集合容器 數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu) 一般將數(shù)據(jù)結(jié)構(gòu)分為兩大類: 線性數(shù)據(jù)結(jié)構(gòu)和非線性數(shù)據(jù)結(jié)構(gòu)。 線性數(shù)據(jù)結(jié)構(gòu)...
    清清子衿木子水心閱讀 1,738評論 0 1
  • 從開學(xué)的第一天開始就告訴孩子要上課認(rèn)真聽講,注意力要集中,寫作業(yè)要認(rèn)真,養(yǎng)成好習(xí)慣。但到現(xiàn)在也沒養(yǎng)成靜下心來...
    侯耀斐媽媽閱讀 154評論 0 1

友情鏈接更多精彩內(nèi)容