文本和字符串(一)

更新信息
2018-11-19 更新 re.split()

分割

split
通過 URL 地址，得到主機名和域名

In [41]: url = 'www.sharkyun.com'

In [42]: host, domain = url.split('.', 1)

In [43]: host
Out[43]: 'www'

In [44]: domain
Out[44]: 'sharkyun.com'

把下面的模塊路徑分隔開來，分別得到包和模塊名

# 下面是目錄結(jié)構(gòu)
mod
└── plugins
    └── cpu.py

cpu.py 中有一個類

class CPU:
    def __init__(self):
        pass

我們可以這樣分隔它

plugin_path = 'mod.plugins.cpu'

mod_path, cls_name = plugin.rsplit('.', 1)

輸出

In [59]: mod_path
Out[59]: 'mod.plugins'

In [60]: cls_name
Out[60]: 'cpu'

也許你會遇到更為復(fù)雜的情況，如：

In [1]: s = 'hello xiguatian;  vars, id,def, foo'

想得到所于的英文字符，之用字符串的 split() 方法是不夠的，正確的是使用 re.split()

In [2]: import re

In [3]: re.split(r'[\s;,]+', s)
Out[3]: ['hello', 'xiguatian', 'vars', 'id', 'def', 'foo']

用Shell通配符匹配字符串

如何利用 shell 里的通配符去匹配字符串,比如用 *.log 去匹配 access.log 等。
fnmatch 模塊提供了兩個函數(shù)—— fnmatch()和 fnmatchcase() ，可以用來實現(xiàn)這樣的匹配。
用法如下：

In [3]: fnmatch('cpu.py', '*.py')
Out[3]: True

In [4]: fnmatch('cpu.py', '?pu.py')
Out[4]: True

In [5]: fnmatch('data10.py', 'data[0-9][0-9].py')
Out[5]: True

fnmatch() 函數(shù)在類 linux 平臺中是區(qū)分大小寫的，而在 Windows 下是不區(qū)分的.

# On OS X (Mac)
In [6]: ffnmatch('foo.txt', '*.TXT')
Out[6]: False
# On Windows
In [7]: ffnmatch('foo.txt', '*.TXT')
Out[7]: True

fnmatchcase() 函數(shù)可以絕對的區(qū)分大小寫

In [14]: fnmatchcase('foo.txt', '*.TXT')
Out[14]: False

注意：上面的第一個參數(shù)，對于這兩個函數(shù)只是字符串而已，python 不會判斷是否是文件名。所以你若是相對文件名做匹配，請使用 glob 模塊。

假如有如下大學(xué)信息

star_rating = [
    "北京大學(xué) 8星級",
    "清華大學(xué) 8星級",
    "中國人民大學(xué) 8星級",
    "北京師范大學(xué) 6星級",
    "北京航空航天大學(xué) 6星級",
    "北京理工大學(xué) 5星級",
    "中國農(nóng)業(yè)大學(xué) 6星級",
    "北京交通大學(xué) 4星級",
    "北京科技大學(xué) 4星級",
    "北京協(xié)和醫(yī)學(xué)院 6星級"
]

找到 6 到 8 星級的大學(xué)

university = [star for star in star_rating if fnmatchcase(star, '*[6-8]星級') ]

print(university)

輸出結(jié)果

['北京大學(xué) 8星級', 
 '清華大學(xué) 8星級', 
'中國人民大學(xué) 8星級',
 '北京師范大學(xué) 6星級', 
'北京航空航天大學(xué) 6星級',
 '中國農(nóng)業(yè)大學(xué) 6星級', 
'北京協(xié)和醫(yī)學(xué)院 6星級'
]

搜索替換

replace()

s = "shark www.sharkyun.com"

# 把 shark 換成 xiguatian
s = s.replace('shark', 'xiguatian')

輸入結(jié)果

print(s)
xiguatian www.xiguatianyun.com

當(dāng)然，事情往往不總是都是那么多稱心如意。比如:
將形式為 11/16/2018 的日期字符串改成 2018-11-16 。
這時候，就要使用殺手锏正則模塊 re
re 模塊中的 sub() 函數(shù)可以為我們辦的。代碼如下：

import re

text = 'Today is 11/16/2018.'

re.sub(r'(\d+)/(\d+)/(\d+)', r'\3-\1-\2', text)

輸出結(jié)果

'Today is 2018-11-16.'

\1 \2 \3 是對前面小括號內(nèi)模式的匹配結(jié)果的都捕獲，就是分組。

如果有個正則的模式可能需要多次使用，那就要考慮先編譯它來提升性能。

import re

datepat = re.compile(r'(\d+)/(\d+)/(\d+)')
datepat.sub(r'\3-\1-\2', text)

假如，想知道有多少替換發(fā)生了，可以使用 re.subn() 來代替。比如：

In [31]: text = 'Today is 11/16/2018.'

In [32]: new_text, n = re.subn(r'(\d+)/(\d+)/(\d+)', r'\3-\1-\2', text)

In [33]: new_text
Out[33]: 'Today is 2018-11-16.'

In [34]: n
Out[34]: 1

更加復(fù)雜的替換需求：把其中的月份 11 改為 Nov
預(yù)備知識:

In [47]: from calendar import month_abbr

In [48]: month_abbr[1]
Out[48]: 'Jan'

In [49]: month_abbr[11]
Out[49]: 'Nov'

month_abbr 是一個可被迭代對對象，里面存放了 12 個月份的英文3個字母的縮寫, 第一個位置為空的字符串 '', 我們可以通過索引號1-12進行分別取值。

開始正題：
更加復(fù)雜的替換，可以傳遞一個替換回調(diào)函數(shù)給 sub() 函數(shù)。

import re
from calendar import month_abbr

text = 'Today is 11/16/2018.'

def change_date(m):
    mon_name = month_abbr[int(m.group(1))]
    return '{} {} {}'.format(m.group(2), mon_name, m.group(3))

new_text = re.sub(r'(\d+)/(\d+)/(\d+)', change_date, text)

輸出結(jié)果

print(new_text)
Today is 16 Nov 2018.

替換回調(diào)函數(shù)的參數(shù)是一個 match 對象，也就是 match()返回的對象。
這里我接著使用 group() 方法來提取特定的匹配部分。
回調(diào)函數(shù)最后返回替換后的字符串。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

在python3中你是如何處理字符串的？也許有你用的到的(一)

在python3中你是如何處理字符串的？也許有你用的到的(一)

文本和字符串(一)

分割

用Shell通配符匹配字符串

搜索替換

歡迎購買我的基礎(chǔ)全套視頻微我 y86000153優(yōu)惠100 點我

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

在python3中你是如何處理字符串的？也許有你用的到的(一)

文本和字符串(一)

分割

用Shell通配符匹配字符串

搜索替換

歡迎購買我的基礎(chǔ)全套視頻微我 y86000153優(yōu)惠100 點我

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

在python3中你是如何處理字符串的？也許有你用的到的(一)