Python獲取豆瓣Top250電影

豆瓣已經(jīng)列出了評(píng)分排行前250的電影,我需要做的,只是用Python編寫一個(gè)非常簡(jiǎn)單的程序,獲得這些電影對(duì)應(yīng)的「鏈接」和「標(biāo)題」,然后打印出來即可。

運(yùn)行結(jié)果

運(yùn)行結(jié)果.jpg

編碼思路

用爬蟲爬取給定初始鏈接的信息,然后用正則表達(dá)式篩選自己需要的信息就好了。主要是編寫需要重復(fù)調(diào)用的函數(shù),然后再重復(fù)調(diào)用即可。

源碼

#coding:utf-8
#--------------------------------------------------
#   程序:獲取豆瓣top250電影
#   作者:lazyboy
#   博客:http://blog.lazyboy.co/
#   日期:2014-12-20
#   語言:Python 2.7
#--------------------------------------------------
import requests,re
# 初始鏈接
url = 'http://movie.douban.com/top250'
# 函數(shù),獲得電影鏈接和標(biāo)題
def getlists(u):
    links = []
    titles = []
    r = requests.get(u)
    if r.status_code == 200:
        t = r.content
        p = re.compile('(?<=<ol\sclass="grid_view">)(.|\n)+?(?=</ol>)')
        m = p.search(t)
        if m:
            alllists = m.group()
            p2 = re.compile('(?<=</li>)\n.+?(?=<li>)')
            m2 = p2.split(alllists)
            p3 = re.compile('(?<=href=").+?(?=")')
            p4 = re.compile('(?<=class="title">).+?(?=</span>)')
            for i in range(0,len(m2)):
                m3 = p3.search(m2[i])
                m4 = p4.search(m2[i])
                if m3 and m4:
                    links.append(m3.group())
                    titles.append(m4.group())
            return (links,titles)
# 函數(shù),獲得下一頁網(wǎng)頁鏈接
def nexturl(u):
    r = requests.get(u)
    if r.status_code == 200:
        t = r.content
        p = re.compile('(?<=rel="next"\shref=").+?(?=")')
        m = p.search(t)
        if m:
            return 'http://movie.douban.com/top250' + m.group()
l,t = getlists(url)
# 當(dāng)存在下一頁鏈接時(shí),運(yùn)行
while nexturl(url):
    url = nexturl(url)
    a,b = getlists(url)
    l,t = l+a,t+b
# 最終鏈接保存在數(shù)組l,標(biāo)題保存在數(shù)組t

# 按照給定格式打印出來
for i in range(0,len(l)):
    print '%s. [%s](%s)' % (str(i+1),t[i].decode('utf-8').encode('gbk'),l[i])

知識(shí)點(diǎn)拓展

  1. Python requests的安裝與簡(jiǎn)單運(yùn)用
  2. Python正則表達(dá)式指南
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 聲明:本文講解的實(shí)戰(zhàn)內(nèi)容,均僅用于學(xué)習(xí)交流,請(qǐng)勿用于任何商業(yè)用途! 一、前言 強(qiáng)烈建議:請(qǐng)?jiān)陔娔X的陪同下,閱讀本文...
    Bruce_Szh閱讀 13,024評(píng)論 6 28
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,695評(píng)論 19 139
  • -(void)createWeekBtn { _weekAry =@[@"周一",@"周二",@"周三",@"周四...
    Kloar閱讀 472評(píng)論 0 0
  • 無趣乏味的自己, 我身上有很多毛病,我自己有的察覺到了,有的沒有。 我不喜歡刷牙,我不喜歡運(yùn)動(dòng)。 短視,鼠目寸光。...
    井底的動(dòng)物閱讀 272評(píng)論 0 0
  • 和好友相聚總是讓人開心又幸福,周末的早晨,享受著賴床的感覺,東方發(fā)消息說,她和對(duì)象兩個(gè)人過來找我,還說帶我散...
    春夏AI閱讀 383評(píng)論 0 1

友情鏈接更多精彩內(nèi)容