我就不信有滿分飄過(guò)的學(xué)霸!
請(qǐng)聽(tīng)題:
下拉查看答案
▼
正確答案 B
最大的爬蟲就是搜索引擎。Google作為世界上最大的搜索引擎,其爬蟲流量也遙遙領(lǐng)先于其他各類搜索引擎爬蟲,占所有爬蟲流量的3.87%
下拉查看答案
▼
正確答案 C
企業(yè)工商注冊(cè)信息不是個(gè)人數(shù)據(jù),數(shù)據(jù)來(lái)源都是國(guó)家公示網(wǎng)站,所公示內(nèi)容是依法公開的內(nèi)容。
對(duì)于敏感的個(gè)人信息,比如爬取社保、身份證號(hào)、淘寶交易記錄,是違法的。
下拉查看答案
▼
正確答案 A
數(shù)據(jù)來(lái)自淺黑科技:關(guān)于爬蟲,這里有一份《中國(guó)焦慮圖鑒》
下拉查看答案
▼
正確答案 C
使用打碼平臺(tái)是最快解決問(wèn)題的方法
下拉查看答案
▼
正確答案 B
經(jīng)過(guò)分析,發(fā)現(xiàn)迷之字符規(guī)律的出現(xiàn)在 span 標(biāo)簽內(nèi),所以就把 span 標(biāo)簽的內(nèi)容干掉好了。
下拉查看答案
▼
正確答案 C
美團(tuán)這里用到的是 background 拼湊。數(shù)字其實(shí)是圖片,根據(jù)不同的background偏移,顯示出不同的字符。
既然人眼可以看出數(shù)字是多少,那么程序也可以識(shí)別。可以用 tesseract-ocr 進(jìn)行圖片識(shí)別。
下拉查看答案
▼
正確答案 B
這里去哪兒的策略是先用四個(gè)i標(biāo)簽渲染,再用兩個(gè)b標(biāo)簽去絕對(duì)定位偏移量,覆蓋故意展示錯(cuò)誤的i標(biāo)簽,最后在視覺(jué)上形成正確的價(jià)格。
找到規(guī)律,根據(jù)元素偏移量去計(jì)算正確的數(shù)字和位數(shù),替換掉錯(cuò)誤的價(jià)格即可。
下拉查看答案
▼
正確答案 AC
使用?Selenium + chromedriver 或者抓 API 接口都可以,這里不推薦?PhantomJS 是因?yàn)榭蚣懿辉倬S護(hù)了。但可能一些老的教程還在用。
下拉查看答案
▼
正確答案 AB
抓包 mitmproxy 或者 APK 反編譯都可以。Requests 肯定是請(qǐng)求不到的了。
10. 簡(jiǎn)答題:這張圖還可以再往下補(bǔ)充的進(jìn)攻和防守輪回是什么?
下拉查看答案
▼
參考答案
其實(shí)可以補(bǔ)充的有很多了,真實(shí)世界比這張圖復(fù)雜很多,在這里提供兩個(gè)思路:
一輪:
反爬的防守:識(shí)別出來(lái)selenium爬蟲,進(jìn)行數(shù)據(jù)投毒,給假數(shù)據(jù)。
爬取的進(jìn)攻:Android模擬器,模擬正常用戶,或者再換一個(gè)http client
又一輪:
爬取的進(jìn)攻:模擬正常用戶行為,點(diǎn)擊其他功能或者頁(yè)面
反爬的防守:爬取的限速限流
考試結(jié)束~
麻瓜們考的怎么樣?
每道題10分,滿分100分,你能得多少分呢?
如果需要補(bǔ)課的話,可以看下Python 商業(yè)爬蟲學(xué)徒計(jì)劃,皓禹老師和侯爵老師一起手把手帶你從0基礎(chǔ)到掌握 Python 商業(yè)爬蟲。
課程不僅教你寫爬蟲,還帶著你寫出一個(gè)易用可插拔、工程化的商業(yè)爬蟲框架。
線下面授課程在舒適的辦公空間進(jìn)行授課,同時(shí)也提供了在線直播的方式,會(huì)錄制人像和代碼屏幕這兩個(gè)機(jī)位,并且有在線舉手答疑和遠(yuǎn)程代碼review,盡可能的讓參加在線直播的同學(xué)獲得親臨現(xiàn)場(chǎng)一樣的體驗(yàn)。
課程相關(guān)資料都會(huì)分享給學(xué)徒們,可以永久觀看與使用。
如果想咨詢更多信息,請(qǐng)加西西姐微信 794498950,備注學(xué)徒計(jì)劃
也可查看課程詳情:http://hdxu.cn/X2EhL