沒有反爬
?? 各大新聞網(wǎng)站如http://mil.news.sina.com.cn/roll/index.d.html?cid=57918等,所見即時(shí)所得,都是靜態(tài)加載,唯一的突破點(diǎn)是要梳理不同網(wǎng)站的清洗規(guī)則。
有一點(diǎn)點(diǎn)反爬
- 數(shù)字+字母驗(yàn)證碼
http://www.pss-system.gov.cn/sipopublicsearch/portal/uilogin-forwardLogin.shtml
?? 突破方法是通過打碼平臺(tái)打碼,一般10個(gè)幾分錢且僅用于登陸所以成本比較低。 - 動(dòng)態(tài)加載
?這個(gè)的處理方式有兩種:
?抓取xhr連接,找到真正的數(shù)據(jù)地址。
?同樣是新浪的滾動(dòng)新聞 https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1image.png
?這是靜態(tài)加載的,按F12嘗試篩選可以發(fā)現(xiàn)真正的數(shù)據(jù)連接是https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2510&k=&num=50&page=1
image.png
?使用瀏覽器加載(pyppeteer或其他同類產(chǎn)品)
麻煩一點(diǎn)的反爬
- ip限制
? 針對(duì)不用登陸的網(wǎng)站,可能會(huì)對(duì)IP進(jìn)行訪問頻率限制,具體網(wǎng)站限制不同,要較長的時(shí)間研究網(wǎng)站規(guī)則 ,常見出現(xiàn)大量非200 404錯(cuò)誤可能就是被IP限制了。 - 工程驗(yàn)證碼中級(jí)
?http://dun.163.com/trial/jigsaw拖拉式驗(yàn)證碼,有拖拉到指定缺口,拖拉到盡頭兩種,一般伴隨著瀏覽器驅(qū)動(dòng)檢測,所以還需要注入js把檢測模塊處理掉。 - 字體css反爬
?https://maoyan.com/cinemas?movieId=1218141
image.png
需要下載一個(gè)字體模板作為對(duì)比,然后這個(gè)網(wǎng)站可以打開otf格式的文件瀏覽http://fontstore.baidu.com/static/editor/index.html
image.png
通過對(duì)比方式找到對(duì)應(yīng)數(shù)字的代碼
比較麻煩的反爬
-
收發(fā)短信認(rèn)證
image.png
一般注冊普通小網(wǎng)站的或可以選擇免費(fèi)的接碼平臺(tái),像大站的手機(jī)驗(yàn)證只能實(shí)人驗(yàn)證,操作比較麻煩。
- 語義點(diǎn)選
http://dun.163.com/trial/picture-click
image.png
大概的處理流程是標(biāo)注、訓(xùn)練、編碼,工程量大,而且工作只有思想可以復(fù)制,網(wǎng)站更換套件又得重新處理一遍流程。
反人類的反爬
- 低效率網(wǎng)站
http://wenshu.court.gov.cn/list/list/?sorttype=1&number=23CD5QME&guid=3cf739bc-a11e-a0b0048e-28ecec3be638&conditions=searchWord+QWJS+++%E5%85%A8%E6%96%87%E6%A3%80%E7%B4%A2:%E7%8C%A5%E7%90%90
正常網(wǎng)頁瀏覽搜索需要超過2分鐘,各種反爬(訪問)限制,點(diǎn)一下可以去上個(gè)廁所系列。





