反爬蟲記

沒有反爬

?? 各大新聞網(wǎng)站如http://mil.news.sina.com.cn/roll/index.d.html?cid=57918等,所見即時(shí)所得,都是靜態(tài)加載,唯一的突破點(diǎn)是要梳理不同網(wǎng)站的清洗規(guī)則。

有一點(diǎn)點(diǎn)反爬

麻煩一點(diǎn)的反爬

  • ip限制
    ? 針對(duì)不用登陸的網(wǎng)站,可能會(huì)對(duì)IP進(jìn)行訪問頻率限制,具體網(wǎng)站限制不同,要較長的時(shí)間研究網(wǎng)站規(guī)則 ,常見出現(xiàn)大量非200 404錯(cuò)誤可能就是被IP限制了。
  • 工程驗(yàn)證碼中級(jí)
    ?http://dun.163.com/trial/jigsaw拖拉式驗(yàn)證碼,有拖拉到指定缺口,拖拉到盡頭兩種,一般伴隨著瀏覽器驅(qū)動(dòng)檢測,所以還需要注入js把檢測模塊處理掉。
  • 字體css反爬
    ?https://maoyan.com/cinemas?movieId=1218141
    image.png

    需要下載一個(gè)字體模板作為對(duì)比,然后這個(gè)網(wǎng)站可以打開otf格式的文件瀏覽http://fontstore.baidu.com/static/editor/index.html
    image.png

    通過對(duì)比方式找到對(duì)應(yīng)數(shù)字的代碼

比較麻煩的反爬

  • 收發(fā)短信認(rèn)證


    image.png

    一般注冊普通小網(wǎng)站的或可以選擇免費(fèi)的接碼平臺(tái),像大站的手機(jī)驗(yàn)證只能實(shí)人驗(yàn)證,操作比較麻煩。

  • 語義點(diǎn)選
    http://dun.163.com/trial/picture-click
    image.png

    大概的處理流程是標(biāo)注、訓(xùn)練、編碼,工程量大,而且工作只有思想可以復(fù)制,網(wǎng)站更換套件又得重新處理一遍流程。

反人類的反爬

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容