(學(xué)完深度學(xué)習(xí)之后,最開始想做的是一個(gè)朋友圈預(yù)測,但是第一步數(shù)據(jù)收集就卡住了。微信朋友圈沒有什么接口開放出,只能一個(gè)個(gè)的手動粘,極其耗時(shí),粘了幾十條之后,就不愛弄了。)
(網(wǎng)上也有人問,但沒什么有用的答案,唯一有用的是一篇講反編譯微信安卓APP的,這個(gè)思路很好,其實(shí)可以走這條路,另一個(gè)可能通的路是抓微信的包,分析傳輸數(shù)據(jù)什么的)
突然想到,可以換個(gè)思路,完全可以用圖像識別的方式去“看”,哪個(gè)部分分別是什么,然后通過模擬器點(diǎn)擊去抓取存儲:




(圖片來自本人的iphone6sp截屏)
簡單的劃分一下:
1.最左上角是個(gè)“完成”按鈕
2.接下來是個(gè)“頭像”,旁邊是“昵稱”
3.下面是“文本段”,可能沒有,長度也不一定
4.再下面是“圖片”,單張圖片,會全部顯示,多于2張的,會是縮小圖,圖片也可能沒有,最多9張
5.這里還有可能是別的內(nèi)容,比如網(wǎng)頁的分享,或是小視屏
6.如果這里是從別的app分享過來的,下面還會有“來自哪個(gè)app”
7.再往下是“發(fā)布時(shí)間”
8.然后可能是“點(diǎn)贊”
9.再下一點(diǎn)可能是評論回復(fù),這個(gè)截圖里面沒有,長度和數(shù)量不確定
10.最下面是回復(fù)框
基于以上分析,有些區(qū)域的位置其實(shí)是固定的,比如“完成”按鈕,“頭像”,“昵稱”(昵稱的長度可能不確定,但基本就是在那一行上)
還有一些,比如發(fā)布時(shí)間和點(diǎn)贊的位置基本都是在那一列上
往下是重點(diǎn),內(nèi)容分析:“文本段”,“圖片”,“小視屏”,“網(wǎng)頁”,每一個(gè)都有自己的規(guī)則,其實(shí)規(guī)則還挺好找的,放之后慢慢說吧。