CRNN 文本識(shí)別算法實(shí)現(xiàn)不定長(zhǎng)文字識(shí)別

--> 在六七月份參加了一個(gè)比賽,做的項(xiàng)目是提取圖片中的文字信息,首先是接觸了一些文本檢測(cè)算法(如CTPN,East),后研究了文本識(shí)別算法(我認(rèn)為較好的是CRNN)。代碼實(shí)現(xiàn)是參考算法提出者的pytorch,python3版本的crnn實(shí)現(xiàn)。因?yàn)閜ython版本的迭代,導(dǎo)致代碼重使用比較難,其中涉及到ctc,python編碼,中文數(shù)據(jù)集,如何將模型finetune到自己的應(yīng)用場(chǎng)景上種種問題。實(shí)現(xiàn)的深度學(xué)習(xí)框架是pytorch,雖然TensorFlow也可以,但是比較多坑。其實(shí)是什么框架實(shí)現(xiàn)的都沒關(guān)系,現(xiàn)在語法都是比較簡(jiǎn)單,看懂不難!

因?yàn)樽约阂呀?jīng)踩了很多坑,也填好了這些坑,就將自己填好的項(xiàng)目貢獻(xiàn)給大家!
(https://github.com/Sierkinhane/crnn_chinese_characters_rec) 代碼地址

這次分享的是文本識(shí)別算法CRNN,具體的內(nèi)容我就不涉及了,這篇文章主要是做算法代碼的實(shí)現(xiàn)(參考原作者),建議大家研讀算法一定要看作者發(fā)的Paper! CRNN論文地址:http://arxiv.org/abs/1507.05717(作者是華中科技大學(xué)的老師)

先放一些效果圖,利用360萬的中文數(shù)據(jù)訓(xùn)練集,最后可以finetune到97.7%的驗(yàn)證準(zhǔn)確率,訓(xùn)練好的模型在train_models文件夾

1.png

2.png

1.png
results.png

第一、二張圖片是最近修改的一個(gè)demo,第三、四張圖是CTPN算法和CRNN的結(jié)合,可以將圖片上的任何文字信息提取。因?yàn)镃TPN要求的環(huán)境比較復(fù)雜,所以這次只放出CRNN的代碼,因?yàn)镃RNN實(shí)現(xiàn)環(huán)境比較簡(jiǎn)單。

現(xiàn)在開始介紹代碼:


2.png

代碼的實(shí)現(xiàn)必須是Linux環(huán)境(因?yàn)樯婕暗絯arp-ctc的安裝,最好是Ubuntu16.04,能跳的坑我基本都填了)

1. Warp-ctc安裝

首先得安裝warp-ctc https://github.com/SeanNaren/Warp-ctc,這是pytorch版本的ctc實(shí)現(xiàn)(計(jì)算序列l(wèi)oss,具體看論文),安裝方法按照作者的步驟即可,如果遇到問題可以私聊我。我是在Ubuntu16.04安裝的,并沒有太大問題,但是在17.04就遇到很多問題,所以最好用Ubuntu16.04作為代碼實(shí)現(xiàn)環(huán)境。

2. 測(cè)試

安裝好ctc后,直接運(yùn)行終端輸入 python3 test.py 試下效果,測(cè)試圖片在test_images文件夾下。

3. 訓(xùn)練

3.png

正確的訓(xùn)練效果如圖。

訓(xùn)練之前首先制作數(shù)據(jù)集,因?yàn)?60萬的中文數(shù)據(jù)集制作成lmdb格式的數(shù)據(jù)有十幾G,就沒直接放到Github中。

先下載360萬中文數(shù)據(jù)集:https://pan.baidu.com/s/1ufYbnZAZ1q0AlK7yZ08cvQ

對(duì)于數(shù)據(jù)集我想說明一下,在文字識(shí)別領(lǐng)域有比較多的識(shí)別場(chǎng)景,例如場(chǎng)景文本識(shí)別,比較正規(guī)的圖片信息識(shí)別,這些不同的應(yīng)用場(chǎng)景需要對(duì)應(yīng)不同的數(shù)據(jù)集訓(xùn)練,這次我自己應(yīng)用到的場(chǎng)景比較正規(guī)的字體識(shí)別,所以這個(gè)訓(xùn)練集不一定能夠用到所有場(chǎng)景,但也確實(shí)提供了一個(gè)不錯(cuò)數(shù)據(jù)集資源!還有就是訓(xùn)練集最好是具有語義信息,如果只是將文字隨機(jī)的組合生成圖片作為訓(xùn)練集,模型收斂會(huì)更慢并且準(zhǔn)確率受限!

下圖是部分訓(xùn)練集


chinese_char.png

(這個(gè)數(shù)據(jù)是在Github中找到的,暫時(shí)沒找到他的地址,很感謝作者的奉獻(xiàn)?。?br> 數(shù)據(jù)集是隨機(jī)選取定長(zhǎng)的字?jǐn)?shù),經(jīng)過模糊、傾斜、顏色變化等操作之后生成的,比較具有一般性,能很好地提升模型的Robust。

下載好數(shù)據(jù)集之后如果解壓出錯(cuò),不完整,可以用好壓進(jìn)行修復(fù)。
接下來是制作lmdb格式的數(shù)據(jù)。

圖片與之對(duì)應(yīng)的標(biāo)簽我鏈接:https://pan.baidu.com/s/1jfAKQVjD-SMJSffOwGhh8A 密碼:u7bo,只需要將下載好的數(shù)據(jù)集放到lmdb文件中,根據(jù)情況修改to_lmdb.py中的文件名 運(yùn)行該py程序就可以制作lmdb格式的數(shù)據(jù)!

制作好數(shù)據(jù)集之后將它放到lmdb_dataset文件夾中調(diào)出終端:

python3 crnn_main.py --train_root 訓(xùn)練數(shù)據(jù)集路徑 --val_root 驗(yàn)證集路徑 --cuda (如果有cuda加速可選)
大概流程就是這樣了,最主要的還是自己看待自己琢磨!
(不定長(zhǎng)識(shí)別是將訓(xùn)練集圖片的放縮feed到神經(jīng)網(wǎng)絡(luò)中的尺寸應(yīng)用到測(cè)試中,test.py已經(jīng)標(biāo)注?。?/p>

(如果有幫助到你,可以在Github給我個(gè)star?。?/p>

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容