有了這東西,作文還怎么判???

印象
之前給學(xué)生上課的時候,我介紹過利用循環(huán)神經(jīng)網(wǎng)絡(luò),仿照作家風(fēng)格進(jìn)行創(chuàng)作的機(jī)器學(xué)習(xí)模型。
不過,那模型寫出來的東西嘛……
He went over to the gate of the café. It was like a country bed.“Do you know it’s been me.”“Damned us,” Bill said.“I was dangerous,” I said. “You were she did it and think I would a fine cape you,” I said.“I can’t look strange in the cab.”“You know I was this is though,” Brett said.“It’s a fights no matter?”“It makes to do it.”“You make it?”“Sit down,” I said. “I wish I wasn’t do a little with the man.”“You found it.”“I don’t know.”“You see, I’m sorry of chatches,” Bill said. “You think it’s a friend off back and make you really drunk.”
我的評價是:
望之,不似人語。
因為這種限制,人們并沒有把“機(jī)器寫作”當(dāng)成一回事兒。
總覺得機(jī)器要寫成那種以假亂真的高度,可能還需要等上很久遠(yuǎn)的一段時間。
然而,這世界變化快。
工具
早上,我嘗試了一個新工具。
一個在線編輯器界面里,輸入或長或短的一段話,然后按一下 Tab 鍵。
后面的內(nèi)容,機(jī)器就幫你自動逐步填充。

填充的過程里,系統(tǒng)每次給你3個備選方案,這樣你可以控制寫作思路的走向。
當(dāng)然,你也可以根本不管其他選項,一直走默認(rèn)路徑。機(jī)器照樣文思泉涌。
最后生成的文章,是這個樣子的。

其中,第一段落是我自己隨便瞎寫的。后面高亮段落,都是電腦模型自己編出來的。
不但標(biāo)點符號、語法修辭用得有鼻子有眼兒,就連我那段里根本沒有提到過的創(chuàng)始人,都跳了出來長篇大論。
嘗試
你可以在我的公眾號“玉樹芝蘭”(nkwangshuyi)后臺回復(fù)“aiwrite”,查看這個智能寫作編輯器的鏈接。
不知道你嘗試過后的感覺是什么。
反正我覺得,以后學(xué)校里的英文寫作課,怕是沒有辦法判作業(yè)了。
原本需要學(xué)生花半個小時完成的任務(wù),現(xiàn)在他可以輕點幾下按鍵,就能搞定交差。
更要命的是,從原理來講,查重系統(tǒng)面對這種作品,是無效的。

因為這并非抄襲。
機(jī)器每一次的“創(chuàng)作”,幾乎都能保證是全新的。
原理
你一定想知道這背后的原理吧?
其實,在我們之前的教程里,我多次給你介紹過它。就是目前最火的自然語言模型架構(gòu)——Transformer。

(上圖來自于經(jīng)典之作“Attention is All You Need”)
我們詳細(xì)介紹過使用方法的 BERT ,當(dāng)初用的就是這種技術(shù),才產(chǎn)生了野蠻霸榜的效果。
不過咱們用的這個編輯器,底層并不是 BERT ,而是我們之前提及的 GPT 2。
大多數(shù)人提到它的時候,介紹往往不是那么正面。
并不是因為 GPT 2 這種技術(shù)不夠好。而是因為它“太好了”。
好到足夠讓人眼饞。
好到開發(fā)者決定,不開放訓(xùn)練數(shù)據(jù)集、代碼、甚至模型參數(shù)……

要知道,在當(dāng)今這樣一個開源開放的趨勢下,這么做會招致多少非議。
當(dāng)時 OpenAI 做出這種決定和解釋,有人便認(rèn)為是出于饑餓營銷的目的,賺眼球。
但是,你剛剛自己嘗試過語言生成模型的威力之后,還會保持這么單純的想法嗎?
威脅
僅舉一例。
互聯(lián)網(wǎng)上,假新聞是一個非常嚴(yán)重的問題。
原先,用機(jī)器造假新聞出來,成本固然低,但專業(yè)人士還是很容易通過語言特征和統(tǒng)計規(guī)律來識別的。

而一旦,假新聞不但生產(chǎn)成本低廉,分分鐘可搞定,還完全具備了真新聞的語言特征,要分辨出來,就不容易了。
假新聞有可能多點大規(guī)模爆發(fā),因從眾和沉默螺旋等社會心理機(jī)制,對大眾輕易造成誤導(dǎo)。
面對這種潛在威脅,我們真的已有完善的應(yīng)對之策嗎?
正因為這種威脅實際存在,數(shù)據(jù)倫理才愈發(fā)成為重要的研究課題。

如果你做數(shù)據(jù)科學(xué)研究,這個方向大有可為。
魔盒
風(fēng)險是顯著的。
而技術(shù)的進(jìn)步與發(fā)展,真的能夠因為一家機(jī)構(gòu)決定“不開放模型”的舉措,就能停滯嗎?
當(dāng)然不會。
OpenAI 因為壓力,不斷釋放出更為強大的開源模型。目前開放的預(yù)訓(xùn)練模型版本,達(dá)到了 774M 個參數(shù)。距離完全版本模型的釋放,也就是臨門一腳的事兒了。

曾經(jīng),普通人即便拿到了這種開源工具,也需要一定的門檻,才能使用。

然而“有好事者”,在整合包裝了若干種主流的 Transformer 模型之后,降低了 GPT2 機(jī)器寫作的門檻。
于是,就有你看到的這個編輯器了。

波瀾
我把 GPT2 自動寫作的結(jié)果,發(fā)到了朋友圈。
驚艷之余,小伙伴想到的,主要是以下兩個問題:
- 什么時候出中文的?
- 能否和寫字機(jī)器人配合使用?
我看后很無語。
好在這一位的留言,讓我看到了光明的一面:
以后英語老師出閱讀題,可方便多了。
延伸閱讀
你可能也會對以下話題感興趣。點擊鏈接就可以查看。
- 如何高效學(xué) Python ?
- 如何用 Python 和深度遷移學(xué)習(xí)做文本分類?
- 如何用 Python 和 BERT 做中文文本二元分類?
- 如何用 Python 和 BERT 做多標(biāo)簽(multi-label)文本分類?
- 如何在 fast.ai 用 BERT 做中文文本分類?
喜歡別忘了點贊。
還可以微信關(guān)注我的公眾號“玉樹芝蘭”(nkwangshuyi)。別忘了加星標(biāo),以免錯過新推送提示。
題圖: Photo by Pereanu Sebastian on Unsplash