DeepMind Q&A Dataset-那些著名的數(shù)據(jù)集

2015年Hermann 等創(chuàng)立的兩個(gè)非常棒的用于問答研究的數(shù)據(jù)集, 分別包含90k和197k個(gè)文檔,,每個(gè)文檔平均有4個(gè)問題。每個(gè)問題都是一個(gè)帶有一個(gè)缺失單詞/短語的句子,可以從隨附的文檔/上下文中找到。原作者熱心地發(fā)布了腳本和附帶的文檔來生成數(shù)據(jù)集,但是并不太好用。紐約大學(xué)整理了數(shù)據(jù)集。我們又在該數(shù)據(jù)集基礎(chǔ)上利用斯坦福nlp實(shí)驗(yàn)的分詞工具進(jìn)一步加工。

CNN

該數(shù)據(jù)集包含來自CNN新聞文章的文檔和附帶的問題。 有大約90k文件和380k問題。 提供問題集合,它應(yīng)該足以從原始論文中重現(xiàn)設(shè)置,以及'stories /',這對于此數(shù)據(jù)集的其他用途非常有用。 我也提供原始的html文件,但我不能保證這些文件是完整

Daily Mail

此數(shù)據(jù)集包含每日郵報(bào)新聞文章中的文檔和隨附問題。 大約有197k文件和879k問題。 我正在提供'questions /',它應(yīng)該足以從原始論文中重現(xiàn)設(shè)置,以及'stories /',這對于此數(shù)據(jù)集的其他用途非常有用。 我也提供原始的html文件,但我不能保證這些文件是完整的。

數(shù)據(jù)整理后百度網(wǎng)盤提供,或者私信

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 關(guān)于Mongodb的全面總結(jié) MongoDB的內(nèi)部構(gòu)造《MongoDB The Definitive Guide》...
    中v中閱讀 32,329評論 2 89
  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 179,366評論 25 708
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,715評論 19 139
  • 股市中有個(gè)恒古不變的現(xiàn)象:長期來看總是70%的股民在賠錢,20%的股民在保本,只有10%的股民在賺錢。 而大盤在長...
    我是劉良閱讀 213評論 0 0

友情鏈接更多精彩內(nèi)容