2015年Hermann 等創(chuàng)立的兩個(gè)非常棒的用于問答研究的數(shù)據(jù)集, 分別包含90k和197k個(gè)文檔,,每個(gè)文檔平均有4個(gè)問題。每個(gè)問題都是一個(gè)帶有一個(gè)缺失單詞/短語的句子,可以從隨附的文檔/上下文中找到。原作者熱心地發(fā)布了腳本和附帶的文檔來生成數(shù)據(jù)集,但是并不太好用。紐約大學(xué)整理了數(shù)據(jù)集。我們又在該數(shù)據(jù)集基礎(chǔ)上利用斯坦福nlp實(shí)驗(yàn)的分詞工具進(jìn)一步加工。
CNN
該數(shù)據(jù)集包含來自CNN新聞文章的文檔和附帶的問題。 有大約90k文件和380k問題。 提供問題集合,它應(yīng)該足以從原始論文中重現(xiàn)設(shè)置,以及'stories /',這對于此數(shù)據(jù)集的其他用途非常有用。 我也提供原始的html文件,但我不能保證這些文件是完整
Daily Mail
此數(shù)據(jù)集包含每日郵報(bào)新聞文章中的文檔和隨附問題。 大約有197k文件和879k問題。 我正在提供'questions /',它應(yīng)該足以從原始論文中重現(xiàn)設(shè)置,以及'stories /',這對于此數(shù)據(jù)集的其他用途非常有用。 我也提供原始的html文件,但我不能保證這些文件是完整的。
數(shù)據(jù)整理后百度網(wǎng)盤提供,或者私信