DaveC
@davecode
說
Wed, Nov 4, 2020 9:06 AM
8
2
包含近 20 万本图书,OpenAI 级别的训练数据集上线
近日, 機器學習社區的一篇資源熱貼「用於訓練 GPT 等大型 語言模型的 196640 本純文本書籍數據集」引發了熱烈的討論。
該數據集涵蓋了截至 2020 年 9 月所有大型文本語料庫的下載鏈接。除此之外,它還包含了所有的 bibliotik(一個線上圖書資源庫)中書籍的純文本,以及大量用於訓練的代碼。數據集中除文本數據外,還包含了 100GB 的訓練代碼, 196640 冊圖書數據,訓練你的 GPT
載入新的回覆
近日, 機器學習社區的一篇資源熱貼「用於訓練 GPT 等大型 語言模型的 196640 本純文本書籍數據集」引發了熱烈的討論。
該數據集涵蓋了截至 2020 年 9 月所有大型文本語料庫的下載鏈接。除此之外,它還包含了所有的 bibliotik(一個線上圖書資源庫)中書籍的純文本,以及大量用於訓練的代碼。數據集中除文本數據外,還包含了 100GB 的訓練代碼, 196640 冊圖書數據,訓練你的 GPT