阿里巴巴研發(fā)中文語言數(shù)據(jù)集 Youku-mPLUG,語料數(shù)據(jù)來自優(yōu)酷 興趣認證 |
發(fā)布時間:2023-06-09 文章來源:本站 瀏覽次數(shù):1894 |
6月8日訊,據(jù) arxiv上的一篇論文顯示,達摩院近來為了推進視覺言語預練習以及多模態(tài)大言語模型在中文社區(qū)的發(fā)展,發(fā)布了一款視頻言語數(shù)據(jù)集 Youku-mPLUG。 這個數(shù)據(jù)集的一切內(nèi)容均來自優(yōu)酷,對其間的安全性、多樣性和內(nèi)容質量有著非常嚴厲的標準。據(jù)達摩院介紹,Youku-mPLUG中包含了45種不同類型的1000萬個視頻文本,這些視頻文本從4億個原始視頻中篩選而出,首要用于大規(guī)模預練習。 達摩院表示,Youku-mPLUG可以幫助研制人員在未來進行更深入的多模態(tài)研究,開宣布更好的應用。 |
|