弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一
夢晨 2024-04-04 13:50:21 來源:量子位
大(da)智(zhi)若愚了還是(shi)大(da)于弱智(zhi)了?
夢晨 西風 發自 凹非寺
量子位 | 公眾號 QbitAI
離大譜了,弱智吧登上正經AI論文,還成了最好的中文訓練數據??
具體來說,使用弱智吧數據訓練的大模型,跑分超過百科、知乎、豆瓣、小紅書等平臺,甚至是研(yan)究團隊精心挑選(xuan)的數(shu)據集。
在問答、頭腦風暴、分類、生成、總結、提取等8項測試中取得最高分。
沒錯,論(lun)文(wen)中的Ruozhiba就是(shi)(shi)指百度貼(tie)吧弱智吧,一(yi)個充(chong)滿荒謬、離奇、不合常理發言(yan)的中文(wen)社(she)區,畫風通常是(shi)(shi)這樣(yang)的:
最離譜的是,弱智吧AI代碼能力也超過了使用專業技術問答社區思否數據訓練(lian)的AI,這(zhe)下吧友自己(ji)都鬧不明白了(le)。
其他平臺圍(wei)觀網友也紛紛蚌埠住。
這項研究(jiu)來(lai)自(zi)(zi)中科院(yuan)深圳先進技(ji)術(shu)研究(jiu)院(yuan)、中科院(yuan)自(zi)(zi)動化研究(jiu)所,滑鐵(tie)盧大學(xue)等眾(zhong)多高校、研究(jiu)機構(gou)聯合(he)團隊。
作者之一也現(xian)身評(ping)論區,透露(lu)使用(yong)(yong)弱智吧數(shu)據訓練AI屬(shu)于靈機一動,以前只用(yong)(yong)來測試。
弱智吧(ba)數(shu)據究(jiu)竟如何達成這一成就(jiu),具體到論文中看。
弱智發言成指令微調神器這項研究起初為解決中文大模型訓練中的諸多問題:
中文(wen)數據(ju)集很(hen)多是從英文(wen)翻譯過來的(de),沒有很(hen)好地契(qi)合中文(wen)的(de)語言習慣和文(wen)化背景
不少數據集(ji)是用(yong)AI生成(cheng)的,質量難以保證,容易出現事實(shi)性錯誤
即(ji)使是人工標注的(de)數據集,也存在數據量小(xiao)、覆蓋領域(yu)不(bu)全面等(deng)問(wen)題(ti)
為了解決這些痛點,團隊從中文互聯網的各種知識源頭直接收集數據,比如知乎、豆瓣、百科、小紅書等,經過一系列嚴格的清洗和人工審核,打造成高質量、多樣化的中文指令微調數據集COIG-CQIA。
除了探索不同數據源的作用,團隊還專門從中抽取出一個精華子集CQIA-Subset。
在眾多數據(ju)來源中,弱智吧成了最特別的一個。
由500個點贊最(zui)高(gao)的帖子標題+人(ren)工或GPT-4的回(hui)復組成指(zhi)令微調(diao)數(shu)(shu)據集(ji), 經過人(ren)工審核后,最(zui)終留下了240組指(zhi)令-回(hui)復數(shu)(shu)據對。
分(fen)別用各種數據(ju)集(ji)訓練零一萬物(wu)Yi系列開源大模型,在BELLE-Eval測試(shi)集(ji)上使(shi)用GPT-4評分(fen)得到結果。
在(zai)規模較小的Yi-6B模型上(shang),純(chun)弱(ruo)智吧版本(ben)總分排名第三(san),還不算太突(tu)出(chu)。
看來小模型還沒能領(ling)悟弱智的精髓。
到了(le)(le)Yi-34B,弱智吧版本表現就(jiu)一(yi)騎絕塵了(le)(le)。
只有在改寫和數學任務(wu)上沒能取(qu)得最高分,但成績也比較靠前(qian)。