弱智吧竟成最佳中文AI訓練數據？！中科院等：8項測試第一

發布(bu)時間： 2024-04-05 05:17首頁： > 科技 > 閱讀()

夢晨 2024-04-04 13:50:21 來源：量子位

大(da)智(zhi)若愚了還是(shi)大(da)于弱智(zhi)了？

夢晨西風發自凹非寺
量子位 | 公眾號 QbitAI

離大譜了，弱智吧登上正經AI論文，還成了最好的中文訓練數據？？

弱智吧竟成最佳中文AI訓練數據？！中科院等：8項測試第一

具體來說，使用弱智吧數據訓練的大模型，跑分超過百科、知乎、豆瓣、小紅書等平臺，甚至是研(yan)究團隊精心挑選(xuan)的數(shu)據集。

在問答、頭腦風暴、分類、生成、總結、提取等8項測試中取得最高分。

弱智吧竟成最佳中文AI訓練數據？！中科院等：8項測試第一

沒錯，論(lun)文(wen)中的Ruozhiba就是(shi)(shi)指百度貼(tie)吧弱智吧，一(yi)個充(chong)滿荒謬、離奇、不合常理發言(yan)的中文(wen)社(she)區，畫風通常是(shi)(shi)這樣(yang)的：

弱智吧竟成最佳中文AI訓練數據？！中科院等：8項測試第一

最離譜的是，弱智吧AI代碼能力也超過了使用專業技術問答社區思否數據訓練(lian)的AI，這(zhe)下吧友自己(ji)都鬧不明白了(le)。

弱智吧竟成最佳中文AI訓練數據？！中科院等：8項測試第一

其他平臺圍(wei)觀網友也紛紛蚌埠住。

弱智吧竟成最佳中文AI訓練數據？！中科院等：8項測試第一

這項研究(jiu)來(lai)自(zi)(zi)中科院(yuan)深圳先進技(ji)術(shu)研究(jiu)院(yuan)、中科院(yuan)自(zi)(zi)動化研究(jiu)所，滑鐵(tie)盧大學(xue)等眾(zhong)多高校、研究(jiu)機構(gou)聯合(he)團隊。

弱智吧竟成最佳中文AI訓練數據？！中科院等：8項測試第一

作者之一也現(xian)身評(ping)論區，透露(lu)使用(yong)(yong)弱智吧數(shu)據訓練AI屬(shu)于靈機一動，以前只用(yong)(yong)來測試。

弱智吧竟成最佳中文AI訓練數據？！中科院等：8項測試第一

弱智吧(ba)數(shu)據究(jiu)竟如何達成這一成就(jiu)，具體到論文中看。

弱智發言成指令微調神器

這項研究起初為解決中文大模型訓練中的諸多問題：

中文(wen)數據(ju)集很(hen)多是從英文(wen)翻譯過來的(de)，沒有很(hen)好地契(qi)合中文(wen)的(de)語言習慣和文(wen)化背景

不少數據集(ji)是用(yong)AI生成(cheng)的，質量難以保證，容易出現事實(shi)性錯誤

即(ji)使是人工標注的(de)數據集，也存在數據量小(xiao)、覆蓋領域(yu)不(bu)全面等(deng)問(wen)題(ti)

為了解決這些痛點，團隊從中文互聯網的各種知識源頭直接收集數據，比如知乎、豆瓣、百科、小紅書等，經過一系列嚴格的清洗和人工審核，打造成高質量、多樣化的中文指令微調數據集COIG-CQIA。

除了探索不同數據源的作用，團隊還專門從中抽取出一個精華子集CQIA-Subset。

在眾多數據(ju)來源中，弱智吧成了最特別的一個。

由500個點贊最(zui)高(gao)的帖子標題+人(ren)工或GPT-4的回(hui)復組成指(zhi)令微調(diao)數(shu)(shu)據集(ji)，經過人(ren)工審核后，最(zui)終留下了240組指(zhi)令-回(hui)復數(shu)(shu)據對。

弱智吧竟成最佳中文AI訓練數據？！中科院等：8項測試第一

分(fen)別用各種數據(ju)集(ji)訓練零一萬物(wu)Yi系列開源大模型，在BELLE-Eval測試(shi)集(ji)上使(shi)用GPT-4評分(fen)得到結果。

在(zai)規模較小的Yi-6B模型上(shang)，純(chun)弱(ruo)智吧版本(ben)總分排名第三(san)，還不算太突(tu)出(chu)。

看來小模型還沒能領(ling)悟弱智的精髓。

弱智吧竟成最佳中文AI訓練數據？！中科院等：8項測試第一

到了(le)(le)Yi-34B，弱智吧版本表現就(jiu)一(yi)騎絕塵了(le)(le)。

只有在改寫和數學任務(wu)上沒能取(qu)得最高分，但成績也比較靠前(qian)。

特別聲明：文章內容僅供參考，不造成任何投資建議。投資者據此操作，風險自擔。

隨機(ji)閱(yue)讀

未(wei)經(jing)本站書面特別授權，請勿轉載或建(jian)立鏡像

<bdo id='2uHG2'><sup id='1oDLL'><div id='F0prS'><bdo id='x9VMU'></bdo></div></sup></bdo>

自拍偷在线精品自拍偷无码专区_又污又爽又黄的网站_无码 制服 丝袜 国产 另类_中文无码字幕一区到五区免费