自拍偷在线精品自拍偷无码专区_又污又爽又黄的网站_无码 制服 丝袜 国产 另类_中文无码字幕一区到五区免费

  • 首頁
  • 國內
  • 國際
  • 科技
  • 社會
  • 汽車
  • 體育
  • 金融
  • 綜合
  • 游戲
  • 弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一

    發布(bu)時間: 2024-04-05 05:17首頁: > 科技 > 閱讀()

    弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一

    弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一

    夢晨 2024-04-04 13:50:21 來源:量子位

    大(da)智(zhi)若愚了還是(shi)大(da)于弱智(zhi)了?

    夢晨 西風 發自 凹非寺
    量子位 | 公眾號 QbitAI

    離大譜了,弱智吧登上正經AI論文,還成了最好的中文訓練數據??

    弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一

    具體來說,使用弱智吧數據訓練的大模型,跑分超過百科、知乎、豆瓣、小紅書等平臺,甚至是研(yan)究團隊精心挑選(xuan)的數(shu)據集。

    在問答、頭腦風暴、分類、生成、總結、提取等8項測試中取得最高分

    弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一

    沒錯,論(lun)文(wen)中的Ruozhiba就是(shi)(shi)指百度貼(tie)吧弱智吧,一(yi)個充(chong)滿荒謬、離奇、不合常理發言(yan)的中文(wen)社(she)區,畫風通常是(shi)(shi)這樣(yang)的:

    弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一

    最離譜的是,弱智吧AI代碼能力也超過了使用專業技術問答社區思否數據訓練(lian)的AI,這(zhe)下吧友自己(ji)都鬧不明白了(le)。

    弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一

    其他平臺圍(wei)觀網友也紛紛蚌埠住。

    弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一

    這項研究(jiu)來(lai)自(zi)(zi)中科院(yuan)深圳先進技(ji)術(shu)研究(jiu)院(yuan)、中科院(yuan)自(zi)(zi)動化研究(jiu)所,滑鐵(tie)盧大學(xue)等眾(zhong)多高校、研究(jiu)機構(gou)聯合(he)團隊。

    弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一

    作者之一也現(xian)身評(ping)論區,透露(lu)使用(yong)(yong)弱智吧數(shu)據訓練AI屬(shu)于靈機一動,以前只用(yong)(yong)來測試。

    弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一

    弱智吧(ba)數(shu)據究(jiu)竟如何達成這一成就(jiu),具體到論文中看。

    弱智發言成指令微調神器

    這項研究起初為解決中文大模型訓練中的諸多問題

    中文(wen)數據(ju)集很(hen)多是從英文(wen)翻譯過來的(de),沒有很(hen)好地契(qi)合中文(wen)的(de)語言習慣和文(wen)化背景

    不少數據集(ji)是用(yong)AI生成(cheng)的,質量難以保證,容易出現事實(shi)性錯誤

    即(ji)使是人工標注的(de)數據集,也存在數據量小(xiao)、覆蓋領域(yu)不(bu)全面等(deng)問(wen)題(ti)

    為了解決這些痛點,團隊從中文互聯網的各種知識源頭直接收集數據,比如知乎、豆瓣、百科、小紅書等,經過一系列嚴格的清洗和人工審核,打造成高質量、多樣化的中文指令微調數據集COIG-CQIA

    除了探索不同數據源的作用,團隊還專門從中抽取出一個精華子集CQIA-Subset

    在眾多數據(ju)來源中,弱智吧成了最特別的一個。

    由500個點贊最(zui)高(gao)的帖子標題+人(ren)工或GPT-4的回(hui)復組成指(zhi)令微調(diao)數(shu)(shu)據集(ji), 經過人(ren)工審核后,最(zui)終留下了240組指(zhi)令-回(hui)復數(shu)(shu)據對。

    弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一

    分(fen)別用各種數據(ju)集(ji)訓練零一萬物(wu)Yi系列開源大模型,在BELLE-Eval測試(shi)集(ji)上使(shi)用GPT-4評分(fen)得到結果。

    在(zai)規模較小的Yi-6B模型上(shang),純(chun)弱(ruo)智吧版本(ben)總分排名第三(san),還不算太突(tu)出(chu)。

    看來小模型還沒能領(ling)悟弱智的精髓。

    弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一

    到了(le)(le)Yi-34B,弱智吧版本表現就(jiu)一(yi)騎絕塵了(le)(le)。

    只有在改寫和數學任務(wu)上沒能取(qu)得最高分,但成績也比較靠前(qian)。

    特別聲明:文章內容僅供參考,不造成任何投資建議。投資者據此操作,風險自擔。

    首頁 - 國內 - 國際 - 科技 - 社會 - 汽車 - 體育 - 金融 - 綜合 - 游戲

    未(wei)經(jing)本站書面特別授權,請勿轉載或建(jian)立鏡像

    Copyright ? 2024 綠中資訊站 版權所有 |網站地圖