自拍偷在线精品自拍偷无码专区_又污又爽又黄的网站_无码 制服 丝袜 国产 另类_中文无码字幕一区到五区免费

  • 首頁
  • 國內
  • 國際
  • 科技
  • 社會
  • 汽車
  • 體育
  • 金融
  • 綜合
  • 游戲
  • 中科大等意外發現:大模型不看圖也能正確回答視覺問題!

    發(fa)布(bu)時(shi)間(jian): 2024-04-06 17:43首頁: > 科技 > 閱讀()

    大模(mo)型不看(kan)圖(tu),竟也能正確(que)回(hui)答視(shi)覺問題?!

    中科大(da)(da)、香港中文(wen)大(da)(da)學、上(shang)海(hai)AI Lab的研究(jiu)團(tuan)隊團(tuan)隊意外發(fa)現了這一(yi)離(li)奇現象(xiang)。

    他(ta)們首先看到(dao)像GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B以及LLaVA-Next-34B等大模(mo)(mo)型,不管是(shi)閉源還(huan)是(shi)開源,語(yu)言模(mo)(mo)型還(huan)是(shi)多模(mo)(mo)態,竟然只根據在(zai)多模(mo)(mo)態基準MMMU測試(shi)中的問題(ti)和選項(xiang)文本,就能獲得不錯(cuo)的成績。

    中科大等意外發現:大模型不看圖也能正確回答視覺問題!

    △藍色表示能(neng)看到(dao)圖的LVLMs,橘(ju)色和(he)綠色分別表示只(zhi)接收問題(ti)和(he)選項文本的LLMs和(he)LVLMs

    (LLM:大(da)語言模型;LVLMs:多模態大(da)模型)

    不知道的還(huan)以為是大模(mo)型的隱藏技能(neng)被(bei)發現了。

    有網友發出靈魂拷問:我們評估多模態模型的方法正確嗎?

    中科大等意外發現:大模型不看圖也能正確回答視覺問題!

    這一結果也激起(qi)了研究(jiu)者們(men)的(de)好奇,于是他(ta)們(men)決(jue)定對此展開進(jin)一步探究(jiu)。

    大模型隱藏技能被發現?

    針(zhen)對(dui)現(xian)(xian)有(you)的評估(gu)樣本和評估(gu)過程,研(yan)究(jiu)人(ren)員(yuan)認(ren)為造成這種現(xian)(xian)象的兩個主要問題。

    第一(yi),一(yi)些多模態評估樣(yang)本缺(que)少對(dui)視覺內(nei)容(rong)的(de)依賴性。

    這(zhe)種(zhong)問題反映了(le)(le)現有的(de)benchmark中的(de)不合理之(zhi)處。這(zhe)個問題包含了(le)(le)兩種(zhong)情(qing)況(kuang):

    一種(zhong)是有(you)些評估樣本的答案可以被蘊含在了(le)題目和選(xuan)項(xiang)中從(cong)而免去(qu)了(le)看圖的必(bi)要。

    比(bi)如會有這種(zhong)問題,這個圓形(xing)(xing)土圈是什么形(xing)(xing)狀?

    中科大等意外發現:大模型不看圖也能正確回答視覺問題!

    另(ling)外一種(zhong)則是有些(xie)評(ping)估樣本可以直接被語言大模型利(li)用嵌(qian)入的(de)豐富(fu)世界知識進(jin)行解答而無需依賴(lai)圖片(pian)。

    比如(ru)下圖中的問(wen)題:內布拉斯加州的首府是什么?

    中科大等意外發現:大模型不看圖也能正確回答視覺問題!

    第二(er),現有評估過(guo)程未考(kao)慮(lv)語言和多模態大模型訓練過(guo)程中的數據泄露問題(ti)。

    LVLM通常由一個vision encoder,一個語言(yan)模(mo)型基座,以及一個視覺-語言(yan)連接(jie)件組成。而(er)且現(xian)有的多模(mo)態benchmark中有大(da)量(liang)的評(ping)估(gu)樣本是從(cong)(cong)單模(mo)態的文本語料中轉(zhuan)化過來的(比如從(cong)(cong)考試題目中轉(zhuan)化而(er)來)。

    因此如果大語言模(mo)型的(de)訓練數據中無意間泄露了多模(mo)態benchmark中轉(zhuan)化不充分的(de)評估樣本,就(jiu)會影(ying)響(xiang)LVLMs之間的(de)公平比較。

    為(wei)了定(ding)量觀察大語言(yan)模(mo)(mo)型中廣泛存(cun)在(zai)的泄露現象(xiang),研究者們采用了22個(ge)大語言(yan)模(mo)(mo)型在(zai)6個(ge)公開(kai)benchmark上(shang)進行評估。

    這(zhe)些大(da)(da)語言模型包含了2個閉源模型(GPT4-Turbo以(yi)及(ji)(ji)GeminiPro)和20個大(da)(da)小、架(jia)構各異的(de)開(kai)源模型(比如Qwen系列(lie),LLaMA2系列(lie),Baichuan系列(lie),Mixtral-8x7B等),并且使(shi)用了2-shot推理策(ce)略來減少拒絕回(hui)答(da)的(de)情況以(yi)及(ji)(ji)對齊(qi)回(hui)答(da)的(de)格式(shi)。

    中科大等意外發現:大模型不看圖也能正確回答視覺問題!

    結果看到,閉源模型(xing)GeminiPro和開源模型(xing)Qwen1.5-72B在極具挑(tiao)戰性的(de)MMMU基準上可以分(fen)別取得42.7和42.4的(de)驚(jing)人成績,一度(du)逼近GeminiPro-Vision (44.4),LLaVA-Next-34B (47.0)和Yi-VL-34B (43.2)等多(duo)模態模型(xing)在能看到圖片情況下的(de)表(biao)現。

    進一步(bu)的(de),他們還定量觀察多模態大模型在訓練過(guo)程中的(de)數據泄露(lu)情況:屏蔽了(le)LVLM的(de)圖片輸入從而(er)只根據文本問題和選項來進行評(ping)估(標記為LVLM-text)。

    中科大等意外發現:大模型不看圖也能正確回答視覺問題!

    可(ke)以看(kan)到(dao),像Sphinx-X-MoE和Monkey-Chat經過多模態訓練后在(zai)(zai)不看(kan)圖(tu)的情況(kuang)下相比原始大模型在(zai)(zai)MMMU基準上可(ke)以分別提升驚人的17.9和12.6,而它們即使(shi)進一步在(zai)(zai)看(kan)到(dao)圖(tu)片的情況(kuang)下也只能(neng)獲得1.2和4.7的性能(neng)提升。

    中科大等意外發現:大模型不看圖也能正確回答視覺問題!

    GPT-4在新基準上沒有及格

    為了解決上述問題從而進行更公平和準確的評估,研究者們設計了一個多模態評估基準MMStar——

    包含了1,500個具有視覺依賴性的(de)高質量評估樣(yang)本(ben),涵蓋了樣(yang)本(ben)均衡的(de)粗(cu)略感(gan)(gan)知、精細感(gan)(gan)知,實例推(tui)理(li)(li)、邏輯推(tui)理(li)(li)、科學技術、數學這六(liu)個核心能(neng)力(li)(li)以(yi)及18個詳細的(de)能(neng)力(li)(li)維度。

    特別聲明:文章內容僅供參考,不造成任何投資建議。投資者據此操作,風險自擔。

    首頁 - 國內 - 國際 - 科技 - 社會 - 汽車 - 體育 - 金融 - 綜合 - 游戲

    未(wei)經本站(zhan)書面特別授權(quan),請勿轉載或建立鏡像

    Copyright ? 2024 綠中資訊站 版權所有 |網站地圖