中科大等意外發現：大模型不看圖也能正確回答視覺問題！

發(fa)布(bu)時(shi)間(jian)： 2024-04-06 17:43首頁： > 科技 > 閱讀()

大模(mo)型不看(kan)圖(tu)，竟也能正確(que)回(hui)答視(shi)覺問題？！

中科大(da)(da)、香港中文(wen)大(da)(da)學、上(shang)海(hai)AI Lab的研究(jiu)團(tuan)隊團(tuan)隊意外發(fa)現了這一(yi)離(li)奇現象(xiang)。

他(ta)們首先看到(dao)像GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B以及LLaVA-Next-34B等大模(mo)(mo)型，不管是(shi)閉源還(huan)是(shi)開源，語(yu)言模(mo)(mo)型還(huan)是(shi)多模(mo)(mo)態，竟然只根據在(zai)多模(mo)(mo)態基準MMMU測試(shi)中的問題(ti)和選項(xiang)文本，就能獲得不錯(cuo)的成績。

△藍色表示能(neng)看到(dao)圖的LVLMs，橘(ju)色和(he)綠色分別表示只(zhi)接收問題(ti)和(he)選項文本的LLMs和(he)LVLMs

（LLM：大(da)語言模型；LVLMs：多模態大(da)模型）

不知道的還(huan)以為是大模(mo)型的隱藏技能(neng)被(bei)發現了。

有網友發出靈魂拷問：我們評估多模態模型的方法正確嗎？

中科大等意外發現：大模型不看圖也能正確回答視覺問題！

這一結果也激起(qi)了研究(jiu)者們(men)的(de)好奇，于是他(ta)們(men)決(jue)定對此展開進(jin)一步探究(jiu)。

大模型隱藏技能被發現？

針(zhen)對(dui)現(xian)(xian)有(you)的評估(gu)樣本和評估(gu)過程，研(yan)究(jiu)人(ren)員(yuan)認(ren)為造成這種現(xian)(xian)象的兩個主要問題。

第一(yi)，一(yi)些多模態評估樣(yang)本缺(que)少對(dui)視覺內(nei)容(rong)的(de)依賴性。

這(zhe)種(zhong)問題反映了(le)(le)現有的(de)benchmark中的(de)不合理之(zhi)處。這(zhe)個問題包含了(le)(le)兩種(zhong)情(qing)況(kuang)：

一種(zhong)是有(you)些評估樣本的答案可以被蘊含在了(le)題目和選(xuan)項(xiang)中從(cong)而免去(qu)了(le)看圖的必(bi)要。

比(bi)如會有這種(zhong)問題，這個圓形(xing)(xing)土圈是什么形(xing)(xing)狀？

中科大等意外發現：大模型不看圖也能正確回答視覺問題！

另(ling)外一種(zhong)則是有些(xie)評(ping)估樣本可以直接被語言大模型利(li)用嵌(qian)入的(de)豐富(fu)世界知識進(jin)行解答而無需依賴(lai)圖片(pian)。

比如(ru)下圖中的問(wen)題：內布拉斯加州的首府是什么？

中科大等意外發現：大模型不看圖也能正確回答視覺問題！

第二(er)，現有評估過(guo)程未考(kao)慮(lv)語言和多模態大模型訓練過(guo)程中的數據泄露問題(ti)。

LVLM通常由一個vision encoder，一個語言(yan)模(mo)型基座，以及一個視覺-語言(yan)連接(jie)件組成。而(er)且現(xian)有的多模(mo)態benchmark中有大(da)量(liang)的評(ping)估(gu)樣本是從(cong)(cong)單模(mo)態的文本語料中轉(zhuan)化過來的（比如從(cong)(cong)考試題目中轉(zhuan)化而(er)來）。

因此如果大語言模(mo)型的(de)訓練數據中無意間泄露了多模(mo)態benchmark中轉(zhuan)化不充分的(de)評估樣本，就(jiu)會影(ying)響(xiang)LVLMs之間的(de)公平比較。

為(wei)了定(ding)量觀察大語言(yan)模(mo)(mo)型中廣泛存(cun)在(zai)的泄露現象(xiang)，研究者們采用了22個(ge)大語言(yan)模(mo)(mo)型在(zai)6個(ge)公開(kai)benchmark上(shang)進行評估。

這(zhe)些大(da)(da)語言模型包含了2個閉源模型（GPT4-Turbo以(yi)及(ji)(ji)GeminiPro）和20個大(da)(da)小、架(jia)構各異的(de)開(kai)源模型（比如Qwen系列(lie)，LLaMA2系列(lie)，Baichuan系列(lie)，Mixtral-8x7B等），并且使(shi)用了2-shot推理策(ce)略來減少拒絕回(hui)答(da)的(de)情況以(yi)及(ji)(ji)對齊(qi)回(hui)答(da)的(de)格式(shi)。

中科大等意外發現：大模型不看圖也能正確回答視覺問題！

結果看到，閉源模型(xing)GeminiPro和開源模型(xing)Qwen1.5-72B在極具挑(tiao)戰性的(de)MMMU基準上可以分(fen)別取得42.7和42.4的(de)驚(jing)人成績，一度(du)逼近GeminiPro-Vision (44.4)，LLaVA-Next-34B (47.0)和Yi-VL-34B (43.2)等多(duo)模態模型(xing)在能看到圖片情況下的(de)表(biao)現。

進一步(bu)的(de)，他們還定量觀察多模態大模型在訓練過(guo)程中的(de)數據泄露(lu)情況：屏蔽了(le)LVLM的(de)圖片輸入從而(er)只根據文本問題和選項來進行評(ping)估（標記為LVLM-text）。

中科大等意外發現：大模型不看圖也能正確回答視覺問題！

可(ke)以看(kan)到(dao)，像Sphinx-X-MoE和Monkey-Chat經過多模態訓練后在(zai)(zai)不看(kan)圖(tu)的情況(kuang)下相比原始大模型在(zai)(zai)MMMU基準上可(ke)以分別提升驚人的17.9和12.6，而它們即使(shi)進一步在(zai)(zai)看(kan)到(dao)圖(tu)片的情況(kuang)下也只能(neng)獲得1.2和4.7的性能(neng)提升。

中科大等意外發現：大模型不看圖也能正確回答視覺問題！

GPT-4在新基準上沒有及格

為了解決上述問題從而進行更公平和準確的評估，研究者們設計了一個多模態評估基準MMStar——

包含了1,500個具有視覺依賴性的(de)高質量評估樣(yang)本(ben)，涵蓋了樣(yang)本(ben)均衡的(de)粗(cu)略感(gan)(gan)知、精細感(gan)(gan)知，實例推(tui)理(li)(li)、邏輯推(tui)理(li)(li)、科學技術、數學這六(liu)個核心能(neng)力(li)(li)以(yi)及18個詳細的(de)能(neng)力(li)(li)維度。

特別聲明：文章內容僅供參考，不造成任何投資建議。投資者據此操作，風險自擔。

隨機閱讀

最新資訊
熱門資訊

首頁 - 國內 - 國際 - 科技 - 社會 - 汽車 - 體育 - 金融 - 綜合 - 游戲

未(wei)經本站(zhan)書面特別授權(quan)，請勿轉載或建立鏡像

自拍偷在线精品自拍偷无码专区_又污又爽又黄的网站_无码 制服 丝袜 国产 另类_中文无码字幕一区到五区免费

中科大等意外發現：大模型不看圖也能正確回答視覺問題！

自拍偷在线精品自拍偷无码专区_又污又爽又黄的网站_无码制服丝袜国产另类_中文无码字幕一区到五区免费