粉嫩av在线观看|无码视频网站亚洲理论在线|Av在线中文亚洲|99这里都是精品|国产精品成人女人久久|欧美日韩高清免费播放一区二区三区|久久久久久桃九九九国产精品|成人一级黄片国外超级A片|欧美特级毛片国产精品H视频|看特黄A级片亚洲另类区

大數(shù)跨境

時(shí)隔兩月Meta再發(fā)布新模型Llama 3.2,視覺(jué)理解方面媲美GPT-4o-mini?!

時(shí)隔兩月Meta再發(fā)布新模型Llama 3.2,視覺(jué)理解方面媲美GPT-4o-mini?! 302.AI
2024-09-27
649
導(dǎo)讀:302.AI的聊天機(jī)器人和模型競(jìng)技場(chǎng)已經(jīng)更新最新的Llama 3.2 11B和Llama 3.2 90B模型,而且提供按需付費(fèi)的服務(wù)方式,可以有效控制預(yù)算,無(wú)需擔(dān)心資源浪費(fèi)。

距離7月23日Llama 3.1發(fā)布才剛剛過(guò)去 2 個(gè)月,Meta公司在9月26日又官宣推出最新AI模型系列Llama 3.2,此次Llama 3.2系列包括四個(gè)版本:1B、3B、11B和90B。

Llama 3.2 1B和Llama 3.2 3B都是輕量級(jí)的模型,適合邊緣和移動(dòng)設(shè)備的輕量級(jí)純文本模型。而Llama 3.2 11B和Llama 3.2 90B則是中型模型,今天,小編就具體介紹一下Llama 3.2 11B和Llama 3.2 90B。

Llama 3.2 系列中最大的兩個(gè)模型 11B 和 90B 支持圖像推理用例,如文檔級(jí)理解(包括圖表和圖形)、圖像字幕以及視覺(jué)基礎(chǔ)任務(wù)(例如基于自然語(yǔ)言描述在圖像中精確定位對(duì)象)。

簡(jiǎn)單地理解就是,用戶可以直接提問(wèn)【企業(yè)去年哪個(gè)月的銷售額最高?】然后 Llama 3.2可以根據(jù)可用的圖表進(jìn)行推理并快速提供答案。

除此之外,Llama 3.2 還能使用地圖進(jìn)行推理并幫助回答問(wèn)題,比如用戶提問(wèn)【何時(shí)徒步旅行可能會(huì)變得更陡峭?】或者【地圖上標(biāo)記的特定路徑的距離】。還有,Llama 3.2 11B 和 90B 模型可以通過(guò)從圖像中提取細(xì)節(jié)、理解場(chǎng)景,制作一兩句話作為圖像字幕來(lái)幫助講述故事,從而彌合視覺(jué)和語(yǔ)言之間的差距。

Meta官方通過(guò)評(píng)估表明,Llama 3.2 11B和Llama 3.2 90B在圖像識(shí)別和一系列視覺(jué)理解任務(wù)上與領(lǐng)先的基礎(chǔ)模型 Claude 3 Haiku 和 GPT4o-mini 相媲美:

Llama 3.2 11B和Llama 3.2 90B是不是真的如官方所說(shuō)的這么厲害?我們可以一起來(lái)試一試,想要快速體驗(yàn)Llama 3.2 11B和Llama 3.2 90B模型,但又不熟悉使用API的用戶,可以選擇302.AI,302.AI的聊天機(jī)器人和模型競(jìng)技場(chǎng)已經(jīng)更新最新的Llama 3.2 11B和Llama 3.2 90B模型,而且提供按需付費(fèi)的服務(wù)方式,可以有效控制預(yù)算,無(wú)需擔(dān)心資源浪費(fèi)。

既然官方在發(fā)布時(shí)候提到Llama 3.2 11B和Llama 3.2 90B模型的視覺(jué)理解能力能夠與Claude-3-Haiku和 GPT-4o-mini相媲美,那接下來(lái),小編就使用302.AI的模型競(jìng)技場(chǎng)對(duì)比Llama 3.2 11B、Llama 3.2 90B、Claude-3-Haiku和 GPT-4o-mini這4種模型在視覺(jué)理解方面表現(xiàn):

首先,測(cè)試一下四個(gè)模型的圖表的理解能力,根據(jù)以下圖片進(jìn)行提問(wèn):

第一個(gè)問(wèn)題:“2015年人口自然增長(zhǎng)率為多少?”

我們可以看到,根據(jù)以上圖表可以看到人口自然增長(zhǎng)率為綠色折線,其中2015年的自然增長(zhǎng)率在5%上下。再來(lái)看以下四個(gè)模型的回答,首先GPT-4o-mini和Claude-3-Haiku都比較接近答案,而Llama 3.2 11B和Llama 3.2 90B均回答錯(cuò)誤,Llama 3.2 11B回答的是14.07%更接近的是圖表中2016年或者是2014年的人口出生率,而Llama 3.2 90B回答的9.2%來(lái)源無(wú)從考究。

第二題,根據(jù)地圖提出問(wèn)題:“請(qǐng)問(wèn)圖中紅線連接兩地的距離是?”,

這里通過(guò)地圖測(cè)量工具測(cè)量出來(lái)的距離為5.1公里,所以答案小編認(rèn)為接近5.1公里的答案都是正確的。

接下來(lái)看下四個(gè)模型的回答,首先GPT-4o-mini非常直接表示無(wú)法測(cè)量地圖上的距離。而Claude-3-Haiku和Llama 3.2 11B給出答案都是6.5公里,盡管和正確答案5.1公里還有差距,但都是在四個(gè)模型中最接近正確答案的回答。而Llama 3.2 90B回答的10公里對(duì)比正確答案還是差得有點(diǎn)多。

最后,再讓四個(gè)模型描述一下《泰坦尼克號(hào)》中的名場(chǎng)面。從回答來(lái)看,GPT-4o-mini和Claude-3-Haiku的回答只是根據(jù)圖片直接描述所看到的畫面,而Llama 3.2 11B和90B模型能夠準(zhǔn)確識(shí)別出《泰坦尼克號(hào)》的經(jīng)典場(chǎng)景,并提供了較為詳細(xì)的描述,小編認(rèn)為這一點(diǎn)上是超越了GPT-4o-mini和Claude-3-Haiku。

根據(jù)以上的測(cè)試,可以得出在圖表理解和地圖測(cè)量方面,Llama 3.2系列模型還有一定的提升空間。特別是在處理具體數(shù)據(jù)時(shí),兩個(gè)模型的準(zhǔn)確性還有待提高,但在圖像描述和場(chǎng)景理解方面表現(xiàn)的確不錯(cuò)。

除此之外,302.AI的API超市也已經(jīng)更新了Llama 3.2 11B和Llama 3.2 90B模型的API,開(kāi)發(fā)者能快速通過(guò)302.AI的API超市在線調(diào)試API,更簡(jiǎn)單地將模型集成到自己的應(yīng)用中,無(wú)需從頭開(kāi)始構(gòu)建和訓(xùn)練模型,更重要的是,302.AI的API超市提供的按需付費(fèi)模式,降低了初期嘗試和集成的門檻,使得更多的開(kāi)發(fā)者和企業(yè)能夠輕松地使用各AI模型的API。

Llama 3.2系列的發(fā)布標(biāo)志著AI技術(shù)在多模態(tài)理解方面又邁出了一步。多模態(tài)AI模型通過(guò)融合文本、圖像等多種數(shù)據(jù)類型,為AI技術(shù)在理解和處理復(fù)雜任務(wù)方面開(kāi)辟了新的可能性,盡管Llama 3.2系列還有上升的空間,但我們可以期待,隨著AI技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的擴(kuò)展,多模態(tài)AI模型在未來(lái)充滿了無(wú)限可能。

【聲明】?jī)?nèi)容源于網(wǎng)絡(luò)
302.AI
分享更新更全面的AI資訊。
內(nèi)容 173
粉絲 1
302.AI 分享更新更全面的AI資訊。
總閱讀85.9k
粉絲1
內(nèi)容173