粉嫩av在线观看|无码视频网站亚洲理论在线|Av在线中文亚洲|99这里都是精品|国产精品成人女人久久|欧美日韩高清免费播放一区二区三区|久久久久久桃九九九国产精品|成人一级黄片国外超级A片|欧美特级毛片国产精品H视频|看特黄A级片亚洲另类区

大數(shù)跨境
0
0

時隔兩月Meta再發(fā)布新模型Llama 3.2,視覺理解方面媲美GPT-4o-mini?!

時隔兩月Meta再發(fā)布新模型Llama 3.2,視覺理解方面媲美GPT-4o-mini?! 302.AI
2024-09-27
603
導(dǎo)讀:302.AI的聊天機器人和模型競技場已經(jīng)更新最新的Llama 3.2 11B和Llama 3.2 90B模型,而且提供按需付費的服務(wù)方式,可以有效控制預(yù)算,無需擔心資源浪費。

距離7月23日Llama 3.1發(fā)布才剛剛過去 2 個月,Meta公司在9月26日又官宣推出最新AI模型系列Llama 3.2,此次Llama 3.2系列包括四個版本:1B、3B、11B和90B。

Llama 3.2 1B和Llama 3.2 3B都是輕量級的模型,適合邊緣和移動設(shè)備的輕量級純文本模型。而Llama 3.2 11B和Llama 3.2 90B則是中型模型,今天,小編就具體介紹一下Llama 3.2 11B和Llama 3.2 90B。

Llama 3.2 系列中最大的兩個模型 11B 和 90B 支持圖像推理用例,如文檔級理解(包括圖表和圖形)、圖像字幕以及視覺基礎(chǔ)任務(wù)(例如基于自然語言描述在圖像中精確定位對象)。

簡單地理解就是,用戶可以直接提問【企業(yè)去年哪個月的銷售額最高?】然后 Llama 3.2可以根據(jù)可用的圖表進行推理并快速提供答案。

除此之外,Llama 3.2 還能使用地圖進行推理并幫助回答問題,比如用戶提問【何時徒步旅行可能會變得更陡峭?】或者【地圖上標記的特定路徑的距離】。還有,Llama 3.2 11B 和 90B 模型可以通過從圖像中提取細節(jié)、理解場景,制作一兩句話作為圖像字幕來幫助講述故事,從而彌合視覺和語言之間的差距。

Meta官方通過評估表明,Llama 3.2 11B和Llama 3.2 90B在圖像識別和一系列視覺理解任務(wù)上與領(lǐng)先的基礎(chǔ)模型 Claude 3 Haiku 和 GPT4o-mini 相媲美:

Llama 3.2 11B和Llama 3.2 90B是不是真的如官方所說的這么厲害?我們可以一起來試一試,想要快速體驗Llama 3.2 11B和Llama 3.2 90B模型,但又不熟悉使用API的用戶,可以選擇302.AI,302.AI的聊天機器人和模型競技場已經(jīng)更新最新的Llama 3.2 11B和Llama 3.2 90B模型,而且提供按需付費的服務(wù)方式,可以有效控制預(yù)算,無需擔心資源浪費。

既然官方在發(fā)布時候提到Llama 3.2 11B和Llama 3.2 90B模型的視覺理解能力能夠與Claude-3-Haiku和 GPT-4o-mini相媲美,那接下來,小編就使用302.AI的模型競技場對比Llama 3.2 11B、Llama 3.2 90B、Claude-3-Haiku和 GPT-4o-mini這4種模型在視覺理解方面表現(xiàn):

首先,測試一下四個模型的圖表的理解能力,根據(jù)以下圖片進行提問:

第一個問題:“2015年人口自然增長率為多少?”

我們可以看到,根據(jù)以上圖表可以看到人口自然增長率為綠色折線,其中2015年的自然增長率在5%上下。再來看以下四個模型的回答,首先GPT-4o-mini和Claude-3-Haiku都比較接近答案,而Llama 3.2 11B和Llama 3.2 90B均回答錯誤,Llama 3.2 11B回答的是14.07%更接近的是圖表中2016年或者是2014年的人口出生率,而Llama 3.2 90B回答的9.2%來源無從考究。

第二題,根據(jù)地圖提出問題:“請問圖中紅線連接兩地的距離是?”,

這里通過地圖測量工具測量出來的距離為5.1公里,所以答案小編認為接近5.1公里的答案都是正確的。

接下來看下四個模型的回答,首先GPT-4o-mini非常直接表示無法測量地圖上的距離。而Claude-3-Haiku和Llama 3.2 11B給出答案都是6.5公里,盡管和正確答案5.1公里還有差距,但都是在四個模型中最接近正確答案的回答。而Llama 3.2 90B回答的10公里對比正確答案還是差得有點多。

最后,再讓四個模型描述一下《泰坦尼克號》中的名場面。從回答來看,GPT-4o-mini和Claude-3-Haiku的回答只是根據(jù)圖片直接描述所看到的畫面,而Llama 3.2 11B和90B模型能夠準確識別出《泰坦尼克號》的經(jīng)典場景,并提供了較為詳細的描述,小編認為這一點上是超越了GPT-4o-mini和Claude-3-Haiku。

根據(jù)以上的測試,可以得出在圖表理解和地圖測量方面,Llama 3.2系列模型還有一定的提升空間。特別是在處理具體數(shù)據(jù)時,兩個模型的準確性還有待提高,但在圖像描述和場景理解方面表現(xiàn)的確不錯。

除此之外,302.AI的API超市也已經(jīng)更新了Llama 3.2 11B和Llama 3.2 90B模型的API,開發(fā)者能快速通過302.AI的API超市在線調(diào)試API,更簡單地將模型集成到自己的應(yīng)用中,無需從頭開始構(gòu)建和訓(xùn)練模型,更重要的是,302.AI的API超市提供的按需付費模式,降低了初期嘗試和集成的門檻,使得更多的開發(fā)者和企業(yè)能夠輕松地使用各AI模型的API。

Llama 3.2系列的發(fā)布標志著AI技術(shù)在多模態(tài)理解方面又邁出了一步。多模態(tài)AI模型通過融合文本、圖像等多種數(shù)據(jù)類型,為AI技術(shù)在理解和處理復(fù)雜任務(wù)方面開辟了新的可能性,盡管Llama 3.2系列還有上升的空間,但我們可以期待,隨著AI技術(shù)的不斷進步和應(yīng)用場景的擴展,多模態(tài)AI模型在未來充滿了無限可能。

【聲明】內(nèi)容源于網(wǎng)絡(luò)
302.AI
分享更新更全面的AI資訊。
內(nèi)容 173
粉絲 1
302.AI 分享更新更全面的AI資訊。
總閱讀84.4k
粉絲1
內(nèi)容173