粉嫩av在线观看|无码视频网站亚洲理论在线|Av在线中文亚洲|99这里都是精品|国产精品成人女人久久|欧美日韩高清免费播放一区二区三区|久久久久久桃九九九国产精品|成人一级黄片国外超级A片|欧美特级毛片国产精品H视频|看特黄A级片亚洲另类区

<code id="w4k6e"></code>

<center id="ssyak"></center>

<del id="ssyak"><abbr id="ssyak"></abbr></del>

<samp id="ssyak"><em id="ssyak"></em></samp>

<small id="ssyak"><rt id="ssyak"></rt></small>

>

時隔兩月Meta再發(fā)布新模型Llama 3.2，視覺理解方面媲美GPT-4o-mini？！

>

0

0

時隔兩月Meta再發(fā)布新模型Llama 3.2，視覺理解方面媲美GPT-4o-mini？！

時隔兩月Meta再發(fā)布新模型Llama 3.2，視覺理解方面媲美GPT-4o-mini？！

302.AI

2024-09-27

603

導(dǎo)讀：302.AI的聊天機器人和模型競技場已經(jīng)更新最新的Llama 3.2 11B和Llama 3.2 90B模型，而且提供按需付費的服務(wù)方式，可以有效控制預(yù)算，無需擔心資源浪費。

距離7月23日Llama 3.1發(fā)布才剛剛過去 2 個月，Meta公司在9月26日又官宣推出最新AI模型系列Llama 3.2，此次Llama 3.2系列包括四個版本：1B、3B、11B和90B。

Llama 3.2 1B和Llama 3.2 3B都是輕量級的模型，適合邊緣和移動設(shè)備的輕量級純文本模型。而Llama 3.2 11B和Llama 3.2 90B則是中型模型，今天，小編就具體介紹一下Llama 3.2 11B和Llama 3.2 90B。

Llama 3.2 系列中最大的兩個模型 11B 和 90B 支持圖像推理用例，如文檔級理解（包括圖表和圖形）、圖像字幕以及視覺基礎(chǔ)任務(wù)（例如基于自然語言描述在圖像中精確定位對象）。

簡單地理解就是，用戶可以直接提問【企業(yè)去年哪個月的銷售額最高？】然后 Llama 3.2可以根據(jù)可用的圖表進行推理并快速提供答案。

除此之外，Llama 3.2 還能使用地圖進行推理并幫助回答問題，比如用戶提問【何時徒步旅行可能會變得更陡峭？】或者【地圖上標記的特定路徑的距離】。還有，Llama 3.2 11B 和 90B 模型可以通過從圖像中提取細節(jié)、理解場景，制作一兩句話作為圖像字幕來幫助講述故事，從而彌合視覺和語言之間的差距。

Meta官方通過評估表明，Llama 3.2 11B和Llama 3.2 90B在圖像識別和一系列視覺理解任務(wù)上與領(lǐng)先的基礎(chǔ)模型 Claude 3 Haiku 和 GPT4o-mini 相媲美：

Llama 3.2 11B和Llama 3.2 90B是不是真的如官方所說的這么厲害？我們可以一起來試一試，想要快速體驗Llama 3.2 11B和Llama 3.2 90B模型，但又不熟悉使用API的用戶，可以選擇302.AI，302.AI的聊天機器人和模型競技場已經(jīng)更新最新的Llama 3.2 11B和Llama 3.2 90B模型，而且提供按需付費的服務(wù)方式，可以有效控制預(yù)算，無需擔心資源浪費。

既然官方在發(fā)布時候提到Llama 3.2 11B和Llama 3.2 90B模型的視覺理解能力能夠與Claude-3-Haiku和 GPT-4o-mini相媲美，那接下來，小編就使用302.AI的模型競技場對比Llama 3.2 11B、Llama 3.2 90B、Claude-3-Haiku和 GPT-4o-mini這4種模型在視覺理解方面表現(xiàn)：

首先，測試一下四個模型的圖表的理解能力，根據(jù)以下圖片進行提問：

第一個問題：“2015年人口自然增長率為多少？”

我們可以看到，根據(jù)以上圖表可以看到人口自然增長率為綠色折線，其中2015年的自然增長率在5%上下。再來看以下四個模型的回答，首先GPT-4o-mini和Claude-3-Haiku都比較接近答案，而Llama 3.2 11B和Llama 3.2 90B均回答錯誤，Llama 3.2 11B回答的是14.07%更接近的是圖表中2016年或者是2014年的人口出生率，而Llama 3.2 90B回答的9.2%來源無從考究。

第二題，根據(jù)地圖提出問題：“請問圖中紅線連接兩地的距離是？”，

這里通過地圖測量工具測量出來的距離為5.1公里，所以答案小編認為接近5.1公里的答案都是正確的。

接下來看下四個模型的回答，首先GPT-4o-mini非常直接表示無法測量地圖上的距離。而Claude-3-Haiku和Llama 3.2 11B給出答案都是6.5公里，盡管和正確答案5.1公里還有差距，但都是在四個模型中最接近正確答案的回答。而Llama 3.2 90B回答的10公里對比正確答案還是差得有點多。

最后，再讓四個模型描述一下《泰坦尼克號》中的名場面。從回答來看，GPT-4o-mini和Claude-3-Haiku的回答只是根據(jù)圖片直接描述所看到的畫面，而Llama 3.2 11B和90B模型能夠準確識別出《泰坦尼克號》的經(jīng)典場景，并提供了較為詳細的描述，小編認為這一點上是超越了GPT-4o-mini和Claude-3-Haiku。

根據(jù)以上的測試，可以得出在圖表理解和地圖測量方面，Llama 3.2系列模型還有一定的提升空間。特別是在處理具體數(shù)據(jù)時，兩個模型的準確性還有待提高，但在圖像描述和場景理解方面表現(xiàn)的確不錯。

除此之外，302.AI的API超市也已經(jīng)更新了Llama 3.2 11B和Llama 3.2 90B模型的API，開發(fā)者能快速通過302.AI的API超市在線調(diào)試API，更簡單地將模型集成到自己的應(yīng)用中，無需從頭開始構(gòu)建和訓(xùn)練模型，更重要的是，302.AI的API超市提供的按需付費模式，降低了初期嘗試和集成的門檻，使得更多的開發(fā)者和企業(yè)能夠輕松地使用各AI模型的API。

Llama 3.2系列的發(fā)布標志著AI技術(shù)在多模態(tài)理解方面又邁出了一步。多模態(tài)AI模型通過融合文本、圖像等多種數(shù)據(jù)類型，為AI技術(shù)在理解和處理復(fù)雜任務(wù)方面開辟了新的可能性，盡管Llama 3.2系列還有上升的空間，但我們可以期待，隨著AI技術(shù)的不斷進步和應(yīng)用場景的擴展，多模態(tài)AI模型在未來充滿了無限可能。

【聲明】內(nèi)容源于網(wǎng)絡(luò)

0

0

302.AI

分享更新更全面的AI資訊。

內(nèi)容 173

粉絲 1

302.AI 分享更新更全面的AI資訊。

總閱讀84.4k

粉絲1

內(nèi)容173

<button id="kyuci"></button><del id="kyuci"><abbr id="kyuci"></abbr></del>

<button id="kyuci"></button>

<center id="kyuci"></center>