粉嫩av在线观看|无码视频网站亚洲理论在线|Av在线中文亚洲|99这里都是精品|国产精品成人女人久久|欧美日韩高清免费播放一区二区三区|久久久久久桃九九九国产精品|成人一级黄片国外超级A片|欧美特级毛片国产精品H视频|看特黄A级片亚洲另类区

大數(shù)跨境
0
0

谷歌發(fā)布最新兩款Gemini 1.5系列模型,與草莓o1模型對比誰表現(xiàn)更好?

谷歌發(fā)布最新兩款Gemini 1.5系列模型,與草莓o1模型對比誰表現(xiàn)更好? 302.AI
2024-09-26
305
導(dǎo)讀:302.AI已經(jīng)在聊天機(jī)器人和模型競技場同步更新了Gemini-1.5-Pro-002和Gemini-1.5-Flash-002兩款最新模型,且提供按需付費(fèi)的服務(wù)方式,為用戶帶來了極大的靈活性和便利性

9月25日,Google旗下的Gemini 1.5系列模型迎來了最新版本的發(fā)布,分別是Gemini-1.5-Pro-002和Gemini-1.5-Flash-002兩款模型。據(jù)了解,與之前的版本相比,Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002在數(shù)學(xué)、上下文和視覺方面的能力得到了顯著提升。

根據(jù)官方數(shù)據(jù)顯示,兩款模型在MMLU-pro的性能提高了7%,而在MATH和HiddenMath(一個內(nèi)部保留的競賽數(shù)學(xué)問題集)基準(zhǔn)測試中,兩個模型都分別取得了約20%的改進(jìn)。還有,在視覺和代碼生成用例中,這兩個模型的性能也有所提升(范圍為2-7%),特別是在評估視覺理解和Python代碼生成時。

除此之外,Gemini-1.5-Flash-002速率限制提高到每分鐘2,000個請求(RPM),Gemini-1.5-Pro-002的速率限制提高到每分鐘1,000個請求(RPM),兩個模型的輸出速度都提高了2 倍,延遲降低 3 倍。

以下是通過302.AI的模型競技場對比Gemini-1.5-Pro-002、Gemini-1.5-Flash-002、Gemini-1.5-Pro和Gemini-1.5-Flash四款模型的響應(yīng)速度,可以看到Gemini-1.5-Pro-002和Gemini-1.5-Flash-002對比舊版本速度方面的確有了提升:

然而,因?yàn)橹袊箨懴拗圃L問Google服務(wù),國內(nèi)用戶無法在官方網(wǎng)站直接訪問或使用Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002,而302.AI已經(jīng)在聊天機(jī)器人和模型競技場同步更新了Gemini-1.5-Pro-002和Gemini-1.5-Flash-002兩款最新模型,且提供按需付費(fèi)的服務(wù)方式,為用戶帶來了極大的靈活性和便利性:

Gemini-1.5-Pro-002和Gemini-1.5-Flash-002既然在這個時間點(diǎn)發(fā)布,就免不了被拿來和OpenAI的草莓模型作比較。接下來,小編就使用302.AI的模型競技場,對Gemini-1.5-Pro-002、Gemini-1.5-Flash-002和“草莓”模型o1-preview三個模型進(jìn)行比較,更方便更直觀地對比三個模型的回答:

由于“草莓”模型o1-preview還無法處理多模態(tài)內(nèi)容,以下測試將注重在數(shù)學(xué)、理解、推理能力上。

首先,第一題是熱身題,提問:“昨天的當(dāng)天是明天的哪一天?”

熱身題題目比較簡單,第一題三個模型都是回答正確的:

接下來正式開始測試數(shù)學(xué)理解能力,提問:

“地面上放著20厘米高的磚。我在上面放了一個30厘米高的花盆?;ㄅ枥镉?0厘米深的土,土上面種著5厘米高的幼苗。從地面到苗頭的高度是多少厘米?”

以下三個模型的答案中可以看到,只有o1-preview的回答是正確的,正確答案就是35厘米。Gemini-1.5-Pro-002和Gemini-1.5-Flash-002兩個模型雖然分析過程稍稍有不同,但給出的答案都是一樣的,是錯誤的。從回答中可以很明顯看出兩個模型都只是把題目中出現(xiàn)數(shù)據(jù)進(jìn)行簡單累加,顯然沒有理解并分析題目的具體情境。

接下來繼續(xù)提問:“3307是質(zhì)數(shù)嗎?”

從三個模型給出的答案中可以看到,Gemini-1.5-Pro-002和Gemini-1.5-Flash-002的回答逐漸有點(diǎn)“胡說八道”,前后的邏輯并不通,提問的是3307是不是質(zhì)數(shù),Gemini-1.5-Pro-002出的回答解析卻是31x107=3317,讓人屬實(shí)覺得莫名其妙;而Gemini-1.5-Flash-002更是,整除的意思是商為整數(shù),且沒有余數(shù),但是答案中出現(xiàn)了卻分?jǐn)?shù)3/7。只有o1-preview草莓模型給出了正確的解答過程和答案。

進(jìn)行簡單的測試之后,可以得出Gemini-1.5-Pro-002和Gemini-1.5-Flash-002兩個模型在數(shù)學(xué)、理解能力上還有比較大的上升空間,與o1-preview模型對比之下,差距還是比較明顯的。

值得一提的是,302.AI的API超市也更新了Gemini-1.5-Pro-002和Gemini-1.5-Flash-002的API,支持在線調(diào)試,開發(fā)者無需下載額外的軟件或進(jìn)行繁瑣的配置,就可以直接在302.AI的平臺上對API進(jìn)行實(shí)時測試和調(diào)試,而且API分類清晰,開發(fā)者能快速找到所需的API,節(jié)省了大量的時間和精力:

AI模型的發(fā)展是一個持續(xù)進(jìn)步的過程,而對于用戶來說,選擇合適的AI模型應(yīng)該基于具體的應(yīng)用需求,我們可以期待看到Google在未來的更新中能夠進(jìn)一步提升Gemini系列模型的性能,尤其是在數(shù)學(xué)和邏輯推理方面。同時,也希望更多的創(chuàng)新和突破能夠出現(xiàn)在AI領(lǐng)域,為用戶帶來更智能、更高效的人工智能體驗(yàn)。

 

【聲明】內(nèi)容源于網(wǎng)絡(luò)
302.AI
分享更新更全面的AI資訊。
內(nèi)容 173
粉絲 1
302.AI 分享更新更全面的AI資訊。
總閱讀78.1k
粉絲1
內(nèi)容173