粉嫩av在线观看|无码视频网站亚洲理论在线|Av在线中文亚洲|99这里都是精品|国产精品成人女人久久|欧美日韩高清免费播放一区二区三区|久久久久久桃九九九国产精品|成人一级黄片国外超级A片|欧美特级毛片国产精品H视频|看特黄A级片亚洲另类区

<code id="w4k6e"></code>

<ul id="aicus"><acronym id="aicus"></acronym></ul>

<table id="aicus"><dl id="aicus"></dl></table>

<strike id="aicus"><source id="aicus"></source></strike>

<samp id="aicus"><em id="aicus"></em></samp>

<center id="aicus"><em id="aicus"></em></center>

>

谷歌發(fā)布最新兩款Gemini 1.5系列模型，與草莓o1模型對比誰表現(xiàn)更好？

>

谷歌發(fā)布最新兩款Gemini 1.5系列模型，與草莓o1模型對比誰表現(xiàn)更好？

谷歌發(fā)布最新兩款Gemini 1.5系列模型，與草莓o1模型對比誰表現(xiàn)更好？

302.AI

2024-09-26

399

導讀：302.AI已經(jīng)在聊天機器人和模型競技場同步更新了Gemini-1.5-Pro-002和Gemini-1.5-Flash-002兩款最新模型，且提供按需付費的服務方式，為用戶帶來了極大的靈活性和便利性

9月25日，Google旗下的Gemini 1.5系列模型迎來了最新版本的發(fā)布，分別是Gemini-1.5-Pro-002和Gemini-1.5-Flash-002兩款模型。據(jù)了解，與之前的版本相比，Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002在數(shù)學、上下文和視覺方面的能力得到了顯著提升。

根據(jù)官方數(shù)據(jù)顯示，兩款模型在MMLU-pro的性能提高了7%，而在MATH和HiddenMath(一個內(nèi)部保留的競賽數(shù)學問題集)基準測試中，兩個模型都分別取得了約20%的改進。還有，在視覺和代碼生成用例中，這兩個模型的性能也有所提升（范圍為2-7%），特別是在評估視覺理解和Python代碼生成時。

除此之外，Gemini-1.5-Flash-002速率限制提高到每分鐘2,000個請求（RPM），Gemini-1.5-Pro-002的速率限制提高到每分鐘1,000個請求（RPM），兩個模型的輸出速度都提高了2 倍，延遲降低 3 倍。

以下是通過302.AI的模型競技場對比Gemini-1.5-Pro-002、Gemini-1.5-Flash-002、Gemini-1.5-Pro和Gemini-1.5-Flash四款模型的響應速度，可以看到Gemini-1.5-Pro-002和Gemini-1.5-Flash-002對比舊版本速度方面的確有了提升：

然而，因為中國大陸限制訪問Google服務，國內(nèi)用戶無法在官方網(wǎng)站直接訪問或使用Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002，而302.AI已經(jīng)在聊天機器人和模型競技場同步更新了Gemini-1.5-Pro-002和Gemini-1.5-Flash-002兩款最新模型，且提供按需付費的服務方式，為用戶帶來了極大的靈活性和便利性：

Gemini-1.5-Pro-002和Gemini-1.5-Flash-002既然在這個時間點發(fā)布，就免不了被拿來和OpenAI的草莓模型作比較。接下來，小編就使用302.AI的模型競技場，對Gemini-1.5-Pro-002、Gemini-1.5-Flash-002和“草莓”模型o1-preview三個模型進行比較，更方便更直觀地對比三個模型的回答：

由于“草莓”模型o1-preview還無法處理多模態(tài)內(nèi)容，以下測試將注重在數(shù)學、理解、推理能力上。

首先，第一題是熱身題，提問：“昨天的當天是明天的哪一天？”

熱身題題目比較簡單，第一題三個模型都是回答正確的：

接下來正式開始測試數(shù)學理解能力，提問：

“地面上放著20厘米高的磚。我在上面放了一個30厘米高的花盆?；ㄅ枥镉?0厘米深的土，土上面種著5厘米高的幼苗。從地面到苗頭的高度是多少厘米?”

以下三個模型的答案中可以看到，只有o1-preview的回答是正確的，正確答案就是35厘米。Gemini-1.5-Pro-002和Gemini-1.5-Flash-002兩個模型雖然分析過程稍稍有不同，但給出的答案都是一樣的，是錯誤的。從回答中可以很明顯看出兩個模型都只是把題目中出現(xiàn)數(shù)據(jù)進行簡單累加，顯然沒有理解并分析題目的具體情境。

接下來繼續(xù)提問：“3307是質(zhì)數(shù)嗎？”

從三個模型給出的答案中可以看到，Gemini-1.5-Pro-002和Gemini-1.5-Flash-002的回答逐漸有點“胡說八道”，前后的邏輯并不通，提問的是3307是不是質(zhì)數(shù)，Gemini-1.5-Pro-002出的回答解析卻是31x107=3317，讓人屬實覺得莫名其妙；而Gemini-1.5-Flash-002更是，整除的意思是商為整數(shù)，且沒有余數(shù)，但是答案中出現(xiàn)了卻分數(shù)3/7。只有o1-preview草莓模型給出了正確的解答過程和答案。

進行簡單的測試之后，可以得出Gemini-1.5-Pro-002和Gemini-1.5-Flash-002兩個模型在數(shù)學、理解能力上還有比較大的上升空間，與o1-preview模型對比之下，差距還是比較明顯的。

值得一提的是，302.AI的API超市也更新了Gemini-1.5-Pro-002和Gemini-1.5-Flash-002的API，支持在線調(diào)試，開發(fā)者無需下載額外的軟件或進行繁瑣的配置，就可以直接在302.AI的平臺上對API進行實時測試和調(diào)試，而且API分類清晰，開發(fā)者能快速找到所需的API，節(jié)省了大量的時間和精力：

AI模型的發(fā)展是一個持續(xù)進步的過程，而對于用戶來說，選擇合適的AI模型應該基于具體的應用需求，我們可以期待看到Google在未來的更新中能夠進一步提升Gemini系列模型的性能，尤其是在數(shù)學和邏輯推理方面。同時，也希望更多的創(chuàng)新和突破能夠出現(xiàn)在AI領(lǐng)域，為用戶帶來更智能、更高效的人工智能體驗。

【聲明】內(nèi)容源于網(wǎng)絡

0

0

302.AI

分享更新更全面的AI資訊。

內(nèi)容 173

粉絲 1

302.AI 分享更新更全面的AI資訊。

總閱讀85.9k

粉絲1

內(nèi)容173

<sup id="4quuw"><li id="4quuw"></li></sup>

<code id="4quuw"></code>

<button id="4quuw"></button>

<code id="4quuw"></code><button id="4quuw"></button><ul id="4quuw"><dl id="4quuw"></dl></ul>

<bdo id="4quuw"></bdo><code id="4quuw"></code>