粉嫩av在线观看|无码视频网站亚洲理论在线|Av在线中文亚洲|99这里都是精品|国产精品成人女人久久|欧美日韩高清免费播放一区二区三区|久久久久久桃九九九国产精品|成人一级黄片国外超级A片|欧美特级毛片国产精品H视频|看特黄A级片亚洲另类区

大數(shù)跨境
0
0

當(dāng)提示詞使用"過去時",就能突破各AI模型的安全防線?

當(dāng)提示詞使用"過去時",就能突破各AI模型的安全防線? 302.AI
2024-08-01
479
導(dǎo)讀:近日,洛桑聯(lián)邦理工學(xué)院的研究人員發(fā)現(xiàn),當(dāng)使用AI模型的時候,只要在提示詞中把時間設(shè)定成過去,就能突破大模型的安

近日,洛桑聯(lián)邦理工學(xué)院的研究人員發(fā)現(xiàn),當(dāng)使用AI模型的時候,只要在提示詞中把時間設(shè)定成過去,就能突破大模型的安全防線。原本只有1%的攻擊成功率飆升至88%,幾乎達到了“有求必應(yīng)”的境界。這項發(fā)現(xiàn)不僅在英文環(huán)境下有效,在中文語境中同樣適用,讓網(wǎng)友們驚嘆于破解大模型漏洞的簡便性。

實驗中,研究人員從JBB-Behaviors數(shù)據(jù)集中挑選了100個有害行為,通過將請求的時間改寫為過去時,測試了包括GPT-4o在內(nèi)的多個模型。結(jié)果顯示,GPT-4o的越獄成功率提升最為顯著,其他模型的攻擊成功率也有顯著提高。

另外在所有模型和評判的 20 次嘗試結(jié)果。我們可以看到,即使只進行一次嘗試,攻擊成功率已經(jīng)相當(dāng)可觀,例如 GPT-4o 的成功率為 57%,這與直接使用現(xiàn)在時態(tài)請求僅有 1% 的攻擊成功率形成鮮明對比。此外,攻擊成功率通常在 10 次嘗試后開始趨于飽和。

另外,針對10類不同的危害行為,研究人員也發(fā)現(xiàn)了其間存在攻擊成功率的差別。

除了過去時,研究人員還進一步探索了將時間設(shè)定為將來時的效果,發(fā)現(xiàn)雖然有一定的效果,但遠不如過去時明顯,比如Llama-3模型,換成將來時后,比過去時少了一半的增長。

真的這么神奇嗎?接下來小編用302.AI的模型競技場帶大家一起實踐一下,302.AI的模型競技場是一個匯聚了國內(nèi)外眾多最新AI模型的創(chuàng)新工具,它不僅提供了一個直觀的對比環(huán)境,使用戶能夠直接觀察和評估不同模型的性能,而且以其方便快捷的操作體驗,極大地滿足了用戶對多模型測試的需求。

首先,先勾選各大模型的最新版本,小編勾選的模型有:Llama-3.1 405B、Llama-3.1 8B、GPT-4o、GPT-4o mini、Claude-3.5-Sonnet、以及國內(nèi)的模型Step-2-16k、Doubao-pro-32k共七種模型;

先正常提問,看下各大模型的安全防線沒問題,以下是回答:

那接下來就將提問改成過去時只進行一次提問,僅僅只有GPT-4o、Step-2-16k回答了制作方法:

當(dāng)提示詞使用

繼續(xù)將提問改成將來時,沒想到的是將來時居然對Llama3.1 405B起作用了,其余各大模型不受影響:

當(dāng)提示詞使用

小編同樣用英語提問實驗了一次,結(jié)果是相同的??偟膩碚f,使用過去時這個方法對于GPT-4o的作用表現(xiàn)最為明顯,其余的比如測試中的GPT-4o mini、Claude-3.5-Sonnet、以及國內(nèi)Doubao-pro-32k,無論是過去時還是將來時提問,回答都沒有變化。

實際上,洛桑聯(lián)邦理工學(xué)院的研究揭示了一個重要現(xiàn)象:盡管AI在處理多樣化任務(wù)時展現(xiàn)出卓越的性能,但其在遇到某些特定的語言結(jié)構(gòu)變化時可能顯示出不穩(wěn)定的一面。但通過持續(xù)的研究與改進,我們期望AI能夠更好地適應(yīng)復(fù)雜多變的實際應(yīng)用場景,為未來的技術(shù)發(fā)展提供堅實的基礎(chǔ)和保障。

【聲明】內(nèi)容源于網(wǎng)絡(luò)
302.AI
分享更新更全面的AI資訊。
內(nèi)容 173
粉絲 1
302.AI 分享更新更全面的AI資訊。
總閱讀78.0k
粉絲1
內(nèi)容173