Anthropic 宣布推出 Claude 3 模型家族,可能比GPT4更強勁,該家族包括三個由低到高性能的模型:Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。每一個後繼模型都提供了更強大的性能,讓用戶能為特定應用選擇最佳的智慧、速度和成本平衡。Opus和Sonnet現已全面上線,包括很多用戶喜愛的POE,Haiku也將於近期推出。雖然POE已上線,但測試時,仍未能讀入圖像檔案,但可支持PDF檔案。
Claude 3 Opus在大多數常見的AI系統評估基準測試中表現優於同儕,包括本科級專家知識 (MMLU)、研究生級專家推理(GPQA)、基礎數學(GSM8K)等。它在複雜任務上展現出接近人類的理解力和流暢度,處於通用智慧的前沿。
所有Claude 3模型在分析預測、創作細緻內容、生成程式碼,以及使用西班牙文、日文、法文等非英語對話方面,能力都有顯著提升。
Claude 3模型在即時客服聊天、自動完成和需要即時回應的數據提取等任務中反應迅速。其中Haiku是同等智慧級別中速度最快、性價比最高的模型。Sonnet在大多數工作負載下的速度是Claude 2和2.1的兩倍,智慧水平更高。Opus的速度與Claude 2和2.1相當,但智慧水平大幅提升。
Claude 3模型家族具備複雜的視覺能力,能處理照片、圖表、技術示意圖等多種視覺格式。相比之前的模型,新一代在拒絕回答臨界問題時表現出更強的語境理解能力。
Opus在複雜的開放式問題上的準確率翻了一番,同時錯誤回答減少。除了給出更可靠的答覆,未來還將支援引用參考資料的具體句子來驗證答案。
Claude 3模型家族最初將提供20萬token的上下文長度,未來可能為選定客戶提供超過100萬的輸入長度。針對偏見問題,新模型在BBQ基準測試中表現出了更少的偏見。此外,模型在複雜的多步驟指令、品牌語氣和客服標準等方面更易於使用。POE上更提供Claude-3-Opus-200k作選擇,每次使用1875 Compute points,比GPT-4 32k 的每次2500更性價比。
Anthropic 稱儘管在關鍵能力上有重大進展,Claude 3仍處於AI安全等級2 (ASL-2)。Anthropic將持續監測未來模型,評估其是否接近ASL-3門檻,確保以負責任的方式推進AI技術。