心得與介紹

主權 AI 評測

主權 AI 評測

主權AI是「數位主權」概念的一個分支,旨在確保國家利益在數位技術,特別是AI對政治、經濟、文化、軍事和社會趨勢日益增長的影響力下得到保障.

連結:數位發展部數位產業署 - 開源模型測試結果

每個月都會更新, 大家可以友善利用這個政府資源.

評測項目 再次排列

我覺得很好的測試項目是國文評測

畢竟我們大部分都是中文詢問LLM

這是我的權重:

  • 高中學測國文科 x 2.0

  • 高中學測社會科 x 1.5

  • 台灣價值觀 x 1.0

再次排行前30名

排名開發單位版本 (Model Version)加權總分高中學測國文科 (x2)高中學測社會科 (x1.5)台灣價值觀 (x1)
1GoogleGemini-2.5-Pro407.1792.2188.5090.00
2GoogleGemini-3-Pro401.9393.9584.0288.00
3OpenAIGPT-5401.8792.0086.5888.00
4GoogleGemini-3-Pro_low-thinking392.9386.0587.2290.00
5AnthropicClaude-Opus-4-1381.4990.1682.1178.00
6GoogleGemini-2.5-Flash374.3780.3281.1592.00
7OpenAIGPT-4.1360.9576.3380.1988.00
8OpenAIGPT-4o359.3376.7679.8786.00
9OpenAIGPT-5-mini353.8576.2278.2784.00
10AnthropicClaude-Sonnet-4349.1983.8978.2764.00
11阿里巴巴Qwen3-VL-32B-Instruct344.6375.8979.2374.00
12GoogleGemini-2.5-Flash-Lite343.2473.5173.4886.00
13METALlama-4-Maverick341.5473.3077.9678.00
14阿里巴巴Qwen3-VL-30B-A3B-Instruct327.9673.9576.0466.00
15OpenAIGPT-4 Turbo325.3669.8466.4586.00
16OpenGVLabInternVL3.5-30B-A3B322.7070.9271.2474.00
17xAIGrok-3-mini321.6771.4657.8392.00
18xAIGrok-3319.3973.0858.1586.00
19OpenAIGPT-4.1-mini318.1265.6271.2580.00
20DeepSeekDeepseek-Reasoner310.5383.7861.9850.00
21DeepSeekDeepSeek-R1298.9976.3858.8258.00
22DeepSeekDeepSeek-V3.2-Exp296.4976.4459.7454.00
23阿里巴巴Qwen3-30B-A3B-Instruct-2507289.6571.5753.6766.00
24DeepSeekDeepSeek-V3.1289.0774.9258.1552.00
25MistralMistral-Small-3.1288.7562.9255.2780.00
26阿里巴巴Qwen3-30B-A3B-Thinking-2507285.1373.9558.1550.00
27MistralMistral-Small-3.2279.5065.4151.1272.00
28OpenAIgpt-oss-120b279.4369.3056.5556.00
29METALlama-3.1-70B275.3459.6846.6586.00
30MistralDevstral-Small-2272.8256.1152.4082.00

我覺得目前是 Google Gemini 和 OpenAI GPT 的天下

可能有錢買 Claude MAX 就用 Claude-Opus-4-1 吧