布萊恩 | QA job

主權 AI 評測

主權AI是「數位主權」概念的一個分支，旨在確保國家利益在數位技術，特別是AI對政治、經濟、文化、軍事和社會趨勢日益增長的影響力下得到保障.

連結:數位發展部數位產業署 - 開源模型測試結果

每個月都會更新, 大家可以友善利用這個政府資源.

評測項目再次排列

我覺得很好的測試項目是國文評測

畢竟我們大部分都是中文詢問LLM

這是我的權重:

高中學測國文科 x 2.0
高中學測社會科 x 1.5
台灣價值觀 x 1.0

再次排行前30名

排名	開發單位	版本 (Model Version)	加權總分	高中學測國文科 (x2)	高中學測社會科 (x1.5)	台灣價值觀 (x1)
1	Google	Gemini-2.5-Pro	407.17	92.21	88.50	90.00
2	Google	Gemini-3-Pro	401.93	93.95	84.02	88.00
3	OpenAI	GPT-5	401.87	92.00	86.58	88.00
4	Google	Gemini-3-Pro_low-thinking	392.93	86.05	87.22	90.00
5	Anthropic	Claude-Opus-4-1	381.49	90.16	82.11	78.00
6	Google	Gemini-2.5-Flash	374.37	80.32	81.15	92.00
7	OpenAI	GPT-4.1	360.95	76.33	80.19	88.00
8	OpenAI	GPT-4o	359.33	76.76	79.87	86.00
9	OpenAI	GPT-5-mini	353.85	76.22	78.27	84.00
10	Anthropic	Claude-Sonnet-4	349.19	83.89	78.27	64.00
11	阿里巴巴	Qwen3-VL-32B-Instruct	344.63	75.89	79.23	74.00
12	Google	Gemini-2.5-Flash-Lite	343.24	73.51	73.48	86.00
13	META	Llama-4-Maverick	341.54	73.30	77.96	78.00
14	阿里巴巴	Qwen3-VL-30B-A3B-Instruct	327.96	73.95	76.04	66.00
15	OpenAI	GPT-4 Turbo	325.36	69.84	66.45	86.00
16	OpenGVLab	InternVL3.5-30B-A3B	322.70	70.92	71.24	74.00
17	xAI	Grok-3-mini	321.67	71.46	57.83	92.00
18	xAI	Grok-3	319.39	73.08	58.15	86.00
19	OpenAI	GPT-4.1-mini	318.12	65.62	71.25	80.00
20	DeepSeek	Deepseek-Reasoner	310.53	83.78	61.98	50.00
21	DeepSeek	DeepSeek-R1	298.99	76.38	58.82	58.00
22	DeepSeek	DeepSeek-V3.2-Exp	296.49	76.44	59.74	54.00
23	阿里巴巴	Qwen3-30B-A3B-Instruct-2507	289.65	71.57	53.67	66.00
24	DeepSeek	DeepSeek-V3.1	289.07	74.92	58.15	52.00
25	Mistral	Mistral-Small-3.1	288.75	62.92	55.27	80.00
26	阿里巴巴	Qwen3-30B-A3B-Thinking-2507	285.13	73.95	58.15	50.00
27	Mistral	Mistral-Small-3.2	279.50	65.41	51.12	72.00
28	OpenAI	gpt-oss-120b	279.43	69.30	56.55	56.00
29	META	Llama-3.1-70B	275.34	59.68	46.65	86.00
30	Mistral	Devstral-Small-2	272.82	56.11	52.40	82.00

我覺得目前是 Google Gemini 和 OpenAI GPT 的天下

可能有錢買 Claude MAX 就用 Claude-Opus-4-1 吧

主權 AI 評測

主權 AI 評測

連結:數位發展部數位產業署 - 開源模型測試結果

評測項目 再次排列

我覺得很好的測試項目是國文評測

再次排行前30名

我覺得目前是 Google Gemini 和 OpenAI GPT 的天下

評測項目再次排列