AI大模型只有中美,在中国都被刺痛了,在其他国家你还不活了……
1. Claude Opus 4.7(Thinking)|Anthropic
2. GPT-5.5(high/xhigh)|OpenAI
3. Gemini 3.1 Pro Preview|Google DeepMind
4. Grok 4.2/4.3|xAI
5. Qwen3.7 Max(通义千问)|阿里巴巴
6. 豆包Seed 2.0 Pro|字节跳动
7. Kimi K2.6|Moonshot AI
- 数据截至2026年5月31日,基于LMArena(盲测)、Artificial Analysis(客观评测)、SuperCLUE(中文)
8. MiMo V2.5 Pro|小米
9. DeepSeek V4 Pro|DeepSeek
10. GLM-5|智谱AI
- 来自 江苏省
- 精华 0
- 注册 2008-11-6
- 行业 其它
QUOTE:
原帖由 白日衣衫尽 于 2026-5-31 16:46 发表
你这张榜,其实把你自己的茧房画得明明白白。你说AI 只有中美,因为你那张榜是以中文评测、闭源旗舰为主拼的——法国 Mistral、开源路线、LMArena 开源榜第二,欧洲的 OpenAI,它没进你视野,你就当它不存在。这 ...
哦哦,你又赢了,请你反驳一下以下榜单,让我们学习一下国外这些野鸡机构是怎么骗人的……你这张榜,其实把你自己的茧房画得明明白白。你说AI 只有中美,因为你那张榜是以中文评测、闭源旗舰为主拼的——法国 Mistral、开源路线、LMArena 开源榜第二,欧洲的 OpenAI,它没进你视野,你就当它不存在。这 ...
下面只列国际公认、权威机构的榜单,附发布方与最新(截至2026-05)TOP10,无解释、纯排名。
1. LMSYS LMArena(原Chatbot Arena,加州大学/斯坦福等,盲测黄金标准)
Text Arena 综合盲测 TOP10(2026-05)
1. Claude Opus 4.7 Thinking(Anthropic)
2. GPT-5.5 High(OpenAI)
3. Gemini 3.1 Pro Preview(Google)
4. Grok 4.2 Thinking(xAI)
5. Claude Opus 4.6 Thinking(Anthropic)
6. GPT-5.4 Thinking(OpenAI)
7. Gemini 3 Pro(Google)
8. Qwen3.7 Max(阿里)
9. 豆包 Seed 2.0 Pro(字节)
10. Kimi K2.6(Moonshot)
2. Stanford HELM(斯坦福,学术权威,测公平/鲁棒性)
综合 TOP10(2026-05)
1. GPT-5.5(OpenAI)
2. Claude Opus 4.7(Anthropic)
3. Gemini 3.1 Pro(Google)
4. GPT-5.4(OpenAI)
5. Claude Opus 4.6(Anthropic)
6. Grok 4.2(xAI)
7. Qwen3 Max(阿里)
8. 豆包 Seed 2.0 Pro(字节)
9. DeepSeek V4 Pro(DeepSeek)
10. GLM-5(智谱AI)
3. SWE-bench(普林斯顿,代码能力权威)
代码能力 TOP10(2026-05)
1. Claude Opus 4.6(80.8%)
2. GPT-5.4 Codex
3. DeepSeek V4 Pro
4. Claude Opus 4.7
5. GPT-5.5
6. Gemini 3.1 Pro
7. Grok 4.2
8. Qwen3.7 Max
9. GLM-5
10. CodeLlama 70B
- 来自 江苏省
- 精华 0
- 注册 2008-11-6
- 行业 其它
QUOTE:
原帖由 白日衣衫尽 于 2026-5-31 16:46 发表
你这张榜,其实把你自己的茧房画得明明白白。你说AI 只有中美,因为你那张榜是以中文评测、闭源旗舰为主拼的——法国 Mistral、开源路线、LMArena 开源榜第二,欧洲的 OpenAI,它没进你视野,你就当它不存在。这 ...
我又找了一些,请你一并反驳这些国际骗子机构,以宽慰你那刺痛的心……你这张榜,其实把你自己的茧房画得明明白白。你说AI 只有中美,因为你那张榜是以中文评测、闭源旗舰为主拼的——法国 Mistral、开源路线、LMArena 开源榜第二,欧洲的 OpenAI,它没进你视野,你就当它不存在。这 ...
下面把除了前面已给的 LMSYS、Stanford HELM、SWE-bench、FlagEval 之外,其他公认权威机构/榜单,按“国际综合、国际专项、国内权威”三类列清楚(只给机构+榜单名+最新TOP5,无解释)。
一、国际综合权威(未提到的)
1. Artificial Analysis(AA,美国独立机构,企业级权威)
综合 Intelligence Index(2026-05)
1. Gemini 3.1 Pro Preview
2. GPT-5.5 xhigh
3. Claude Opus 4.7 Thinking
4. Grok 4.3
5. Qwen3.7 Max
2. Hugging Face Open LLM Leaderboard(开源社区黄金标准)
开源综合(2026-05)
1. Llama 3 70B Instruct
2. Qwen3 72B
3. DeepSeek V4 67B
4. GLM-5 65B
5. Mistral Large 2
3. LiveBench(防数据污染,学术强)
实时动态榜(2026-05)
1. GPT-5.5
2. Claude Opus 4.7
3. Gemini 3.1 Pro
4. Grok 4.2
5. GPT-5.4
二、国际专项权威(常用)
4. MMLU(多任务知识理解,学术基准)
TOP5
1. GPT-5.5(94.8%)
2. Claude Opus 4.7(94.2%)
3. Gemini 3.1 Pro(93.9%)
4. GPT-5.4(93.5%)
5. Qwen3.7 Max(92.7%)
5. GPQA Diamond(科学推理,硬核)
TOP5
1. Gemini 3.1 Pro(94.3%)
2. Claude Opus 4.7(91.5%)
3. GPT-5.5(90.8%)
4. Grok 4.2(88.1%)
5. DeepSeek V4 Pro(85.3%)
6. ARC Prize(流体智能/AGI倾向)
TOP5
1. GPT-5.5
2. Claude Opus 4.7
3. Gemini 3.1 Pro
4. Grok 4.3
5. Qwen3.7 Max
- 来自 江苏省
- 精华 0
- 注册 2008-11-6
- 行业 其它








