低维战场里的极致努力无法替代高维战场里的方向选择 - 百姓话题 - 梦溪论坛镇江,时事,招聘,求职,社区,房产,装修,美食,摄影, 汽车,摄影,运动,女性,征婚

ippec

来自江苏省
精华 0
注册 2008-11-6
行业其它

AI大模型只有中美，在中国都被刺痛了，在其他国家你还不活了……

1. Claude Opus 4.7（Thinking）｜Anthropic

2. GPT-5.5（high/xhigh）｜OpenAI

3. Gemini 3.1 Pro Preview｜Google DeepMind

4. Grok 4.2/4.3｜xAI

5. Qwen3.7 Max（通义千问）｜阿里巴巴

6. 豆包Seed 2.0 Pro｜字节跳动

7. Kimi K2.6｜Moonshot AI

- 数据截至2026年5月31日，基于LMArena（盲测）、Artificial Analysis（客观评测）、SuperCLUE（中文）

8. MiMo V2.5 Pro｜小米

9. DeepSeek V4 Pro｜DeepSeek

10. GLM-5｜智谱AI

---发自华为 Mate X6---

已有0人打赏

2026-5-31 14:41 1楼

0511家装频道：本地家居服务平台，数万业主共同选择查看全部分享本楼

ippec

来自江苏省
精华 0
注册 2008-11-6
行业其它

QUOTE:

原帖由 白日衣衫尽 于 2026-5-31 16:46 发表
你这张榜，其实把你自己的茧房画得明明白白。你说AI 只有中美，因为你那张榜是以中文评测、闭源旗舰为主拼的——法国 Mistral、开源路线、LMArena 开源榜第二，欧洲的 OpenAI，它没进你视野，你就当它不存在。这 ...

哦哦，你又赢了，请你反驳一下以下榜单，让我们学习一下国外这些野鸡机构是怎么骗人的……

下面只列国际公认、权威机构的榜单，附发布方与最新（截至2026-05）TOP10，无解释、纯排名。

1. LMSYS LMArena（原Chatbot Arena，加州大学/斯坦福等，盲测黄金标准）

Text Arena 综合盲测 TOP10（2026-05）

1. Claude Opus 4.7 Thinking（Anthropic）
2. GPT-5.5 High（OpenAI）
3. Gemini 3.1 Pro Preview（Google）
4. Grok 4.2 Thinking（xAI）
5. Claude Opus 4.6 Thinking（Anthropic）
6. GPT-5.4 Thinking（OpenAI）
7. Gemini 3 Pro（Google）
8. Qwen3.7 Max（阿里）
9. 豆包 Seed 2.0 Pro（字节）
10. Kimi K2.6（Moonshot）

2. Stanford HELM（斯坦福，学术权威，测公平/鲁棒性）

综合 TOP10（2026-05）

1. GPT-5.5（OpenAI）
2. Claude Opus 4.7（Anthropic）
3. Gemini 3.1 Pro（Google）
4. GPT-5.4（OpenAI）
5. Claude Opus 4.6（Anthropic）
6. Grok 4.2（xAI）
7. Qwen3 Max（阿里）
8. 豆包 Seed 2.0 Pro（字节）
9. DeepSeek V4 Pro（DeepSeek）
10. GLM-5（智谱AI）

3. SWE-bench（普林斯顿，代码能力权威）

代码能力 TOP10（2026-05）

1. Claude Opus 4.6（80.8%）
2. GPT-5.4 Codex
3. DeepSeek V4 Pro
4. Claude Opus 4.7
5. GPT-5.5
6. Gemini 3.1 Pro
7. Grok 4.2
8. Qwen3.7 Max
9. GLM-5
10. CodeLlama 70B

---发自华为 Mate X6---

2026-5-31 17:08 2楼

MY0511相亲，一分钟注册，享一辈子幸福！查看全部分享本楼

ippec

来自江苏省
精华 0
注册 2008-11-6
行业其它

QUOTE:

原帖由 白日衣衫尽 于 2026-5-31 16:46 发表
你这张榜，其实把你自己的茧房画得明明白白。你说AI 只有中美，因为你那张榜是以中文评测、闭源旗舰为主拼的——法国 Mistral、开源路线、LMArena 开源榜第二，欧洲的 OpenAI，它没进你视野，你就当它不存在。这 ...

我又找了一些，请你一并反驳这些国际骗子机构，以宽慰你那刺痛的心……

下面把除了前面已给的 LMSYS、Stanford HELM、SWE-bench、FlagEval 之外，其他公认权威机构/榜单，按“国际综合、国际专项、国内权威”三类列清楚（只给机构+榜单名+最新TOP5，无解释）。

一、国际综合权威（未提到的）

1. Artificial Analysis（AA，美国独立机构，企业级权威）

综合 Intelligence Index（2026-05）

1. Gemini 3.1 Pro Preview

2. GPT-5.5 xhigh

3. Claude Opus 4.7 Thinking

4. Grok 4.3

5. Qwen3.7 Max

2. Hugging Face Open LLM Leaderboard（开源社区黄金标准）

开源综合（2026-05）

1. Llama 3 70B Instruct

2. Qwen3 72B

3. DeepSeek V4 67B

4. GLM-5 65B

5. Mistral Large 2

3. LiveBench（防数据污染，学术强）

实时动态榜（2026-05）

1. GPT-5.5

2. Claude Opus 4.7

3. Gemini 3.1 Pro

4. Grok 4.2

5. GPT-5.4

二、国际专项权威（常用）

4. MMLU（多任务知识理解，学术基准）

TOP5

1. GPT-5.5（94.8%）

2. Claude Opus 4.7（94.2%）

3. Gemini 3.1 Pro（93.9%）

4. GPT-5.4（93.5%）

5. Qwen3.7 Max（92.7%）

5. GPQA Diamond（科学推理，硬核）

TOP5

1. Gemini 3.1 Pro（94.3%）

2. Claude Opus 4.7（91.5%）

3. GPT-5.5（90.8%）

4. Grok 4.2（88.1%）

5. DeepSeek V4 Pro（85.3%）

6. ARC Prize（流体智能/AGI倾向）

TOP5

1. GPT-5.5

2. Claude Opus 4.7

3. Gemini 3.1 Pro

4. Grok 4.3

5. Qwen3.7 Max

---发自华为 Mate X6---

2026-5-31 17:14 3楼

0511家装频道：本地家居服务平台，数万业主共同选择查看全部分享本楼

ippec

来自江苏省
精华 0
注册 2008-11-6
行业其它

QUOTE:

原帖由 CowboyBebop 于 2026-5-31 17:33 发表
你哪里搜来的排名？现在各种benchmark对模型能力判断参考价值越来越低了。
Grok居然还能上榜那玩意除了搜索就是个垃圾。 Musk自己都不吹了因为实在没人用开始做服务器租聘的生意
中国模型还是依然喜欢 ...

朋友说的中肯，以上数据查自于豆包，国际机构无论对还是错，总能反应问题，总比个人评判来的客观、科学、让你信服！

---发自华为 Mate X6---

2026-5-31 17:44 4楼

[联宇电脑] 电脑组装\维修\升级\企业单位电脑维护！查看全部分享本楼

ippec

来自江苏省
精华 0
注册 2008-11-6
行业其它

QUOTE:

原帖由 白日衣衫尽 于 2026-5-31 17:39 发表
欧洲这不是在桌上么？Ai替你找的答案你不看的么？HF 开源榜里 Mistral 在列，LMArena 开源榜它排第二。"只有中美"是你视野的边界，不是世界的边界。
中国模型不但没"被刺痛"，还稳稳进榜——Qwen3.7 Max 进了 AA ...

好吧，数据已经给出，明眼人能看明白具体啥情况，请继续你的主题表演……

---发自华为 Mate X6---

2026-5-31 17:48 5楼

[联宇电脑] 电脑组装\维修\升级\企业单位电脑维护！查看全部分享本楼

精彩推荐：MY0511客户端下载

吃喝玩乐

婚姻.亲子.家庭

装修

你好，镇江！

分类信息

兴趣爱好

车友俱乐部

运动俱乐部

合作栏目

站务区

网络问政