| 标题
快捷导航

精彩推荐:MY0511客户端下载

    • 中信银行镇江分行

    • 公益体彩 乐善人生

    • 鹏龙鸿蒙

    • 天然石材·人造石

    » 梦溪论坛 » 百姓话题 » 低维战场里的极致努力无法替代高维战场里的方向选择
    百姓话题  >  [焦点话题] 低维战场里的极致努力无法替代高维战场里的方向选择     
    查看: 2058  回复: 13
     14  1/3  1  2  3  > 
    [焦点话题] 低维战场里的极致努力无法替代高维战场里的方向选择      查看: 2058  回复: 13
    • 来自 江苏省
    • 精华 0
    • 注册 2008-11-6
    • 行业 其它
    •  

    AI大模型只有中美,在中国都被刺痛了,在其他国家你还不活了……

    1. Claude Opus 4.7(Thinking)|Anthropic

    2. GPT-5.5(high/xhigh)|OpenAI

    3. Gemini 3.1 Pro Preview|Google DeepMind

    4. Grok 4.2/4.3|xAI

    5. Qwen3.7 Max(通义千问)|阿里巴巴

    6. 豆包Seed 2.0 Pro|字节跳动

    7. Kimi K2.6|Moonshot AI



    - 数据截至2026年5月31日,基于LMArena(盲测)、Artificial Analysis(客观评测)、SuperCLUE(中文)

    8. MiMo V2.5 Pro|小米

    9. DeepSeek V4 Pro|DeepSeek

    10. GLM-5|智谱AI





                      
    • 来自 江苏省
    • 精华 0
    • 注册 2008-11-6
    • 行业 其它
    •  


    QUOTE:
    原帖由 白日衣衫尽 于 2026-5-31 16:46 发表
    你这张榜,其实把你自己的茧房画得明明白白。你说AI 只有中美,因为你那张榜是以中文评测、闭源旗舰为主拼的——法国 Mistral、开源路线、LMArena 开源榜第二,欧洲的 OpenAI,它没进你视野,你就当它不存在。这 ...
    哦哦,你又赢了,请你反驳一下以下榜单,让我们学习一下国外这些野鸡机构是怎么骗人的……

    下面只列国际公认、权威机构的榜单,附发布方与最新(截至2026-05)TOP10,无解释、纯排名。

    1. LMSYS LMArena(原Chatbot Arena,加州大学/斯坦福等,盲测黄金标准)

    Text Arena 综合盲测 TOP10(2026-05)

    1. Claude Opus 4.7 Thinking(Anthropic)
    2. GPT-5.5 High(OpenAI)
    3. Gemini 3.1 Pro Preview(Google)
    4. Grok 4.2 Thinking(xAI)
    5. Claude Opus 4.6 Thinking(Anthropic)
    6. GPT-5.4 Thinking(OpenAI)
    7. Gemini 3 Pro(Google)
    8. Qwen3.7 Max(阿里)
    9. 豆包 Seed 2.0 Pro(字节)
    10. Kimi K2.6(Moonshot)



    2. Stanford HELM(斯坦福,学术权威,测公平/鲁棒性)

    综合 TOP10(2026-05)

    1. GPT-5.5(OpenAI)
    2. Claude Opus 4.7(Anthropic)
    3. Gemini 3.1 Pro(Google)
    4. GPT-5.4(OpenAI)
    5. Claude Opus 4.6(Anthropic)
    6. Grok 4.2(xAI)
    7. Qwen3 Max(阿里)
    8. 豆包 Seed 2.0 Pro(字节)
    9. DeepSeek V4 Pro(DeepSeek)
    10. GLM-5(智谱AI)



    3. SWE-bench(普林斯顿,代码能力权威)

    代码能力 TOP10(2026-05)

    1. Claude Opus 4.6(80.8%)
    2. GPT-5.4 Codex
    3. DeepSeek V4 Pro
    4. Claude Opus 4.7
    5. GPT-5.5
    6. Gemini 3.1 Pro
    7. Grok 4.2
    8. Qwen3.7 Max
    9. GLM-5
    10. CodeLlama 70B




    • 来自 江苏省
    • 精华 0
    • 注册 2008-11-6
    • 行业 其它
    •  


    QUOTE:
    原帖由 白日衣衫尽 于 2026-5-31 16:46 发表
    你这张榜,其实把你自己的茧房画得明明白白。你说AI 只有中美,因为你那张榜是以中文评测、闭源旗舰为主拼的——法国 Mistral、开源路线、LMArena 开源榜第二,欧洲的 OpenAI,它没进你视野,你就当它不存在。这 ...
    我又找了一些,请你一并反驳这些国际骗子机构,以宽慰你那刺痛的心……

    下面把除了前面已给的 LMSYS、Stanford HELM、SWE-bench、FlagEval 之外,其他公认权威机构/榜单,按“国际综合、国际专项、国内权威”三类列清楚(只给机构+榜单名+最新TOP5,无解释)。



    一、国际综合权威(未提到的)

    1. Artificial Analysis(AA,美国独立机构,企业级权威)

    综合 Intelligence Index(2026-05)

    1. Gemini 3.1 Pro Preview

    2. GPT-5.5 xhigh

    3. Claude Opus 4.7 Thinking

    4. Grok 4.3

    5. Qwen3.7 Max

    2. Hugging Face Open LLM Leaderboard(开源社区黄金标准)

    开源综合(2026-05)

    1. Llama 3 70B Instruct

    2. Qwen3 72B

    3. DeepSeek V4 67B

    4. GLM-5 65B

    5. Mistral Large 2

    3. LiveBench(防数据污染,学术强)

    实时动态榜(2026-05)

    1. GPT-5.5

    2. Claude Opus 4.7

    3. Gemini 3.1 Pro

    4. Grok 4.2

    5. GPT-5.4



    二、国际专项权威(常用)

    4. MMLU(多任务知识理解,学术基准)

    TOP5

    1. GPT-5.5(94.8%)

    2. Claude Opus 4.7(94.2%)

    3. Gemini 3.1 Pro(93.9%)

    4. GPT-5.4(93.5%)

    5. Qwen3.7 Max(92.7%)

    5. GPQA Diamond(科学推理,硬核)

    TOP5

    1. Gemini 3.1 Pro(94.3%)

    2. Claude Opus 4.7(91.5%)

    3. GPT-5.5(90.8%)

    4. Grok 4.2(88.1%)

    5. DeepSeek V4 Pro(85.3%)

    6. ARC Prize(流体智能/AGI倾向)

    TOP5

    1. GPT-5.5

    2. Claude Opus 4.7

    3. Gemini 3.1 Pro

    4. Grok 4.3

    5. Qwen3.7 Max




    • 来自 江苏省
    • 精华 0
    • 注册 2008-11-6
    • 行业 其它
    •  


    QUOTE:
    原帖由 CowboyBebop 于 2026-5-31 17:33 发表
    你哪里搜来的排名? 现在各种benchmark对模型能力判断参考价值越来越低了。
    Grok居然还能上榜 那玩意除了搜索 就是个垃圾。 Musk自己都不吹了 因为实在没人用 开始做服务器租聘的生意
    中国模型还是依然喜欢 ...
    朋友说的中肯,以上数据查自于豆包,国际机构无论对还是错,总能反应问题,总比个人评判来的客观、科学、让你信服!




    • 来自 江苏省
    • 精华 0
    • 注册 2008-11-6
    • 行业 其它
    •  


    QUOTE:
    原帖由 白日衣衫尽 于 2026-5-31 17:39 发表
    欧洲这不是在桌上么?Ai替你找的答案你不看的么?HF 开源榜里 Mistral 在列,LMArena 开源榜它排第二。"只有中美"是你视野的边界,不是世界的边界。
    中国模型不但没"被刺痛",还稳稳进榜——Qwen3.7 Max 进了 AA ...
    好吧,数据已经给出,明眼人能看明白具体啥情况,请继续你的主题表演……




     14  1/3  1  2  3  > 
    查看积分策略说明快速回复主题
    您目前还是游客,请 登录注册
    您目前是游客,本帖已被系统设置了自动关闭,不可回复!

    0/5000字

     
    < >
     

    Powered by Discuz! X 2 0.017070 s 清除 Cookies - 镇江网友之家 - 手机版
    论坛导航 关闭