| 标题
快捷导航

精彩推荐:MY0511客户端下载

    • 希尔顿欢朋酒店

    • 公益体彩 乐善人生

    • 官塘桥鹏龙星徽奔驰

    • 天然石材·人造石

    » 梦溪论坛 » 百姓话题 » 七大AI高考全卷评测结果:最高分303(总分420)数学全不及格
    百姓话题  >  [资讯速递] 七大AI高考全卷评测结果:最高分303(总分420)数学全不及格     
    查看: 1870  回复: 7
     8  1/2  1  2  > 
    [资讯速递] 七大AI高考全卷评测结果:最高分303(总分420)数学全不及格      查看: 1870  回复: 7
    • 来自 江苏省
    • 精华 0
    • 注册 2012-10-18
    • 行业 其它
    •  
    七大AI高考全卷评测结果:最高分303(总分420)数学全不及格

    在前不久高考结束后,上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。6月19日, OpenCompass发布了首个大模型高考全卷评测结果。

    语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能实验室的书生·浦语2.0排名第三,三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。

    从结果来看,大模型的语文、英语考试水平普遍不错,但数学都不及格,最高分也只有75分,来自书生·浦语2.0,其次是GPT-4o,得分73分。语文最高分是通义千问,英语最高分是GPT-4o。在数学方面大模型还有很大的提升空间。数学关乎复杂推理相关能力,这是大模型普遍面临的难题,也是大模型在金融、工业等要求可靠的场景落地需要的关键能力。

    此次测试的模型分别来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室、法国Mistral的开源模型,以及来自OpenAI的闭源模型GPT-4o。实验室表示,因无法确定闭源模型的更新时间,为公平起见,此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。这次选择参与高考的“考生”均在高考前(2024年4月-6月)开源,避免了“刷题风险”。






                      
    • 来自 江苏省
    • 精华 10
    • 注册 2003-2-25
    • 行业 其它
    • 家装达人 晒家
    •  

    之前有元宇宙,后来区块链,再来ChatGPT
    一波接一波,到底搞出了多少东西不清楚,反正股价是上去了。




    • 来自 江苏省
    • 精华 0
    • 注册 2021-9-26
    •  

    首先网络得互通。其次,高考都新题,题库里没有,AI只是执行能力强,并不是创造,创造还是靠人。如果做题库,看正确率看时间,肯定AI N多倍的胜出。




    • 来自 江苏省
    • 精华 0
    • 注册 2012-10-18
    • 行业 其它
    •  


    QUOTE:
    原帖由 whmqqq 于 2024-6-19 22:37 发表
    首先网络得互通。其次,高考都新题,题库里没有,AI只是执行能力强,并不是创造,创造还是靠人。如果做题库,看正确率看时间,肯定AI N多倍的胜出。
    所以才在高考前才开源,就怕AI搜题库,目前这些AI都是个网络资源搜索整理高手。




    • 来自 江苏省
    • 精华 0
    • 注册 2012-10-18
    • 行业 其它
    •  


    QUOTE:
    原帖由 yanglei79 于 2024-6-19 22:10 发表
    之前有元宇宙,后来区块链,再来ChatGPT
    一波接一波,到底搞出了多少东西不清楚,反正股价是上去了。
    GDP世界第一国家股市三只票就抵得上GDP第二国家股市总市值。必须不断打鸡血。英伟达现在机构已经给出未来两百美元股价了,那时市值就是五万亿美元了。。




     8  1/2  1  2  > 
    查看积分策略说明快速回复主题
    您目前还是游客,请 登录注册
    您目前是游客,本帖已被系统设置了自动关闭,不可回复!

    0/5000字

     
    < >
     

    Powered by Discuz! X 2 0.056690 s 清除 Cookies - 镇江网友之家 - 手机版
    论坛导航 关闭