十款大模型挑战2025高考作文,DeepSeek夺冠、GPT-4.5居次席

俄罗斯龙城数字科技园

<p class="ql-block">2025年高考首日,搜狐科技与搜狐教育延续传统,组织十款大模型挑战高考作文。经四位高中语文名师盲审盲评,DeepSeek脱颖而出夺得桂冠,GPT-4.5紧随其后,腾讯元宝和百度文心一言也表现出色。各模型成绩差距较去年有所扩大,同时推理能力的提升对模型文本能力的促进作用显著,写作风格也更趋自然。</p><p class="ql-block">大模型“应考”阵容与试题选择</p><p class="ql-block">6月7日,2025年全国高考拉开帷幕,搜狐科技与搜狐教育再次联合推出大模型参加高考系列策划。今年的“考生”依旧是10款模型,包括GPT-4.5、DeepSeek、通义千问、讯飞星火、文心一言、豆包、元宝、Kimi、学而思和商汤商量。此次选用的高考作文试题为全国一卷 。</p><p class="ql-block">DeepSeek夺冠,GPT-4.5排名下降</p><p class="ql-block">评审结果显示,DeepSeek以54.25分的平均分拔得头筹。今年是DeepSeek首次参赛,就直接获得第一。北京市特级教师何杰以及北京中学语文高级教师房树洪均给DeepSeek所写作文打出55分高分,河南省骨干教师陈光打了54分。何杰老师认为该文审题准确,认识深刻,体现出对文艺学知识的谙熟。房树洪老师表示该文概念界定客观准确,论据充实。这得益于DeepSeek模型的最新升级,其推理模型R1-0528思考更深、推理更强,文本能力也有所提升。GPT-4.5作为唯一外国“考生”,是OpenAI今年2月发布的版本,曾被OpenAI称为“迄今规模最大、知识最丰富的模型” 。在过往两年评测中均位居第一的它,此次被DeepSeek超越,以53分的平均分排名第二。房树洪老师点评其作文阐释清晰、层次分明,但有些局限于“声音”本身,给出56分;刘可翔老师认为该文立意准确、逻辑性较强,但深刻性有待提高,给出54分。</p><p class="ql-block">腾讯元宝、百度文心一言表现稳定</p><p class="ql-block">腾讯元宝基于腾讯自研的混元大模型,在高质量内容创作等方面性能优越,此次以51.75的平均分位居第三,去年它仅次于GPT-4排名第二。房树洪老师给其作文打出55分,认为其逐步展现了对问题的深入思考;何杰老师认为其对题目要求理解正确且独特,但论述不够深入。百度文心一言今年排名第四,得分51分,与去年相同,去年它位列第三。</p><p class="ql-block">其他模型成绩与分析</p><p class="ql-block">去年参与评测的阿里通义千问、讯飞星火、字节豆包、月之暗面Kimi,今年成绩集中在47 - 49分之内。其中通义千问进步明显,排名从去年第八升至今年第五,豆包和Kimi排名和得分均有所下降。商汤商量和学而思位于最后两名,得分均在43左右。学而思采用的九章大模型主要面向数学领域,可能不擅长语文写作。</p><p class="ql-block">模型能力差距与整体表现分析</p><p class="ql-block">此次十款大模型在高考作文的表现悬殊,最高分和最低分差值达11分,较去年的7分,模型间能力差距有所扩大。除GPT-4.5、学而思外,其余模型均开启推理模式,审题能力提升,基本解决了过往评测中缺少题目、字数不够等问题,这反映出推理能力的提高对提升模型文本能力有促进作用。GPT-4.5虽不具备链式推理功能,但采用无监督学习增强了推理能力。另外,从写作风格看,多数模型摒弃了过往呆板的起承转合方式,表达风格更为自然、拟人。</p>