十款大模型挑战2025高考作文，DeepSeek夺冠、GPT-4.5居次席

俄罗斯龙城数字科技园

2025年高考首日，搜狐科技与搜狐教育延续传统，组织十款大模型挑战高考作文。经四位高中语文名师盲审盲评，DeepSeek脱颖而出夺得桂冠，GPT-4.5紧随其后，腾讯元宝和百度文心一言也表现出色。各模型成绩差距较去年有所扩大，同时推理能力的提升对模型文本能力的促进作用显著，写作风格也更趋自然。大模型“应考”阵容与试题选择6月7日，2025年全国高考拉开帷幕，搜狐科技与搜狐教育再次联合推出大模型参加高考系列策划。今年的“考生”依旧是10款模型，包括GPT-4.5、DeepSeek、通义千问、讯飞星火、文心一言、豆包、元宝、Kimi、学而思和商汤商量。此次选用的高考作文试题为全国一卷。DeepSeek夺冠，GPT-4.5排名下降评审结果显示，DeepSeek以54.25分的平均分拔得头筹。今年是DeepSeek首次参赛，就直接获得第一。北京市特级教师何杰以及北京中学语文高级教师房树洪均给DeepSeek所写作文打出55分高分，河南省骨干教师陈光打了54分。何杰老师认为该文审题准确，认识深刻，体现出对文艺学知识的谙熟。房树洪老师表示该文概念界定客观准确，论据充实。这得益于DeepSeek模型的最新升级，其推理模型R1-0528思考更深、推理更强，文本能力也有所提升。GPT-4.5作为唯一外国“考生”，是OpenAI今年2月发布的版本，曾被OpenAI称为“迄今规模最大、知识最丰富的模型” 。在过往两年评测中均位居第一的它，此次被DeepSeek超越，以53分的平均分排名第二。房树洪老师点评其作文阐释清晰、层次分明，但有些局限于“声音”本身，给出56分；刘可翔老师认为该文立意准确、逻辑性较强，但深刻性有待提高，给出54分。腾讯元宝、百度文心一言表现稳定腾讯元宝基于腾讯自研的混元大模型，在高质量内容创作等方面性能优越，此次以51.75的平均分位居第三，去年它仅次于GPT-4排名第二。房树洪老师给其作文打出55分，认为其逐步展现了对问题的深入思考；何杰老师认为其对题目要求理解正确且独特，但论述不够深入。百度文心一言今年排名第四，得分51分，与去年相同，去年它位列第三。其他模型成绩与分析去年参与评测的阿里通义千问、讯飞星火、字节豆包、月之暗面Kimi，今年成绩集中在47 - 49分之内。其中通义千问进步明显，排名从去年第八升至今年第五，豆包和Kimi排名和得分均有所下降。商汤商量和学而思位于最后两名，得分均在43左右。学而思采用的九章大模型主要面向数学领域，可能不擅长语文写作。模型能力差距与整体表现分析此次十款大模型在高考作文的表现悬殊，最高分和最低分差值达11分，较去年的7分，模型间能力差距有所扩大。除GPT-4.5、学而思外，其余模型均开启推理模式，审题能力提升，基本解决了过往评测中缺少题目、字数不够等问题，这反映出推理能力的提高对提升模型文本能力有促进作用。GPT-4.5虽不具备链式推理功能，但采用无监督学习增强了推理能力。另外，从写作风格看，多数模型摒弃了过往呆板的起承转合方式，表达风格更为自然、拟人。