都超越了GPT4? C-EVAL终于看不下去了！给刷分的国产大模型们单独设榜

随着人工智能技术的飞速发展，大模型成为了一个备受瞩目的领域。然而，最近国内大模型榜单的优化和竞争态势展现了该领域所面临的挑战和机遇。

近日，被各大厂商推崇的国内大模型榜单C-EVAL优化了榜单排列，将评分划分为公众模型和非开放模型，C-EVAL还声明，任何评测都有其局限性，以及任何的榜单都可以被不健康的刷榜。

显然，由于国内厂商疯狂通过蒸馏GPT4回答上分，这相当于在考试前提前把题目答案背熟，已经造成了之前的榜单巨大的失真，C-EVAL此举是为了尽量减少国内厂商为了刷榜单而对模型进行特殊优化的情况。

我们可以看到，在新的公开模型榜单中，GPT4重新回到了榜首。这才比较符合大家平时的一般感受。

而这次被划为受限访问模型的一大批模型，分数都非常高，甚至有十多个模型超越了GPT4。我个人观点来看，它们就是一水的刷分党。

C-EVAL为什么能刷分呢？因为它本身就是一整套选择题形态的考试题，涵括小初高中大学各科目和各种职业考试。要想拿高分，一方面是模型能力得不错；另一方面就是拿GPT-4的结果蒸馏，人工标注然后再蒸馏，在网上找到原题加入训练集中微调模型，相当于让模型记住答案。

显然，这就是应试模式，靠“记住”而不是靠“思考”。

对于C-EVAL优化榜单排列的行为，我们可以理解为厂商们为了提高自己的排名和影响力，采取了一些不正当的手段，如刷榜等。他们可能认为，只要能够获得更高的评分，就能够吸引更多的用户和投资，从而提高自身的市场地位。然而，这种行为实际上可能会对整个行业的健康发展造成负面影响，因为它可能会导致用户对模型的评价失去公正性和准确性。

另外，国内大模型竞争越来越激烈，诸多科技自媒体上软文不断，部分知名的自媒体和厂商甚至在公关稿里面公然声称LLAMA不能中文商用，随后被META官方声明打脸。

由此，大家可能已经感受到了大模型领域飘在空气里面的一些不寻常的古怪气氛。

这两个事件虽然相对独立，却反映出中国大模型行业的竞争态势越来越激烈。在这种竞争环境下，厂商们为了提高自己的市场份额，不惜采取各种手段，包括刷榜、造谣等。这种竞争态势可能会导致行业内的一些不良现象，如虚假宣传、恶意攻击等。

经历了上半年的GPT热潮，现在AI大浪潮的竞争进入了2023年的下半场，模型有了，还得拼应用。

然而，应用却并不是那么好拼的。

从盈利前景来看，由于竞争激烈，大模型厂商经过上半年的研发冲刺，现在还需要投入大量的资金进行后续研发和市场营销。

然而，如果投入不能转化为实际的收益，那么它们的盈利前景可能会变得非常暗淡。因此，心急火燎也完全可以理解。实际上，真正能收到钱的大模型还没几个，甚至，由于互联网生成式AI管理办法的政策规制；加上云服务这个基础设施基本被巨头把控；很多小团队空有模型，却没有办法打通模型和公众之间的连接。

但我们仍然希望，国内大模型的厂家们在竞争之余，还是得有点节操。做事如做人，留个好印象很重要。

毕竟，你们的模型吹得再天花乱坠，能不能真的比得上GPT4？关于这一点，群众的心里是雪亮的。关于支持国产模型，大家当然乐见其成，你要真行，咱当然支持；但支持国产归支持国产，不等于得支持你们撒谎、刷榜、吹牛。

大模型观察

大模型测评

标签:

都超越了GPT4? C-EVAL终于看不下去了！给刷分的国产大模型们单独设榜

最新资讯

姑姑给两个月大的侄子讲大学语文，算不算违规补课？

深圳家长突击学校配餐公司检查见大量冻品食材？涉事学校通报

熊孩子高铁上挨个踩踏座椅玩耍，12306回应

985毕业和普通一本毕业的汽车专业同学在刚入职车企时，待遇能差多远？

2万字对话实录：剖解ChatGPT时代的教育难题

学子想吃梭子蟹解馋，宁波大学食堂当晚采购次日摆上餐桌

文档百科