Baidu is back」,在业界权威大模型公共基准测试平台 LMArena 发布最新一期文本竞技场排名(Text Arena)之后,有人发出了这样的惊呼。

根据 11 月 8 日凌晨 LMArena 的最新排名显示,百度文心最新模型 ERNIE-5.0-Preview-1022(文心 5.0 Preview)在文本榜单上一举跃居全球并列第二、国内第一。
该模型取得了 1432 的高分,其与 OpenAI 的 gpt-4.5-preview-2025-02-27 以及 Anthropic 的 claude-opus-4-1-0805、claude-sonnet-4-5-20250929 三大国外顶级模型持平。

评论区的网友纷纷对百度新模型的亮眼表现送上了祝贺,还表示「已经迫不及待想亲自体验一番」。


毫无疑问,此次榜单结果将继续强化百度文心系列模型在全球通用智能模型竞争格局中第一梯队的地位。
全球 LLM 实战擂台,文心 5.0 Preview 悄然厮杀而来
在 AI 领域,LMArena 是由加州大学伯克利分校研究者创建的开放 AI 模型评测平台,成为了 OpenAI、谷歌等国外以及国内大模型厂商厮杀的顶级竞技场之一。
在该平台上,用户自己提交 prompt,接着系统会随机抽取两个匿名的 LLM 分别生成回答。用户根据两条回答选择偏好,即「哪一个更好」或「两者都差」等。更具体地,LMArena 会为每个模型分配初始 Elo 分数,并在每轮对决结束后实时更新分数。
相较于依赖传统静态数据集或自动评分的基准平台,LMArena 通过真实用户对模型输出的偏好投票,形成了一种偏向于「现实世界评判」的动态排名机制。这种机制让模型能力之间的较量更贴近实际使用场景,也让榜单的含金量更高。
能在 LMArena 榜单上名列前茅的模型,在学术指标上表现突出之外,更在用户体验、语言理解、创意生成与指令执行等实际应用维度获得广泛认可。文心 5.0 Preview 正是在这样真实的 LLM 对决战场取得了优异表现。
具体来讲,文心 5.0 Preview 在创意写作、复杂长问题理解和指令遵循等方面表现出色,整体成绩超越了包括 GPT-5-High 在内的多款国内外主流大模型。
其中,文心 5.0 Preview 在衡量创意生产力的重要指标——创意写作任务中排名第一,这意味着其生成文章、营销文案、剧本等内容的速度与质量均有大幅提升;在考验模型处理多层逻辑与长文本能力的复杂长问题理解中排名第二,其更加胜任学术问答、报告分析、知识推理等高认知任务;在体现模型对用户意图理解与执行精度的指令遵循任务中排名第三,其在智能助理、代码生成与业务自动化等场景的适用性大大增强。
