
首个拿下海外物理奥林匹克竞赛 IPhO 2025 表面测验金牌的开源模子,出自国产。
上海东谈主工智能实验室团队推出新模子眷属,代号P1。
在 IPhO 2025 表面测验中,P1-235B-A22B 取得 21.2/30 分,成为首个达到该金牌线的开源模子,仅次于 Gemini-2.5-Pro 与 GPT-5。

不仅如斯,引入 PhysicsMinions 智能体框架后,P1 得益进一步训导。
在团队构建的包含最新 13 项顶级物理竞赛的 HiPhO 基准上,P1-235B-A22B 平均得益从 35.9 提高到 38.4,在通盘 33 个顶流模子中排行第一,越过 Gemini-2.5-Pro(37.7)和 GPT-5(37.4)。
况且,在中国物理奥林匹克 CPhO 2025 东谈主工评分中,P1-235B-A22B 获取 227/320 分,显赫越过当届寰宇金牌第又名东谈主类选手(199 分)。

开源方面团队也作念得很透澈,从模子、算法到评测集、再到智能体框架,都将全链路开源。
底下具体来看 P1 究竟是如何作念到的。
多阶段强化学习 + 智能体框架
为让模子学习雷同东谈主类顶尖学生的推理念念路,团队领先构建了一个高质料的物理老师数据集。
该数据集由 5065 谈奥赛级文本物理题组成, 其中包含 4126 谈物理奥赛真题与 939 谈竞赛讲义题目,隐敝力学、电磁学、热学、光学、近代物理等五大领域和二十五个子领域。
这些题目极长而复杂,平均题干 367 tokens,最长 3386 tokens;平均解答 349 tokens,最长 5519 tokens。

每通盘都包含题目(Question)、齐备民众解答(Solution)以及可章程考证的圭臬谜底(Answer)。

为了确保数据质料,团队接收 Gemini-2.5-Flash、Claude-3.7-Sonnet、GPT-4o 三大模子交叉考证谜底、东谈主工查抄 OCR 演叨、删除无法章程判题的题目 .
构造数据仅仅基础。
随后,P1 接收了多阶段强化学习经过进行老师。
物露出题被体式化为一个序列方案问题:模子在每个景色下生成下一个 token,直到输出齐备解答;最终奖励则由模子解出的谜底是否正确来决定。
作家接收了基于政策梯度的轮番进行老师,但并非径直使用 PPO,而是接收了为长链推理优化过的 GSPO(Group Sequence Policy Optimization)。这一轮番不是对单条序列进行更新,而是在每个题目上采样些许条齐备解答,把它们行动一个 group,通过它们的相对收益构建上风函数。这么不错缓解物理题奖励极其疏淡、解题过程千千万万 token 但只在临了一步有信号的问题。
为了让 GSPO 能沉稳责任,团队构建了一套精密的奖励系统和判题器。在老师阶段,模子的最终谜底必须严格按照预设时势输出。这么的结构化输出使得判题器不错可靠地提真金不怕火模子谜底,再通过标志蓄意器具判断模子解答与圭臬谜底是否等价。
关联词,物理题时常包含多个子问题,巧合需要给出多个最终后果。为顺应这种结构,团队接收雷同法子评测中"测试用例式"的奖励团聚形势,将最终奖励界说为:

总共老师过程中,作家严格只使用章程判题器,以幸免模子试图通过学习某种写稿作风来"凑趣"模子型判题器。
跟着老师股东,模子会出现可学习性下落,进展为梯度无法指向灵验标的、熵急剧下落、模子只学到模板化抒发等。
团队针对这极少提议了两个翻新惩处轮番。
其一,基于题目难度(以基座模子的多采样通过率估量)进行径态数据筛选。那些基座模子全都作念不出来的题,由于全部生成轨迹奖励都为零,会让 RL 难以学习;那些太容易的题则会镌汰种种性、诱发熵崩塌。团队因此设定只保留通过率在 0 到 0.7 之间的题目参预老师。
其二,跟着老师进行迟缓推广模子的探索领域:一方面加多每题采样的解答条数,使模子更有契机找到"高质料轨迹";另一方面扩大模子可生成的最大长度,让模子能完成越来越复杂的问题。
总共 RL 老师都通过这种多阶段政策股东,使模子在才调训导的同期保握沉稳的可学习性。

另外,老师时使用的概率与推理时生成时的概率存在不行幸免的偏差。
由于推理时常通过 vLLM 或 SGLang 等挑升推理引擎进行,而老师则在 Megatron 或 FSDP 框架中完成,二者的浮点完结有在眇小互异,模子在老师中看到的"旧政策"与简直采样政策并非全都一致。
为此,团队引入了 Truncated Importance Sampling ( TIS ) ,用一个被截断的政策比重来改变这种偏移。

在推理阶段,P1 引入了专为物理推理假想的协同进化多智能体系统—— PhysicsMinions,以进一步训导解题质料。

PhysicsMinions 在原假想中由三个交互式模块组成:视觉责任室(Visual Studio)、逻辑责任室(Logic Studio)和审查责任室(Review Studio)。
Visual Studio 会领先不雅察、考证并反念念输入履行,将其转机为结构化信息,再交给 Logic Studio。Logic Studio 中,solver 会生成运转解答,而 introspector 则通过自我改进机制进一步优化解答。随后,解答将交由 Review Studio 进行双阶段审查,Physics-Verifier 得当查抄物理一致性,General-Verifier 则进一步查抄逻辑、推理过程和蓄意细节。
若是任一审查阶段未通过,系统会复返一份详备的演叨论说给 Logic Studio,由 introspector 左证论说修正解答,并再次提交给 Review Studio。
这依然过会不停轮回,直到解答一语气通过预设次数的审查(CV),CV 亦然系统中独一的超参数。

团队卓绝指出,由于 P1 是纯文本模子,系统中的 Visual Studio 被关闭,但 Logic Studio 与 Review Studio 的互助仍能显赫提高推理沉稳性与最终进展:
他们在 Logic Studio 中实例化 P1 行动 solver,并在 Review Studio 中以 P1 分裂担任两个审查器,从而完成 PhysicsMinions 内的推理协同过程。
单一模子,13 场比赛取得 12 金 1 银
实验阶段,团队构建了一个新的高难度评测集 HiPhO,用来对 P1 系列模子进行系统性测评。
同期将其与包括 GPT-5、Gemini-2.5、Claude-4-Sonnet、Grok-4、DeepSeek 系列、Qwen3 系列在内的 33 个模子( 11 个闭源 22 个开源)进行了全面临比。


HiPhO 隐敝了 2024 – 2025 年最新 13 场物理赛事的表面题,包括 IPhO、APhO、EuPhO 这么的海外赛事,以及 NBPhO、PanPhO、F=MA 等区域性高难赛事。
在谐和的评分体系下,P1-235B-A22B 单一模子(不使用多智能体)就已经在 13 场比赛中取得 12 金 1 银,与 Gemini-2.5-Pro、Gemini-2.5-Flash-Thinking 比肩第一(GPT-5 11 金、Grok-4 10 金、Claude-4-Sonnet-Thinking 8 金)。
在 IPhO 2025 中获取 21.2/30 分,排行第三,仅次于 Gemini-2.5-Pro 与 GPT-5,是第一个达到该金牌线的开源模子。
同期,轻量级模子 P1-30B-A3B 的得益通常亮眼:8 金 4 银 1 铜,排行开源模子第三,越过 o4-mini、Claude-4-Sonnet 等闭源模子。
与 PhysicsMinions 框架皆集后,P1-235B-A22B 分数从平均 35.9 训导到 38.4,越过 Gemini-2.5-Pro(37.7)与 GPT-5(37.4),成为全体第一。

团队进一步在 CPhO 2025(中国物理奥林匹克竞赛)上评估了 P1-235B-A22B。
在表面测验中,P1-235B-A22B 得分为 227/320,由东谈主类民众严格按照官方评分圭臬进行评阅。这个分数显赫高于当届东谈主类金牌第又名的 199 分。

此外,论文还展示了一个道理的效应:
团队通过挑升的数据集对模子进行后老师,强化其物露出题才调。后果发现,这么高度定向、强调物理推理结构的老师不仅莫得挫伤模子的通用才调,反而让 P1 在数学、STEM、代码和通用推理多个任务上都比其基座模子进展更佳,诠释复杂物理推理老师具有跨领域的挪动价值。


团队简介
P1 团队来自上海东谈主工智能实验室,论文共兼并作有三位。

Jiacheng Chen,香港汉文大学蓄意机科学与工程学系的博士生,本科毕业于华南理工大学。
其本东谈主主要征询标的为当然言语推理和强化学习。

Qianjia Cheng,现为浙江大学博士生,本科毕业于北京航空航天大学,曾和 AI 大牛陶大程共同发表过论文。

Fangchen Yu,香港汉文大学(深圳)蓄意机与信息工程博士生,2020 年本科毕业于中国科学院大学。
他对机器学习有世俗意思,卓绝关怀 AI for Science、(多模态)大言语模子,以及面向东谈主工智能的统计轮番。

论文一语气:https://arxiv.org/abs/2511.13612
技俩主页:https://prime-rl.github.io/P1/
参考一语气:
[ 1 ] https://jc-chen1.github.io/
[ 2 ] https://openreview.net/profile?id=~Fangchen_Yu1
[ 3 ] https://openreview.net/profile?id=~Qianjia_Cheng1
一键三连「点赞」「转发」「防御心」
原宥在批驳区留住你的目的!
— 完 —
� � 聊 AI,固然得来量子位 MEET2026 智能将来大会!
张亚勤、孙茂松等首波 AI 行业重磅嘉宾已阐发出席,还有更多嘉宾行将揭晓 � � 了解笃定
� � 12 月 10 日
� � 北京金茂万丽旅社
,期待与你共论 AI 行业破局之谈
� � 点亮星标 � �
科技前沿进展逐日见炒股配资注册_股票杠杆官方开户
炒股配资注册_股票杠杆官方开户提示:本文来自互联网,不代表本网站观点。