最近,微软研究院整了个大活,发布了 Phi-4-reasoning-plus 这个开放权重语言模型。这模型可不得了,专门为那些需要深度结构化推理的任务打造,一出场就吸引了众多目光。它基于之前发布的 Phi-4 架构进行升级,通过融合监督微调与强化学习,在数学、科学、编码和逻辑任务的基准测试中,性能实现了大飞跃。
模型特点:小身材,大能量
Phi-4-reasoning-plus 是个 140 亿参数的密集解码器,采用 Transformer 架构。别看它参数规模在大模型遍地走的时代不算突出,但它走的是 “小而精” 路线,把质量摆在首位。训练过程中,它 “吃” 下了 160 亿个 token,其中约 83 亿个是独特的,这些数据来自合成数据集以及精心筛选的网络数据集。之后,研究人员又通过仅约 6400 个数学相关问题,对它进行强化学习,进一步打磨了推理能力。而且,这个模型采用宽松的 MIT 许可证发布,这意味着商业和企业应用都能自由使用,还能进行微调或者蒸馏,不受啥限制。在实际应用中,它能和 Hugging Face Transformers、vLLM、llama.cpp 和 Ollama 等常见推理框架完美适配,这可给开发者们省了不少事。微软还贴心地给出推理参数和系统提示格式的详细建议,助力开发者把模型性能发挥到极致。
性能超越:小模型逆袭
Phi-4-reasoning-plus 的诞生,体现了微软的新策略:训练小模型,却要让它们在性能上能和大模型掰掰手腕。事实证明,微软这招挺成功。这个模型虽说身材 “小巧”,但在不少高难度基准测试里,表现比 DeepSeek-R1-Distill-70B 等大模型还好。就拿 AIME 2025 数学考试来说,它第一次尝试就答对所有 30 道题的平均准确率,比 700 亿参数的蒸馏模型还高,甚至逼近 6710 亿参数的 DeepSeek-R1。这成绩,让大家看到了小模型的巨大潜力,谁说模型一定得靠参数多来取胜呢?
训练策略:精心雕琢
微软为了让 Phi-4-reasoning-plus 有如此出色的表现,在训练上采用了以数据为核心的策略。在监督微调阶段,研究人员用精心挑选的合成思维链推理轨迹,搭配过滤后的高质量提示,对模型进行训练。这里有个关键创新点,就是使用带特殊
强化学习优化:更准更深
微调之后,微软又用基于结果的强化学习,具体是 Group Relative Policy Optimization(GRPO)算法,来提升模型输出的准确性和效率。在设置强化学习的奖励函数时,研究人员可花了不少心思,要平衡答案的正确性和简洁性,惩罚重复内容,保证格式一致。这么一番操作下来,模型给出的回答变长了,但也更有深度和思考量,尤其是碰到一开始不太确定的问题时,表现更为明显。
应用场景:受限环境的得力助手
Phi-4-reasoning-plus 主要是为那些对内存或延迟有要求,但又需要高质量推理的应用场景设计的。它默认支持 32000 个 token 的上下文长度,实验中输入长达 64000 个 token 时,也能稳定发挥。在类似聊天的场景里,它能大展身手,要是系统提示明确要求它一步步推理再给出解决方案,它的表现更是能达到最佳状态。
安全考量:谨慎前行
微软把 Phi-4-reasoning-plus 定位为研究工具,以及生成式 AI 系统的组件,而不是直接就能用在所有下游任务的现成方案。开发人员要是想在高风险或者受监管的环境中部署这个模型,得先仔细评估它的性能、安全性和公平性。微软也没偷懒,对这个模型进行了大量安全评估,比如让自家的 AI 红队进行模拟攻击测试,还用 Toxigen 等工具对敏感内容回复进行基准测试。