阿里云通义千问官方今日宣布推出最新的推理模型 QwQ-32B。这是一款拥有320亿参数的模型,其性能可与具备6710亿参数(其中370亿被激活)的DeepSeek-R1媲美。这一成果凸显了将强化学习应用于经过大规模预训练的强大基础模型的有效性。阿里还在推理模型中集成了与Agent相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。性能方面,阿里云对QwQ-32B测试了数学推理、编程能力和通用能力,并展示了QwQ-32B与其他领先模型的性能对比。包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini以及原始的DeepSeek-R1。在测试数学能力的AIME24评测集上,以及评估代码能力的LiveCodeBench中,千问QwQ-32B表现与DeepSeek-R1相当,远胜于o1-mini及相同尺寸的R1蒸馏模型。在LiveBench、IFEval评测集、BFCL测试中,千问 QwQ-32B的得分均超越了DeepSeek- R1。
点击此处关注,获取最新资讯!


我的评论
最新评论