Alibaba 发布 Qwen 2.5-Max AI 模型, 称性能超越 DeepSeek-V3
阿里巴巴集团旗下的云计算部门阿里云在农历新年之际发布了其最新突破性的人工智能大语言模型:Qwen2.5-Max,声称其性能超越了当今最强大的AI模型。
在过去两周内,这是继DeepSeek的R1推理模型之后中国发布的第二个重要大语言模型。中国AI研究初创公司DeepSeek此前声称,R1模型能够与美国公司开发的最强大模型相媲美,且训练成本仅为后者的一小部分,这一说法引起了广泛关注。
阿里云在博客文章中表示:"我们开发的Qwen2.5-Max是一个大规模混合专家LLM模型,该模型已经在超过20万亿个token上进行了预训练,并通过精选的监督微调和基于人类反馈的强化学习方法进行了后续训练。"
混合专家模型(MoE)是一种大语言模型架构,它使用多个专门模型协同工作,根据特定的专业领域更高效地处理复杂任务。这就像一个AI模型团队,每个模型都在特定知识子类别中表现出色,它们共同合作,结合各自的训练来回答问题和完成任务。
据阿里巴巴称,使用这种技术的新Qwen模型在关键基准测试中超越了DeepSeek-V3(该初创公司在去年12月底发布的最新非推理模型),包括ArenaHard、LiveBench和MMLU-Pro。公司还声称其性能超过了Anthropic的Claude3.5Sonnet、OpenAI的GPT-4和Meta的Llama3.1-401B。
该架构还使公司能够以更小的资源消耗构建模型,仅需要20万亿个token进行训练。这使得模型部署时能够使用更少的资源,并以更高的效率运行。
阿里云表示:"数据和模型规模的扩展不仅展示了模型智能的进步,也反映了我们在开创性研究方面的坚定承诺。我们致力于通过创新应用规模化强化学习来增强大语言模型的思维和推理能力。"
与其他开源的Qwen模型不同,Qwen2.5-Max目前仍是闭源的。阿里巴巴通过阿里云提供了与OpenAIAPI兼容的应用程序接口,方便开发者集成。用户还可以通过类似ChatGPT的聊天机器人界面QwenChat访问该模型。
阿里巴巴最近在去年8月还发布了新的视觉语言模型Qwen2-VL。该模型具有先进的视频理解能力,可以处理长达20分钟的高质量视频并回答相关内容的问题。
热点资讯
- 2025-02-04Alibaba 发布 Qwen 2.5-Max AI 模型, 称性能超越 Dee
- 2025-09-08欧锦赛3场34投24中! 命中率达7成! 恭喜火箭队, 明星高塔投篮更准了
- 2025-05-24幼猫能吃主食罐头吗?附2025主食罐头哪个牌子最好排名_猫咪_营养_测试
- 2025-07-20天水幼儿园血铅事件调查
- 2025-11-23北方稀土Q3净利润同比增长69.48%,营收增33.32% | 财报见闻
- 2026-02-06红利ETF工银(159905)开盘跌0.15%, 重仓股美的集团跌0.36%,
推荐资讯
- 不服, 国安又遭裁判针对导致输球, 京媒晒证据, 又要等裁判评议了
- 一图看懂 | 中国再保2024年度业绩发布
- 12年监事长离任,银行业内资深监事长越来越少了
- 天水幼儿园血铅事件调查
- 今日推文:大佬,来个孜然?或者,胡椒粉?干吃得劲不?

