新闻资讯

快手-W早盘涨超3% 发布全新大模型训练 *** SRPO并宣布开源

  (01024)早盘上涨3.47%,现报52.20港元,成交额7.68亿港元。

快手-W早盘涨超3% 发布全新大模型训练方法SRPO并宣布开源
(图侵删)

  4月23日,快手Kwaipilot团队发布全新大模型训练 *** SRPO并宣布开源。该 *** 仅用 GRPO 1/10的训练成本,在数学与代码双领域基准测试中实现性能突破:AIME2024 得分50,LiveCodeBench 得分41.6,成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero 的 *** 。

  快手 Kwaipilot 团队在最新研究成果《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化(two-Staged history-Resampling Policy Optimization ,SRPO),这是业界首个同时在数学和代码两个领域复现 DeepSeek-R1-Zero 性能的 *** 。

  通过使用与 DeepSeek 相同的基础模型(Qwen2.5-32B)和纯粹的强化学习训练,SRPO成功在AIME24和LiveCodeBench基准测试中取得了优异成绩(AIME24 = 50、LiveCodeBench = 41.6),超越了DeepSeek-R1-Zero-32B 的表现。更值得注意的是,SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。

  • 印媒称印巴在克什米尔控制线沿线发生小规模交火,巴方暂未回应
  • 地方新闻精选 | 江西6名驴友探险走失被追缴2万救援费 北京7家医院骗保被罚
  • 易方达高管团队调整:刘晓艳出任董事长,陈皓、萧楠卸任副总
  • 加拿大2月零售额下降0.4%预计3月将增长0.7%
  • LPR连续五个月“按兵不动”,分析师称二季度下调可能性较大
  • 直通部委 | 中国将试点支持外籍医生开诊所 一季度全国新设民营企业197.9万户
  • 日本多地检出有机氟化物超标,最高值超标500余倍
  • 暴跌45%!马斯克最新宣布,特朗普回应!
  • 记录发生真相,南沙岛礁生态调查纪实片《归巢》发布
  • 金力泰 (300225)投资者索赔分析
  • 陕西省烹饪餐饮行业领军人物黄建军逝世,终年53岁
  • 2025年重点立法工作计划敲定!今年制定金融法、金融稳定法!
  • 红果短剧与芒果TV达成合作:实现流量联动,制作方可共享双平台分账
  • 上海论坛开幕!聚焦创新时代的科技、发展与治理
  • 历史一刻,两个航天员乘组拍摄全家福
  • 关键词: