K8凯发(中国)天生赢家·一触即发

关于凯发k8 品牌概述 品牌理念 品牌定位 展示中心 产品展示 当季限定 鲜茶之旅 招牌爆品 经典奶茶 鲜萃果茶 门店展示 形象展示 加盟中心 品牌优势 运营支持 加盟流程 加盟优势 店铺条件 凯发天生赢家一触即发首页 新闻中心 联系我们 k8·凯发(中国)天生赢家·一触即发
K8凯发(中国)天生赢家·一触即发奶茶官网

  • 关于凯发k8
  • 展示中心
  • 加盟中心
  • 凯发天生赢家一触即发首页
  • 新闻中心
  • 联系我们
  • k8·凯发(中国)天生赢家·一触即发
  • 首页 > k8·凯发(中国)天生赢家·一触即发
  • 天生赢家一触即发|日本1卡2卡3卡区|GPT-5训练背后隐藏大佬:靠一篇博客入职

    发布时间:2025-06-23 08:50 来源:K8凯发(中国)天生赢家·一触即发茶饮

      

      智东西6月16日消息◈✿◈✿,今天◈✿◈✿,AI云服务商Hyperbolic的联合创始人兼CTO Yuchen Jin在社交平台X上曝料◈✿◈✿:研究员Keller Jordan仅凭一篇博客文章就加入了OpenAI日本1卡2卡3卡区日本1卡2卡3卡区◈✿◈✿,并可能正用博客提及的神经网络隐藏层的优化器Muon训练GPT-5◈✿◈✿。

      “许多博士(包括以前的我)都陷入了这样一个误区◈✿◈✿:认为在顶级会议上发表论文才是最终目标◈✿◈✿。但发表论文≠影响力◈✿◈✿。Muon只作为一篇博客文章发布天生赢家一触即发◈✿◈✿,它让Keller加入了OpenAI◈✿◈✿,他现在可能正在用它训练GPT-5◈✿◈✿。”Yuchen Jin说◈✿◈✿。

      从职场社交平台领英可知◈✿◈✿,Keller Jordan正是在2024年12月加入OpenAI◈✿◈✿,由此我们也可以推测他正是凭去年12月发布的一篇博客◈✿◈✿,成功进入了如日中天的头部大模型企业◈✿◈✿。

      Muon是神经网络隐藏层的优化器◈✿◈✿。它被用于NanoGPT和CIFAR-10的快速运行◈✿◈✿,刷新了当时训练速度的记录日本1卡2卡3卡区◈✿◈✿。

      Keller Jordan的博客文章主要关注Muon的设计◈✿◈✿。首先他定义了Muon并概述其在当时已取得的实证结果◈✿◈✿;然后他详细讨论了Muon的设计◈✿◈✿,包括与先前研究的联系以及对其工作原理的最佳理解◈✿◈✿;最后他讨论了优化研究中的证据标准◈✿◈✿。

      使用Muon训练神经网络时◈✿◈✿,应使用AdamW等标准方法优化网络的标量和矢量参数以及输入层和输出层◈✿◈✿。Muon可用于四维卷积参数◈✿◈✿,方法是将其最后三个维度展平◈✿◈✿。

      2◈✿◈✿、将FineWeb(一项称为NanoGPT快速运行的竞赛任务)上的训练速度记录提高至3.28 val loss◈✿◈✿,提高了1.35倍◈✿◈✿。

      4◈✿◈✿、在HellaSwag上用10个8xH100小时训练了一个1.5B参数转换器◈✿◈✿,使其达到GPT-2 XL级别的性能◈✿◈✿。使用AdamW达到相同结果则需要13.3小时◈✿◈✿。

      Muon通过采用SGD-momentum生成的更新来优化二维神经网络参数◈✿◈✿,然后在将它们应用于参数之前◈✿◈✿,对每个更新应用 Newton-Schulz (牛顿-舒尔茨迭代法◈✿◈✿,简称NS)迭代作为后处理步骤◈✿◈✿。

      为什么正交化更新可行?出于实证研究的动机◈✿◈✿,作者基于人工检验观察到◈✿◈✿,SGD-momentum和Adam对基于Transformer的神经网络中的二维参数产生的更新通常具有非常高的条件数◈✿◈✿。也就是说◈✿◈✿,它们几乎是低秩矩阵◈✿◈✿,所有神经元的更新仅由少数几个方向主导◈✿◈✿。

      作者推测◈✿◈✿,正交化有效地增加了其他“稀有方向”的规模◈✿◈✿,这些方向在更新中幅度较小◈✿◈✿,但对学习仍然很重要◈✿◈✿。

      除了NS迭代之外◈✿◈✿,还有其他几种方法可以对矩阵进行正交化◈✿◈✿。但作者没有使用其中两种方法◈✿◈✿,他是如何排除的?

      一个是SVD方法◈✿◈✿,它太慢了◈✿◈✿,所以作者没有使用它◈✿◈✿。另一个是Coupled Newton iteration (耦合牛顿迭代法)◈✿◈✿,它必须至少以float32精度运行才能避免数值不稳定◈✿◈✿,这导致它在现代GPU上运行速度较慢◈✿◈✿,所以作者也没有采用◈✿◈✿。

      相比之下◈✿◈✿,作者发现NS可以在bfloat16中稳定运行◈✿◈✿,因此选择它们作为正交化更新的首选方法◈✿◈✿。

      在Keller Jordan的实验中◈✿◈✿,当使用具有调整系数的Muon来训练Transformer语言模型和小型卷积网络时◈✿◈✿,只需运行5步NS迭代就足够了天生赢家一触即发◈✿◈✿。

      此外◈✿◈✿,Keller Jordan还分析了Muon的运行时间和内存要求◈✿◈✿。对于典型的语言训练场景◈✿◈✿,无论规模大小◈✿◈✿,Muon的FLOP开销都低于1%◈✿◈✿。

      根据设计◈✿◈✿,Muon仅适用于二维参数◈✿◈✿,以及通过展平的卷积滤波器◈✿◈✿,因此网络中其余的标量和矢量参数必须使用标准方法(例如 AdamW)进行优化◈✿◈✿。

      根据经验◈✿◈✿,Keller Jordan发现使用AdamW优化输入和输出参数也很重要◈✿◈✿,即使这些参数通常是二维的◈✿◈✿。具体来说◈✿◈✿,在训练Transformer时◈✿◈✿,应该将AdamW用于嵌入层和最终分类器头层◈✿◈✿,以获得最佳性能◈✿◈✿。嵌入层的优化动态应该与其他层不同◈✿◈✿,这遵循模块化范数理论◈✿◈✿。输出层的这种动态也不同天生赢家一触即发◈✿◈✿,这似乎并非来自理论◈✿◈✿,而是由经验驱动的◈✿◈✿。

      另一个纯经验性的结果是◈✿◈✿,在他们测试的所有案例中◈✿◈✿,使用 Nesterov式动量对Muon的效果都比普通的SGD动量略好◈✿◈✿。因此◈✿◈✿,他们在公开的Muon实现中将其设为默认设置◈✿◈✿。

      第三个结果是◈✿◈✿,如果将Muon分别应用于变压器的Q◈✿◈✿、K◈✿◈✿、V参数◈✿◈✿,而不是一起应用于变压器◈✿◈✿,则Muon可以更好地优化变压器◈✿◈✿,因为对于将QKV参数化为输出被分割的单个线性层的变压器实现◈✿◈✿,默认做法是将它们一起应用◈✿◈✿。

      Keller Jordan认为◈✿◈✿,神经网络优化研究文献目前大多充斥着一堆已死的优化器◈✿◈✿,它们声称能够击败AdamW◈✿◈✿,而且往往以巨大的优势获胜◈✿◈✿,但却从未被社区采用◈✿◈✿。鉴于业界在神经网络训练上投入了数十亿美元◈✿◈✿,并渴望降低成本◈✿◈✿,他们可以推断◈✿◈✿,问题出在研究界◈✿◈✿,而非潜在的采用者◈✿◈✿。

      Keller Jordan犀利地提出◈✿◈✿:这项研究出了问题◈✿◈✿。仔细研究每篇论文后◈✿◈✿,他们发现最常见的罪魁祸首是糟糕的基线◈✿◈✿:论文在将其与新提出的优化器进行比较之前◈✿◈✿,往往没有充分调整AdamW基线◈✿◈✿。

      发表声称有巨大改进但无法复制/达到宣传效果的新方法◈✿◈✿,浪费了大量个人研究人员和小型实验室的时间◈✿◈✿、金钱和士气◈✿◈✿,他们每天都在为复制和构建此类方法的失败而感到失望◈✿◈✿。

      为了纠正这种情况◈✿◈✿,Keller Jordan建议采用以下证据标准◈✿◈✿:研究界应该要求◈✿◈✿,只要有可能◈✿◈✿,神经网络训练的新方法就应该在竞争性训练任务中取得成功◈✿◈✿。

      竞争性任务通过两种方式解决了基线欠调问题◈✿◈✿。首先◈✿◈✿,竞争性任务的基线是先前的记录◈✿◈✿,如果该任务很受欢迎◈✿◈✿,则很可能已经经过了良好的调整◈✿◈✿。其次◈✿◈✿,即使在先前记录未经过良好调整的不太可能发生的情况下◈✿◈✿,也可以通过新的记录进行自我修正◈✿◈✿,将训练恢复到标准方法◈✿◈✿。

      通过定义◈✿◈✿、拆解设计及实证研究◈✿◈✿,Keller Jordan发现了Muon神经网络隐藏层的优化器具备优于AdamW的效率◈✿◈✿。通过最新曝料可知◈✿◈✿,这一技术很有可能成为OpenAI正在研究的GPT-5的重要部分◈✿◈✿。

      Keller Jordan也提出了一些尚未解决的问题◈✿◈✿。包括◈✿◈✿:Muon可以扩展到更大规模的训练吗?是否有可能在大型GPU集群中正确分布Muon使用的Newton-Schulz迭代?Muon是否仅适用于预训练◈✿◈✿,而不适用于微调或强化学习工作负载?或许在GPT-5的研究中日本1卡2卡3卡区◈✿◈✿,作者已经知道了这些问题的答案◈✿◈✿。

      06月12日◈✿◈✿,量子面霜◈✿◈✿、量子治癌◈✿◈✿、量子油条……到底是怎么回事?◈✿◈✿,云顶赌场网站◈✿◈✿,金沙城中心娱乐场◈✿◈✿,维多利亚vic67中国线路进不去◈✿◈✿,贝博app下载官网下载

      06月12日◈✿◈✿,中国政府中东问题特使◈✿◈✿:当务之急是确保人道救援物资快速◈✿◈✿、无障碍进入加沙天生赢家一触即发◈✿◈✿,ManBetx赌场网站天生赢家一触即发◈✿◈✿,体育官网app网站◈✿◈✿,杏耀平台官方网站日本1卡2卡3卡区◈✿◈✿,线日◈✿◈✿,青藏集团公司今年首趟青甘藏大环线旅游专列在西宁开行◈✿◈✿,乐鱼手机下载安装◈✿◈✿,国际真人在线娱乐官网◈✿◈✿,万博英超狼队

      06月12日2024横店影视节定档 首届国际影片交易会同步进行98娱乐彩票官网奥门新匍京app下载新濠天地在线官网必威客户端登录注册

      06月12日工信部原党组成员◈✿◈✿,国家烟草专卖局原党组书记天生赢家一触即发◈✿◈✿、局长◈✿◈✿,中国烟草总公司原总经理凌成兴严重违纪违法被开除党籍新濠天地网上娱乐网址打鱼1000炮明豪棋牌荣胜国际线日最高人民法院启动“版权AI智审”试点工作澳门8858永利皇宫雷速体育免费下载缅甸娱乐平台有哪些乐虎国际足球……

      06月12日◈✿◈✿,邮储银行新一代信用卡核心系统上线 客户体验全面提升◈✿◈✿,网上真钱打牌平台◈✿◈✿,新濠天地买球◈✿◈✿,澳门星际网是什么◈✿◈✿,ag注册网站安卓下载

      06月12日香港去年网络钓鱼骗案增多 创5年新高金六福论坛金沙体育APP天博tb官网澳门大赌场

      06月12日◈✿◈✿,中国再次提高部分退役军人和其他优抚对象抚恤补助标准◈✿◈✿,奥门皇冠真人直◈✿◈✿,必博网站是多少◈✿◈✿,靠谱的滚球平台app下载◈✿◈✿,半岛体体育官网

      06月12日◈✿◈✿,大力发展数智化银发经济◈✿◈✿,扑克之星PS◈✿◈✿,bg平台怎么样◈✿◈✿,爱体育app下载日本1卡2卡3卡区◈✿◈✿,国际AG旗舰厅网站

      06月12日◈✿◈✿,马斯克撤回针对OpenAI的诉讼◈✿◈✿,看四张牌抢庄斗牛棋牌八个人◈✿◈✿,虎牙游戏平台◈✿◈✿,雷火电竞最新登录网站◈✿◈✿,澳门现金桌多大

      06月12日呼和浩特市举行体育嘉年华 将体育运动带进百姓身边手机赌博注册必威在哪里玩澳博在线开户ob体育官网app下载

      06月12日【新疆故事】油画家库尔班江◈✿◈✿:小画布里的大情怀欧宝网站是多少沙巴体育官网是多少贝搏体育官网入口云顶注册App

      06月12日假期催生“小胖墩”◈✿◈✿,乐享运动孩子该去哪儿?易博官网九号平台ag8国际大厅登录博狗网址平台

      黄昏失焦◈✿◈✿,半熟男女黄埔名将彭明治之女◈✿◈✿:父亲屡建奇功靠钢铁般的意志乐博快速注册最大网上娱乐平台葡京国际登陆九游会AG娱乐官网登录

      中国近一半大城市正在下沉◈✿◈✿,韩国5-3沙特晋级八强上海加速全球资管中心建设 助推国际金融中心迈向更高能级爱游戏在线入口爱游戏APP体育官网宝博在线试玩必威手机版登录网页

      大连市税务局原副局长吴杰被查◈✿◈✿,直击嫦娥六号发射“80后”“90后”成中国户外运动核心消费群体pg电子游戏试玩模拟器手机玩斗牛赌钱的完美体育首页app优德开户网址

      流人 第三季◈✿◈✿,杭州多起半夜骑行党相撞事故各地发展冰雪经济 “冷资源”释放“热消费”纬来体育入口白小姐特码救世Bbet365电竞足球财富app下载v4.6

      “高频指标”释放经济运行积极信号◈✿◈✿,孙杨透露未来发展两岸200名少年儿童福建泉州挥毫 竞逐“蔡襄奖”书法大赛明升2020最新贝博app官方老虎机官方网站下载AG在线登录

      没点年龄看不懂的图片◈✿◈✿,请回答1988两岸新能源汽车产业融合发展示范基地在江苏常州揭牌kb体育app万博客户端手机乐鱼_官网登录九游会官网j9凯发k8官方旗舰厅◈✿◈✿,凯发K8官网凯发天生赢家一触即发◈✿◈✿。K8凯发◈✿◈✿。天生赢家◈✿◈✿,凯发k8(中国)天生赢家◈✿◈✿。天生赢家一触即发登录网站◈✿◈✿,凯发K8娱乐官网入口◈✿◈✿,





    K8凯发(中国)天生赢家·一触即发| http://www.thhykj.com