你的位置：kai云体育app官方下载app最新版本-kai云体育app官方登录入口 > 新闻中心 > 开云kaiyun并使用奖励模子为每个候选谜底分派分数-kai云体育app官方下载app最新版本-kai云体育app官方登录入口

开云kaiyun并使用奖励模子为每个候选谜底分派分数-kai云体育app官方下载app最新版本-kai云体育app官方登录入口

发布日期：2026-01-24 07:47 点击次数：65

o1 无缺版公开仅 10 天，Scaling Law 新范式就被逆向工程复现了！

Hugging Face 官方发文，开源了膨胀测试时策画的格式。

用在小小小模子 Llama 1B 上，数学分数径直高出 8 倍大的模子，也高出了策画机科学博士生的平平分数（40%）。

那么用在 Llama 3B 上呢？越过幅度更大，甚而能和 20 几倍大的 70B 模子失色。

诚然 OpenAI o1 的配方整个守密，莫得发布结束细节或代码，但团队基于 DeepMind 公布的说合恶果，完成了我方的实际。

在 DeepMind 说合的基础上，Hugging Face 团队作念出如下创新：

各样化考据器树搜索（Diverse Verifier Tree Search），一种浮浅而灵验的格式，不错擢升各样性和更高性能，稀奇是在算力预算富裕的情况下。

开源轻量级用具包 Search and Learn，与推理框架 vLLM 相助，快速构建搜索战略

测试时策画膨胀战略

当今膨胀测试时策画主要有两种战略：自我优化和搜索。

在自我优化中，模子识别和修订后续迭代中的失误来迭代优化我方的输出或"念念法"。

团队合计诚然此战略对某些任务灵验，但频繁条件模子具有内置的自我优化机制，这可能会限度其适用性。

搜索格式侧重于生成多个候选谜底并使用考据器选择最好谜底。

搜索战略更活泼，不错顺应问题的难度。Hugging Face 的说合主要聚焦于搜索格式，因为实用且可膨胀。

其中考据器不错是任何东西，从硬编码到可学习的奖励模子，这里将要点先容可学习的考据器。

具体来说，说合波及三种搜索战略：

Best-of-N

为每个问题生成多个反应，并使用奖励模子为每个候选谜底分派分数。选择分数最高的谜底（或加权变体），这种格式强调谜底质地而不是频率。

Beam search

一种探索贬责决议空间的系统搜索格式，频繁与过程奖励模子（PRM）相遇迎，以优化贬诽谤题中中间要领的采样和评估。与在最终谜底上产生单个分数的传统奖励模子不同，PRM 提供一系列分数，推理过程的每个要领分派一个分数。这种提供精细反馈的智力使 PRM 稀奇相宜大模子。

各样化的考据器树搜索 ( DVTS )

新开辟的 Beam search 变体，它将启动 Beam 拆分为寂然的子树，然后使用 PRM 作念贪图膨胀。这种格式不错擢升贬责决议的各样性和全体性能，尤其是在测试时算力预算较大的情况下。

实际树立：3 种搜索战略 PK

最初将数知识题提供给大模子，生成 N 个中间要领。

每个要领齐由 PRM 评分，意象每个要领最终能得出正确谜底的概率。

给定的搜索战略使用这些要领和 PRM 分数，来选择应该进一步探索哪些标的，生成下一轮中间要领。

搜索战略远隔后，PRM 将对最终候选贬责决议进行排行，以生成最终谜底。

为了比较各样搜索战略，说合中使用了以下盛开模子和数据集：

言语模子，Llama-3.2-1B-Instruct行动主要实际对象，因为轻量级模子不错快速迭代，何况在数学基准测试中性能不饱和

经过奖励模子，使用了Llama3.1-8B-PRM-Deepseek-Data，与言语模子同属一个系列，且在测试中给出了更好的恶果。

数据集，使用 MATH 基准测试的子集MATH-500，该子集由 OpenAI 发布，数知识题横跨 7 个科目，对东说念主类和大大齐模子来说齐有挑战性。

实际恶果：动态分派战略达到最优

最初，大齐投票战略比贪图解码基线有权贵创新，收益在简短 N=64 后趋于闲静。

团队合计，之是以出现这种限度，是因为大齐投票难以贬责需要细巧入微推理的问题，大略贬责几个谜底错到一块去的任务。

奖励模子加入后的战略，发扬均有擢升。

Best-of-N战略分为两种变体，原版（Vanilla）不探究谜底之间的一致性，加权版（Weighted）汇总扫数恶果调换的谜底，并选择总分数最高的。

恶果发现加权版弥远优于原版，稀奇是在算力预算大的时辰更较着，因为确保了频率较低但质地较高的谜底也能获选。

Beam Search战略终于让 1B 模子发扬早先高于 8B。

但 Beam Search 并不是万金油格式，在浮浅的问题上发扬反而不如 Best-of-N。

团队通过搜检恶果树，发现要是一个中间要领得回了高分，那么通盘树就会崩塌到这一步，影响了后续谜底的各样性。

最终，DVTS格式创新了谜底的各样性，该格式与 Beam Search 比较有以下不同之处：

关于给定的 Beam 宽度（M）和生成数目 N，启动 Beam 集设定为 N/M 个寂然子树

关于每个子树，选择 PRM 分数最高的要领

生成 M 个新的下一步，不竭选择分数最高的

重迭这个过程，直到生成 EOS token 后远隔，或达到最大深度

在对问题难度细分后，发现 DVTS 格式在 N 比较大时增强了对浮浅 / 中等难度问题的性能。

而 Beam Search 在 N 比较小时仍然发扬最好。

最终基于问题难度动态分派战略的格式不错取得最好获利。

终末团队提议，明天这项时间还有更多值得探索的场所：

更高大的考据器，擢升其郑重性和泛化智力至关紧要。

最终筹谋是结束自我考据，当今在实施中仍然难以结束，需要更细巧的战略。

在生成过程中加入明确的中间要领或 "念念法" ，通过将结构化推理整合到搜索过程中，不错在复杂任务中得回更好的性能。

搜索格式不错用于合成数据，创建高质地的磨真金不怕火数据集

盛开的经过奖励模子当今数目较少，是开源社区不错作念出关键孝顺的规模

当今的格式在数学和代码等规模发扬出色，这些问题本体上是可考据的，若何将这些时间膨胀到结构性较差或评判门径主不雅的任务，也曾一个关键挑战。

批驳区有网友示意，这种格式更相宜腹地部署，而不是 API 调用，因为调用 256 次 3B 模子和过程奖励模子，频繁会比调用一次 70B 模子更贵。

也有东说念主建议在 Qwen 系列模子上尝试，以及指路天工 Skywork 发布了两个基于 Qwen 的 PRM 模子

开源代码：

https://github.com/huggingface/search-and-learn

参考聚合：

[ 1 ] https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute

[ 2 ] https://x.com/_lewtun/status/1868703456602865880

— 完 —

点这里� � 体恤我，谨记标星哦～

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日相遇 ~

下一篇：开云kaiyun.com通过接入不同的插件来完成不同的任务-kai云体育app官方下载app最新版本-kai云体育app官方登录入口上一篇：开云kaiyun.com2020年后寰球主要经济体多遴荐了大规模的刺激计谋-kai云体育app官方下载app最新版本-kai云体育app官方登录入口

开云kaiyun并使用奖励模子为每个候选谜底分派分数-kai云体育app官方下载app最新版本-kai云体育app官方登录入口

热点资讯

相关资讯

相关资讯

热点资讯