Skip to content

Commit e5a5f58

Browse files
authored
通俗理解Test time Scaling Law、RL Scaling Law和预训练Scaling Law
1 parent bcf4002 commit e5a5f58

File tree

1 file changed

+32
-1
lines changed

1 file changed

+32
-1
lines changed

_posts/2025-10-25-test-time-scaling.md

Lines changed: 32 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -4,7 +4,7 @@ title: 测试时计算 Test Time Scaling
44
date: 2025-10-25 18:37:00
55
categories: 大模型
66
tags: openai r1 cot 测试时
7-
excerpt: 大模型专题:测试时计算 Test Time Scaling
7+
excerpt: 大模型专题:测试时计算 Test Time Scaling 规模法则
88
mathjax: true
99
permalink: /test_time
1010
---
@@ -16,6 +16,37 @@ permalink: /test_time
1616
# 测试时计算
1717

1818

19+
【2025-2-23】[通俗理解Test time Scaling Law、RL Scaling Law和预训练Scaling Law](https://blog.csdn.net/acelit/article/details/145803399)
20+
21+
## Scaling Law
22+
23+
三者核心区别
24+
- 预训练:决定模型的“知识天花板”(基础能力)。
25+
- RL阶段:决定模型的“价值观和细节”(对齐人类偏好)。
26+
- Test Time:决定模型的“临场发挥”(如何榨干它的潜力)。
27+
28+
- 预训练 Scaling Law(打地基阶段), 通过堆资源(算力、数据、模型参数)让AI更聪明。核心因素:模型参数、数据量、计算资源
29+
- RL Scaling Law(装修阶段), 基础模型上加入人类反馈训练,让AI更懂人类需求。表现依赖于模型大小、训练步数、反馈质量
30+
31+
Scaling Law排序
32+
- 性价比排序:Test Time > RL > Pretrain
33+
- 天花板排序:预训练 > RL > Test Time
34+
35+
| 维度|排序(高→低)|核心原因 |
36+
| ---|---| --- |
37+
| 性价比| Test Time > RL > 预训练 | 预训练边际成本高,Test Time和RL在现有模型上优化更高效。|
38+
| 天花板 | 预训练 > RL > TestTime | 基座模型决定全局上限,Test Time仅局部优化。|
39+
40+
三个阶段 Scaling Law 详细比较
41+
42+
|类别|作用|解释|比喻|核心因素|规律|特点|示例|
43+
|---|---|---|---|---|---|---|---|
44+
|Pretrain|打地基| 堆资源(算力、数据、模型参数)让AI变得更聪明 | 建房子时,地基越大、材料越多、施工时间越长,房子就能盖得越高越稳 | 模型参数(房子的“大小”):神经元越多,模型越“聪明”。<br>数据量(砖头的“数量”):喂给模型的文本越多,它学到的知识越广。<br>计算资源(施工的“时间和人力”):GPU越多、训练时间越长,模型训练得越充分。|三者需要按比例增加。比如参数翻倍,数据量和计算资源也要翻倍,否则模型表现会“卡住”|模型越大、数据越多、训练时间越长→效果越好(类似"书读百遍其义自见")<br>成本极高:训练GPT-4要烧几十亿美金<br>遇到瓶颈:现在数据快用完了(相当于人类把全世界的书都读完了)|写诗机器人:只用100首诗训练一个小模型,它可能只会瞎编;但用10万首诗训练一个超大模型,它就能写出李白风格的诗。|
45+
|RL|装修|基础模型上加入人类反馈训练,让AI更懂人类需求|装修房子时,请越厉害的设计师、花越多时间调整细节,房子会越精致,但到后期提升会变慢|模型大小(设计师的水平):模型本身越强,学到的策略越好。<br>训练步数(装修的时间):训练越久,模型越能优化细节。<br>反馈质量(业主的要求):人类反馈或奖励模型越精准,模型行为越符合预期|初期进步快,后期边际效益递减(比如从60分提到80分容易,但从95分提到96分很难)。|用少量高质量数据就能大幅提升逻辑推理能力<br>成本降低:可能只需要预训练1%的费用 <br>专攻"高难度考试":数学、编程等需要复杂思考的领域|聊天机器人:初期不说脏话,后期要幽默又不冒犯人,需要花更多时间微调。|
46+
|Test time|使用|模型使用时动态调配计算资源提升效果|考试时,你花越多时间检查、用越复杂的验算方法,成绩可能越好,但效率会变低|计算量(答题时间):比如生成答案时尝试多次(如采样多次取最优结果)。<br>技巧调整(答题策略):比如调整输出的“随机性”(温度参数)或增加搜索范围(Beam Search)|增加计算能提升效果,但成本会飙升,且存在上限(比如从90分提到95分可能需要10倍计算量)|创新点:<br>不改变模型本身,运行时增加思考时间或调用工具<br>性价比超高:效果提升成本是预训练的千分之一<br>支持"开卷考试":遇到难题自动联网搜索资料|GPT写小说,生成10个版本挑最好的(消耗更多算力),质量会比直接生成一个版本更高|
47+
|||||||||
48+
49+
1950
## 测试时扩展 TTS
2051

2152

0 commit comments

Comments
 (0)