@@ -4,7 +4,7 @@ title:   测试时计算 Test Time Scaling
44date :   2025-10-25 18:37:00 
55categories : 大模型 
66tags : openai  r1  cot 测试时 
7- excerpt : 大模型专题:测试时计算 Test Time Scaling 
7+ excerpt : 大模型专题:测试时计算 Test Time Scaling 规模法则  
88mathjax : true 
99permalink : /test_time 
1010--- 
@@ -16,6 +16,37 @@ permalink: /test_time
1616# 测试时计算  
1717
1818
19+ 【2025-2-23】[ 通俗理解Test time Scaling Law、RL Scaling Law和预训练Scaling Law] ( https://blog.csdn.net/acelit/article/details/145803399 ) 
20+ 
21+ ## Scaling Law  
22+ 
23+ 三者核心区别
24+ -  预训练:决定模型的“知识天花板”(基础能力)。
25+ -  RL阶段:决定模型的“价值观和细节”(对齐人类偏好)。
26+ -  Test Time:决定模型的“临场发挥”(如何榨干它的潜力)。
27+ 
28+ -  预训练 Scaling Law(打地基阶段), 通过堆资源(算力、数据、模型参数)让AI更聪明。核心因素:模型参数、数据量、计算资源
29+ -  RL Scaling Law(装修阶段), 基础模型上加入人类反馈训练,让AI更懂人类需求。表现依赖于模型大小、训练步数、反馈质量
30+ 
31+ Scaling Law排序
32+ -  性价比排序:Test Time > RL > Pretrain
33+ -  天花板排序:预训练 > RL > Test Time
34+ 
35+ |  维度| 排序(高→低)| 核心原因 | 
36+ |  ---| ---|  --- | 
37+ |  性价比|  Test Time > RL > 预训练 |  预训练边际成本高,Test Time和RL在现有模型上优化更高效。| 
38+ |  天花板 |  预训练 > RL > TestTime |  基座模型决定全局上限,Test Time仅局部优化。| 
39+ 
40+ 三个阶段 Scaling Law 详细比较
41+ 
42+ | 类别| 作用| 解释| 比喻| 核心因素| 规律| 特点| 示例| 
43+ | ---| ---| ---| ---| ---| ---| ---| ---| 
44+ | Pretrain| 打地基|  堆资源(算力、数据、模型参数)让AI变得更聪明 |  建房子时,地基越大、材料越多、施工时间越长,房子就能盖得越高越稳 |  模型参数(房子的“大小”):神经元越多,模型越“聪明”。<br >数据量(砖头的“数量”):喂给模型的文本越多,它学到的知识越广。<br >计算资源(施工的“时间和人力”):GPU越多、训练时间越长,模型训练得越充分。| 三者需要按比例增加。比如参数翻倍,数据量和计算资源也要翻倍,否则模型表现会“卡住”| 模型越大、数据越多、训练时间越长→效果越好(类似"书读百遍其义自见")<br >成本极高:训练GPT-4要烧几十亿美金<br >遇到瓶颈:现在数据快用完了(相当于人类把全世界的书都读完了)| 写诗机器人:只用100首诗训练一个小模型,它可能只会瞎编;但用10万首诗训练一个超大模型,它就能写出李白风格的诗。| 
45+ | RL| 装修| 基础模型上加入人类反馈训练,让AI更懂人类需求| 装修房子时,请越厉害的设计师、花越多时间调整细节,房子会越精致,但到后期提升会变慢| 模型大小(设计师的水平):模型本身越强,学到的策略越好。<br >训练步数(装修的时间):训练越久,模型越能优化细节。<br >反馈质量(业主的要求):人类反馈或奖励模型越精准,模型行为越符合预期| 初期进步快,后期边际效益递减(比如从60分提到80分容易,但从95分提到96分很难)。| 用少量高质量数据就能大幅提升逻辑推理能力<br >成本降低:可能只需要预训练1%的费用 <br >专攻"高难度考试":数学、编程等需要复杂思考的领域| 聊天机器人:初期不说脏话,后期要幽默又不冒犯人,需要花更多时间微调。| 
46+ | Test time| 使用| 模型使用时动态调配计算资源提升效果| 考试时,你花越多时间检查、用越复杂的验算方法,成绩可能越好,但效率会变低| 计算量(答题时间):比如生成答案时尝试多次(如采样多次取最优结果)。<br >技巧调整(答题策略):比如调整输出的“随机性”(温度参数)或增加搜索范围(Beam Search)| 增加计算能提升效果,但成本会飙升,且存在上限(比如从90分提到95分可能需要10倍计算量)| 创新点:<br >不改变模型本身,运行时增加思考时间或调用工具<br >性价比超高:效果提升成本是预训练的千分之一<br >支持"开卷考试":遇到难题自动联网搜索资料| GPT写小说,生成10个版本挑最好的(消耗更多算力),质量会比直接生成一个版本更高| 
47+ ||||||||| 
48+ 
49+ 
1950## 测试时扩展 TTS  
2051
2152
0 commit comments