预训练,就是通过海量无标注数据学习语言的统计模式和语义信息,构建通用知识基础。直白说,预训练就是阅读知识,譬如通过互联网的网页、书籍、代码、学术论文等数据源,这些是基础训练数据,规模高达数万亿token,它主要是依赖高性能的GPU集群(如数千块NVIDIA A100 GPU),训练耗时可达数月至数月以上。例如,GPT-3的训练成本约为3,640 PFLOPS,需1,000块GPU运行近一个月。然后,基于这些知识生成基础模型,具备语言生成和文本补全能力,但尚未针对特定任务优化。
有监督微调,就是通过少量高质量标注数据,使模型适应具体任务(如问答、翻译、代码生成)。这个是使用包含“提示词-理想输出”的标注数据集(如问题与答案对),进行指令微调。这个训练,资源需求就没那么大了,通常仅需数十块GPU,耗时数天就能完成,结果是生成SFT模型,具备初步的指令理解和任务执行能力,例如ChatGPT早期版本即属此类。
奖励建模,就是构建一个评估模型生成文本质量的对比模型,为后续强化学习提供反馈信号。这个环节,是使用百万量级的对比数据标注,训练二分类模型,判断不同输出的优劣。标注数据需人工参与,涉及高成本和一致性管理挑战。奖励模型本身不直接面向用户,但为强化学习阶段的参数优化提供关键指导。
强化学习,就是基于用户提示和奖励模型的反馈,优化模型生成文本的质量与人类偏好对齐。采用强化学习算法(如近端策略优化PPO),结合用户数据(数十万条提示词)和奖励模型的评估结果,调整模型参数。该阶段显著提升模型输出的准确性和实用性,但可能牺牲生成多样性。生成RL模型,如ChatGPT的最终版本,具备更强的任务适应性和用户意图理解能力
2025-12-07 20:59:57
2025-12-07 21:13:28
2025-12-07 21:22:03
2025-12-07 21:29:46
2025-12-07 21:39:09
2025-12-07 21:50:01
2025-12-06 23:45:40
2025-12-06 23:55:32
2025-12-06 23:52:03
2025-12-05 20:31:38
2025-12-05 23:44:58
2025-12-05 23:34:01
2025-12-05 22:14:17
2025-12-05 22:25:18
2025-12-05 22:30:37
2025-12-05 21:17:10
2025-12-05 20:48:56
2025-12-05 20:40:10
2025-12-05 12:49:53
2025-12-05 11:56:37
2025-12-05 12:27:31
2025-12-05 12:10:03
2025-12-05 12:15:01
2025-12-05 12:02:29
2025-12-05 11:46:51