预训练,就是通过海量无标注数据学习语言的统计模式和语义信息,构建通用知识基础。直白说,预训练就是阅读知识,譬如通过互联网的网页、书籍、代码、学术论文等数据源,这些是基础训练数据,规模高达数万亿token,它主要是依赖高性能的GPU集群(如数千块NVIDIA A100 GPU),训练耗时可达数月至数月以上。例如,GPT-3的训练成本约为3,640 PFLOPS,需1,000块GPU运行近一个月。然后,基于这些知识生成基础模型,具备语言生成和文本补全能力,但尚未针对特定任务优化。
有监督微调,就是通过少量高质量标注数据,使模型适应具体任务(如问答、翻译、代码生成)。这个是使用包含“提示词-理想输出”的标注数据集(如问题与答案对),进行指令微调。这个训练,资源需求就没那么大了,通常仅需数十块GPU,耗时数天就能完成,结果是生成SFT模型,具备初步的指令理解和任务执行能力,例如ChatGPT早期版本即属此类。
奖励建模,就是构建一个评估模型生成文本质量的对比模型,为后续强化学习提供反馈信号。这个环节,是使用百万量级的对比数据标注,训练二分类模型,判断不同输出的优劣。标注数据需人工参与,涉及高成本和一致性管理挑战。奖励模型本身不直接面向用户,但为强化学习阶段的参数优化提供关键指导。
强化学习,就是基于用户提示和奖励模型的反馈,优化模型生成文本的质量与人类偏好对齐。采用强化学习算法(如近端策略优化PPO),结合用户数据(数十万条提示词)和奖励模型的评估结果,调整模型参数。该阶段显著提升模型输出的准确性和实用性,但可能牺牲生成多样性。生成RL模型,如ChatGPT的最终版本,具备更强的任务适应性和用户意图理解能力
2025-12-15 11:43:34
2025-12-15 11:25:07
2025-12-15 11:20:30
2025-12-15 11:38:45
2025-12-15 12:16:41
2025-12-15 12:25:50
2025-12-15 12:09:52
2025-12-15 12:02:54
2025-12-15 12:20:45
2025-12-15 12:35:56
2025-12-14 20:48:00
2025-12-14 22:11:03
2025-12-14 22:22:27
2025-12-14 22:16:56
2025-12-14 20:56:49
2025-12-13 21:57:47
2025-12-13 23:49:21
2025-12-13 23:58:33
2025-12-13 21:48:53
2025-12-12 23:25:17
2025-12-12 22:56:32
2025-12-12 23:32:31
2025-12-12 23:10:06
2025-12-12 22:48:55
2025-12-12 23:37:50