包括强化学习 GRPO DPO 训练算法 等 RLHF SFT与CoT蒸馏等 大模型算法:强化学习 微调与对齐本书系统地讲解了大模型技术
相关推荐