重新思考大语言模型中的调优与对齐

Journal: Digital Economy and Information Technology Application Research DOI: 10.12238/deitar.v1i2.6554

文木源

GPT DESK PTE LTD

Abstract

调优大语言模型面临两大挑战：数据质量和遗忘问题。首先,模型的性能极大地受到训练数据质量的影响。低质量数据导致的问题可以通过提高对齐数据的质量来缓解,例如通过更好的数据清洗、采购高质量数据集或使用迭代优化的半监督学习技术。其次,大语言模型面临的遗忘问题,即在针对新任务进行微调时,模型可能会忘记之前学到的信息。虽然提出了如弹性权重合并(EWC)和渐进神经网络等技术,但这些解决方案并不完美。为了应对这些挑战,提出了迭代改进模型和超越两阶段训练的概念。迭代模型训练方法涉及数据集和模型之间的循环相互改进,这可以使模型和数据集随时间不断优化。而超越两阶段训练,则建议采用持续完善数据和模型参数的迭代方法,其中模型的输出用于为下一阶段的数据管理提供信息。OpenChat框架,配备了条件化强化学习微调(C-RLFT),是微调语言模型的一个例子。这个框架利用混合质量数据进行微调,结合最大似然估计(MLE)和强化学习(RL),以提高模型的预测能力和自适应能力。OpenChat旨在通过类别条件和粗粒度奖励来完善模型的预测能力,同时生成更符合人类偏好的“人类的语言”。总体来看,OpenChat框架代表了向更复杂、更细致和更有效的语言模型训练迈出的关键一步,旨在处理各种数据质量并生成更可靠和通用的语言模型。

Keywords

数据质量；遗忘问题；迭代改进；双阶段训练；条件化强化学习微调；OpenChat框架

Full Text

PDF - Viewed/Downloaded: 0 Times

Indexation

Download Index Record

References

[1] Zheng,Rui,etal.”Secrets of RLHF in large language models part I:PPO.”arXiv preprint arXiv:2307.04964(2023).
[2] https://arxiv.org/abs/2309.11235.

Citing this article:

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License