[NAACL 2024]: 华科大认知计算与智能信息处理实验室22级研究生李文迪同学的论文被全文录用!

来源: 浏览量: 日期:2024-03-17

 

2024年国际计算语言学协会北美分会年会全文录用CCIIP实验室22级研究生李文迪同学(导师:魏巍)的论文“Reinforcement Learning with Token-level Feedback for Controllable Text Generation”为Findings2024年国际计算语言学协会北美分会年会(NAACL 2024)计划于2024716-721日在墨西哥召开。NAACLCCF推荐的B类国际学术会议,在自然语言处理领域享有较高的学术声誉。

标题:Reinforcement Learning with Token-level Feedback for Controllable Text Generation NAACL 2024 Findings

作者:Wendi Li, Wei Wei*, Kaihe Xu, Wenfeng Xie, Dangyang Chen, Yu Cheng

内容简介:针对大型语言模型(LLM)文本生成可控性问题,先前研究试图将强化学习(RL)引入文本可控生成过程,然而当前RL方法通常以粗粒度(句子/段落级别)反馈为指导,但句子语义通常存在递进或转折,因此仅依赖粗粒度指导往往导致次优性能问题。为解决该问题,提出了一种新的强化学习算法TOLE,通过利用贝叶斯公式推导出TOken-Level的奖励,并采用先分段后加噪范式来增强强化学习鲁棒性,此外TOLE可以以极小代价灵活扩展到多个约束。实验结果表明,所提算法在单属性控制和多属性控制任务中均能取得优异性能。

1 TOLE算法框架:1)通过奖励模型(通常可用特征分类器代理)计算出单个token对对应期望属性贡献;(2)在多重约束下,利用轻量级weigher权衡多个奖励模型间权重以计算最终奖励;(3)对于单个token奖励,将全局奖励分段并在段内进行随机扰动,并与KL散度/概率熵值同时迭代学习