RLHF - a JianguoMAOMAO Collection

JianguoMAOMAO 's Collections

RLHF

RLHF

updated Sep 20

Language Models Learn to Mislead Humans via RLHF

Paper • 2409.12822 • Published Sep 19 • 9