Get our free extension to see links to code for papers anywhere online!Free add-on: code for papers everywhere!Free add-on: See code for papers anywhere!

Add to Chrome

Add to Firefox

Add to Edge

Rodrigo Martínez-Castaño

Cross-lingual Transfer of Reward Models in Multilingual Alignment

Oct 23, 2024

Jiwoo Hong, Noah Lee, Rodrigo Martínez-Castaño, César Rodríguez, James Thorne

Figure 1 for Cross-lingual Transfer of Reward Models in Multilingual Alignment

Figure 2 for Cross-lingual Transfer of Reward Models in Multilingual Alignment

Figure 3 for Cross-lingual Transfer of Reward Models in Multilingual Alignment

Figure 4 for Cross-lingual Transfer of Reward Models in Multilingual Alignment

Abstract:Reinforcement learning with human feedback (RLHF) is shown to largely benefit from precise reward models (RMs). However, recent studies in reward modeling schemes are skewed towards English, limiting the applicability of RLHF in multilingual alignments. In this work, we investigate the cross-lingual transfer of RMs trained in diverse languages, primarily from English. Our experimental results demonstrate the strong cross-lingual transfer of English RMs, exceeding target language RMs by 3~4% average increase in Multilingual RewardBench. Furthermore, we analyze the cross-lingual transfer of RMs through the representation shifts. Finally, we perform multilingual alignment to exemplify how cross-lingual transfer in RM propagates to enhanced multilingual instruction-following capability, along with extensive analyses on off-the-shelf RMs. We release the code, model, and data.

Via

Access Paper or Ask Questions