RLHF

· NLP
2023년 12월에 열린 Devfest Cloud 2023에 참가하여, Google ML Tech Lead인 Erwin Huizenga님께서 발표하셨던 How to do supervised tuning for a language model using Vertex AI 세션을 듣고 정리한 글입니다. "How to do supervised tuning for a language model using Vertex AI" 관련 시리즈 (1) Why Adapter Tuning? (2) Supervised Fine Tuning (3) RLHF (Reinforcement Learning from Human Feedback) 0. RLHF 관련 논문 [NeurIPS 2017] Deep Reinforcement Lear..
oneonlee
'RLHF' 태그의 글 목록