2023년 12월에 열린 Devfest Cloud 2023에 참가하여,Google ML Tech Lead인 Erwin Huizenga님께서 발표하셨던How to do supervised tuning for a language model using Vertex AI 세션을 듣고 정리한 글입니다."How to do supervised tuning for a language model using Vertex AI" 관련 시리즈(1) Why Adapter Tuning?(2) Supervised Fine Tuning(3) RLHF (Reinforcement Learning from Human Feedback)0. RLHF 관련 논문[NeurIPS 2017] Deep Reinforcement Learning fro..
DevFest Cloud 2023
2023년 12월에 열린 Devfest Cloud 2023에 참가하여,Google ML Tech Lead인 Erwin Huizenga님께서 발표하셨던How to do supervised tuning for a language model using Vertex AI 세션을 듣고 정리한 글입니다."How to do supervised tuning for a language model using Vertex AI" 관련 시리즈(1) Why Adapter Tuning?(2) Supervised Fine Tuning(3) RLHF (Reinforcement Learning from Human Feedback)1. 프롬프트 디자인의 한계 (Limitations of Prompt Design)프롬프트의 단어나 단어 ..