2023년 12월에 열린 Devfest Cloud 2023에 참가하여, Google ML Tech Lead인 Erwin Huizenga님께서 발표하셨던 How to do supervised tuning for a language model using Vertex AI 세션을 듣고 정리한 글입니다. "How to do supervised tuning for a language model using Vertex AI" 관련 시리즈 (1) Why Adapter Tuning? (2) Supervised Fine Tuning (3) RLHF (Reinforcement Learning from Human Feedback) 0. RLHF 관련 논문 [NeurIPS 2017] Deep Reinforcement Lear..
DevFest Cloud 2023
2023년 12월에 열린 Devfest Cloud 2023에 참가하여,Google ML Tech Lead인 Erwin Huizenga님께서 발표하셨던How to do supervised tuning for a language model using Vertex AI 세션을 듣고 정리한 글입니다."How to do supervised tuning for a language model using Vertex AI" 관련 시리즈(1) Why Adapter Tuning?(2) Supervised Fine Tuning(3) RLHF (Reinforcement Learning from Human Feedback)1. 프롬프트 디자인의 한계 (Limitations of Prompt Design)프롬프트의 단어나 단어 ..