Recurrent Neural Networks (RNN) $$h_t = \tanh (W_{hh}h_{t-1} + W_{xh}x_{t})$$ Backpropagation Through Time (BPTT) 기존의 신경망 구조에서는 backpropagation 알고리즘을 이용한다. RNN에서는 이를 살짝 변형시킨 버전인 Backpropagation Through Time (BPTT) 을 사용하는데, 그 이유는 각 파라미터들이 네트워크의 매 시간 스텝마다 공유되기 때문이다. 즉, 각 시간 스텝의 출력단에서의 gradient는 현재 시간 스텝에서의 계산에만 의존하는 것이 아니라 이전 시간 스텝에도 의존한다. RNN 장단점 RNN 장점 어떤 길이의 입력이라도 처리할 수 있다. 긴 길이의 입력이 들어와도, 모델의 ..
NLP
PPL (Perplexity) PPL은 언어 모델 (Language Model)을 평가하기 위한 평가 지표 중 하나로써, 언어 모델이 예측한 예측값에 대해 "얼마나 헷갈리는지에 대한 정도" 를 수치로 나타낸 것이라 이해할 수 있다. 예를 들어, PPL이 10이라면 "10만큼 헷갈리는 것" 이고, PPL이 3000이라면 "3000만큼 헷갈리는 것" 이다. 예시에서 추론할 수 있듯이, PPL은 낮을수록 언어 모델의 성능이 좋다는 것을 의미한다. Basic Notation 문장 $S$는 $N$개의 단어로 이루어짐 (문장 $S$를 이루고 있는 각각의 단어들은 $w_1, w_2, \cdots, w_N$) $P_{LM}(S) = P_{LM}(w_1, w_2, \cdots, w_N)$은 $LM$ (Language M..
Motivation Distributional semantics: 단어의 의미는 주변에서 자주 나타나는 단어에 의해 부여된다. -> Representing words by their context Notation $t$: position in the text $c$: center word $o$: context words (outside words) $P(w_{t+j}|w_{t})$: the probability of o given c (or vice versa). $\theta$: all variables to be optimized $L(\theta)$: likelihood $J(\theta)$: objective function (average negative log likelihood) Objec..
인공지능 및 자연어처리 분야에서 의미하는 "long-tail knowledge"는 무엇인가? Long-tail knowledge는 희소하고 드물게 발생하는 현상이나 정보를 가리킨다. 즉 일반적이지 않은 경우를 의미하며, 많은 데이터에서는 적게 나타나는 패턴이나 지식을 말한다, 예를 들어, 일반적인 자연어 처리 작업에서는 일상적인 문장 구조와 관련된 지식이 주로 사용되지만, long-tail knowledge는 특정 도메인이나 특수한 상황에서 필요한 드문 정보를 의미한다.
SQuAD 논문: https://arxiv.org/abs/1606.05250 홈페이지: https://rajpurkar.github.io/SQuAD-explorer/ SQuAD (The Stanford Question Answering Dataset)는 Question and Answering (Q&A)분야에서 쓰이는 데이터셋으로, 지문, 질문 그리고 답을 위키피디아와 사람들을 통해 만든 데이터이다. Q&A란 주어진 지문을 읽고 질문에 대한 올바른 답을 하는 시스템을 뜻한다. 지문을 읽고 이해하여 질문에 답을 하기에 'Machine Reading Comprehension'이라고도 불린다. 질문에 대한 답이 지문에 있기에 SQuAD는 답을 단어로 가지지 않고 지문 속 답의 위치로 가지고 있다. 이러한 영역..
Topics for Language Modeling 정렬에 관한 모든 것 미세 조정, 인스트럭션 조정, 강화 학습 (사람의 피드백 포함), 프롬프트 튜닝 및 컨텍스트 내 정렬 데이터에 관한 모든 것 (수동 또는 알고리즘 분석, 큐레이션, 생성을 통한) 사전 학습 데이터, 정렬 데이터, 합성 데이터 평가에 관한 모든 것 벤치마크, 시뮬레이션 환경, 확장 가능한 감독, 평가 프로토콜 및 메트릭, 인간 및 기계 평가 사회적 영향에 관한 모든 것 편견, 형평성, 오용, 일자리, 기후 변화 및 그 이상 안전에 관한 모든 것 보안, 개인정보 보호, 잘못된 정보, 적대적 공격 및 방어 LM의 과학 스케일링 법칙, 근본적인 한계, 새로운 기능, 신비화, 해석 가능성, 복잡성, 훈련 역학, 그루킹, LM에 대한 학습 이..
2023년 12월에 열린 Devfest Cloud 2023에 참가하여,Google ML Tech Lead인 Erwin Huizenga님께서 발표하셨던How to do supervised tuning for a language model using Vertex AI 세션을 듣고 정리한 글입니다."How to do supervised tuning for a language model using Vertex AI" 관련 시리즈(1) Why Adapter Tuning?(2) Supervised Fine Tuning(3) RLHF (Reinforcement Learning from Human Feedback)0. RLHF 관련 논문[NeurIPS 2017] Deep Reinforcement Learning fro..
2023년 12월에 열린 Devfest Cloud 2023에 참가하여,Google ML Tech Lead인 Erwin Huizenga님께서 발표하셨던How to do supervised tuning for a language model using Vertex AI 세션을 듣고 정리한 글입니다."How to do supervised tuning for a language model using Vertex AI" 관련 시리즈(1) Why Adapter Tuning?(2) Supervised Fine Tuning(3) RLHF (Reinforcement Learning from Human Feedback)1. 프롬프트 디자인의 한계 (Limitations of Prompt Design)프롬프트의 단어나 단어 ..
K-Fold Cross-Validation 개념 및 설명 K-Fold Cross Validation(교차검증) 정의 및 설명 정의- K개의 fold를 만들어서 진행하는 교차검증 사용 이유- 총 데이터 갯수가 적은 데이터 셋에 대하여 정확도를 향상시킬수 있음- 이는 기존에 Training / Validation / Test 세 개의 집단으로 분류하는 nonmeyet.tistory.com Code K-Fold Cross-Validation을 사용한 BERT 학습 https://www.kaggle.com/code/ravi02516/bert-training-5-fold-cross-validation/notebook Bert Training [5 fold cross validation] Explore and ru..
2022년 8월 현재, 개인적으로 지속적으로 업데이트가 되고 있고, 자세한 공식 문서를 제공하고, 여러 부가 기능들을 제공하는 'INCEpTION'을 추천한다.INCEpTION (구 : WebAnno)INCEpTION provides a semantic annotation platform offering intelligent annotation assistance and knowledge management. (지능적인 주석 지원을 제공하는 의미론적 주석 플랫폼)https://github.com/inception-project/inceptionhttps://inception-project.github.io/https://inception-project.github.io/documentation/docca..
Enriching Word Vectors with Subword Information RISING FASTBALL - [자연어처리][paper review] FastText: Enriching Word Vectors with Subword Information HONG YP's Data Science BLOG - [논문 스터디] FastText: Enriching Word Vectors with Subword Information FASTTEXT.ZIP: COMPRESSING TEXT CLASSIFICATION MODELS Fast Linear Model for Knowledge Graph Embeddings Linear models (Joachims, 1998) are powerful and effic..
본 글은 유원준님의 "딥 러닝을 이용한 자연어 처리 입문"의 '임베딩 벡터의 시각화(Embedding Visualization)' 파트를 참고하여 작성하였습니다. 워드 임베딩(Word Embedding)과 워드투벡터(Word2Vec)에 대한 설명은 해당 링크에서 확인하실 수 있습니다. 또한, gensim을 활용한 Word2Vec 데이터 학습 방법은 아래 링크들에서 확인할 수 있습니다. 영어/한국어 Word2Vec 실습 https://oneonlee.tistory.com/31 임베딩 프로젝터(embedding projector)는 구글이 지원하는 데이터 시각화 도구입니다. - 링크 : https://projector.tensorflow.org/ Embedding projector - visualizatio..
본 글은 유원준님의 "딥 러닝을 이용한 자연어 처리 입문"의 '영어/한국어 Word2Vec 실습' 파트를 참고하여 작성하였습니다. 워드 임베딩(Word Embedding)과 워드투벡터(Word2Vec)에 대한 설명은 해당 링크에서 확인하실 수 있습니다. Word2Vec에 입력값으로 들어갈 data는 list 형식이어야 합니다. 그것도 리스트 안에 리스트가 들어가있는 형식이어야 합니다. [[이것은, 첫번째, 문장, 입니다], [이건, 두번째, 문장, 입니다], [물론, 이것처럼, 조사가, 붙어있진, 않겠죠], [아마, 토큰화가, 되어있을, 것, 입니다]] 이제 본격적으로 Word2Vec을 훈련시켜보겠습니다. from gensim.models import Word2Vec from gensim.models i..