One Only

[논문리뷰] Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity

2024.04.23· Paper Review

(NAACL 2024) Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity arXiv : https://arxiv.org/abs/2403.14403 code : https://github.com/starsuzi/Adaptive-RAG 1. Introduction 논문이 다루는 task Open-Domain Question-Answering task with RAG (Retrieval-Augmented Generator) Single-hop QA: 한 문서만 필요한 질문에 답하는 것 Multi-hop QA: 질문과 함께 거대한 지식 말뭉치(corpus)가 주어졌을 때 답을 찾기..

[알고리즘] P-NP, NP-hard, NP-complete

2024.04.09· Computer Science/Algorithm

P vs. NP vs. NP-hard vs. NP-complete P 다항시간 내에 풀 수 있는 문제 또는 다차시간 알고리즘을 찾은 문제 NP 다항시간 내에 답이 맞았는지 틀렸는지 확인해줄 수 있는 문제 (verification) 또는 다루기 힘들다고 증명되지 않았고, 다차시간 알고리즘도 찾지 못한 문제 NP-hard 아무리 답을 추측해도 그 답이 맞았는지 틀렸는지 확인이 어려운 문제 (예 : 최적화 문제) NP-complete NP-hard임과 동시에 NP인 문제, 즉 모든 NP 문제를 Polynomial-Time Reduction (다항식 시간 변환)시킨 문제가 다시 NP가 될 때, 그 문제를 'NP-complete 문제'라고 부른다. NP-hard NP-hard에 속하는 문제는? 모든 NP-comp..

RNN & LSTM (Vanishing Gradient, Exploding Gradient)

2024.04.08· NLP

Recurrent Neural Networks (RNN) $$h_t = \tanh (W_{hh}h_{t-1} + W_{xh}x_{t})$$ Backpropagation Through Time (BPTT) 기존의 신경망 구조에서는 backpropagation 알고리즘을 이용한다. RNN에서는 이를 살짝 변형시킨 버전인 Backpropagation Through Time (BPTT) 을 사용하는데, 그 이유는 각 파라미터들이 네트워크의 매 시간 스텝마다 공유되기 때문이다. 즉, 각 시간 스텝의 출력단에서의 gradient는 현재 시간 스텝에서의 계산에만 의존하는 것이 아니라 이전 시간 스텝에도 의존한다. RNN 장단점 RNN 장점 어떤 길이의 입력이라도 처리할 수 있다. 긴 길이의 입력이 들어와도, 모델의 ..

[정보이론] Entropy, Cross Entropy, KL Divergence

2024.04.05· Artificial Intelligence

참고하면 좋은 자료 : KL divergence - 공돌이의 수학정리노트 KL divergence - 공돌이의 수학정리노트 (Angelo's Math Notes) angeloyeo.github.io Entropy Entropy는 정보 이론에서 사용되는 개념 중 하나로, 어떤 확률 분포가 가지는 정보의 평균적인 양을 나타내는 값이다. 정보량이 많을수록 Entropy 값은 높아지며, 정보량이 적을수록 Entropy 값은 낮아진다. (엔트로피가 크다 = 무질서도가 크다 = 예측 불가능) $$H(X) = - \sum_{i=1}^{n} P(x_i) \log_{2} P(x_i)$$ 여기서 $P(x)$는 확률 분포를 나타낸다. Examples 엔트로피를 이해하기 위해 동전 던지기의 예를 고려할 수 있다. 공정한 동전..

PPL (Perplexity)

2024.04.05· NLP

PPL (Perplexity) PPL은 언어 모델 (Language Model)을 평가하기 위한 평가 지표 중 하나로써, 언어 모델이 예측한 예측값에 대해 "얼마나 헷갈리는지에 대한 정도" 를 수치로 나타낸 것이라 이해할 수 있다. 예를 들어, PPL이 10이라면 "10만큼 헷갈리는 것" 이고, PPL이 3000이라면 "3000만큼 헷갈리는 것" 이다. 예시에서 추론할 수 있듯이, PPL은 낮을수록 언어 모델의 성능이 좋다는 것을 의미한다. Basic Notation 문장 $S$는 $N$개의 단어로 이루어짐 (문장 $S$를 이루고 있는 각각의 단어들은 $w_1, w_2, \cdots, w_N$) $P_{LM}(S) = P_{LM}(w_1, w_2, \cdots, w_N)$은 $LM$ (Language M..

Word Vectors

2024.04.01· NLP

Motivation Distributional semantics: 단어의 의미는 주변에서 자주 나타나는 단어에 의해 부여된다. -> Representing words by their context Notation $t$: position in the text $c$: center word $o$: context words (outside words) $P(w_{t+j}|w_{t})$: the probability of o given c (or vice versa). $\theta$: all variables to be optimized $L(\theta)$: likelihood $J(\theta)$: objective function (average negative log likelihood) Objec..

전체 글

티스토리툴바