본 글은 유원준님의 "딥 러닝을 이용한 자연어 처리 입문"의 '임베딩 벡터의 시각화(Embedding Visualization)' 파트를 참고하여 작성하였습니다.
워드 임베딩(Word Embedding)과 워드투벡터(Word2Vec)에 대한 설명은 해당 링크에서 확인하실 수 있습니다.
또한, gensim을 활용한 Word2Vec 데이터 학습 방법은 아래 링크들에서 확인할 수 있습니다.
임베딩 프로젝터(embedding projector)는 구글이 지원하는 데이터 시각화 도구입니다.
- 링크 : https://projector.tensorflow.org/
구글의 임베딩 프로젝터를 사용해서 워드 임베딩 모델을 시각하기 위해선, 워드 임베딩 모델로부터 2개의 .tsv 파일을 생성하여야 합니다.
워드 임베딩 모델의 이름은 kr_w2v
이라고 가정하겠습니다.
터미널 혹은 명령 프롬프트 창에 아래의 명령어를 입력해줍니다.
python -m gensim.scripts.word2vec2tensor --input 모델이름 --output 모델이름
커맨드를 수행하면 명령어가 실행되었던 기본 base 경로에, 기존에 있던 kr_w2v
이외에 두 개의 파일이 생깁니다.
새로 생긴 kr_w2v_metadata.tsv
파일과 kr_w2v_tensor.tsv
파일, 두 개의 파일이 임베딩 벡터 시각화를 위해 사용할 파일입니다.
이제 임베딩 프로젝터(embedding projector)에 접속해봅니다.
좌측 상단을 보면 Load라는 버튼이 있습니다.
Load라는 버튼을 누르면 아래와 같은 창이 뜨는데 총 두 개의 Choose file 버튼이 있습니다.
위에 있는 Choose file 버튼을 누르고 kr_w2v_tensor.tsv 파일을 업로드하고, 아래에 있는 Choose file 버튼을 누르고 kr_w2v_metadata.tsv 파일을 업로드합니다.
두 파일을 업로드하면 임베딩 프로젝터에 학습했던 워드 임베딩 모델이 시각화됩니다.
그 후에는 임베딩 프로젝터의 다양한 기능을 사용할 수 있습니다. 예를 들어 임베딩 프로젝터는 복잡한 데이터를 차원을 축소하여 시각화 할 수 있도록 도와주는 PCA, t-SNE 등을 제공합니다.
참고 논문: Embedding Projector: Interactive Visualization and Interpretation of Embeddings
https://arxiv.org/pdf/1611.05469v1.pdf
'NLP' 카테고리의 다른 글
언어모델에서 Adapter Tuning이 필요한 이유 [devfest Cloud 2023] (0) | 2023.12.10 |
---|---|
BERT 모델을 K-Fold Cross-Validation으로 학습하는 방법 (0) | 2023.10.07 |
[NLP] 무료 오픈소스 Text Annotation Tool 리스트 (0) | 2022.08.08 |
[NLP] FastText 관련 참고문헌 정리 (0) | 2022.04.25 |
[Word2Vec] gensim을 활용한 Word2Vec 데이터 학습 (0) | 2022.02.18 |