NLP

[Embedding Projector] 임베딩 벡터 시각화(Embedding Visualization)

oneonlee 2022. 2. 18. 21:08
반응형

본 글은 유원준님의 "딥 러닝을 이용한 자연어 처리 입문"의 '임베딩 벡터의 시각화(Embedding Visualization)' 파트를 참고하여 작성하였습니다.

워드 임베딩(Word Embedding)워드투벡터(Word2Vec)에 대한 설명은 해당 링크에서 확인하실 수 있습니다.

또한, gensim을 활용한 Word2Vec 데이터 학습 방법은 아래 링크들에서 확인할 수 있습니다.


임베딩 프로젝터(embedding projector)는 구글이 지원하는 데이터 시각화 도구입니다.
- 링크 : https://projector.tensorflow.org/

 

Embedding projector - visualization of high-dimensional data

Visualize high dimensional data.

projector.tensorflow.org

 

구글의 임베딩 프로젝터를 사용해서 워드 임베딩 모델을 시각하기 위해선, 워드 임베딩 모델로부터 2개의 .tsv 파일을 생성하여야 합니다.

워드 임베딩 모델의 이름은 kr_w2v이라고 가정하겠습니다.

터미널 혹은 명령 프롬프트 창에 아래의 명령어를 입력해줍니다.

python -m gensim.scripts.word2vec2tensor --input 모델이름 --output 모델이름

 

커맨드를 수행하면 명령어가 실행되었던 기본 base 경로에, 기존에 있던 kr_w2v 이외에 두 개의 파일이 생깁니다.

새로 생긴 kr_w2v_metadata.tsv 파일과 kr_w2v_tensor.tsv 파일, 두 개의 파일이 임베딩 벡터 시각화를 위해 사용할 파일입니다.


이제 임베딩 프로젝터(embedding projector)에 접속해봅니다.

좌측 상단을 보면 Load라는 버튼이 있습니다.

 

 

Load라는 버튼을 누르면 아래와 같은 창이 뜨는데 총 두 개의 Choose file 버튼이 있습니다.

 

위에 있는 Choose file 버튼을 누르고 kr_w2v_tensor.tsv 파일을 업로드하고, 아래에 있는 Choose file 버튼을 누르고 kr_w2v_metadata.tsv 파일을 업로드합니다.

 

두 파일을 업로드하면 임베딩 프로젝터에 학습했던 워드 임베딩 모델이 시각화됩니다.

 

그 후에는 임베딩 프로젝터의 다양한 기능을 사용할 수 있습니다. 예를 들어 임베딩 프로젝터는 복잡한 데이터를 차원을 축소하여 시각화 할 수 있도록 도와주는 PCA, t-SNE 등을 제공합니다. 


참고 논문: Embedding Projector: Interactive Visualization and Interpretation of Embeddings
https://arxiv.org/pdf/1611.05469v1.pdf

 

반응형