Skip to content

태그: embedding

총 2개의 글이 있습니다.

embedding and chunking

Long-Context Embedding 임베딩 모델 입력에 문서 텍스트를 최대한 많이 넣는다고 검색 정확도가 떨어지지는 않는다. 다만 long-context 임베딩 모델은 문서 앞부분에 집중하는 경향이 있다. 제목이나 소개 같은 핵심 내용이 앞에 오기 때문인데, 문서 중간 내용을 놓칠 수 있다는 단점이 있다. Naive Chunking 문서가 여러 주제를 다루거나, 사용자 쿼리가 문서 내 특정 정보를 대상으로 하는 경우 청킹을 적용하면 일반적으로 검색 성능이 향상된다. 결국 분할 결정은 여러 요소에 따라 달라진다. 사용자에게 부분 텍스트를 표시해야 하는 경우(예: Google이 검색 결과 미리보기에서 관련 구절을 보여주는 것)에는 분할이 필수적이다. 반면, 컴퓨팅 및 메모리 제약 상황에서는 검색 오버헤드와

임베딩은 자연어의 통계적 패턴을 숫자 벡터로 바꾼 결과이다. 고려하는 정보 임베딩을 만들 때 쓰는 통계 정보는 크게 세 가지가 있다. 첫째는 문장에 어떤 단어가 많이 쓰였는지이고, 둘째는 단어가 어떤 순서로 등장하는지이며, 마지막은 문장에 어떤 단어가 같이 나타났는지와 관련한 정보다. 백오브워즈(bag of words) 가정 수학에서 bag이란 중복 원소를 허용한 집합을 뜻한다. 백오브워즈 가정에서는 어떤 단어가 많이 쓰였는지 정보를 중시하고, 단어의 등장 순서는 무시한다. 단어 빈도 또는 등장 여부를 그대로 임베딩을 쓰는 것은 문서의 주제를 반영하지 못 할 수도 있다는 단점이 있다. (e.g. 은, 는과 같은 조사는 문서의 주제와 상관 없이 자주 등장) 이러한 단점을 보환하기 위해 TF-IDF(Ter