. Information Retrieval(IR)
구조화(정리)되지 않은 필요한 정보를 가지고 있는 텍스트로 부터 무언가 소재, 재료로 쓰일 것들을 찾아내는 것
. IR에서 요구되는 것
1. 거대한 문서들을 빠르게 처리
2. 좀더 유연한 검색을 지원
3. 랭크를 통해 가장 좋은 결과 지원
. Boolean Retrieval Model
term(중요단어)와 그 문서안에 존재 유무를 가지고 Matrix를 만든다
ex)
햄릿 오델로 리어왕
시저 1 0 1
안토니 0 1 1
클레오파트라 1 1 1
만약 시저 and 안토리의 쿼리가 들어오면
101 and 011 의 연산으로 001, 즉 리어왕이 해당한다.
BUT, 이렇게 만들면 극도로 sparse한 Matrix가 되므로 공간낭비
. Inverted Index
dictionary(중요단어)와 documentID(posting)를 조합해 리스트를 만든다.
ex)
시저 -> 1 -> 2 -> 4 -> 11 -> 31 -> 45
안토니 -> 1 -> 2 -> 4 -> 5 -> 6
클레어파트라 -> 2 -> 31 -> 54
dictionary posting
dictionary : 알파벳순서대로 정리, 문서에서 해당 단어가 발견되는 데로 리스트에 문서ID를 추가
posting : 문서마다 부여된 특정ID
inverted index를 만드는 순서
1. DocID들을 모은다
2. Tokenize를 한다.
3. 언어적 처리를 한다(조사를 제거, 대명사 제거 등)
4. 인덱싱을 한다.
인덱싱하면서 frequecy를 따져서 그 단어의 중요성을 파악할수 있다.
시저&안토니, 안토니|클레오파트라 등의 boolean연산을 할때는
각각의 인텍스 리스트들을 연산하여 새로운 리스트를 임시 생성하여 처리한다.
구조화(정리)되지 않은 필요한 정보를 가지고 있는 텍스트로 부터 무언가 소재, 재료로 쓰일 것들을 찾아내는 것
. IR에서 요구되는 것
1. 거대한 문서들을 빠르게 처리
2. 좀더 유연한 검색을 지원
3. 랭크를 통해 가장 좋은 결과 지원
. Boolean Retrieval Model
term(중요단어)와 그 문서안에 존재 유무를 가지고 Matrix를 만든다
ex)
햄릿 오델로 리어왕
시저 1 0 1
안토니 0 1 1
클레오파트라 1 1 1
만약 시저 and 안토리의 쿼리가 들어오면
101 and 011 의 연산으로 001, 즉 리어왕이 해당한다.
BUT, 이렇게 만들면 극도로 sparse한 Matrix가 되므로 공간낭비
. Inverted Index
dictionary(중요단어)와 documentID(posting)를 조합해 리스트를 만든다.
ex)
시저 -> 1 -> 2 -> 4 -> 11 -> 31 -> 45
안토니 -> 1 -> 2 -> 4 -> 5 -> 6
클레어파트라 -> 2 -> 31 -> 54
dictionary posting
dictionary : 알파벳순서대로 정리, 문서에서 해당 단어가 발견되는 데로 리스트에 문서ID를 추가
posting : 문서마다 부여된 특정ID
inverted index를 만드는 순서
1. DocID들을 모은다
2. Tokenize를 한다.
3. 언어적 처리를 한다(조사를 제거, 대명사 제거 등)
4. 인덱싱을 한다.
인덱싱하면서 frequecy를 따져서 그 단어의 중요성을 파악할수 있다.
시저&안토니, 안토니|클레오파트라 등의 boolean연산을 할때는
각각의 인텍스 리스트들을 연산하여 새로운 리스트를 임시 생성하여 처리한다.
01. Boolean retrieval.pdf



