태터데스크 관리자

도움말
닫기
적용하기   첫페이지 만들기

태터데스크 메시지

저장하였습니다.

초보 리눅서의 이야기

Tf-idf 가중치

프로그래밍 l 2008.06.05 20:10
Tf-idf 가중치

Tf-idf(term frequency-inverse document frequency) 가중치는 언어 자료 내의 특정 문서에서 어떤 단어의 중요도를 평가하기 위해 사용되는 통계적인 수치입니다.
단어의 중요도는 문서 내에서 해당 단어가 많이 나타날수록 증가하며, 전체 언어 자료 내에서 해당 단어가 많이 나타날수록 감소합니다.
Tf-idf 가중치는 정보 검색과 텍스트 마이닝에 주로 사용되며, 검색 엔진에서 사용자 질의에 대한 문서의 유사도 순위를 정하는 데에 이 tf-idf 가중치의 변형들이 사용됩니다.

수학적인 세부 내용

주어진 문서에 대한 term frequency(단어 빈도)는 단순히 그 문서에서 해당 단어가 나타나는 횟수입니다. 그런데 이 경우, 문서의 길이가 더 길면, 해당 단어의 실제 중요도와는 상관 없이 term frequency가 더 커질 수 있습니다. 따라서, 일반적으로 특정 문서 dj에서 단어 ti의 중요도는 다음과 같이 표준화됩니다.
사용자 삽입 이미지
여기서, ni,j는 문서 dj에서 단어 ti가 나타나는 횟수이며, 분모는 문서 dj 내의 모든 단어가 나타나는 횟수입니다.

Inverse document frequency(역 문서 빈도)는 해당 단어의 일반적인 중요도를 나타내는 수치입니다. 전체 문서의 수를 해당 단어가 포함된 문서들의 수로 나눈 값에 로그를 취합니다.
사용자 삽입 이미지
여기서, | D |는 언어 자료 내의 전체 문서 숫자이며,
사용자 삽입 이미지
은 단어 ti가 등장하는 문서들의 숫자입니다.

Tf-idf 가중치는 term frequency와 inverse document frequency의 곱으로 계산됩니다.
사용자 삽입 이미지
Tf-idf 가중치는 주어진 문서에서의 term frequency가 크고, 전체 문서에서의 document frequency가 작을 수록 커집니다. 따라서, 전체 문서에서 공통적으로 등장하는 단어들은 걸러지게 됩니다.



Tf-idf 가중치를 계산하는 방법은 다양합니다.

Term frequency는 어떤 문서 내에서 특정 단어가 나타나는 횟수를 문서에 들어있는 모든 단어 수로 나눈 값입니다. 만약 100개의 단어로 이루어진 어떤 문서에 단어 cow가 세 번 등장한다면, 단어 cow의 term frequency는 0.03(3/100)입니다.

Document frequency를 계산하는 한 가지 방법은 단어 cow가 포함된 문서들의 숫자를 전체 문서의 숫자로 나누는 방법입니다. 만약, 전체 10,000,000개의 문서 중에서 단어 cow가 들어있는 문서들의 숫자가 1,000개라면, document frequency는 0.0001(1000/10,000,000)입니다.
최종 tf-idf 가중치는 term frequency를 document frequency로 나눠서 구할 수 있습니다. 예를  들어, 단어 cow의 tf-idf 가중치는 300(0.03/0.0001)입니다.

또 다른 방법은 document frequency에 로그(일반적으로 자연 로그)를 취하는 방법입니다. 이 방법을 사용하면 idf 값은 ln(10,000,000/1,000) = 9.21이 되어서 tf-idf 가중치는 0.27(0.03 * 9.21)이 됩니다.

벡터 공간 모델에서의 응용

Tf-idf 가중치는 벡터 공간 모델(Vector Space Model)에서 코사인 유사도와 함께 두 문서의 유사도를 결정하기 위해서 자주 사용됩니다.

출처 : http://en.wikipedia.org/wiki/Tf%E2%80%93idf

관련 글
2008/06/04 - [프로그래밍] - 벡터 공간 모델 (Vector Space Model)

신고
크리에이티브 커먼즈 라이선스
Creative Commons License
TAG
  1. Favicon of http://blog.studioego.info BlogIcon StudioEgo  댓글주소  수정/삭제  댓글쓰기

    정보검색 수업 들으시나 보네요. 지금 정보검색 과제는 아니지만 응용데이터베이스 과목에서 어휘분석하는 과제하는데 이 글이 나오군요.

    2008.06.05 21:02 신고
  2. Favicon of http://blog.joostory.net BlogIcon Joo  댓글주소  수정/삭제  댓글쓰기

    정보검색에서 tf/idf 알면 다 끝이라고 하셨던 교수님의 말씀이 생각나네요.
    그러고보니 갑자기 교수님이 보고싶네요. :)

    2008.06.05 23:43 신고
  3. Favicon of http://www.paydayloans2me.com/no-fax-payday-loans BlogIcon no fax payday loans  댓글주소  수정/삭제  댓글쓰기

    콘텐츠 관리가 될 운명 있던 방법입니다. 모든 웹 사이트 또는 인트라넷 디자인과 누구나 사용하고 오랫동안 그것을 즐길 정도로 간단한위한 강력한 충분 ... ... ... ... ...

    2011.12.28 16:43 신고

1 ··· 8 9 10 11 12 13 14 15 16 ··· 440 
BLOG main image
초보 리눅서의 이야기
초보 리눅서의 프로그래밍 이야기
by 초보 리눅서

카테고리

분류 전체보기 (440)
프로그래밍 (29)
Emacs (16)
Linux (109)
프로그램 (209)
기타 (77)
tistory!get rss Tistory Tistory 가입하기!

티스토리 툴바