• 제목/요약/키워드: TF-IDF 가중치

검색결과 63건 처리시간 0.029초

문서 분류를 위한 용어 가중치 기법 비교 (Comparison of term weighting schemes for document classification)

  • 정호영;신상민;최용석
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.265-276
    • /
    • 2019
  • 문서-용어 빈도행렬은 텍스트 마이닝에서 분석하고자 하는 개체 정보를 가지고 있는 일반적인 자료 형태이다. 본 연구에서 문서 분류를 위해 문서-용어 빈도행렬에 적용되는 기존의 용어 가중치인 TF-IDF를 소개한다. 추가하여 최근에 알려진 용어 가중치인 TF-IDF-ICSDF와 TF-IGM의 정의와 장단점을 소개하고 비교한다. 또한 문서 분류 분석의 질을 높이기 위해 핵심어를 추출하는 방법을 제시하고자 한다. 추출된 핵심어를 바탕으로 문서 분류에 있어서 가장 많이 활용된 기계학습 알고리즘 중에서 서포트 벡터 머신을 이용하였다. 본 연구에서 소개한 용어 가중치들의 성능을 비교하기 위하여 정확률, 재현율, F1-점수와 같은 성능 지표들을 이용하였다. 그 결과 TF-IGM 방법이 모두 높은 성능 지표를 보였고, 텍스트를 분류하는데 있어 최적화 된 방법으로 나타났다.

한국어 정보검색에서의 복합명사 가중치 부여 방법 및 평가 (Weighting Methods and their Evaluations for Compound Nouns in Korean Text Retrieval)

  • 김지영;맹성현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.157-162
    • /
    • 2001
  • 한국어의 경우 띄어쓰기의 자유로움과 명사들이 비교적 자유롭게 결합하여 새로운 복합명사(compound noun)를 형성한다. 따라서, 정보검색에서 복합명사를 적절하게 처리하게 되면 검색 효율을 향상시킬 수 있다. 본 논문에서는 질의에 포함된 단일명사, 복합명사, 그리고 복합명사를 이루는 구성명사의 적절한 가중치 부여 방법에 대하여 기술한다. 일반적인 tf*idf가중치 방법은 문서 내 빈도수(tf)만을 강조하여 문서 내 발생빈도가 낮은 복합명사의 경우 낮은 가중치를 갖는다. 반대로, 역문헌 빈도수(idf)로 인해 복합명사가 단일명사보다 높은 가중치를 갖게 되면 단일명사의 가중치를 지나치게 떨어뜨려 검색 성능을 저하시킨다. 이런 문제를 해결하기 위해서 복합명사의 통계적인 특성을 고려하고, 복합명사를 이루는 구성명사의 적절한 가중치 사용과 tf*idf 변화 범위에 따른 파라메터를 이용하였다. 결과적으로 본 논문에서는 질의 색인어의 종류에 따라 가중치를 달리 부여함으로써 검색 성능을 향상시킬 수 있는 가중치 부여 방법을 제시하고 검증 실험을 통해 유효성을 제시했다는 점에서 그 의의가 있다고 하겠다.

  • PDF

환경 빅데이터 이슈 분석을 위한 용어 가중치 기법 비교 (Comparison of Term-Weighting Schemes for Environmental Big Data Analysis)

  • 김정진;정한석
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.236-236
    • /
    • 2021
  • 최근 텍스트와 같은 비정형 데이터의 생성 속도가 급격하게 증가함에 따라, 이를 분석하기 위한 기술들의 필요성이 커지고 있다. 텍스트 마이닝은 자연어 처리기술을 사용하여 비정형 텍스트를 정형화하고, 문서에서 가치있는 정보를 획득할 수 있는 기법 중 하나이다. 텍스트 마이닝 기법은 일반적으로 각각의 분서별로 특정 용어의 사용 빈도를 나타내는 문서-용어 빈도행렬을 사용하여 용어의 중요도를 나타내고, 다양한 연구 분야에서 이를 활용하고 있다. 하지만, 문서-용어 빈도 행렬에서 나타내는 용어들의 빈도들은 문서들의 차별성과 그에 따른 용어들의 중요도를 나타내기 어렵기때문에, 용어 가중치를 적용하여 문서가 가지고 있는 특징을 분류하는 방법이 필수적이다. 다양한 용어 가중치를 적용하는 방법들이 개발되어 적용되고 있지만, 환경 분야에서는 용어 가중치 기법 적용에 따른 효율성 평가 연구가 미비한 상황이다. 또한, 환경 이슈 분석의 경우 단순히 문서들에 특징을 파악하고 주어진 문서들을 분류하기보다, 시간적 분포도에 따른 각 문서의 특징을 반영하는 것도 상대적으로 중요하다. 따라서, 본 연구에서는 텍스트 마이닝을 이용하여 2015-2020년의 서울지역 환경뉴스 데이터를 사용하여 환경 이슈 분석에 적합한 용어 가중치 기법들을 비교분석하였다. 용어 가중치 기법으로는 TF-IDF (Term frequency-inverse document frquency), BM25, TF-IGM (TF-inverse gravity moment), TF-IDF-ICSDF (TF-IDF-inverse classs space density frequency)를 적용하였다. 본 연구를 통해 환경문서 및 개체 분류에 대한 최적화된 용어 가중치 기법을 제시하고, 서울지역의 환경 이슈와 관련된 핵심어 추출정보를 제공하고자 한다.

  • PDF

메타데이터를 활용한 조사자료의 문서범주화에 관한 연구 (An Exploratory Study on Survey Data Categorization using DDI metadata)

  • 박자현;송민
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2012년도 제19회 학술대회 논문집
    • /
    • pp.73-76
    • /
    • 2012
  • 본 연구는 DDI 메타데이터를 활용하여 귀납적 학습모델(supervised learning model)의 문서범주화 실험을 수행함으로써 조사자료의 체계적이고 효율적인 분류작업을 설계하는데 그 목적이 있다. 구체적으로 조사자료의 DDI 메타데이터를 대상으로 단순 TF 가중치, TF-IDF 가중치, Okapi TF 가중치에 따른 나이브 베이즈(Naive Bayes), kNN(k nearest neighbor), 결정트리(Decision tree) 분류기의 성능비교 실험을 하였다. 그 결과, 나이브 베이즈가 가장 좋은 성능을 보였으며, 단순 TF 가중치와 TF-IDF 가중치는 나이브 베이즈, kNN, 결정트리 분류기에서 동일한 성능을 보였으나, Okapi TF 가중치의 경우 나이브 베이즈에서 가장 좋은 성능을 보였다.

  • PDF

유즈넷 정보검색시스템에서 단어 가중치 적용방법에 관한연구 (Research of Term-Weighting Method in an Usenet Information Retrieval System)

  • 최재덕;최진석;박민식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (1)
    • /
    • pp.339-341
    • /
    • 1998
  • 다양한 정보교환 수단의 하나인 유즈넷은 방대한 정보량을 가진다. 사용자는 유즈넷에서 필요한 정보를 쉽게 찾지 못하므로 뉴스그룹 전체와 본문에서 정보 검색의 필요성을 인식하고 있다. 이 논문에서는 정보검색시스템을 유즈넷으로 확장시 단어 가중치 적용방법의 개선을 통해 검색효율을 향상시키고자 한다. 정보검색에서 단어의 중요도에 영향을 미치는 tf, idf 이외의 다른 요소인 카테고리빈도(category frequency, cf)를 활용하여 tf*idf방법에 역카테고리빈도(inverted categoary frequency, icf)를 고려한 유사도 계산 방법을 제시하고 이를 검증하였다. 실험 결과에서 상위 30위 내의 평균 적합문서의 수가 tf*{{{{ SQRT {idf$^2$+icf$^2$} }}}}방법이 tf*idf 방법보다 4.6% 향상됨을 알 수 있다.

Okapi BM25 단어 가중치법 적용을 통한 문서 범주화의 성능 향상 (A Research on Enhancement of Text Categorization Performance by using Okapi BM25 Word Weight Method)

  • 이용훈;이상범
    • 한국산학기술학회논문지
    • /
    • 제11권12호
    • /
    • pp.5089-5096
    • /
    • 2010
  • 문서 범주화는 정보검색 시스템의 중요한 기능중의 하나로 문서들을 어떤 기준에 의해 그룹화를 하는 것을 말한다. 범주화의 일반적인 방법은 대상 문서에서 중요한 단어들을 추출하고 가중치를 부여한 후에 분류 알고리즘에 따라 문서를 분류한다. 따라서 성능과 정확성은 분류 알고리즘에 의해 결정됨으로 알고리즘의 효율성이 중요하다. 본 논문에서는 단어 가중치 계산 방법을 개선하여 문서분류 성능을 향상시키는 것을 소개하였다. Okapi BM25 단어 가중치법은 일반적인 정보검색분야에서 사용되어 검색 결과에 좋은 결과를 보여주고 있다. 이를 적용하여 문서 범주화에서도 좋은 성능을 보이는지를 실험하였다. 비교한 단어 가중치법에는 가장 일반적인 TF-IDF법와 문서분류에 최적화된 가중치법 TF-ICF법, 그리고 문서요약에서 많이 사용되는 TF-ISF법을 이용하여 4가지 가중치법에 따라 결과를 측정하였다. 실험에 사용한 문서로는 Reuter-21578 문서를 사용하였으며 분류기 알고리즘으로는 Support Vector Machine(SVM)와 K-Nearest Neighbor(KNN)알고리즘을 사용하여 실험하였다. 사용된 가중치법 중 Okapi BM25 법이 가장 좋은 성능을 보였다.

공통 Phrase의 관계 그래프와 Suffix Tree 문서 모델을 이용한 문서 군집화 기법 (Document Clustering with Relational Graph Of Common Phrase and Suffix Tree Document Model)

  • 조윤호;이상근
    • 한국콘텐츠학회논문지
    • /
    • 제9권2호
    • /
    • pp.142-151
    • /
    • 2009
  • 기존의 문서 군집화 기법 NSTC은 문서 군집화 과정 내에서 TF-IDF를 이용하여 문서간 유사도를 측정한다. 본 논문에서는 TF-IDF가 아닌, 공통 Phrase의 관계 그래프를 이용한 새로운 문서간 유사도 측정을 제안한다. 이 방법은 문서 집합 내의 공통 Phrase들의 관계를 나타낸 관계 그래프를 통해 공통 Phrase의 가중치를 부여하는 방법을 제시한다. 또한 실험을 통해 NSTC와 비교하여 본 논문에서 제안한 문서간 유사도 측정 기법이 문서 군집화에 더욱 효과적임을 보였다.

검색 질의 확장을 위한 인기도 기반 단어 가중치 측정 (A Term Weight Mensuration based on Popularity for Search Query Expansion)

  • 이정훈;전서현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권8호
    • /
    • pp.620-628
    • /
    • 2010
  • 인터넷의 활용이 보편화 됨에 따라 사람들이 많은 정보를 웹을 통해 접할 수 있게 되었다. 정보의 양이 급격히 늘어나면서 검색 엔진은 사용자가 필요로 하지 않는 정보까지 보여주는 검색 성능의 한계를 가져왔다. 따라서 사용자는 원하는 정보를 검색하기 위해 과거보다 더 많은 시간과 노력이 필요하게 되었다. 이 연구에서는 질의 확장을 이용하여 사용자가 필요로 하는 정확한 정보를 신속하게 찾아서 제공할 수 있는 방법을 제안한다. 제안된 단어 가중치 평가방법은 검색 주제의 변동 없이 하나의 검색 주제를 검색할 경우 TF-IDF 또는 단순 인기도 측정법 보다 우수한 성능을 보인다. 또한 검색 중 주제를 변경하였을 때에도 검색 주제 변경 전과 유사한 성능으로 기존의 측정법 보다 빠르게 새로운 주제와 관련된 단어를 추출하고 정확한 가중치를 측정한다.

소셜 네트워크 환경에서 변형된 TF-IDF를 이용한 핫 토픽 예측 기법 (Hot Topic Prediction Scheme Using Modified TF-IDF in Social Network Environments)

  • 노연우;임종태;복경수;유재수
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권4호
    • /
    • pp.217-225
    • /
    • 2017
  • 최근 실시간으로 생성되는 대용량의 SNS 데이터로부터 유의미한 정보를 찾아내고 분석하는 것이 중요해지면서 핫 토픽 예측에 대한 관심도 크게 증가하고 있다. 기존 핫 토픽 검출 기법은 시간적 속성을 고려하지 않기 때문에 빠르게 변화하는 사회에서 이슈화되는 핫 토픽을 예측하기에는 부적합하다. 본 논문에서는 소셜 네트워크 환경에서 변형된 TF-IDF를 통한 핫 토픽 예측 기법을 제안한다. 변형된 TF-IDF을 이용하여 과거의 IDF 값에 대한 현재의 IDF값의 비율로 순간적으로 이슈화되는 후보 키워드 집합을 추출한다. 추출된 후보 키워드에 사용자의 영향력과 전문성을 고려한 가중치를 부여하여 핫 토픽예측 지수를 계산한다. 제안하는 기법의 우수성을 보이기 위해 기존의 핫 토픽 검출 기법과의 성능평가를 수행한다. 또한 제안하는 기법이 핫 토픽을 정확히 예측하는지를 보이기 위해 네이버 한글 뉴스 기사를 통한 핫 토픽 예측 기법의 질을 평가한다.

RTFIDF·VT: 트윗의 다양성을 고려한 새로운 TF-IDF 알고리즘 (RTFIDF·VT: a New TF-IDF Algorithm considered Variety of Tweets)

  • 오평화;김석중;윤진영;임준엽;황병연
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1241-1244
    • /
    • 2013
  • 스마트 폰의 보급으로 웹 접근성이 향상되면서 모바일을 기반으로 성장한 소셜 네트워크 서비스들은 폭발적인 사용자 증가를 이루었다. 그중에서도 트위터는 개방적인 사용자간 네트워크 연결 방식과 강력한 전파능력으로 사용자 개개인이 정보를 생산하고 소비하는 소셜 저널리즘의 형태를 띠며 영향력을 더해가고 있다. 이에 트위터를 이용해 이벤트를 탐지하고자 하는 연구들이 활발히 진행되고 있다. 그러나 이벤트를 탐지할 때 기존의 TF-IDF 알고리즘을 적용할 경우 트위터의 특징을 적절히 반영하지 못하는 문제점이 있다. 본 논문에서는 기존의 TF-IDF 알고리즘에 트위터의 특징을 반영하도록 가중치를 변형하고 여기에 다시 보정계수를 적용하여 새로운 TF-IDF 알고리즘을 제안하였으며 두 번의 이벤트에 적용한 실험을 통해 새로운 알고리즘의 성능향상을 보였다.