• Title/Summary/Keyword: 단순가중치방법

Search Result 154, Processing Time 0.026 seconds

Weighting Methods for Compound Nouns in Patent Retrieval System (특허 문헌 검색에서 복합명사 가중치 부여 방법)

  • 손기준;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.895-897
    • /
    • 2004
  • 문서 검색 시스템에서 특정 주지에 관한 문서를 검색하기 위한 색인어의 가중치 부여 방법으로 단순빈도와 역문헌빈도에 의한 가중치 부여 방법을 주로 이용한다 하지만 빈도 정보만을 이용한 방법은 성능 및 정확도의 향상에 한계가 있다. 이에 본 논문에서는 특허 문헌 검색 시스템의 검색 효율을 높이기 위해 자주 출현하는 복합명사의 재출현 양상과 복합명사의 역할변화에 따른 가중치 부여 방법을 제안한다 본 연구에서 제안한 가중치 부여 방법을 이용하여 실험한 결과 단순빈도와 역문헌빈도 정보를 이용한 방법보다 더 나은 성능을 보였다 .

  • PDF

A Disambiguation and Weighting Method using Mutual Information for Query Translation in Korean-to-English Cross-Language IR (한-영 교차언어 정보검색에서 상호정보를 이용한 질의 변환 모호성 해소 및 가중치 부여 방법)

  • Jang, Myung-Gil;Myaeng, Sung-Hyon;Park, Se-Young
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.55-62
    • /
    • 1999
  • 교차언어 문서검색에서는 단일언어 문서 상황을 만들기 위하여 질의나 문서를 다른 언어로 변환하게 되는데, 일반적으로 간단하면서도 실용적인 질의 변환의 방법을 주로 사용하고 있다. 하지만 단순한 대역 사전을 사용한 질의 변환의 경우에 변환 모호성 때문에 40% 이상의 검색 효과의 감소를 가져온다. 본 논문에서는 이러한 변환 모호성을 해결하기 위하여 대역 코퍼스로부터 추출한 상호 정보를 이용하는 단순하지만 효과적인 사전 기반 질의 변환 방법을 제안한다. 본 연구에서는 변환 모호성으로 발생한 다수의 후보들에서 가장 좋은 후보를 선택하는 모호성 해소 뿐 아니라 후보 단어들에 적절히 가중치를 부여하는 방법을 사용한다. 본 질의 변환 방법은 단순히 가장 큰 상호 정보의 단어를 선택하여 모호성 해소만을 적용하는 방법과 Krushall의 최소 스패닝 트리 구성과 유사한 방법으로 상호 정보가 큰 순서대로 간선들을 연결하여 모호성 해소와 가중치 부여를 적용하는 방법들과 질의 변환의 검색 효과를 비교한다. 본 질의 변환 방법은 TREC-6 교차언어 문서검색 환경의 실험에서 단일 언어 문서검색의 경우의 85%, 수작업 모호성 해소의 경우의 96%에 도달하는 성능을 얻었다.

  • PDF

The eight decision which it follows in XML tag classification (XML 태그 분류에 따른 가중치 결정)

  • Jeong, Hye-Jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.703-706
    • /
    • 2007
  • 보다 효과적인 색인어 추출 및 색인어 가중치 결정을 위하여 문서의 내용뿐 아니라 구조를 이용하여 색인을 추출하는 연구가 이루어지고 있는데, 대부분의 연구들이 XML 태그의 중요도가 아닌, 문맥상의 단락에 대한 중요도를 계산하는게 일반적이다. 이러한 기존 연구들은 대부분이 객관적인 실험을 통해서 중요도를 입증하기보다는 상식적인 관점에서 단순한 수치로 중요도를 결정하고 있다. 본 논문에서는 웹 문서 관리를 위한 표준으로 자리잡아가고 있는 XML 문서의 태그 정보를 이용한 자동색인을 위하여, 논문을 구성하는 주요 태그를 중요도에 따라 분류하고, 낮은 태그에서 추출된 용어 가중치를 계산하고, 그 가중치로 높은 가중치의 태그에서 추출된 용어의 가중치를 갱신해 가면서 최종 가중치를 계산하는 방법을 제안한다. 보다 객관적인 가중치 결정을 위하여 사용자가 중요하게 생각하는 태그를 실험해 보고 그에 따라 중요도를 분류하여 가중치 계산에 반영한다. 그리고 기존 태그 중요도 결정 방법을 적용하여 계산된 색인어 가중치를 이용한 검색성능과 비교함으로써 본 논문에서 제안한 방법을 적용하여 계산된 색인어 가중치의 효과를 검증한다.

  • PDF

Weighted Bayesian Automatic Document Categorization Based on Association Word Knowledge Base by Apriori Algorithm (Apriori알고리즘에 의한 연관 단어 지식 베이스에 기반한 가중치가 부여된 베이지만 자동 문서 분류)

  • 고수정;이정현
    • Journal of Korea Multimedia Society
    • /
    • v.4 no.2
    • /
    • pp.171-181
    • /
    • 2001
  • The previous Bayesian document categorization method has problems that it requires a lot of time and effort in word clustering and it hardly reflects the semantic information between words. In this paper, we propose a weighted Bayesian document categorizing method based on association word knowledge base acquired by mining technique. The proposed method constructs weighted association word knowledge base using documents in training set. Then, classifier using Bayesian probability categorizes documents based on the constructed association word knowledge base. In order to evaluate performance of the proposed method, we compare our experimental results with those of weighted Bayesian document categorizing method using vocabulary dictionary by mutual information, weighted Bayesian document categorizing method, and simple Bayesian document categorizing method. The experimental result shows that weighted Bayesian categorizing method using association word knowledge base has improved performance 0.87% and 2.77% and 5.09% over weighted Bayesian categorizing method using vocabulary dictionary by mutual information and weighted Bayesian method and simple Bayesian method, respectively.

  • PDF

Document Classification using Weighted Associative Classifier (가중치가 부여된 연관 규칙을 이용한 문서 분류)

  • 김흥남;이기성;조근식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.154-156
    • /
    • 2003
  • 인터넷의 급속한 성장과 더불어 많은 정보와 데이터들을 인터넷을 통하여 얻을 수 있게 되었으며 많은 단체들이 문서들을 웹을 통하여 이용 가능하게 만들고 있다. 이에 따라 다양한 정보와 데이터를 효과적으로 분류하고 검색하는 문서 분류 (Document Classification)에 대한 알고리즘이 다양한 분야에서 널리 연구되어 왔으며 본 논문에서 초점을 두고 있는 전자 도서관 (Digital Library) 분야에서도 활발히 연구되어지고 있다. 하지만 기존의 전자 도서관의 문서 분류 알고리즘들은 문서들의 각 단락의 비중을 고려하지 않은 채 단어들의 발생 빈도에 초점을 두어 많은 잡음 단어 (Noise Term)를 포함하고 그로 인하여 분류 성능이 떨어졌다. 본 논문에서는 문서 단락의 중요도에 따라 다른 .가중치를 부여하여 단어 지지도 (Term Support)가 높은 단어들을 추출하고 그 단어들로 연관 규칙 (Association Rules)을 이용하여 분류 규칙을 생성하는 방법을 제안한다. 제안된 방법의 성능평가를 위해 문서 분류에 널리 쓰이는 나이브 베이지안 분류자 (Na$\square$ve Bayesian Classifier) 및 기존의 단순 연관 규칙 분류자 (Associative Classifier)와 비교 평가하였다. 그 결과, 각 가중치가 부여된 연관 규칙 분류 방법이 나이브 베이지안 분류 방법과 단순 연관 규칙 분류 방법보다 높은 성능을 보였다.

  • PDF

Term Weighting Method by Postposition and Compound Noun Recognition (조사 유형 및 복합명사 인식에 의한 용어 가중치 부여 기법)

  • 강승식;이하규;손소현;홍기채;문병주
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.196-198
    • /
    • 2001
  • 문서의 내용을 대표하는 용어를 추출하기 위해 일반적으로 영어에서는 명사구를 색인하는 기법을 사용하지만 주제어 추출의 관점에서 영어의 명사구가 한국어의 복합명사에 해당하기 때문에 한국어에서는 복합명사 색인 기법을 중요시하고 있다. 본 논문에서는 한글 문서에서 추출된 용어의 가중치를 결정하기 위하여 경험적인 방법에 따라 가중치를 계산하는 방법을 제안한다. 구체적인 가중치 계산 방법으로 용어 자체의 특성에 의한 가중치를 부여한 후에, 복합명사의 경계를 인식하여 띄어쓴 복합명사의 가중치를 조절하고, 다시 용어의 조사 유형에 따라 가중치를 재계산하는 방법을 제안한다. 신문기사에 대한 실험결과에 의하면 제안한 방법이 단순 출현빈도에 의한 주제어 추출 기법보다 정확도가 더 높았다.

  • PDF

AHP를 이용한 CMS 평가방법에 관한 연구

  • 고일상;김병주;이철승
    • Proceedings of the Korea Society of Information Technology Applications Conference
    • /
    • 2002.11a
    • /
    • pp.440-449
    • /
    • 2002
  • 본 연구는 최근 그 시장규모와 수요가 급격히 증가하고 있는 CMS의 평가방법론을 개발하기 위한 목적으로, CMS와 IT솔루션 평가이론에 대하여 고찰하여, CMS의 평가항목을 크게 '솔루션 특성', '공급벤더 역량', '구매업체 환경적합성'의 대항목으로 분류하고, '컨텐츠 관리기능', '비즈니스지원기능', '기술성', '경제성', '벤더수준', '서비스', '사후관리', '정보화계획적합성', '정보화설비적합성', '조직/인적자원적 합성'의 총 10가지 세부항목을 정의하였다. 또한 AHP 기법을 통하여 각 평가항목의 가중치를 결정하고, 과거 단순가중치법을 이용하여 도입된 CMS구매과정에 대한 사례연구를 실시하였다. 결과적으로 각 솔루션의 순위는 똑같이 결정되었으나, 과거 단순가중치법에 의해 산출된 각 솔루션의 득점비율과 본 사례연구를 통하여 도출된 상대적 선호도는 수치상 큰 차이가 존재하였다. 그 차이는 평가항목과 방법상의 차이에 의한 당연한 결과이지만, 솔루션의 선정이라는 중차대한 의사결정문제를 해결함에 있어, 보다 객관적이고 과학적인 방법론을 이용하여야 함을 시사하고 있다.

  • PDF

AHP를 이용한 CMS 평가방법에 관한 연구

  • 고일상;김병주;이철승
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2002.11a
    • /
    • pp.440-449
    • /
    • 2002
  • 본 연구는 최근 그 시장규모와 수요가 급격히 증가하고 있는 CMS의 평가방법론을 개발하기 위한 목적으로, CMS와 IT솔루션 평가이론에 대하여 고찰하여, CMS의 평가항목을 크게 "솔루션 특성", "공급벤더역량", "구매업체 환경적합성"의 대항목으로 분류하구 "컨텐츠 관리기능", "비즈니스지원기능", "기술성", "경제성", "벤더수준", "서비스", "사후관리", "정보화계획적합성", "정보화설비적합성", "조직/인적자원적합성"의 총 10가지 세부항목을 정의하였다. 또한 AHP 기법을 통하여 각 평가항목의 가중치를 결정하고, 과거 단순가중치 법을 이용하여 도입된 CMS구매과정에 대한 사례연구를 실시하였다. 결과적으로 각 솔루션의 순위는 똑같이 결정되었으나, 과거 단순가중치 법에 의해 산출된 각 솔루션의 득점비율과 본 사례연구를 통하여 도출된 상대적 선호도는 수치상 큰 차이가 존재하였다. 그 차이는 평가항목과 방법상의 차이에 의한 당연한 결과이지만, 솔루션의 선정이라는 중차대한 의사결정문제를 해결함에 있어, 보다 객관적이고 과학적인 방법론을 이용하여야 함을 시사하고 있다.

  • PDF

A Study on Optimization of Support Vector Machine Classifier for Word Sense Disambiguation (단어 중의성 해소를 위한 SVM 분류기 최적화에 관한 연구)

  • Lee, Yong-Gu
    • Journal of Information Management
    • /
    • v.42 no.2
    • /
    • pp.193-210
    • /
    • 2011
  • The study was applied to context window sizes and weighting method to obtain the best performance of word sense disambiguation using support vector machine. The context window sizes were used to a 3-word, sentence, 50-bytes, and document window around the targeted word. The weighting methods were used to Binary, Term Frequency(TF), TF ${\times}$ Inverse Document Frequency(IDF), and Log TF ${\times}$ IDF. As a result, the performance of 50-bytes in the context window size was best. The Binary weighting method showed the best performance.

Weight decision of the XML Tag using Relationship Probability (관계성 확률을 이용한 XML 태그의 가중치 결정)

  • Jeong, Hye-Jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.699-702
    • /
    • 2007
  • 보다 효과적인 색인어 추출 및 색인어 가중치 결정을 위하여 문서의 내용뿐 아니라 구조를 이용하여 색인을 추출하는 연구가 이루어지고 있는데, 대부분의 연구들이 XML 태그의 중요도가 아닌, 문맥상의 단락에 대한 중요도를 계산하거나 HTML 문서 태그의 중요도 결정에 관한 연구들이다. 이러한 기존 연구들은 대부분이 객관적인 실험을 통해서 중요도를 입증하기보다는 상식적인 관점에서 단순한 수치로 중요도를 결정하고 있다. 본 논문에서는 웹 문서 관리를 위한 표준으로 자리잡아가고 있는 XML 문서의 태그 정보를 이용한 자동색인을 위하여, 논문을 구성하는 주요 태그의 가중치를 계산하는 방법을 제안한다. 보다 객관적인 가중치 결정을 위하여 인용된 문서간의 관계를 알아보고 서로 연관이 있을 확률을 계산하여 그 기대치만큼 색인어에 대한 가중치에 반영한다. 그리고 기존 태그 중요도 결정 방법을 적용하여 계산된 색인어 가중치를 이용한 검색성능과 비교함으로써 본 논문에서 제안한 방법을 적용하여 계산된 색인어 가중치의 효과를 검증한다.

  • PDF