• 제목/요약/키워드: term similarity

검색결과 212건 처리시간 0.023초

정보시스템에서 퍼지용어의 확장된 AHP를 사용한 레벨화와 유사성 측정 (A Leveling and Similarity Measure using Extended AHP of Fuzzy Term in Information System)

  • 류경현;정환묵
    • 한국지능시스템학회논문지
    • /
    • 제19권2호
    • /
    • pp.212-217
    • /
    • 2009
  • 특정 분야의 용어를 표현하는 전문용어 사이의 계층관계를 학습하는 방법은 규칙기반학습방법, 통계기반학습방법 등이 있다. 본 논문에서는 문서에서 추출된 퍼지용어 정보를 바탕으로 한 온톨로지 구조를 카테고리화하여 퍼지용어의 전문성을 이용하여 주어진 퍼지용어의 상위어 후보를 레벨화한 후 퍼지용어 의미유사도를 계산하여 선택된 후보들 중에서 최적의 상위어후보를 결정한다. 즉, 퍼지용어의 전문성을 레벨화하기 위한 확장된 AHP방법은 퍼지용어사이의 비교를 통해 가중치나 상대적 중요성을 결정한 후 퍼지집합의 Min연산자와 다이스계수, Min+다이스계수방법들을 비교한다. 이 방법들은 퍼지용어 의미유사도에 따라 문서들이 가지는 의미론적 내용과 관계의 식별을 바탕으로 보다 더 정확하게 문서를 분류할 수 있고 자연어처리 등 많은 분야에 활용될 수 있을 것이다.

단어/단어쌍 특징과 신경망을 이용한 두 문서간 유사도 측정 (Measurement of Document Similarity using Term/Term-pair Features and Neural Network)

  • 김혜숙;박상철;김수형
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권12호
    • /
    • pp.1660-1671
    • /
    • 2004
  • 본 논문은 두 문서간 유사도 측정 방법을 제안한다. 제안한 유사도 측정 모델의 주안점은 문서간 관련성의 정도를 두 문서간 일치하는 단어(term)및 단어쌍(tenn-phrase)에 기반하여 이들이 해당 문서에서 차지하는 가중치를 통해 측정하는 것이다. 유사도 측정 과정에 영향을 미치는 특징을 설계함에 있어 기존의 연구들이 하나의 특징만을 고려하였던 것에 비하여 본 논문은 여러 가지 특징들을 고려한다 즉, 단어뿐만 아니라 단어쌍과 관련된 특징을 결합하여 신경망을 통해 유사도를 측정한다. 제안된 방법의 우수성을 입증하기 위해 두 가지 측면에서 실험하였다. 첫 번째는 두 문서의 동일성 여부를 검증하는 문제이며, 두 번째는 다수의 문서를 대상으로 유사한 문서를 찾는 검색 문제이다. 이 두 가지 실험 모두에서 제안 방법이 기존의 Cosine 유사도 계산 방법 및 구색인 방법에 비해 우수한 성능을 보였다.

용어 분포 유사도를 이용한 질의 용어 확장 및 가중치 재산정 (Query Term Expansion and Reweighting using Term-Distribution Similarity)

  • 김주연;김병만;박혁로
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제27권1호
    • /
    • pp.90-100
    • /
    • 2000
  • 본 논문에서는 사용자의 적합 피드백을 기반으로 피드백 문서들에서 발생하는 용어들과 초기 질의와의 관련 정도를 이용하여 용어의 가중치를 산정하는 방법에 대하여 제안한다. 피드백 문서들에서 발생하는 용어들 중에서 불용어를 제외한 모든 용어들을 질의로 확장될 수 있는 후보 용어들로 선택하고 피드백 문서들에서 발생 빈도 유사성을 이용하여 초기 질의에 대한 후보 용어의 관련 정도를 산정하며, 피드백 문서들에서의 가중치와 관련 정도를 결합하여 후보 용어들의 가중치를 산정 하였다. 본 논문에서는 성능을 평가하기 위하여 KT-set 1.0과 KT-set 2.0을 사용하였으며, 성능의 상대적인 평가를 위하여 질의어를 확장하지 않은 방법, Dec-Hi방법들을 정확률-재현율을 사용하여 평가 하였다.

  • PDF

단어 및 단어쌍 별 빈도수를 이용한 문서간 유사도 측정 (Measurement of Document Similarity using Word and Word-Pair Frequencies)

  • 김혜숙;박상철;김수형
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅲ
    • /
    • pp.1311-1314
    • /
    • 2003
  • In this paper, we propose a method to measure document similarity. First, we have exploited single-term method that extracts nouns by using a lexical analyzer as a preprocessing step to match one index to one noun. In spite of irrelevance between documents, possibility of increasing document similarity is high with this method. For this reason, a term-phrase method has been reported. This method constructs co-occurrence between two words as an index to measure document similarity. In this paper, we tried another method that combine these two methods to compensate the problems in these two methods. Six types of features are extracted from two input documents, and they are fed into a neural network to calculate the final value of document similarity. Reliability of our method has been proved by an experiment of document retrieval.

  • PDF

용어 클러스터링을 이용한 단일문서 키워드 추출에 관한 연구 (A Study on Keyword Extraction From a Single Document Using Term Clustering)

  • 한승희
    • 한국문헌정보학회지
    • /
    • 제44권3호
    • /
    • pp.155-173
    • /
    • 2010
  • 이 연구에서는 용어 클러스터링을 이용하여 단일문서의 키워드를 추출하는 알고리즘을 제안하고자 한다. 단락단위로 분할한 단일문서를 대상으로 1차 유사도와 2차 분포 유사도를 산출하여 용어 클러스터링을 수행한 결과, 50단어 단락에서 2차 분포 유사도를 적용했을 때 가장 우수한 성능을 나타냈다. 이후, 용어 클러스터링결과를 이용하여 단일문서의 키워드를 추출하기 위해 단순빈도와 상대빈도의 조합을 통해 다양한 키워드 추출 공식을 도출, 적용한 결과, 단락빈도(pf)와 단어빈도$\times$역단락빈도($tf{\times}ipf$) 조건에서 가장 우수한 결과를 나타냈다. 이 결과를 통해, 본 연구에서 제안한 알고리즘은 좋은 키워드가 가져야 할 두 가지 조건인 주제성과 고른 빈도분포라는 측면에서 단일문서를 대상으로 효과적으로 키워드를 추출할 수 있음을 확인하였다.

위키피디아를 이용한 분류자질 선정에 관한 연구 (An Experimental Study on Feature Selection Using Wikipedia for Text Categorization)

  • 김용환;정영미
    • 정보관리학회지
    • /
    • 제29권2호
    • /
    • pp.155-171
    • /
    • 2012
  • 텍스트 범주화에 있어서 일반적인 문제는 문헌을 표현하는 핵심적인 용어라도 학습문헌 집합에 나타나지 않으면 이 용어는 분류자질로 선정되지 않는다는 것과 형태가 다른 동의어들은 서로 다른 자질로 사용된다는 점이다. 이 연구에서는 위키피디아를 활용하여 문헌에 나타나는 동의어들을 하나의 분류자질로 변환하고, 학습문헌 집합에 출현하지 않은 입력문헌의 용어를 가장 유사한 학습문헌의 용어로 대체함으로써 범주화 성능을 향상시키고자 하였다. 분류자질 선정 실험에서는 (1) 비학습용어 추출 시 범주 정보의 사용여부, (2) 용어의 유사도 측정 방법(위키피디아 문서의 제목과 본문, 카테고리 정보, 링크 정보), (3) 유사도 척도(단순 공기빈도, 정규화된 공기빈도) 등 세 가지 조건을 결합하여 실험을 수행하였다. 비학습용어를 유사도 임계치 이상의 최고 유사도를 갖는 학습용어로 대체하여 kNN 분류기로 분류할 경우 모든 조건 결합에서 범주화 성능이 0.35%~1.85% 향상되었다. 실험 결과 범주화 성능이 크게 향상되지는 못하였지만 위키피디아를 활용하여 분류자질을 선정하는 방법이 효과적인 것으로 확인되었다.

문서 유사도 기반의 웹 마이닝 시스템 개발 (Development of A Web Mining System Based On Document Similarity)

  • 이강찬;민재홍;박기식;임동순;우훈식
    • 한국전자거래학회지
    • /
    • 제7권1호
    • /
    • pp.75-86
    • /
    • 2002
  • In this study, we proposed design issues and structure of a web mining system and develop a system for the purpose of knowledge integration under world wide web environments resulted from our developing experiences. The developed system consists of three main functions: 1) gathering documents utilizing a search agent; 2) determining similarity coefficients between any two documents from term frequencies; 3) clustering documents based on similarity coefficients. It is believed that the developed system can be utilized for discovery of knowledge in relatively narrow domains such as news classification, index term generation in knowledge management.

  • PDF

자기유사성을 갖는 데이터 트래픽의 통계적인 특성 (Statistical Characteristics of Self-similar Data Traffic)

  • 구혜련;홍경호;임석구
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2005년도 춘계 종합학술대회 논문집
    • /
    • pp.410-415
    • /
    • 2005
  • Recent measurements of local-area and wide-area traffic have shown that network traffic exhibits at a wide range of scales - Self-similarity. Self-similarity is expressed by long term dependency, this is contradictory concept with Poisson model that have relativity short term dependency. Therefore, first of all for design and dimensioning of next generation communication network, traffic model that are reflected burstness and self-similarity is required. Here self-similarity can be characterized by Hurst parameter. In this paper, when different many data traffic being integrated under various environments is arrived to communication network, Hurst Parameter's change is analyzed and compared with simulation results.

  • PDF

2단계 유사관계 행렬을 기반으로 한 순위 재조정 검색 모델 (A Re-Ranking Retrieval Model based on Two-Level Similarity Relation Matrices)

  • 이기영;은희주;김용성
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권11호
    • /
    • pp.1519-1533
    • /
    • 2004
  • 웹 기반의 학술분야 전문 검색 시스템은 사용자의 정보 요구 표현을 극히 제한적으로 허용함으로써 검색된 정보의 내용 분석과 정보 습득의 과정이 일관되지 못해 무분별한 정보 제공이 이루어진다. 본 논문에서는 용어의 상대적인 중요 정도를 축소용어 집합으로 구성하여 검색 시스템의 높은 시간 복잡도를 해결할 수 있도록 퍼지 검색 모델을 적용하였다. 또한 퍼지 호환관계의 특성을 만족하는 유사관계 행렬을 통해 사용자 질의를 정확하게 반영할 수 있도록 클러스터 검색을 수행하였다. 본 논문에서 제안한 퍼지 검색과 문서 클러스터 검색의 유사도 결합을 통한 순위 재조정 검색 모델은 검색 성능을 표현하는 정확률과 재현율 척도에서 향상됨을 입증하였다.

자기유사적인 데이터 트래픽 특성을 고려한 대역폭 할당 (Bandwidth Allocation for Self-Similar Data Traffic Characteristics)

  • 임석구
    • 한국콘텐츠학회논문지
    • /
    • 제5권3호
    • /
    • pp.175-181
    • /
    • 2005
  • 현재 제공되는 인터넷 서비스들의 동작 특성은 기존에 고려되던 트래픽 특성과는 완전히 다른 자기 유사성(Self-similarity)이라는 성질을 가진다는 것이 증명되었다. 자기 유사성은 장기간 의존성으로 표현되는데, 이것은 단기간 의존성 성질을 갖는 기존의 모델인 포아송(Poisson) 모델과는 상반되는 개념이다 따라서 차세대 통신망의 설계 및 디멘져닝을 위해서는 무엇보다도 데이터 트래픽의 주요 특성인 버스트성(Burstiness)과 자기유사성이 반영된 트래픽 모델이 요구된다. 여기서 자기유사성은 허스트 파라미터(Hurst Parameter)로 특성화 될 수 있다. 이러한 관점에서 본 논문에서는 데이터 트래픽 특성이 서로 다른 다수의 데이터 트래픽의 통합되어 통신망에 입력되는 경우 주요 파라미터인 허스트 파라미터의 변화를 다양한 환경 하에서 분석하였고 이를 시뮬레이션 결과와도 비교하였다.

  • PDF