• 제목/요약/키워드: Document similarity

검색결과 249건 처리시간 0.022초

다중요인모델에 기반한 텍스트 문서에서의 토픽 추출 및 의미 커널 구축 (Multiple Cause Model-based Topic Extraction and Semantic Kernel Construction from Text Documents)

  • 장정호;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권5호
    • /
    • pp.595-604
    • /
    • 2004
  • 문서 집합 내의 개념 또는 의미 관계의 자동 분석은 보다 효율적인 정보 획득과 단어 이상의 개념 수준에서의 문서간 비교를 가능케 한다. 본 논문에서는 다중요인모델에 기반 하여 텍스트 문서로부터 토픽들을 추출하고 이로부터 의미 커널(semantic kernel)을 구축하여 문서간 유사도를 측정하는 방안을 제시한다. 텍스트 문서는 내재된 토픽들의 다양한 결합에 의해 생성된다고 가정하며 하나의 토픽은 공통 주제에 관련되거나 적어도 자주 같이 나타나는 단어들의 집합으로 정의한다. 다중요인모델은 은닉층을 갖는 하나의 네트워크 형태로 표현되며, 토픽을 표현하는 단어 집합은 은닉노드로부터의 가중치가 높은 단어들로 구성된다. 일반적으로 이러한 다중요인 네트워크에서의 학습과 추론과정을 용이하게 하기 위해서는 근사적 확률 추정 기법이 요구되는데, 본 논문에서는 헬름홀츠 머신에 의한 방법을 활용한다. TDT-2 문서 집합에 대한 실험에서 토픽별로 관련 있는 단어 집합들을 추출할 수 있었으며, 4개의 텍스트 집합에 대한문서 검색 실험에서는 다중요인모델의 분석결과에 기반 한 의미 커널을 사용함으로써 기본 벡터공간 모델에 비해 평균정확도 면에서 통계적으로 유의한 수준의 성능 향상을 얻을 수 있었다.

SDI System의 사적 연구 (2) (The Historical Study of SDI System (2))

  • 김종회
    • 정보관리학회지
    • /
    • 제2권2호
    • /
    • pp.150-169
    • /
    • 1985
  • 오늘날 정보검색(情報檢索)시스팀의 대표적(代表的)인 한 유형(類型)으로서 널리 보급(普及)되어 운영(運營)되고 있는 SDI(Selective Dissemination of Information)시스팀에 관(關)하여 기술(記述)하였다. 이것은 컴퓨터기술(技術)의 정보검색(情報檢索)에의 응용(應用)으로서 이용자(利用者)의 요구주제(要求主題)에 부합(符合)되는 문헌(文獻)을 검색(檢索)하기 위하여 색인어(索引語)와 일치(一致)(match) 되는 문헌(文獻)을 탐색(探索)하는데 이용(利用)되는 시스팀을 설명(說明)하기 위해 자주 쓰여지는 용어(用語)이다. SDI시스팀을 개발(開發)한 "Luhn"이 최초(最初)로 그 개념(槪念)을 발표(發表)한 이래(以來) 지금까지 개발(開發)되어온 각종(各種)의 SDI시스팀들을 조사(調査) 비교(比較)하고, 이 시스팀들의 발전단계(發展段階), 구성(構成) 및 특성(特性)과 시스팀 설계(設計)에 관(關)한 제문제점등(諸問題點等)에 대(對)해서도 분석(分析) 조사(調査)하였다.

  • PDF

강박스교 구조계산서 XML 시맨틱 모델의 스키마 매칭 기법 적용 (Applying the Schema Matching Method to XML Semantic Model of Steelbox-bridge's Structural Calculation Reports)

  • 양영애;김봉근;이상호
    • 한국전산구조공학회:학술대회논문집
    • /
    • 한국전산구조공학회 2005년도 춘계 학술발표회 논문집
    • /
    • pp.680-687
    • /
    • 2005
  • This study presents a schema matching technique which can be applied to XML semantic model of structural calculation reports of steel-box bridges. The semantic model of structural calculation documents was developed by extracting the optimized common elements from the analyses of various existing structural calculation documents, and the standardized semantic model was schematized by using XML Schema. In addition, the similarity measure technique and the relaxation labeling technique were employed to develop the schema matching algorithm. The former takes into account the element categories and their features, and the latter considers the structural constraints in the semantic model. The standardized XML semantic model of steel-box bridge's structural calculation documents called target schema was compared with existing nonstandardized structural calculation documents called primitive schema by the developed schema matching algorithm Some application examples show the importance of the development of standardized target schema for structural calculation documents and the effectiveness and efficiency of schema matching technique in the examination of the degree of document standardization in structural calculation reports.

  • PDF

한글 감정단어의 의미적 관계와 범주 분석에 관한 연구 (A Study on the Analysis of Semantic Relation and Category of the Korean Emotion Words)

  • 이수상
    • 한국도서관정보학회지
    • /
    • 제47권2호
    • /
    • pp.51-70
    • /
    • 2016
  • 이 연구의 목적은 한글로 된 주요감정단어들의 리스트를 대상으로 의미적 관계의 네트워크와 극성과 각성의 범주를 분석하는데 있다. 분석결과는 다음과 같다. 첫째, 감정단어 네트워크에서 각 감정단어들은 의미적으로 연결되어 있었다. 이것은 의미적 유사성에 따라 감정단어들의 유형을 구분하는 것을 어렵게 하는 특징이다. 대신에 의미적 관계의 감정단어 네트워크에서 중심적인 역할을 수행하는 감정단어들을 확인할 수 있었다. 둘째, 극성과 각성의 차원을 혼합한 범주에서, 많은 감정단어들은 부정적인 극성과 높은 각성의 단어들 집단과 부정적인 극성과 중간수준 각성의 단어들 집단으로 분류되었다. 이러한 한글감정단어의 특성들은 도서관이나 문헌정보에 나타나는 각종 텍스트 데이터의 감정분석에 유용하게 활용될 것이다.

A Natural Language Question Answering System-an Application for e-learning

  • Gupta, Akash;Rajaraman, Prof. V.
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2001년도 The Pacific Aisan Confrence On Intelligent Systems 2001
    • /
    • pp.285-291
    • /
    • 2001
  • This paper describes a natural language question answering system that can be used by students in getting as solution to their queries. Unlike AI question answering system that focus on the generation of new answers, the present system retrieves existing ones from question-answer files. Unlike information retrieval approaches that rely on a purely lexical metric of similarity between query and document, it uses a semantic knowledge base (WordNet) to improve its ability to match question. Paper describes the design and the current implementation of the system as an intelligent tutoring system. Main drawback of the existing tutoring systems is that the computer poses a question to the students and guides them in reaching the solution to the problem. In the present approach, a student asks any question related to the topic and gets a suitable reply. Based on his query, he can either get a direct answer to his question or a set of questions (to a maximum of 3 or 4) which bear the greatest resemblance to the user input. We further analyze-application fields for such kind of a system and discuss the scope for future research in this area.

  • PDF

특허 인용에 영향을 미치는 요인 분석 (Analysis of Factors Influencing Patent Citations)

  • 유재복;정영미
    • 정보관리학회지
    • /
    • 제27권1호
    • /
    • pp.103-118
    • /
    • 2010
  • 최근 특허기술의 가치평가가 크게 강조되고 있으며, 그 평가의 수단으로 특허의 피인용횟수가 매우 유용한 척도 중의 하나로 받아들여지고 있다. 그에 따라 이 연구에서는 특허의 피인용횟수와 이에 영향을 미칠만한 형태적 기술적 개념적 요인의 17개 변수들 간의 상관관계를 미국특허를 대상으로 5개 주제분야에 걸쳐 분석하였다. 분석결과 특허의 피인용횟수와 일정 수준 이상의 상관관계, 즉 5% 이상의 설명력을 갖는 변수는 페이지 수, 청구항 수, 참고문헌 평균 피인용횟수, 기술분야 특허증감율, 서지결합도, 동시인용도 및 문헌간유사도 등 7개로 나타났다. 또한 이들 변수에 대한 분산분석 결과 7개 변수 모두 전반적으로 대부분의 주제분야 간에 있어서 평균값의 차이가 있는 것으로 나타났다.

지역적 문맥 분석 피드백을 이용한 웹 정보검색에 관한 연구 (A Study on Information Retrieval of Web Using Local Context Analysts Feedback)

  • 김영천;이성주
    • 한국지능시스템학회논문지
    • /
    • 제14권6호
    • /
    • pp.745-751
    • /
    • 2004
  • 순수한 부울 검색 시스템은 문서와 질의 사이의 유사 도를 나타내는 문서 값을 계산할 수 없기 때문에 검색된 문서들을 질의를 만족하는 정보에 따라 정렬할 수 없다. 부울 검색 시스템의 이러한 단점을 보완하는 방법으로 MMM 모델, Paice 모델 P-norm 모델이 개발되었다. 이러한 방법들은 부울 연산자를 유연하게 연산하는 공통된 특성을 지니고 있다. 본 논문에서는 높은 검색 효과를 제공하는 지역적 문맥 분석 피드백(Local Context Analysis Feedback)을 이용한 웹 정보 검색 모델을 이용한다. 지역적 문맥 분석 피드백 모델의 연산 특성이 MMM(Max and Min Model), Paice, p-norm 모델보다 우수함을 설명하고, 또한 성능 비교를 통하여 이를 입증한다.

빈발패턴을 이용한 스키마 매핑 (Schema Mapping Method using Frequent Pattern Mining)

  • 채덕진;반경진;김응곤
    • 한국전자통신학회논문지
    • /
    • 제5권1호
    • /
    • pp.93-101
    • /
    • 2010
  • 현재, 두 스키마 속성 사이의 효율적인 스키마 매핑 방법을 통해 메타데이터간의 상호운용성을 확보하기 위한 많은 연구가 진행되고 있다. 그러나 기존의 스키마 매핑 연구의 대부분은 몇몇 유사도 값들을 단순히 계산하여 매핑을 선택하기 때문에 정확률이 비교적 낮아 문서변환이나 시스템 통합을 위한 스키마 매핑에 적합하지 않다. 본 논문에서는 데이터 마이닝의 빈발패턴탐사 방법을 이용하여 대화식으로 스키마 매핑을 수행할 수 있는 알고리즘을 제안한다. 메타데이터 표준을 이루는 각 스키마 요소에 정의된 의미 부분을 이용하기 때문에 그 스키마 요소가 어떤 정보를 나타내는지를 알 수 있기 때문에 대화식으로 더 정교한 매핑 처리가 가능하게 된다. 제안하는 방법의 성능 평가를 위해 메타데이터 표준들을 이용하여 정확도에 대한 성능평가를 수행한다.

부상기술 예측을 위한 특허키워드정보분석에 관한 연구 - GHG 기술 중심으로 (Patent Keyword Analysis for Forecasting Emerging Technology : GHG Technology)

  • 최도한;김갑조;박상성;장동식
    • 디지털산업정보학회논문지
    • /
    • 제9권2호
    • /
    • pp.139-149
    • /
    • 2013
  • As the importance of technology forecasting while countries and companies manage the R&D project is growing bigger, the methodology of technology forecasting has been diversified. One of the forecasting method is patent analysis. This research proposes quick forecasting process of emerging technology based on keyword approach using text mining. The forecasting process is following: First, the term-document matrix is extracted from patent documents by using text mining. Second, emerging technology keyword are extracted by analyzing the importance of word from utilizing mean values and standard deviation values of the term and the emerging trend of word discovered from time series information of the term. Next, association between terms is measured by using cosine similarity. finally, the keyword of emerging technology is selected in consequence of the synthesized result and we forecast the emerging technology according to the results. The technology forecasting process described in this paper can be applied to developing computerized technology forecasting system integrated with various results of other patent analysis for decision maker of company and country.

유사 어절 트리와 비 색인어 기반의 문서 표절 유사도 분류 방법 ((The Classification Method of the Document Plagiarism Similarity based on Similar Syntagma Tree and Non-Index Term))

  • 천승환;김미영;이귀상
    • 한국컴퓨터산업학회논문지
    • /
    • 제3권8호
    • /
    • pp.1039-1048
    • /
    • 2002
  • 전자문서와 온라인으로 수신된 문서들은 표절 여부를 판별하기가 매우 어렵고 번거로운 일이다. 특히 학생들에게 부여된 과제물의 경우 동일한 주제에 대해서 작성되는 경우가 많으므로 독자적으로 작성된 문서와 표절되어진 문서를 판별하기가 쉽지 않다. 이것은 분류하고자 하는 문서들에서 주요 단어들 즉, 색인어들의 출현 빈도를 추출한 뒤 이를 이용하여 가장 적합한 카테고리를 찾는 기존의 방법들과는 전혀 다른 문제이다. 본 논문에서는 어절들의 -유사 어절 트리 구조와 색인어를 제외한 어절- 벡터를 기반으로 하여 비슷하게 작성된 문서들의 표절 판별을 목적으로 하는 작업에 적용될 수 있는 방법을 제안한다.

  • PDF