• 제목/요약/키워드: Semantic IR

검색결과 19건 처리시간 0.021초

U-WIN 기반의 의미적 정보검색 기술 (Semantic Information Retrieval Based on User-Word Intelligent Network)

  • 임지희;최호섭;옥철영
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 추계 종합학술대회 논문집
    • /
    • pp.547-550
    • /
    • 2006
  • 사용자가 원하는 정보를 얼마나 정확하게 제시하느냐가 정보검색시스템 성능을 판단하는 기준이 된다. 그러나 동형이의어만을 질의어로 이용한 검색 결과는 동형이의어 각 의미에 관련된 문서가 혼재되어 있거나, 특정 의미에 관련된 문서만 집중적으로 나타나는 현상을 볼 수 있다. 그래서 본 논문에서는 한국어 사용자 어휘지능망(U-WIN)의 관계정보를 이용하여, 질의어의 모호성을 해결하는 의미적 정보검색의 기반이 되는 기술을 제안한다. 실험에서 질의어는 전문분야에 주로 사용되는 동형이의어와 보편적으로 사용하는 동형이의로 구분하고, '질의어+상위어' 형태의 확장 질의어를 설정한다 그래서 포탈사이트의 웹 문서만을 대상으로 한 정확률은 73.5%, 통합검색의 정확률은 68.7%로 나타났다. 이것은 U-WIN 기반의 의미적 정보검색 기술이 정보검색 시스템에서 효율적임을 알 수 있다.

  • PDF

Concept-based Question Answering System

  • Kang Yu-Hwan;Shin Seung-Eun;Ahn Young-Min;Seo Young-Hoon
    • International Journal of Contents
    • /
    • 제2권1호
    • /
    • pp.17-21
    • /
    • 2006
  • In this paper, we describe a concept-based question-answering system in which concept rather than keyword itself makes an important role on both question analysis and answer extraction. Our idea is that concepts occurred in same type of questions are similar, and if a question is analyzed according to those concepts then we can extract more accurate answer because we know the semantic role of each word or phrase in question. Concept frame is defined for each type of question, and it is composed of important concepts in that question type. Currently the number of question type is 79 including 34 types for person, 14 types for location, and so on. We experiment this concept-based approach about questions which require person s name as their answer. Experimental results show that our system has high accuracy in answer extraction. Also, this concept-based approach can be used in combination with conventional approaches.

  • PDF

Survey of Temporal Information Extraction

  • Lim, Chae-Gyun;Jeong, Young-Seob;Choi, Ho-Jin
    • Journal of Information Processing Systems
    • /
    • 제15권4호
    • /
    • pp.931-956
    • /
    • 2019
  • Documents contain information that can be used for various applications, such as question answering (QA) system, information retrieval (IR) system, and recommendation system. To use the information, it is necessary to develop a method of extracting such information from the documents written in a form of natural language. There are several kinds of the information (e.g., temporal information, spatial information, semantic role information), where different kinds of information will be extracted with different methods. In this paper, the existing studies about the methods of extracting the temporal information are reported and several related issues are discussed. The issues are about the task boundary of the temporal information extraction, the history of the annotation languages and shared tasks, the research issues, the applications using the temporal information, and evaluation metrics. Although the history of the tasks of temporal information extraction is not long, there have been many studies that tried various methods. This paper gives which approach is known to be the better way of extracting a particular part of the temporal information, and also provides a future research direction.

검색의도 파악을 위한 질의어 관계유형에 관한 사례연구 (A Case Study on the Types of Queries' Relations for Recognizing User intention)

  • 권순진;김원일;유성준
    • 한국지능시스템학회논문지
    • /
    • 제21권4호
    • /
    • pp.414-422
    • /
    • 2011
  • 본 연구는 정보 검색(Information Retrieval)과정에 있어 검색 기술의 적합성을 향상하기 위하여, 질의어 사이의 유용한 관계를 드러내도록 사례를 분석하고, 질의자의 의도를 파악할 수 있게끔 구체화하도록 연구한 것이다. 이를 위하여 먼저, 질의어가 가지는 어휘 의미적 연구 분야와 존재론적 연구 분야의 관련 연구들을 분석하였으며, 국내.외의 어휘 의미론적 네트워크 사례와 정보 검색 기술이 적용된 사이트의 실제 데이터를 분석하여 관계 유형을 추출하고 분석하였다. 다음으로는 일반적으로 검색자가 직면하는 검색 상황에서 자주 발생하는 문제를 중심으로 문제점을 정의하여 해결 방안을 모색하였다. 현행 검색 기술에서 색인어와 질의어를 단순 비교하여 결과를 쏟아주는 검색은 사용자를 혼란하게 하기 때문에 개선이 필요하고, 질의자의 의도에 맞는 질의 결과를 줄 수 있도록 지능적 검색으로 개선할 필요가 있다. 문제점 해결 방안에 있어서는, 두 질의어 사이의 관계를 드러냄으로써, 검색자의 의도를 인식하고 식별 및 처리할 수 있는 방안이 필요하였다. 질의어들에 관한 실제 사례를 분석하고 관계 유형을 9가지로 분류함으로써, 관계 유형을 디자인하는 방법을 적시하였으며, 관계 유형의 명칭 부여와 관계 역할의 명칭을 부여할 수 있는 방법과 제한점도 예시하였다.

SPADE 기반 U-Net을 이용한 고해상도 위성영상에서의 도시 변화탐지 (Urban Change Detection for High-resolution Satellite Images Using U-Net Based on SPADE)

  • 송창우;;정지훈;홍성재;김대희;강주형
    • 대한원격탐사학회지
    • /
    • 제36권6_2호
    • /
    • pp.1579-1590
    • /
    • 2020
  • 본 논문에서는 고해상도의 위성영상을 활용하여 도시의 변화 양상을 분석하기 위하여 SPADE기반의 U-Net과 객체 영역기반 변화탐지 방법을 제안한다. 제안하는 네트워크는 기존의 U-Net에서 공간 정보를 잃지 않기 위해 SPADE를 사용했다. 고해상도 위성영상을 활용한 변화탐지 방법은 계획, 예측 등 다양한 도시 문제를 해결하기 위해 활용할 수 있다. IR-MAD 등 전통적인 방법인 화소 기반의 변화탐지를 수행할 경우, 다중 시기 영상 간의 기후, 계절 변화 등에 의해 화소의 변화가 민감하기 때문에 미변화 지역들이 변화 지역으로 오탐지될 가능성이 매우 크다. 이에 본 논문에서는 시계열 위성영상에서 도시를 구성하는 객체에 대한 변위를 정확하게 탐지하기 위해 도시를 구성하는 주요 공간 객체를 정의하고, 딥러닝 기반 영상 분할을 통해 추출한 후 영역 간의 변위 오차를 분석하여 변화탐지를 수행한다. 변화 양상을 분석하기 위한 공간 객체로 건축물, 도로, 농경지, 비닐하우스, 산림 영역, 수변 영역의 6개로 정의하였다. KOMPSAT-3A 위성영상으로 학습한 각 네트워크 모델을 시계열 KOMPSAT-3 위성영상에 대한 변화탐지를 수행한다. 객관적인 성능 평가를 위한 변화탐지 지표는 F1-score, Kappa를 사용한다. 제안하는 변화탐지 기법은 U-Net, UNet++ 대비 뛰어난 결과를 보이며, 평균 F1 score는 0.77, kappa는 77.29의 성능을 확인할 수 있다.

시맨틱웹을 위한 온톨로지 구축방법에 관한 비교 연구 (The Comparative Study on the Methodologies of Building Ontology toward Semantic Web)

  • 김은경;남영준
    • 정보관리연구
    • /
    • 제35권2호
    • /
    • pp.57-85
    • /
    • 2004
  • 본 연구는 IEEE Standard 1074-1997을 기준으로 사례별 온톨로지 구축방법의 절차를 분석하였다. 분석대상은 OTK, CommonKADS, ONIONS, Ontology Development 101의 네 가지 구축방법을 선정하였다. 분석된 결과를 기반으로, 각 온톨로지 구축방법의 장점을 수용하고 단점을 보완함으로써 여섯 단계로 이루어진 완성도 있는 온톨로지 구축방법 모델을 제안하였다. 그 단계는 다음과 같다. 1) 사전개발 단계로서 타당성 조사를 포함한다. 2) 초기 구축 단계로서 온톨로지 구축 목표를 성립한다. 3) 지식 재사용을 위해 기존 온톨로지를 통합하는 방안을 고려한다. 4) 주제 영역의 개념과 관계를 규정하면서 온톨로지를 구성한다. 5) 완성된 온톨로지를 평가하고 검증한다. 6) 사후개발 단계로서 유지관리 절차를 포함한다.

정보검색 기법을 이용한 효율적인 자동 키워드 태깅 (An Efficient Method of IR-based Automated Keyword Tagging)

  • 김진숙;최호섭;류범종
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2008년도 춘계 종합학술대회 논문집
    • /
    • pp.24-27
    • /
    • 2008
  • 위키피디아의 백과사전에서 보여주는 바와 같이 주요한 용어에 대한 링크를 통한 태깅은 문서의 가독성을 크게 향상시킨다. 웹 2.0에서도 사회적 태깅(Social Tagging)의 중요성이 부각되고 있으며 시멘틱웹의 태그클라우드(Tag Cloud) 형태로 발전하고 있다. 본 논문에서는 대용량 통제어 사전에 등재된 주요 용어를 대상문서에 태깅하는 방법에 대해 연구결과를 제시한다. 기본적으로 사전에 있는 모든 용어(항목수 N)를 주어진 문서(길이 m)에서의 출현 여부를 문자열탐색을 통해 비교하여 태깅하는 방식은 O(mN)의 계산복잡도를 가진다. 그러나 본 논문에서 제시하는 바와 같이 정보검색을 이용할 경우에는 계산복잡도를 O(mlogN)으로 줄일 수 있었다. 정보검색을 활용하면 단순문자열 탐색에 비해서 평균 17.8배, 빠른 문자열탐색 알고리즘에 비해서도 평균 5.6배 이상 태깅 속도가 향상되었다.

  • PDF

색인어 말뭉치 처리를 기반으로 한 웹 정보검색 시스템의 설계 (Design of WWW IR System Based on Keyword Clustering Architecture)

  • 송점동;이정현;최준혁
    • 정보학연구
    • /
    • 제1권1호
    • /
    • pp.13-26
    • /
    • 1998
  • 대부분의 정보검색시스템들은 부적절한 색인어들에 의해 가끔 사용자의 의도에 맞지 않는 전혀 다른 검색 결과가 나타난다. 그것은 시스템이 색인어들을 검색하기 위해 그 의미가 아닌, 단지 용어로서만 고려하기 때문이다. 검색 정확도의 증진을 위해 색인어는 연관된 용어 사용 빈도와 역 빈도 사용으로 검색되고 동시 발생어는 원시 문서로부터 추출된다. 결과적으로 색인어는 계산된 상호 정보들을 사용함으로써 그들의 세맨틱에 의해 클러스팅된다. 이 논문은 재현율의 감소없이 클라이언트 사용자 모듈로부터 피드백에 따라 세분된 세맨틱 정보를 사용하여 부적절한 검색 결과를 거절함으로써 검색 효율을 높일 수 있도록 설계하였다.

  • PDF

TAKES: Two-step Approach for Knowledge Extraction in Biomedical Digital Libraries

  • Song, Min
    • Journal of Information Science Theory and Practice
    • /
    • 제2권1호
    • /
    • pp.6-21
    • /
    • 2014
  • This paper proposes a novel knowledge extraction system, TAKES (Two-step Approach for Knowledge Extraction System), which integrates advanced techniques from Information Retrieval (IR), Information Extraction (IE), and Natural Language Processing (NLP). In particular, TAKES adopts a novel keyphrase extraction-based query expansion technique to collect promising documents. It also uses a Conditional Random Field-based machine learning technique to extract important biological entities and relations. TAKES is applied to biological knowledge extraction, particularly retrieving promising documents that contain Protein-Protein Interaction (PPI) and extracting PPI pairs. TAKES consists of two major components: DocSpotter, which is used to query and retrieve promising documents for extraction, and a Conditional Random Field (CRF)-based entity extraction component known as FCRF. The present paper investigated research problems addressing the issues with a knowledge extraction system and conducted a series of experiments to test our hypotheses. The findings from the experiments are as follows: First, the author verified, using three different test collections to measure the performance of our query expansion technique, that DocSpotter is robust and highly accurate when compared to Okapi BM25 and SLIPPER. Second, the author verified that our relation extraction algorithm, FCRF, is highly accurate in terms of F-Measure compared to four other competitive extraction algorithms: Support Vector Machine, Maximum Entropy, Single POS HMM, and Rapier.