• 제목/요약/키워드: Semantic-Based Information Extraction

검색결과 135건 처리시간 0.028초

기본의미등록기의 RDF/OWL 연계방안에 관한 연구 (Designing Schemes to Associate Basic Semantics Register with RDF/OWL)

  • 오삼균
    • 정보관리학회지
    • /
    • 제20권3호
    • /
    • pp.241-259
    • /
    • 2003
  • 기본의미등록기(BSR)는 전자상거래 및 EDI 관련 시스템 사이의 상호연동을 가능하게 하기 위한 등록기이다. XML 기반 BSR 등록개체들의 구조정보나 다양한 관계의 자동추출은 현재 불가능하다. 이 연구에서는 BSR에 등록되는 정보를 자원기술-프레임웍(RDF)과 웹온톨로지언어(OWL)에 기반하는 기계가독형으로 정의한 대표적인 예를 제시하고 결론적으로 5개의 기본 권고안을 도출하였다. 즉 BSR 컴포넌트 소속의 클래스 정의에서 동의어의 표현에는 OWL의 'sameAs', 유사어 표현에는 OWL의 'equivalenlClass', BSR 개념들 간의 상.하 관계 표현은 RDF 스키마의 'subClassOF', BSR의 의미단위(BSU)에 관한 정의는 RDF 스키마의 'label', 인스턴스 용례에 관한 설명은 RDF 스키마의 'comment', 각 BSU의 클래스 소속에 관한 정의는 RDF 스키마의 'domain', BSU가 취할 수 있는 데이터유형에 대한 정의는 RDF 스키마의 'range'등을 적용하며, 나아가 BSR 데이터요소의 정의에 XML 스키마의 데이터 유형을 접목시키고 BSU들 간의 상.하 관계 표현에 RDF 스키마의 'subPropertyOF'를 적용할 것을 추천하였다.

An Artificial Intelligence Approach for Word Semantic Similarity Measure of Hindi Language

  • Younas, Farah;Nadir, Jumana;Usman, Muhammad;Khan, Muhammad Attique;Khan, Sajid Ali;Kadry, Seifedine;Nam, Yunyoung
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권6호
    • /
    • pp.2049-2068
    • /
    • 2021
  • AI combined with NLP techniques has promoted the use of Virtual Assistants and have made people rely on them for many diverse uses. Conversational Agents are the most promising technique that assists computer users through their operation. An important challenge in developing Conversational Agents globally is transferring the groundbreaking expertise obtained in English to other languages. AI is making it possible to transfer this learning. There is a dire need to develop systems that understand secular languages. One such difficult language is Hindi, which is the fourth most spoken language in the world. Semantic similarity is an important part of Natural Language Processing, which involves applications such as ontology learning and information extraction, for developing conversational agents. Most of the research is concentrated on English and other European languages. This paper presents a Corpus-based word semantic similarity measure for Hindi. An experiment involving the translation of the English benchmark dataset to Hindi is performed, investigating the incorporation of the corpus, with human and machine similarity ratings. A significant correlation to the human intuition and the algorithm ratings has been calculated for analyzing the accuracy of the proposed similarity measures. The method can be adapted in various applications of word semantic similarity or module for any other language.

EFFICIENT IMAGE SEGMENTATION FOR MANIFESTING VISUAL OBJECTS

  • Park, Hyun-Sang;Lim, Jung-Eun;Ra, Jong-Beom
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1999년도 KOBA 방송기술 워크샵 KOBA Broadcasting Technology Workshop
    • /
    • pp.159-164
    • /
    • 1999
  • Homogeneous but distinct visual objects having low-contrast boundaries are usually merged in most of the segmentation algorithms. To alleviate this problem, an efficient image segmentation algorithm based on a bottom-up approach is proposed by using spatial domain information only. For initial image segmentation, we adopt an efficient marker extraction algorithm conforming to the human visual system. Then, two region-merging algorithms are successively applied so that homogeneous visual objects can be represented as simple as possible without destroying low-contrast real boundaries among them. The resultant segmentation describes homogeneous visual objects with few regions while preserving semantic object shapes well. Finally, a size-based region decision procedure may be applied to represent complex visual objects simpler, if their precise semantic contents are not necessary. Experimental results show that the proposed image segmentation algorithm represents homogeneous visual objects with a few regions and describes complex visual objects with a marginal number of regions with well-preserved semantic object shapes.

폭소노미에서 위치태그 분석을 통한 공간관계 추출 기법 (Extraction method of spatial relation by analyzing location tag in folksonomy)

  • 최윤희;용환승
    • 한국멀티미디어학회논문지
    • /
    • 제12권8호
    • /
    • pp.1043-1054
    • /
    • 2009
  • 최근 시맨틱 웹에 대한 관심과 필요성이 높아지면서 시맨틱 웹의 핵심기술인 온톨로지 역시 다양한 분야에서 많은 연구가 진행되고 있다. 온톨로지는 웹 2.0환경에서 널리 인용되는 폭소노미의 문제들을 해결하기 위한 대안이 되고 있다. 이에 본 연구에서는 웹 2.0 환경의 폭소노미 기술이 가지는 단점을 보완하고자 폭소노미 기반의 데이터를 온톨로지로 변환해주는 위치 정보 온톨로지 자동 구축 시스템을 제안한다. 제안된 기법은 폭소노미 기반 웹 서비스인 Flickr에 온톨로지 기술을 적용하여 Flickr의 이미지 데이터들과 이들의 메타데이터인 태그들로부터 위치정보 태그와 공간 관계를 추출하고 OWL형태의 온톨로지로 자동 구축한다. 위치정보 태그와 의미적 공간 관계를 분석하고 추출하기 위해 여러 웹 서비스에서 제공하는 공개질의정보 API(이하 openAPI)를 사용하였다. 따라서 본 연구에서 구현한 시스템은 폭소노미 데이터를 온톨로지의 의미적인 정보로 연결해 줌으로써 개념적인 관계를 보완하고 더욱 정확한 검색결과를 제공 할 수 있도록 한다.

  • PDF

An effective approach to generate Wikipedia infobox of movie domain using semi-structured data

  • Bhuiyan, Hanif;Oh, Kyeong-Jin;Hong, Myung-Duk;Jo, Geun-Sik
    • 인터넷정보학회논문지
    • /
    • 제18권3호
    • /
    • pp.49-61
    • /
    • 2017
  • Wikipedia infoboxes have emerged as an important structured information source on the web. To compose infobox for an article, considerable amount of manual effort is required from an author. Due to this manual involvement, infobox suffers from inconsistency, data heterogeneity, incompleteness, schema drift etc. Prior works attempted to solve those problems by generating infobox automatically based on the corresponding article text. However, there are many articles in Wikipedia that do not have enough text content to generate infobox. In this paper, we present an automated approach to generate infobox for movie domain of Wikipedia by extracting information from several sources of the web instead of relying on article text only. The proposed methodology has been developed using semantic relations of article content and available semi-structured information of the web. It processes the article text through some classification processes to identify the template from the large pool of template list. Finally, it extracts the information for the corresponding template attributes from web and thus generates infobox. Through a comprehensive experimental evaluation the proposed scheme was demonstrated as an effective and efficient approach to generate Wikipedia infobox.

LSI를 이용한 차원 축소 클러스터 기반 키워드 연관망 자동 구축 기법 (Automatic Construction of Reduced Dimensional Cluster-based Keyword Association Networks using LSI)

  • 유한묵;김한준;장재영
    • 정보과학회 논문지
    • /
    • 제44권11호
    • /
    • pp.1236-1243
    • /
    • 2017
  • 본 논문은 기존의 TextRank 알고리즘에 상호정보량 척도를 결합하여 군집 기반에서 키워드 추출하는 LSI-based ClusterTextRank 기법과 추출된 키워드를 Latent Semantic Indexing(LSI)을 이용한 연관망 구축 기법을 제안한다. 제안 기법은 문서집합을 단어-문서 행렬로 표현하고, 이를 LSI를 이용하여 저차원의 개념 공간으로 차원을 축소한다. 그 다음 k-means 군집화 알고리즘을 이용하여 여러 군집으로 나누고, 각 군집에 포함된 단어들을 최대신장트리 그래프로 표현한 후 이에 근거한 군집 정보량을 고려하여 키워드를 추출한다. 그리고나서 추출된 키워드들 간에 유사도를 LSI 기법을 통해 구한 단어-개념 행렬을 이용하여 계산한 후, 이를 키워드 연관망으로 활용한다. 제안 기법의 성능을 평가하기 위해 여행 관련 블로그 데이터를 이용하였으며, 제안 기법이 기존 TextRank 알고리즘보다 키워드 추출의 정확도가 약 14% 가량 개선됨을 보인다.

유사성 비교를 통한 RDB의 참조 무결성 관계 추출 알고리즘 (An Algorithm for Referential Integrity Relations Extraction using Similarity Comparison of RDB)

  • 김장원;정동원;김진형;백두권
    • 한국시뮬레이션학회논문지
    • /
    • 제15권3호
    • /
    • pp.115-124
    • /
    • 2006
  • XML은 정보 교환과 표현을 위해 빠르게 발전해 오고 있는 기술이다. XML을 통한 시멘틱 모델링 방법론, 보안, 다른 모델들과의 상호 운용성을 위한 변환과 같은 많은 연구들이 이슈화 되었다. 특히, 실질적인 응용분야의 가장 중요한 이슈는 XML 모델과 관계형 모델들과의 상호 운용성을 위해 많은 방법들에 제기되어 왔다. 하지만, 여전히 몇 가지 문제점이 있다. 대부분의 기존의 방법들은 묵시적인 참조 무결성 관계를 고려하지 않기 때문에, 부정확한 데이터 전달이 야기된다. 데이터베이스에서 하나의 의미가 정의 될 때 오직 하나의 이름만 가진다는 제약조건하에서 위의 문제를 해결하기 위한 한 가지 방법이 제안되었다. 하지만, 실제 데이터베이스에서 응용과 확장을 위해서 이 제약사항을 적용할 수는 없다. 그래서 이 논문에서는 유사성 검사 기법을 기반하는 한 RDB-to-XML 변환 알고리즘을 제안한다. 이 방법의 핵심은 하나의 같은 의미에 대해 다른 이름으로 표현되는 속성들 간의 묵시적인 참조 무결성 관계를 추출하는 알고리즘을 정의하였다. 제안된 변환 알고리즘은 이전의 유사한 접근 방법 보다 더욱 실질적이다.

  • PDF

영상의 자동 주석: 멀티 큐 통합 (Images Automatic Annotation: Multi-cues Integration)

  • 신성윤;안은미;이양원
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 춘계학술대회
    • /
    • pp.589-590
    • /
    • 2010
  • All these images consist a considerable database. What's more, the semantic meanings of images are well presented by the surrounding text and links. But only a small minority of these images have precise assigned keyphrases, and manually assigning keyphrases to existing images is very laborious. Therefore it is highly desirable to automate the keyphrases extraction process. In this paper, we first introduce WWW image annotation methods, based on low level features, page tags, overall word frequency and local word frequency. Then we put forward our method of multi-cues integration image annotation. Also, show multi-cue image annotation method is more superior than other method through an experiment.

  • PDF

Biaffine Average Attention 모델을 이용한 의미역 결정 (Semantic Role Labeling using Biaffine Average Attention Model)

  • 남충현;장경식
    • 한국정보통신학회논문지
    • /
    • 제26권5호
    • /
    • pp.662-667
    • /
    • 2022
  • 의미역 결정 작업은 서술어와 문장 내 행위자, 피행위자, 장소, 시간 등 서술어와 관련 있는 논항들을 추출하는 작업이다. 기존 의미역 결정 방법은 문장의 언어학적 특징 추출을 위한 파이프라인을 구축하는데, 파이프라인 내 각 추출 작업들의 오류가 의미역 결정 작업의 성능에 영향을 미치기 때문에 현재는 End-to-End 방법의 신경망 모델을 이용한 방법들이 제안되고 있다. 본 논문에서는 의미역 결정 작업을 위해 Biaffine Average Attention 구조를 이용한 신경망 모델을 제안한다. 제안하는 모델은 기존 연구에서 제안된 특정 시점에 대한 레이블 예측을 위해 주변 시점 정보를 이용하는 LSTM 모델 대신 문장 내 서술어와 논항의 거리에 상관없이 문장 전체 정보에 집중할 수 있는 Biaffine Average Attention 구조로 이루어져 있다. 제안하는 모델의 성능 평가를 위해 F1 점수를 이용하여 기존 연구에서 제안한 BERT 기반의 모델들과 비교하였으며, 76.21%의 성능으로 비교 모델보다 높은 성능을 보였음을 확인하였다.

준구조화된 정보소스에 대한 지식기반의 Wrapper 학습 에이전트 (A Knowledge-based Wrapper Learning Agent for Semi-Structured Information Sources)

  • 서희경;양재영;최중민
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권1_2호
    • /
    • pp.42-52
    • /
    • 2002
  • 정보추출은 한 문서에서 그 문서의 중심적 의미를 나타내는 특정 구성요소를 인식하여 추출하는 작업이다. 기존의 정보추출 시스템은 대부분 정보추출 규칙인 wrapper를 수동으로 구성하여 적용하였기 때문에 추출의 정확성은 높지만 유연성, 확장성, 효율성의 측면에서 문제점이 발생하였다. Wrapper를 자동으로 생성하는 일부 연구에서도 도메인 지식의 획득과 표현의 어려움, 그리고 여러 정보소스 사이에 나타나는 문서형태의 구조적 이질성 때문에 정확한 정보추출이 이루어지지 못했다. 본 논문에서는 이러한 이질적이고 복잡한 형태의 실세계 정보소스로부터의 정확한 정보추출을 추구하는 정보추출 에이전트인 XTROS를 제안한다. XTROS는 도메인 지식을 이용하여 준구조화된 형태의 정보소스에서 제공하는 문서를 분석하고 학습하여 wrapper들을 자동으로 생성하고, 이 wrapper들을 모두 XML 문서의 형태로 구성하는 새로운 표현기법을 제시함으로써 도메인 지식표현의 용이성과 wrapper 해석기 구현의 간결함, XML이 지닌 이식성 등을 최대한 활용하고자 하였다. Wrapper의 정보추출 규칙은 도메인 지식과 샘플 문서를 이용하여 자동으로 생성된다. 정보추출 규칙을 자동으로 생성하는 알고리즘의 핵심은 도메인 지식을 바탕을 샘플 문서의 각 논리 라인에 의미를 부여하고 이 논리 라인 의미의 나열로부터 반복되는 패턴을 찾아내는 것이다. 이 패턴의 위치와 구조를 XML 문서로 표현한 것이 wrapper가 된다. XTROS 시스템을 부동산 매물정보를 제공하는 다수의 실제 웹 정보소스에 대해서 테스트한 결과 이질성과 복잡성을 가진 대부분의 정보소스로부터 정확한 wrapper 생성과 정보추출이 가능하였다.