• 제목/요약/키워드: 온톨로지 추출

검색결과 200건 처리시간 0.022초

지식베이스 구축을 위한 한국어 위키피디아의 학습 기반 지식추출 방법론 및 플랫폼 연구 (Knowledge Extraction Methodology and Framework from Wikipedia Articles for Construction of Knowledge-Base)

  • 김재헌;이명진
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.43-61
    • /
    • 2019
  • 최근 4차 산업혁명과 함께 인공지능 기술에 대한 연구가 활발히 진행되고 있으며, 이전의 그 어느 때보다도 기술의 발전이 빠르게 진행되고 있는 추세이다. 이러한 인공지능 환경에서 양질의 지식베이스는 인공지능 기술의 향상 및 사용자 경험을 높이기 위한 기반 기술로써 중요한 역할을 하고 있다. 특히 최근에는 인공지능 스피커를 통한 질의응답과 같은 서비스의 기반 지식으로 활용되고 있다. 하지만 지식베이스를 구축하는 것은 사람의 많은 노력을 요하며, 이로 인해 지식을 구축하는데 많은 시간과 비용이 소모된다. 이러한 문제를 해결하기 위해 본 연구에서는 기계학습을 이용하여 지식베이스의 구조에 따라 학습을 수행하고, 이를 통해 자연어 문서로부터 지식을 추출하여 지식화하는 방법에 대해 제안하고자 한다. 이러한 방법의 적절성을 보이기 위해 DBpedia 온톨로지의 구조를 기반으로 학습을 수행하여 지식을 구축할 것이다. 즉, DBpedia의 온톨로지 구조에 따라 위키피디아 문서에 기술되어 있는 인포박스를 이용하여 학습을 수행하고 이를 바탕으로 자연어 텍스트로부터 지식을 추출하여 온톨로지화하기 위한 방법론을 제안하고자 한다. 학습을 바탕으로 지식을 추출하기 위한 과정은 문서 분류, 적합 문장 분류, 그리고 지식 추출 및 지식베이스 변환의 과정으로 이루어진다. 이와 같은 방법론에 따라 실제 지식 추출을 위한 플랫폼을 구축하였으며, 실험을 통해 본 연구에서 제안하고자 하는 방법론이 지식을 확장하는데 있어 유용하게 활용될 수 있음을 증명하였다. 이러한 방법을 통해 구축된 지식은 향후 지식베이스를 기반으로 한 인공지능을 위해 활용될 수 있을 것으로 판단된다.

그래프 탐색을 이용한 웹으로부터의 온톨로지 기반 규칙습득 (Rule Acquisition Using Ontology Based on Graph Search)

  • 박상언;이재규;강주영
    • 지능정보연구
    • /
    • 제12권3호
    • /
    • pp.95-110
    • /
    • 2006
  • 지능형 에이전트와 규칙기반 시스템을 이용해 보다 지능적인 웹 환경을 구축하고자 하는 노력이 시맨틱 웹의 발전과 함께 증가하고 있다. 이러한 에이전트와 규칙기반 시스템에 필요한 규칙들을 이미 많은 지식들이 산재해 있는 웹으로부터 습득할 수 있다면 보다 효율적으로 시스템을 구축하는 것이 가능하며, 이러한 응용시스템의 확장은 시맨틱 웹의 발전을 더욱 가속화하는 계기가 될 수 있을 것이다. XRML 방법론은 웹으로부터 규칙을 습득하기 위한 단계적 방법을 제시하고 있으며, 온톨로지를 이용함으로써 규칙의 구성요소들을 자동으로 추출할 수 있도록 지원한다. 그러나 추출된 규칙구성요소들을 조합하여 완전한 규칙을 만드는 과정이 규칙관리자의 수작업에 의존하고 있다. 본 연구는 온톨로지와 그래프 탐색을 사용함으로써 이 과정을 자동화하고자 하는 연구이다. 온톨로지에 있는 규칙의 일반적 패턴을 기반으로 하여 그래프 탐색을 이용해 규칙구성요소들을 조합함으로써 웹 페이지로부터 자동으로 규칙을 추출할 수 있다.

  • PDF

이미지의 객체에 대한 의미 추론 이미지 검색 시스템 (Image Retrieval System of semantic Inference using Objects in Images)

  • 김지원;김철원
    • 한국전자통신학회논문지
    • /
    • 제11권7호
    • /
    • pp.677-684
    • /
    • 2016
  • 이미지와 같은 멀티미디어 정보들의 증가로 저수준의 시각 정보에서 고수준의 의미 정보를 추출하는 방법에 대한 연구가 이루어지고 있으며, 이러한 정보를 자동으로 생성하는 다양한 기술들이 연구되고 있다. 일반적으로 이미지 검색에 있어서 색상과 모양 등의 유사도를 이용하여 검색하는 경우가 많다. 색상과 모양이 비슷하다고 하여 의미까지 같은 이미지를 검색하기에는 어려움이 있다. 본 논문에서는 이미지에서 객체를 인식하기 위해 중간 계층 기술값을 이용하여 중간 계층의 의미 값으로 변환하며, 세그멘테이션의 성능을 높이기 위해 K-means알고리즘을 이용하여 각각의 이미지에 적합한 K값을 구하는 방법을 제안한다. 이렇게 세그멘테이션을 이용한 저수준 특징을 이용하여 객체를 추출하고, 온톨로지를 이용하여 의미관계를 추론한다. 제안하는 방법은 사용자가 생각하는 의미적으로 유사한 이미지를 보다 효율적으로 검색할 수 있다.

시맨틱 웹 응용 서비스에서의 텍스트 처리 기술 적용 (Use of Text Processing Technologies in a Semantic Web Application)

  • 정한민;강인수;구희관;이승우;김평;성원경
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.189-196
    • /
    • 2006
  • 본 논문은 시맨틱 웹 응용 서비스를 구현함에 있어 필수적으로 요구되는 온톨로지 인스턴스 구축을 효율적으로 처리하는 데 있어 텍스트 처리 기술이 어떤 역할을 수행할 수 있는 가를 $OntoFrame-K^{(R)}$라는 시맨틱 웹 기반 정보 유통 체계에의 적용 사례를 통해 살펴본다. 본 논문에서 소개하는 텍스트 처리 기술은 개체 확인물 통한 개념 사례화, 주제 분야 할당을 통한 메타데이터 확장에, 그리고 인용 정보 추출 및 인용 관계 구축을 통한 객체 관계속성 구축에 적용된다. 개체 확인에서는 메타데이터 비교 잊 병합을 사용하였으며 이를 기반으로 한 수작업 구축을 통해 8,543명의 인력 URI를 확보하였다. 주제 및 분야 할당에서는 색인어와 분야분류명이 매핑된 시소러스 개념어의 매칭을 통해 색인어 별 TF (Term Frequency), 색인어와 매칭된 개념어 별 TF, 색인어와 매칭된 개념어 별 시소러스에서의 깊이, 색인어와 매칭된 개념어 별 개념 패싯, 색인어와 매칭된 각 개념어에 부착된 분야분류명 목록 등 할당을 위한 다양한 자질을 확보 적용하였다. 인용 정보 추출과 인용 관계 구축에서는 객체 URI와 인력 URI를 기반으로 하여 자동 추출된 인용 정보를 반영하는 방식으로 7,237개 문헌으로부터 총 135개의 인용 네트워크 그룹을 자동으로 확보하였다. 본 연구를 통해 제시된 텍스트 처리 기술의 활용 방안이 향후 시맨틱 웹 응용 서비스 및 인프라 구현에서 다각적으로 활용될 수 있기를 기대한다.

  • PDF

유전자 온톨로지를 이용한 마이크로어레이 데이터의 유전자 기능 분석 시스템의 개발 (Development of a Gene's Functional Classifying System for a Microarray Data using a Gene Ontology)

  • 이종근;박성수;홍동완;윤지희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.246-251
    • /
    • 2006
  • 마이크로어레이 실험은 수 천에서 수 만개의 유전자 발현 결과를 동시에 측정할 수 있어 질병의 발현 형질 분류 등에 유용하게 이용되고 있다. 그러나 마이크로어레이 실험은 동일한 플랫폼의 실험이라 할지라도 환경 등에 따라 그 실험 결과에 차이가 나는 등 오차를 항상 포함하고 있다. 또한 마이크로어레이 실험은 아직 고가의 실험으로 분류되어 다수의 샘플에 대한 반복 실험 결과를 얻기 어려운 상황이다. 따라서 이종의 플랫폼, 데이터 포맷, 정규화 기법 등이 서로 다른 데이터를 효율적으로 통합하여 유용한 정보를 추출하는 새로운 방식의 개발이 필요하다. 본 논문은 이와 같은 문제를 해결하기 위한 기초 단계 연구 결과이다. 마이크로어레이 실험 데이터로부터 통계적 방법을 이용하여 유의(informative) 유전자를 추출하고 유전자 온톨로지(Gene Ontology : GO)와의 연계를 통하여 유전자 정보의 기능적 분류 결과를 사용자에게 제공하는 유전자 기능 분석 시스템의 설계 및 구현 방안을 보인다. 본 시스템의 실험방법에서는 3-Fold Filtering 기법을 통하여 발현 차가 큰 유전자를 추출하고, t-검정 기법에 의하여 이들 유전자를 순위화 하였으며, 이 중 상위 100개의 유전자를 유의 유전자로 추출하였다. 다음, 이 들 유의 유전자의 t-검정 값을 GO의 유전자 기능을 나타내는 해당 텀 (term)에 가중치로 부과하여 각 유전자들과 기능적으로 연관성이 높은 텀들을 추출한다. 또한 본 연구의 유효성을 검증하기 위하여 본 시스템에 의한 마이크로어레이 데이터 분석 결과를 전문가에 의한 유전자 기능 분석 결과와 비교한다.투명성 있는 서비스를 제공하고 높은 신뢰성과 안정성이 확보될 수 있도록 구성하고자 한다. Query 수행을 여러 서버로 분산처리하게 함으로써 성능에 대한 신뢰성을 향상 시킬 수 있는 Load Balancing System을 제안한다.할 때 가장 효과적인 라우팅 프로토콜이라고 할 수 있다.iRNA 상의 의존관계를 분석할 수 있었다.수안보 등 지역에서 나타난다 이러한 이상대 주변에는 대개 온천이 발달되어 있었거나 새로 개발되어 있는 곳이다. 온천에 이용하고 있는 시추공의 자료는 배제하였으나 온천이응으로 직접적으로 영향을 받지 않은 시추공의 자료는 사용하였다 이러한 온천 주변 지역이라 하더라도 실제는 온천의 pumping 으로 인한 대류현상으로 주변 일대의 온도를 올려놓았기 때문에 비교적 높은 지열류량 값을 보인다. 한편 한반도 남동부 일대는 이번 추가된 자료에 의해 새로운 지열류량 분포 변화가 나타났다 강원 북부 오색온천지역 부근에서 높은 지열류량 분포를 보이며 또한 우리나라 대단층 중의 하나인 양산단층과 같은 방향으로 발달한 밀양단층, 모량단층, 동래단층 등 주변부로 NNE-SSW 방향의 지열류량 이상대가 발달한다. 이것으로 볼 때 지열류량은 지질구조와 무관하지 않음을 파악할 수 있다. 특히 이러한 단층대 주변은 지열수의 순환이 깊은 심도까지 가능하므로 이러한 대류현상으로 지표부근까지 높은 지온 전달이 되어 나타나는 것으로 판단된다.의 안정된 방사성표지효율을 보였다. $^{99m}Tc$-transferrin을 이용한 감염영상을 성공적으로 얻을 수 있었으며, $^{67}Ga$-citrate

  • PDF

온톨로지 지식 기반 특성치를 활용한 Bidirectional LSTM-CRF 모델의 시퀀스 태깅 성능 향상에 관한 연구 (Improving Bidirectional LSTM-CRF model Of Sequence Tagging by using Ontology knowledge based feature)

  • 진승희;장희원;김우주
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.253-266
    • /
    • 2018
  • 본 연구는 질의 응답(QA) 시스템에서 사용하는 개체명 인식(NER)의 성능을 향상시키기 위하여 시퀀스 태깅 방법론을 적용한 새로운 방법론을 제안한다. 사용자의 질의를 입력 받아 데이터베이스에 저장된 정답을 추출하기 위해서는 사람의 언어를 컴퓨터가 알아들을 수 있도록 구조화 질의어(SQL)와 같은 데이터베이스의 언어로 전환하는 과정이 필요한데, 개체명 인식은 사용자의 질의에서 데이터베이스에 포함된 클래스나 데이터 명을 식별하는 과정이다. 기존의 데이터베이스에서 질의에 포함된 단어를 검색하여 개체명을 인식하는 방식은 동음이의어와 문장성분 구를 문맥을 고려하여 식별하지 못한다. 다수의 검색 결과가 존재하면 그들 모두를 결과로 반환하기 때문에 질의에 대한 해석이 여러 가지가 나올 수 있고, 계산을 위한 시간복잡도가 커진다. 본 연구에서는 이러한 단점을 극복하기 위해 신경망 기반의 방법론을 사용하여 질의가 가지는 문맥적 의미를 반영함으로써 이러한 문제를 해결하고자 했고 신경망 기반의 방법론의 문제점인 학습되지 않은 단어에 대해서도 문맥을 통해 식별을 하고자 하였다. Sequence Tagging 분야에서 최신 기술인 Bidirectional LSTM-CRF 모델을 도입함으로써 신경망 모델이 가진 단점을 해결하였고, 학습되지 않은 단어에 대해서는 온톨로지 기반 특성치를 활용하여 문맥을 반영한 추론을 사용하였다. 음악 도메인의 온톨로지(Ontology) 지식베이스를 대상으로 실험을 진행하고 그 성능을 평가하였다. 본 연구에서 제안한 방법론인 L-Bidirectional LSTM-CRF의 성능을 정확하게 평가하기 위하여 학습에 포함된 단어들뿐만 아니라 학습에 포함되지 않은 단어들도 포함한 질의를 평가에 사용하였다. 그 결과 L-Bidirectional LSTM-CRF 모형을 재학습 시키지 않아도 학습에 포함되지 않은 단어를 포함한 질의에 대한 개체명 인식이 가능함을 확인하였고, 전체적으로 개체명 인식의 성능이 향상됨을 확인할 수 있었다.

전문용어의 처리에 의한 도메인 온톨로지의 구축 (Domain-specific Ontology Construction by Terminology Processing)

  • 임수연;송무희;이상조
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권3호
    • /
    • pp.353-360
    • /
    • 2004
  • 온톨로지는 특정 도메인에 사용되는 용어들과 그 용어들 간의 관계를 정의하고, 이를 계층구조로 표현한 것을 말한다. 본 논문에서는 전문용어의 처리에 기반 한 도메인 특정적인 온톨로지의 반자동 구축방안을 제안하고자 한다. 이를 위하여 도메인 텍스트 내에서 전문용어를 구성하고 있는 명사나 접미사의 패턴을 분류하고, 이에 따라 전문용어를 추출하고 계층구조를 구하는 알고리즘을 제안한다. 실험은 약학 관련 문서를 대상으로 하였으며, 단일어절 전문용어를 인식한 결과 평균 92.57%, 다중어절 전문용어의 경우 평균 66.64%의 정확도를 보였다. 구축된 온톨로지는 의미정보와 함께 전문용어를 구성하는 특정 명사나 접미사를 중심으로 자연스런 의미 군을 형성함으로써 정보검색 등의 전문적인 지식의 접근에 유용하게 쓰일 수 있으며, 검색의 성능을 향상시키기 위한 추론의 기반으로도 이용할 수 있다.

질의응답 시스템을 위한 백과사전 기반 지식베이스와 온톨로지 (Encyclopedia-Based Knowledge Base and Ontology for Question Answering System)

  • 최호섭;옥철영;김창환;왕지현;장명길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.177-183
    • /
    • 2003
  • 기존의 정보검색시스템이 사용자의 질의에 의해 키워드가 포함된 의미 있는 문서를 제공하는 시스템이라면, 질의응답시스템은 사용자 질의에 맞는 정답을 적절한 언어처리 기법을 통해 텍스트로부터 추출하여 제공하는 시스템이다. 이러한 언어처리 기법을 이용한 질의응답 시스템에서 시스템의 성능 향상에 도움을 줄 수 있는 것이, 실세계의 지식을 저장하고 있는 지식베이스라 할 수 있다. 지식베이스가 가지고 있는 실세계의 지식을 어떻게 효율적으로 활용하느냐에 따라 질의 처리 분석과 정답 확률을 향상시킬 수 있는 것이다. 본 논문에서는 실세계의 지식을 어느 정도 체계적 의미적으로 반영하고 있는 것을 백과사전으로 판단하여, 백과사전의 '인물' 범주(category)를 중심으로 백과사전 지식베이스의 틀을 마련하고자 하였다. 또한 어휘의 계층적 구조를 중심으로 한 온톨로지를 백과사전 지식베이스와 유기적으로 연결시킴으로써 보다 의미 있는 지식베이스를 형성하는 방안을 모색하고자 하였다.

  • PDF

온톨로지와 게임 커뮤니티의 질의/응답 게시글을 이용한 대화형 NPC의 구현 (Implementation of an interactive NPC with an ontolgy and game community Q/A bulletine board)

  • 박두경;윤태복;박교현;이지형
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.164-168
    • /
    • 2006
  • 최근 컴퓨터 게임에 등장하는 NPC(Non-player Character)에 각종 인공지능 기법을 적용하는 연구들이 이루어지고 있다. 하지만 대부분의 연구가 플레이어를 상대하는 적대적 입장의NPC들의 움직임 조절에 초점을 맞추고 있고 아직까지 게임 상에서 등장하는 모든 NPC는 항상 같은 말과 비슷한 행동을 되풀이하는 모습만을 보여주고 있다. 이는 플레이어가 게임을 비현실적으로 느끼게 만들고 결과적으로 게임의 재미를 저하시키는 요소로 작용한다. 플레이어에게 보다 현실적인 게임 환경을 제공하기 위해서는NPC가 단순히 게임의 배경을 구성하는 오브젝트가 아니라 다양한 대화를 통해 플레이어에게 많은 영향을 주게 하여 게임의 기여도를 높여주어야 한다. 본 논문에서는 이를 위해 게임 속에서 주어지는 퀘스트를 구성하는 NPC, 몬스터, 보상 등의 속성 정보를 온톨로지화 하고, 인터넷에 존재하는 게임 커뮤니티에서 퀘스트 질의/응답 게시판의 글을 추출하여, 플레이어의 관련 질의에 응답하는 NPC를 구현하고자 한다. 이를 위해 온톨로지 정보를 이용한 검색 알고리즘을 구현하였고,시뮬레이션을 통해 NPC가 커뮤니티 게시글 정보를 이용하여 유저에게 고정되지 않은 다양한 메시지를 전달하면서 동시에 유저의 게임 진행을 도와주는 모습을 확인하였다.

  • PDF

의미정보모델 구축을 위한 색채정보의 수집과 정량적 분석 (Collecting and Analyzing Color Information for Constructing Semantic Information Model)

  • 류기곤;선동언;김현철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.232-235
    • /
    • 2011
  • 지식표현은 일반적으로 논리, 규칙, 프레임 또는 의미망 형태로 표현되며, 최근에는 의미망을 이용한 온톨로지 형태로 표현되고 있다. 이러한 지식표현 방법은 개념을 설명하는 문맥적인 정보나 개념들 간의 구조적인 정보를 이용하여 개념에 대한 지식을 논리적으로 표현하는데 중점을 두었다. 하지만, 지식표현에 사용되는 의미정보는 사람에 의해 수집되고 정제되기 때문에 많은 시간, 비용 및 인력이 필요하다는 한계가 있고, 새로운 의미를 추가하거나 기존의 의미를 수정하는 것이 매우 어렵다는 한계가 있다. 색채는 특정 대상이나 개념에 대한 의미, 연상, 상징 등 객관적인 특징 뿐 아니라 시대, 나라, 문화와 같은 사회적 배경을 반영하기 때문에, 정보를 제공하고 감성을 전달하는 효과적인 수단으로 사용되고 있다. 이에 본 논문은, 색채를 이용한 의미정보모델 구축을 위해, 색채정보를 수집하고 정량적으로 분석하는 방법을 제안한다. 긍정/부정/불안/중립으로 구성된 감성어휘 273개를 이용하여 이미지를 수집한 결과 총 130,944개의 이미지를 수집하였다. 이미지에는 여러 가지 사물, 행동, 배경, 색채 등 다양한 정보가 혼재되어 있어 감성어휘와 연관된 색채를 구별하기 어렵기 때문에 이미지를 직관적으로 설명할 수 있는 사용자 태그를 별도로 수집하였다. 태그는 총 2,836,395개를 수집하였고 각 이미지와 그룹에서의 가중치를 구하였다. 태그의 가중치를 통해 이미지가 그룹 내에서 갖는 중요도를 판별하였고, 각 그룹 별로 상위 30%의 이미지를 추출하여 대표 색채를 분석하였다.