• 제목/요약/키워드: 지식베이스 추출

검색결과 156건 처리시간 0.03초

지식베이스 구축을 위한 한국어 위키피디아의 학습 기반 지식추출 방법론 및 플랫폼 연구 (Knowledge Extraction Methodology and Framework from Wikipedia Articles for Construction of Knowledge-Base)

  • 김재헌;이명진
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.43-61
    • /
    • 2019
  • 최근 4차 산업혁명과 함께 인공지능 기술에 대한 연구가 활발히 진행되고 있으며, 이전의 그 어느 때보다도 기술의 발전이 빠르게 진행되고 있는 추세이다. 이러한 인공지능 환경에서 양질의 지식베이스는 인공지능 기술의 향상 및 사용자 경험을 높이기 위한 기반 기술로써 중요한 역할을 하고 있다. 특히 최근에는 인공지능 스피커를 통한 질의응답과 같은 서비스의 기반 지식으로 활용되고 있다. 하지만 지식베이스를 구축하는 것은 사람의 많은 노력을 요하며, 이로 인해 지식을 구축하는데 많은 시간과 비용이 소모된다. 이러한 문제를 해결하기 위해 본 연구에서는 기계학습을 이용하여 지식베이스의 구조에 따라 학습을 수행하고, 이를 통해 자연어 문서로부터 지식을 추출하여 지식화하는 방법에 대해 제안하고자 한다. 이러한 방법의 적절성을 보이기 위해 DBpedia 온톨로지의 구조를 기반으로 학습을 수행하여 지식을 구축할 것이다. 즉, DBpedia의 온톨로지 구조에 따라 위키피디아 문서에 기술되어 있는 인포박스를 이용하여 학습을 수행하고 이를 바탕으로 자연어 텍스트로부터 지식을 추출하여 온톨로지화하기 위한 방법론을 제안하고자 한다. 학습을 바탕으로 지식을 추출하기 위한 과정은 문서 분류, 적합 문장 분류, 그리고 지식 추출 및 지식베이스 변환의 과정으로 이루어진다. 이와 같은 방법론에 따라 실제 지식 추출을 위한 플랫폼을 구축하였으며, 실험을 통해 본 연구에서 제안하고자 하는 방법론이 지식을 확장하는데 있어 유용하게 활용될 수 있음을 증명하였다. 이러한 방법을 통해 구축된 지식은 향후 지식베이스를 기반으로 한 인공지능을 위해 활용될 수 있을 것으로 판단된다.

한국어 디비피디아의 자동 스키마 진화를 위한 방법 (A method of Automatic Schema Evolution on DBpedia Korea)

  • 김선동;강민서;이재길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.741-744
    • /
    • 2014
  • 디비피디아 온톨로지는 위키피디아에서 구조화된 데이터를 추출한 지식 베이스이다. 이러한 지식 베이스의 자동 증강은 웹을 구조화하는 속도를 증가시키는데 큰기여를 할 수 있다. 본 연구에서는 한국어 디비피디아를 기반으로 새로운 트리플을 입력받아 기존의 지식 베이스를 자동 증강시키는 시스템을 소개한다. 스키마를 자동 증강하는 두 가지 알고리즘은 최하위 레벨인 인스턴스가 지닌 프로퍼티, 즉 rdf-triple 단위에서 진행되었다. 알고리즘을 사용한 결과 첫째, 확률적 격상 방법을 통해 단계별로 입력받는 인스턴스와 하위 클래스의 프로퍼티를 이용하여 상위 클래스의 스키마가 정교해졌다. 둘째, 이를 바탕으로 타입 분류가 되어 있지 않았던 인스턴스들이 가장 가까운 타입에 자동 분류되었다. 지식 베이스가 정교해지면서 재분류된 인스턴스와 새로운 트리플셋을 바탕으로 두 가지 알고리즘은 반복적으로 작동하며, 한국어 디비피디아 지식 베이스의 자동 증강을 이루었다.

비대칭 관계에 기반한 지식베이스와 문법 검사기 구현 (Implementation of Knowledgebase and Grammar Checker Based on Asymmetric Relationship)

  • 강미영;임성신;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.147-154
    • /
    • 2002
  • 이 논문은 한국어 문서 교정을 위해 부산대학교 인공지능 연구실에서 개발되고 있는 맞춤법 및 문법 검사기와 그 지식베이스 구축에 대해 알아본다. 비대칭 관계(asymmetric relation) 설정과 더불어 개발된 문법 검사기는 한 문장의 임의의 두 요소간의 비대칭 관계를 토대로 (1) 잠재적 지배관계 개념을 설정하고 (2) 부분 문장 분석 방법을 사용한다. 이런 요소들을 효율적으로 운영하는 시스템을 구현하기 위해서는 한국어에 대한 이해와 경험적 자료를 적절히 조화시킨 지식베이스 구축이 필수적이다. 이 논문은 그 선수(先手) 작업으로 한국어 문서의 오류들을 관찰하고, 그로부터 추출한 언어적이거나 언어 외적인 요소들로부터 일반적 패턴을 뽑아내어 사용자의 기대를 만족시키기 위한 적절한 규칙지식베이스를 구축하고 문법 검사기의 성능 향상을 위해 문장 분석 출발점과 분석방향 그리고 분석범위를 한정한다.

  • PDF

정보추출결과의 시각화 표현방법에 관한 이용성 평가 연구 (A Usability Evaluation on the Visualization of Information Extraction Output)

  • 이지연
    • 한국문헌정보학회지
    • /
    • 제39권2호
    • /
    • pp.287-304
    • /
    • 2005
  • 이 연구의 목적은 자동적으로 추출된 정보를 시각화 브라우저를 통해 표현하고 접근하는 방법에 대해 이용성평가를 수행하는 것이다. 특정 주제 분야에 국한되지 않는 정보추출시스템을 사용하여 신문기사에서 의미정보를 자동 추출하였고, 그 결과로 시각적으로 브라우저 할 수 있는 지식베이스를 구축하였다. 이 연구에 이용된 정보추출시스템은 신문기사의 텍스트정보로부터 다양한 자연언어처리 기술을 적용하여 개념-관계-개념의 형태로 표현되는 정보를 자동적으로 추출하였다. 지식베이스에 저장된 정보를 시각적으로 표현하는 시각화 브라우저를 구현하였는데, 이때 인터페이스 부분은 쌍곡면형 정보시각화 시스템의 하나인 PersonalBrain을 이용하여 개발하였다. PersonalBrain을 이용하면 표현하고자 하는 정보를 논리관계의 네트워크 형태로 연결할 수 있다. 지식베이스 정보의 시각화 접근방법에 대하여 15명의 이용자를 대상으로 질적 평가를 수행하였다. IS명의 연구대상자로 하여금 시각화 브라우저를 이용하도록 하고 관찰과 인터뷰를 통하여 이용성평가 데이터를 수집하였다. 내용분석결과, 이용자들은 정보추출결과의 시각화 브라우저 이용가능성에 대해 긍정적인 반응을 보인 동시에 몇 가지 이용성 관련 문제점을 지적하였다.

다중 절차 추출을 위한 지식 베이스 구조 (The Structure of Knowledge Base for Extracting Multi Procedure)

  • 임수종;정의석;왕지현;임명은;윤보현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.385-387
    • /
    • 2001
  • 연속적인 절차를 필요로 하는 영역에서 사용자는 단계마다 검색과 정보 획득과정을 반복적으로 수행해야만 한다. 현재 인터넷으로 수행 가능성 영역의 절차에 대해서 검색과 확인 과정을 거치지 않고 시스템과 대화를 통해서 원하는 절차를 한번에 생성해주는 시스템을 개발하기 위해서는 이러한 개념을 수행해 줄 수 있는 지식 베이스 구축이 필요하다. 본 연구에서는 적용하려는 절차의 특성에 다라 대화 모델에서 의도 파악을 위한 Plan-based 기술을 적용할 수 있는 Goal Level과 사용자의 제약 조건을 파악하기 위해 Frame-based 기술을 적용할 수 있는 Constraint Level의 2단계 구조를 갖는 지식 베이스 구조를 제안한다.

  • PDF

가전제품의 설계지원을 위한 규격 지식베이스의 구축

  • 이효섭;한순흥
    • 한국정밀공학회:학술대회논문집
    • /
    • 한국정밀공학회 1992년도 추계학술대회 논문집
    • /
    • pp.275-279
    • /
    • 1992
  • 가전제품을 설계할 때는 수출된 지역의 규격(standard)을 파악하여, 그 규격에 만족하는 설계를 해야 한다. 점용 전문가시스템 쉘인 ART-IM을 이용하여 이러한 규격을 지식베이스로 구축하여 설계를 지원하는 시스템을 구현하였다. 지식의 추출은 영국의 표준 협회에서 제정한 가정용 전기제품의 안전성에 대한 규격 집인 EN 60 335-1을 이용하였다. 본 논문은 제품의 안전 규격 집이나 사내 규격집 등과 같이, 체계적이고 규범적인 문장의 구성을 가진 기존 문서에서의 지식 추 출 방법론에 대한 연구에 중점을 두고 있다.

프레임넷을 통한 디비피디아 온톨로지 인스턴스 생성의 커버리지 개선 (DBpedia Ontology Population Coverage Enhancement with FrameNet)

  • 함영균;서지우;황도삼;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.32-37
    • /
    • 2014
  • 비구조 텍스트로부터 지식을 추출하여 온톨로지 기반 지식베이스를 구축하는 연구가 최근 국내외로 다양하게 진행되고 있다. 이러한 목적을 달성하기 위해서는 자연어 텍스트에서 나타난 지식요소들의 다양한 속성들을 표현할 수 있는 온톨로지를 필요로 한다. 디비피디아 역시 위키피디아의 지식들을 표현하기 위하여 디비피디아 온톨로지를 사용한다. 그러나 디비피디아 온톨로지는 위키피디아의 인포박스에 기반한 온톨로지로서, 요약된 정보를 설명하기에는 적합할 수 있으나 자연어 텍스트로 표현된 다양한 지식표현을 충분히 커버하는 것은 보증되지 않는다. 본 논문에서는 자연어 텍스트로 쓰여진 지식을 디비피디아 온톨로지가 충분히 표현할 수 있는지를 검토하고, 또한 그 불완전성을 프레임넷이 어느정도까지 보완할 수 있는지를 살핀다. 이를 통해 한국어 텍스트로부터 지식베이스를 자동구축하는 온톨로지 인스턴스 자동생성 연구의 방향으로서 디비피디아 온톨로지와 프레임넷의 효용성을 전망한다.

  • PDF

영상이해를 위한 지식유출에 관한 연구 (A Study on the Extraction of Knowledge for Image Understanding)

  • 곽윤식;이대영
    • 한국통신학회논문지
    • /
    • 제18권5호
    • /
    • pp.757-772
    • /
    • 1993
  • 본 논문에서는 영상 이해를 위한 지식 베이스 시스템에 있어서 핵심적 기능을 수행하게 되는 저급 지식원과 중급 지식원의 추출에 관한 것으로 화소 영역에 적용되는 저급 처리 과정으로 영역 분할 처리과정, 방향 영상 변환과정, 형태 정보 추출 과정, 영역 특징량 추출과정으로 구성되며 중급 처리 과정으로 특징 베이스 분류, 기하학적 토큰 관계성, 인지적 조직과 집단화 과정으로 구성되어 있다.

  • PDF

CRF를 이용한 백과사전 도메인의 템플릿 기반 지식베이스 설계 및 구축 (Template-based Knowledgebase Design and Construction using Conditional Random Fields in Encyclopedia Domain)

  • 왕지현;이창기;김현진;장명길
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.484-486
    • /
    • 2005
  • 본 논문은 백과사전 도메인의 지식베이스 설계 및 통계기반 정보추출 방법을 이용한 속성정보 인식에 대하여 기술한다. 층 13개 카테고리로 구성된 백과사전에 대해 99개의 템플릿과 285개의 속성을 정의하였으며, 각 표제어의 추출 대상인 속성정보는 표제어를 설명하는 본문에서 통계기반 기계학습모델인 CRF(Conditional Random Fields)를 적용하여 추출하였다. 백과사전 카테고리 별로 균일하게 선정된 4천 5백 문서를 학습에 사용하였고 테스트 문서셋 500문서에 대해 속성인식률을 측정하였다. 성능 평가한 결과, $F1\;55.76\%\;(P\;74.89\%,\;R\;44.42\%)$의 성능을 나타내었다.

  • PDF

지식을 이용한 특정 문서의 논리 구조 추출에 관한 연구 (A Study on the Extraction into the Logical Structure of a Specific Document using Knowledge)

  • 손영우;남궁재찬
    • 정보기술과데이타베이스저널
    • /
    • 제3권1호
    • /
    • pp.85-95
    • /
    • 1996
  • 본 논문은 특정문서에서 문서가 갖고 있는 일반적인 지식을 이용하여 논리적 항목을 추출하는 방법에 관한 연구이다. 먼저 입력된 문서의 영역 분할, 분리자 추출, 그리고 문자와 비문자를 구별하였다. 논리구조 추출단계에서는 구별된 요소의 상대적 크기, 위치 및 전후 블록들의 연관성에 관한 지식을 이용하여 각 블록들을 레이블링 하였고, 레이블된 항목들의 위치정보값을 이용하여 각 항목들을 자료화하였다. 마지막으로, 오분류된 항목에 대해서는 배치기술자를 이용한 검증을 통해 정정하였다. 본 논문에서 구현한 방법으로 실험한 결과 96.5%의 논리항목 추출율을 획득함으로써 그 유효성을 입증하였다.

  • PDF