• 제목/요약/키워드: 도메인지식

검색결과 291건 처리시간 0.025초

메타 정보를 활용한 프롬프트 기반 도메인 특화 한국어 관계 추출 (Domain-specific Korean Relation Extraction system using Prompt with Meta-Information)

  • 김진성;김경민;손준영;소아람;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.369-373
    • /
    • 2022
  • 기존의 관계 추출 태스크에서의 많은 연구들은 사전학습 언어모델을 파인튜닝하여 뛰어난 성능을 달성해왔다. 하지만, 파인튜닝은 사전학습 시의 학습 기법과의 간극으로 인해 일반화 능력을 저해한다. 본 연구는 다운스트림 태스크를 사전학습의 Masked Language Modeling (MLM) 기법을 통해 해결하는 프롬프트 기반의 학습 기법을 활용하여, 특정 한국어 도메인에서의 관계 추출을 위한 프롬프트 기반 파인튜닝 방법론을 제안한다. 실험의 경우, 도메인의 특성이 뚜렷한 전통문화유산 말뭉치를 대상으로 실험을 진행하여 본 방법론의 도메인 적응력을 보이며, 메타 정보 즉, 개체 유형 및 관계 유형의 의미론적 정보를 일종의 지식 정보로 활용하여 프롬프트 기반 지식 주입의 효과성을 검증한다. 프롬프트에의 메타 정보의 주입과 함께 프롬프트 기반으로 파인튜닝된 모델은 오직 MLM 기법만을 이용하여 태스크를 수행하여 기존 파인튜닝 방법론 대비 파라미터 수가 적음에도, 성능 면에서 대부분 소폭 상승하는 경향을 보여줌으로써 그 효과성 및 효율성을 보인다.

  • PDF

준구조화된 정보소스에 대한 지식기반의 Wrapper 학습 에이전트 (A Knowledge-based Wrapper Learning Agent for Semi-Structured Information Sources)

  • 서희경;양재영;최중민
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권1_2호
    • /
    • pp.42-52
    • /
    • 2002
  • 정보추출은 한 문서에서 그 문서의 중심적 의미를 나타내는 특정 구성요소를 인식하여 추출하는 작업이다. 기존의 정보추출 시스템은 대부분 정보추출 규칙인 wrapper를 수동으로 구성하여 적용하였기 때문에 추출의 정확성은 높지만 유연성, 확장성, 효율성의 측면에서 문제점이 발생하였다. Wrapper를 자동으로 생성하는 일부 연구에서도 도메인 지식의 획득과 표현의 어려움, 그리고 여러 정보소스 사이에 나타나는 문서형태의 구조적 이질성 때문에 정확한 정보추출이 이루어지지 못했다. 본 논문에서는 이러한 이질적이고 복잡한 형태의 실세계 정보소스로부터의 정확한 정보추출을 추구하는 정보추출 에이전트인 XTROS를 제안한다. XTROS는 도메인 지식을 이용하여 준구조화된 형태의 정보소스에서 제공하는 문서를 분석하고 학습하여 wrapper들을 자동으로 생성하고, 이 wrapper들을 모두 XML 문서의 형태로 구성하는 새로운 표현기법을 제시함으로써 도메인 지식표현의 용이성과 wrapper 해석기 구현의 간결함, XML이 지닌 이식성 등을 최대한 활용하고자 하였다. Wrapper의 정보추출 규칙은 도메인 지식과 샘플 문서를 이용하여 자동으로 생성된다. 정보추출 규칙을 자동으로 생성하는 알고리즘의 핵심은 도메인 지식을 바탕을 샘플 문서의 각 논리 라인에 의미를 부여하고 이 논리 라인 의미의 나열로부터 반복되는 패턴을 찾아내는 것이다. 이 패턴의 위치와 구조를 XML 문서로 표현한 것이 wrapper가 된다. XTROS 시스템을 부동산 매물정보를 제공하는 다수의 실제 웹 정보소스에 대해서 테스트한 결과 이질성과 복잡성을 가진 대부분의 정보소스로부터 정확한 wrapper 생성과 정보추출이 가능하였다.

절차 지식 온톨로지 기반 지능형 교수 시스템 설계 (Design of an Intelligent Tutoring System Based on the Ontology of Procedural Knowledge)

  • 유정수
    • 한국정보교육학회:학술대회논문집
    • /
    • 한국정보교육학회 2007년도 하계학술대회
    • /
    • pp.71-75
    • /
    • 2007
  • 오늘날 지능형 교수 시스템은 과거와는 달리 전문영역 지식, 학습자 지식과 융통적인 개별 학습과 개인교수를 지원하기 위한 교수 전략에 대한 지식이 사용되고 있다. 학습자들이 배웠던 내용이 무엇인지를 설명하고 가르칠 도메인 지식을 전문영역 지식으로 표현한다. 교수법 모듈은 학습을 제어하거나 가르치기 위한 모든 결정을 한다. 학생 모형은 학습자의 지식을 기술하고 학습자 개개인에 대한 특정한 정보를 저장한다. 본 논문에서는 지능형 교수 시스템의 구성 요소인 학습자 모형의 지식을 기존의 인공지능에서의 지식 표현 기법인 생성 시스템의 절차 지식을 온톨로지를 사용하여 설계하였다.

  • PDF

영한 번역기의 상용화를 위한 도메인 특화 방법의 진화 (Evolution of Customization Method for Commercialization of an English-Korean MT System)

  • 최승권;이기영;노윤형;권오욱;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.72-76
    • /
    • 2011
  • 본 논문은 한국전자통신연구원 언어처리연구팀에서 2004년까지 개발하였던 웹문서 자동번역 시스템을 2006년부터 매년 도메인별로 상용화에 성공한 사례를 기술한 것이다. 상용화가 가능하였던 주요 요인 중 하나인 도메인 특화 방법을 소개하며 이 도메인 특화 방법이 시기별로 개선되어 진화되는 모습을 기술한다. 즉 2004년의 웹문서 영한 자동번역기를 2006년에 특허문서 영한 자동번역기로 특화할 때 사용한 도메인 특화 방법이 '초기 도메인 특화 방법'이라 할 수 있는데, 이 초기의 도메인 특화 방법에 번역지식 및 번역엔진 모듈의 반자동 튜닝 방법과 자동화된 평가 방법을 추가하여 2007년에 '개선된 도메인 특화 방법'을 개발하였다. 이 '개선된 도메인 특화 방법'은 2007년에 특허문서 영한 자동번역기를 기술논문 영한 자동번역기로, 2008년에 기술논문 영한 자동번역기를 IT웹신문 영한 자동번역기로, 2009년에 IT 웹신문 영한 자동번역기를 전자우편 및 기업문서 영한 자동번역기로, 그리고 2010년에 전자우편 영한 자동번역기를 메신저 영한 자동번역기로 구현할 때 사용하였으며 그 효과는 신규 도메인용 영한 번역기를 개발하는 기간을 점차적으로 줄이게 하였으며 구현 프로세스에 일관성을 제공하였다.

  • PDF

도메인 모델을 이용한 온톨로지 모델로부터 시스템 모델 생성 (An System Model Construction from the Ontology Model Using the Domain Model)

  • 남숭환;임재현;김치수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.237-240
    • /
    • 2007
  • 지식을 재사용하는 온톨로지 모델은 재사용 수준을 높여줄 수 있는 지식 모델이라 할 수 있다. 본 논문에서는 소프트웨어의 재사용 보다 지식을 재사용하기 위해 개발프로세스에서 지식과 소프트웨어모델 사이에 관련성 있는 매핑을 만들고자 한다. 또한 UML을 온톨로지 모델 언어로 사용하여 UML 기반 온톨로지 모델로부터 시스템 모델을 추출하기위해 온톨로지 도메인 시스템 방법을 제안한다.

  • PDF

데이터웨어하우스 환경에서의 설명기반 데이터마이닝 (Explanation-Based Data Mining in Data Warehouse)

  • 김현수;이창호
    • 지능정보연구
    • /
    • 제5권2호
    • /
    • pp.15-27
    • /
    • 1999
  • 산업계 전반에 걸친 오랜 정보시스템 운용의 결과로 대용량의 데이터들이 축적되고 있다. 이러한 데이터로부터 유용한 지식을 추출하기 위해 여러 가지 데이터마이닝 기법들이 연구되어 왔다. 특히 데이터웨어하우스의 등장은 이러한 데이터마이닝에 있어 필요한 데이터 제공 환경을 주고 있다. 그러나 전문가의 적절한 판단과 해석을 거치지 않은 데이터마이닝의 결과는 당연한 사실이거나, 사실과 다른 가짜이거나 또한 관련성 없는(Trivial, Spurious and Irrelevant) 내용만 무수히 쏟아낼 수 있다. 그러므로 데이터마이닝의 결과가 비록 통계적 유의성을 가진다 하더라고 그 정당성과 유용성에 대한 검증과정과 방법론의 정립이 필요하다. 데이터마이닝의 가장 어려운 점은 귀납적 오류를 없애기 위해 사람이 직접 그 결과를 해석하고 판단하며 아울러 새로운 탐색 방향을 제시해야 한다는 것이다. 본 논문의 목적인 이러한 데이터마이닝에서 추출된 결과를 검증하고 아울러 새로운 지식 탐색 방향을 제시하는 방법론을 정립하는데 있다. 본 논문에서는 데이터마이닝 기법 중 연관규칙탐사(Associations)로 얻어진 결과를 설명가능성 여부의 판단을 통해 검증하는 기법을 제안하였고, 이를 위해 도메인 지식(Domain Knowledge)과 연관규칙탐사를 통해 얻어진 결과를 표현하기 위한 지식표현방법으로 관계형 술어논리(RPL : Relational Predicate Logic)를 개발하였다. 연관규칙탐사로 얻어진 결과를 설명하기 위한 방법으로는 연관규칙탐사로 얻어진 연관규칙에 대한 RPL로 표현된 도메인 지식으로서 설명됨을 보이게 한다. 또한 이러한 설명(Explanation)을 토대로 검증된 지식을 일반화하여 새로운 가설을 연역적으로 생성하고 이를 연관규칙탐사를 통해 검증한 후 새로운 지식을 얻는 설명기반 데이터마이닝 구조(Explanation-based Data Mining Architecture)를 제시하였다.

  • PDF

한글도메인네임의 현황과 전망

  • 채향석
    • 지식정보인프라
    • /
    • 통권4호
    • /
    • pp.124-127
    • /
    • 2001
  • 네트워크상의 주소인 인터넷주소도 인터넷의 개방화, 상용화에 보조를 맞춰가며 적지 않은 변화를 겪어왔다. 처음에 연구망으로 쓰이던 인터넷은 기계적 언어인(IP(Internet Protocol)주소만으로 관리할 수 있을 만큼 간단했으나 전세계적 상용망으로 확대되면서 새로운 주소체계를 필요로 했다. 이렇게 해서 등장하게 된 것이 도메인네임체계(DNS)며, 지금까지 전세계 인터넷을 하나의 잘 짜여진 그물처럼 엮고 있다.

  • PDF

건강데이터 온톨로지를 위한 반자동 학습 모델 (Semi-Automatic Learning Model for Health Data Ontology)

  • 김광성;황두성
    • 한국IT서비스학회:학술대회논문집
    • /
    • 한국IT서비스학회 2009년도 춘계학술대회
    • /
    • pp.388-392
    • /
    • 2009
  • 웹 관련 기술의 발전과 더불어 정보시스템의 개발에서 기계가 자동 처리할 수 있는 데이터의 기술 방법으로 온톨로지의 사용이 보편화되고 있다. 온톨로지는 특정 영역의 개념과 그들간의 관계를 단순 명료하게 기술한다. 지식 발견을 위한 도메인 온톨로지 구축은 도메인의 이해, 데이터의 이해, 테스크의 이해, 온톨로지 학습, 온톨로지 평가, 정제 등 다단계를 통해 완성되나 전문성이 요구된다. 본 논문에서는 학습 기반 도메인 온톨로지 구축방법을 제안하고 건강데이터를 위한 온톨로지 구축에서 응용하였다. 제안된 학습 기반 온톨로지 구축 방법은 건강데이터의 세부 영역별 개념과 관계를 밝히는데 유용하였다.

  • PDF

접미사 패턴을 이용한 온톨러지의 구축방안 (Ontology Construction methodology with Suffix pattern)

  • 임수연;구상옥;송무희;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.547-549
    • /
    • 2003
  • 본 논문에서 는 특정 도메인에서 사용되는 정보들과 그들의 관계를 정의해놓은 온톨로지를 반자동으로 구축하기 위하여 특정 도메인의 코퍼스에 있는 텍스트의 분석 결과를 이용하는 방안을 제시하고자 한다. 이를 위하여, 실험 도메인 내에서 빈번히 출현하는 전문용어들을 접미사와의 결합형태에 따라 추출하고 계층구조를 설정하는 알고리즘을 제안하고 약품매뉴얼을 대상으로 실험을 행하였다. 구축된 온톨로지는 자연스런 의미군을 형성하면서 풍부한 의미정보를 포함함으로써 정보검색 등의 전문적인 지식의 접근에 유용하게 쓰일 수 있으며, 검색의 성능을 향상시키기 위한 추론의 기반으로도 이용할 수 있다.

  • PDF

관계형 강화 학습을 위한 도메인 지식의 효과적인 활용 (Effective Utilization of Domain Knowledge for Relational Reinforcement Learning)

  • 강민교;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권3호
    • /
    • pp.141-148
    • /
    • 2022
  • 최근 들어 강화 학습은 심층 신경망 기술과 결합되어 바둑, 체스와 같은 보드 게임, Atari, StartCraft와 같은 컴퓨터 게임, 로봇 물체 조작 작업 등과 같은 다양한 분야에서 매우 놀라운 성공을 거두었다. 하지만 이러한 심층 강화 학습은 행동, 상태, 정책 등을 모두 벡터 형태로 표현한다. 따라서 기존의 심층 강화 학습은 학습된 정책의 해석 가능성과 일반성에 제한이 있고, 도메인 지식을 학습에 효과적으로 활용하기도 어렵다는 한계성이 있다. 이러한 한계점들을 해결하기 위해 제안된 새로운 관계형 강화 학습 프레임워크인 dNL-RRL은 센서 입력 데이터와 행동 실행 제어는 기존의 심층 강화 학습과 마찬가지로 벡터 표현을 이용하지만, 행동, 상태, 그리고 학습된 정책은 모두 논리 서술자와 규칙들로 나타내는 관계형 표현을 이용한다. 본 논문에서는 dNL-RRL 관계형 강화 학습 프레임워크를 이용하여 제조 환경 내에서 운송용 모바일 로봇을 위한 행동 정책 학습을 수행하는 효과적인 방법을 제시한다. 특히 본 연구에서는 관계형 강화 학습의 효율성을 높이기 위해, 인간 전문가의 사전 도메인 지식을 활용하는 방안들을 제안한다. 여러 가지 실험들을 통해, 본 논문에서 제안하는 도메인 지식을 활용한 관계형 강화 학습 프레임워크의 성능 개선 효과를 입증한다.