• Title/Summary/Keyword: 지식기반공학

Search Result 561, Processing Time 0.028 seconds

A Synthetic Dataset for Korean Knowledge Graph-to-Text Generation (한국어 지식 그래프-투-텍스트 생성을 위한 데이터셋 자동 구축)

  • Dahyun Jung;Seungyoon Lee;SeungJun Lee;Jaehyung Seo;Sugyeong Eo;Chanjun Park;Yuna Hur;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.219-224
    • /
    • 2022
  • 최근 딥러닝이 상식 정보를 추론하지 못하거나, 해석 불가능하다는 한계점을 보완하기 위해 지식 그래프를 기반으로 자연어 텍스트를 생성하는 연구가 중요하게 수행되고 있다. 그러나 이를 위해서 대량의 지식 그래프와 이에 대응되는 문장쌍이 요구되는데, 이를 구축하는 데는 시간과 비용이 많이 소요되는 한계점이 존재한다. 또한 하나의 그래프에 다수의 문장을 생성할 수 있기에 구축자 별로 품질 차이가 발생하게 되고, 데이터 균등성에 문제가 발생하게 된다. 이에 본 논문은 공개된 지식 그래프인 디비피디아를 활용하여 전문가의 도움 없이 자동으로 데이터를 쉽고 빠르게 구축하는 방법론을 제안한다. 이를 기반으로 KoBART와 mBART, mT5와 같은 한국어를 포함한 대용량 언어모델을 활용하여 문장 생성 실험을 진행하였다. 실험 결과 mBART를 활용하여 미세 조정 학습을 진행한 모델이 좋은 성능을 보였고, 자연스러운 문장을 생성하는데 효과적임을 확인하였다.

  • PDF

Assisting semantic parsing-based QA system with lexico-semantic pattern query template (Semantic parsing 기반 지식 베이스 질의응답 시스템의 어휘-의미 패턴 질의 템플릿을 통한 보완)

  • Shim, Hyosup;Park, Seonyeong;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.255-258
    • /
    • 2014
  • 본 논문에서는 semantic parsing과 사전 정의된 어휘-의미 패턴 질의 템플릿 방법론을 결합하여 자연어 질의로부터 RDF 지식베이스에 질의하기 위한 SPARQL 쿼리를 생성하는 방법을 제안한다. semantic parsing 접근법은 문장의 표현과 분리된 형식적 의미표현만을 포착해내므로, paraphrase 혹은 의미 변화와 무관한 어순의 변화에 강인하지만, 일부 자연어 질의문장에는 단순한 의미 및 구조를 갖는 문장도 적합한 형식적 의미표현을 생성하지 못하는 단점이 있다. 따라서 이 연구에서는 이러한 단순한 문장에 있어서는 사전 정의된 질의 템플릿을 사용하여 적합한 쿼리를 생성하되, 적합한 템플릿을 선택하는데 있어 해당 질의문장의 어휘-의미적 유형을 포착하고 해당 정보를 이용하는 방법을 이용하였으며 이를 통해 주 방법론의 약점을 보완하는 제한적인 효과를 얻을 수 있었다.

  • PDF

Question Answering System that Combines Deep Learning and Information Retrieval (딥러닝과 정보검색을 결합한 질의응답 시스템)

  • Lee, Hyeon-gu;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.134-138
    • /
    • 2016
  • 정보의 양이 빠르게 증가함으로 인해 필요한 정보만을 효율적으로 얻기 위한 질의응답 시스템의 중요도가 늘어나고 있다. 그 중에서도 질의 문장에서 주어와 관계를 추출하여 정답을 찾는 지식베이스 기반 질의응답 시스템이 활발히 연구되고 있다. 그러나 기존 지식베이스 기반 질의응답 시스템은 하나의 질의 문장만을 사용하므로 정보가 부족한 단점이 있다. 본 논문에서는 이러한 단점을 해결하고자 정보검색을 통해 질의와 유사한 문장을 찾고 Recurrent Neural Encoder-Decoder에 검색된 문장과 질의를 함께 활용하여 주어와 관계를 찾는 모델을 제안한다. bAbI SimpleQuestions v2 데이터를 이용한 실험에서 제안 모델은 질의만 사용하여 주어와 관계를 찾는 모델보다 좋은 성능(정확도 주어:33.2%, 관계:56.4%)을 보였다.

  • PDF

An Intelligent Character System Using Multi-Language Based Question Answering System (다국어 기반의 질의응답시스템을 활용한 지능형 케릭터 시스템)

  • Park, Hong-Won;Lee, Ki-Ju;Lee, Su-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.215-220
    • /
    • 2002
  • 질의응답시스템을 지능형 케릭터 시스템에 활용하기 위해서는 불특정한 주제에 대해 불특정 다수의 사용자와 대화할 수 있는 정교한 대화 모델이 필요하다. 이러한 대화 모델은 사용자의 질의문장을 인식하고 질의의도를 파악한 후 케릭터의 특정지식으로 접근하여 해당 지식을 사용자의 요구에 맞는 응답문의 형태로 생성해 내는 과정이 필수적으로 포함되어야 한다. 본 논문에서는 논의의 대상이 되는 질의응답시스템이 다국어 기반이라는 점을 고려하여 질의응답시스템을 지능형 케릭터에 활용하는 과정에서 케릭터의 지식구조 설계는 물론이고 질의문장 분석과 응답 문 생성의 방법론에 있어서도 한국어, 영어, 일본어, 중국어 각각의 언어적 특질을 반영함으로써 형태적, 통사적 차이로 인한 애로점을 최소화할 수 있도록 하였다.

  • PDF

A case study on Text-to-Ontology transformation on the basis of neural translation (딥러닝 기반 기계번역 개념을 활용한 Text-to-Ontology 변환 사례)

  • Shin, Yu-Jin;Lee, Jee Hang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.891-894
    • /
    • 2021
  • 온톨로지(Ontology)는 사람과 컴퓨터, 또는 컴퓨터 간의 개념 및 개념 표현을 공유하기 위한 개념화의 명시적 규약을 의미한다. 기존의 온톨로지 생성은 전문가에 의한 수작업에 의존되어 비용과 시간이 많이 드는 한계가 있다. 이에 본 논문에서는 딥러닝(Deep learning)기반의 기계번역 개념을 적용한 사례를 활용하여, 수작업의 의존성이 감소한 방법으로 텍스트로부터 온톨로지를 생성하는 방법을 구현하였다. 특히 기존 연구에서 제안한, 딥러닝을 이용해 텍스트로부터 지식 표현 시퀀스를 추출한 정보를 활용하여, 지식 표현 구조를 온톨로지로 변환하고 지식 베이스로 확장하는 과정을 통해 자동화 된 Text-to-Ontology 변환 방법론을 제안하고자 한다.

Workbench for building Task based Dialog System (태스크 기반 대화 시스템 구축 도구)

  • Park, Eun-Jin;Kwon, Oh-Woog;Kim, Young-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.209-211
    • /
    • 2012
  • 본 논문의 대화시스템 구축도구는 태스크 기반 대화 시스템을 구축하는데 필요한 대화 시나리오 지식과 이를 처리하는 태스크 그래프, 슬롯 체계, 대화 라이브러리 등을 생성하고 관리할 수 있는 웹기반 대화 시스템 구축 도구이다. 이 도구는 태스크 그래프를 시각적으로 대화 모델 설계자에게 표시하고, 대화 모델 설계자는 시각적으로 표시된 태스크 그래프를 보며 태스크의 흐름을 한눈에 파악하고 대화 시스템의 시나리오 흐름을 생성하고 편집할 수 있도록 한 것이 특징이다. 또한 대화 모델 설계자와 시나리오 태깅 작업자들 모두는 자신이 구축한 지식이나 대화 태스크를 시스템에 직접 반영하고 실시간으로 대화 시스템에 적용해 봄으로써 대화 시스템의 이해를 높이고 고품질의 대화 시스템을 구축할 수 있다.

  • PDF

Text Categorization Based on Terminology and Information Extraction (전문용어 및 정보추출에 기반한 문서분류시스템)

  • Lee, Kyung-Soon;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.79-84
    • /
    • 1999
  • 본 연구에서는 문서분류시스템에서 자질의 표현으로 전문분야사전을 이용한 분야정보와 개체정보추출을 통한 개체정보를 이용한다. 또한 지식정보를 보완하기 위해 통계적인 방법으로 범주 전문용어를 인식하여 자질로 표현하는 방법을 제안한다. 문서에 나타난 용어들이 어떤 특정 전문분야에 속하는 용어들이 많이 나타나는 경우 그 문서는 용어들이 속한 분야의 문서일 가능성이 높다. 또한, 정보추출을 통해 용어가 어떠한 개체를 나타내는지를 인식하여 문서를 표현함으로써 문서가 내포하는 의미를 보다 잘 반영할 수 있게 된다. 분야정보나 개체정보를 알 수 없는 용어에 대해서는 학습문서로부터 전문분야를 자동 인식함으로써 문서표현의 지식정보를 보완한다. 전문분야, 개체정보 및 범주전문용어에 기반해서 표현된 문서의 자질에 대해서 지지벡터기계 학습에 기반한 문서분류기틀 이용하여 각 범주에 대해 이진분류를 하였다. 제안된 문서자질표현은 용어기반의 자질표현에 비해 좋은 성능을 보이고 있다.

  • PDF

A study for ontology-diagnosis framework research based on pathology-knowledge for automated cancer diagnosis of biopsy samples (조직세포의 자동화된 암 진단을 위한 병리지식 기반의 온톨로지 진단프레임워크에 관한 연구)

  • Song, Jae-Won;Lee, Ju-Hong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.1051-1053
    • /
    • 2011
  • 본 논문은 병리진단지식을 활용한 조직세포 영상의 암진단을 위한 온톨로지 기반의 진단 프레임워크를 제안한다. 병리진단 분야는 환자로부터 획득한 조직셈플을 전자현미경을 이용하여 조직의 구조적 특징과 형태학적특징을 기반으로 진단을 한다. 이러한 형태의 진단은 의사의 주관적인 경험에 많이 의존하기 때문에 같은 병증에 대해서도 의사들마다 다른 진단을 하게 된다. 최근 이러한 주관적인 경험에 의한 오진을 줄이고자 주어진 조직세포 영상의 형태학적 특징들의 정량적인 수치들을 이용하는 컴퓨터 보조진단(CAD)시스템들이 많이 이용되고 있다. 그러나 이러한 진단 시스템의 요소기법들은 하나의 병증만을 진단하는데 활용되기 때문에 구성기술의 재사용성은 매우 떨어진다. 따라서 본 논문은 요소기술들의 재활용성을 높이고, 객관화된 병리진단을 위한 온톨로지 기반의 진단 프레임워크를 제시한다.

A Knowledge Service Using Automatic Document Sharing based on Intelligent OMDR (지능형 OMDR 기반의 자동 문서 공유 에이전트를 이용한 지식서비스)

  • Su-Kyoung Kim;Kee-Hong Ahn
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.747-750
    • /
    • 2008
  • 본 연구는 온톨로지, 자연어 처리, 메타데이터 등의 시맨틱 웹 기반 기술들을 이용하여 시맨틱 웹 응용을 위한 전체적인 기술 적용과 그의 활용에 목적을 두고 있다. 이를 위해 OWL을 기반으로 조직이나 기관의 지식 주제별 도메인 온톨로지와, 기존 워드넷(WordNet)이나 더브린 코어 메타데이터(Dublin Core Meta Data)와 조직에 정의된 데이터베이스의 스키마를 MDR로 구축하여 상호 연결하여 온톨로지가 갖는 지능적 추론과 규칙 서비스와 표준화된 메타데이터의 결합 방법을 제공한다. 이는 기존에 온톨로지와 메타데이터의 재활용과 연결(Alignment)에 있어 연구적으로 높은 가치가 있다. 그리고 조직의 사용자가 문서를 작성할 때 문서의 내용에 대해 자연어 처리 기술과 온톨로지의 기술을 이용해 적합한 용어나 메타데이터를 자동으로 제공하여 작성된 문서의 공유와 재사용성을 높이고, 작성된 문서를 XML 형식으로 구성되는 XML 기반 지능 문서 데이터베이스(XMB Based Intelligent Document Database)에 저장하여 유사한 문서를 작성하거나 사용할 필요가 있는 사용자에게 문서 등록과 검색 에이전트(Document Registry and Retrieval Agent)를 통해 이러한 제공하여 문서 지식의 사유화를 최소화 하고, 유사 문서의 재작성과 또는 특정 문서의 작성에 필요한 시간이나 경비를 줄이게 된다. 또한 웹상이나 PDA 같은 개인 휴대장치를 통해서도 서 등록과 검색 에이전트를 통해 문서를 검색하고 사용할 수 있게 한다면 언제 어디서나 해당 서비스를 활용하는 유비쿼터스와 시맨틱 웹의 실질적 응용을 거둘 수도 있으리라 사료된다.

Text-based Password Guessing Research Trend using Recurrent Neural Networks (순환 신경망을 사용한 텍스트 기반 패스워드 예측 연구 동향)

  • Lim, Se-Jin;Kim, Hyun-Ji;Kang, Yea-Jun;Kim, Won-Woong;Oh, Yu-Jin;Seo, Hwa-Jeong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.473-474
    • /
    • 2022
  • 텍스트를 기반으로 하는 패스워드는 다방면에서 가장 많이 사용되고 있는 인증 수단이다. 하지만 이러한 패스워드는 사용자의 기억에 의존하기 때문에 사람들은 일반적으로 기억하기 쉽게 '!iloveY0u'와 같은 암호를 사용한다. 이로 인해 사용자들의 패스워드 간에 규칙성이 생기게 되어 HashCat과 같은 크래킹 도구에 의해 해킹될 수 있다. 딥러닝을 통한 패스워드 예측의 경우, 일반적인 패스워드 크래킹 도구와 달리 패스워드 구조 및 속성에 대한 사전 지식 및 전문적 지식 없이도 패턴을 추출하고 학습할 수 있어 활발히 연구되고 있다. 본 논문에서는 딥러닝 모델 중에서도 순환 신경망을 사용하여 텍스트 기반의 패스워드를 예측하는 연구의 동향에 대해 알아본다.