• Title/Summary/Keyword: 언어자원 구축

Search Result 136, Processing Time 0.029 seconds

Conversational Agents (대화하는 에이전트)

  • 유상봉
    • CDE review
    • /
    • v.3 no.2
    • /
    • pp.41-44
    • /
    • 1997
  • Web을 위한 에이전트를 구축하거나 구입할 때, 우리는 그 에이전트가 가능한 한 잘 수행하기를 바란다. 이는 점점 에이전트가 Web의 정보 자원들 뿐만 아니라 거기에서 운영되는 다른 에이전트들을 이용할 수 있어야 함을 의미한다. 그리고 멀지 않아 대단히 많은 에이전트들이 존재할 것이다. 정보적으로 혼란한 Web으로부터 진화할 것으로 보이는 계산구조는 사용자, 서비스, 그리고 데이터 자원들을 대표하는 무수한 에이전트들로 구성된다. 이러한 구조에서의 전형적인 사용 패턴으로, 자원 에이전트는 서비스들에 광고하고, 사용자 에이전트는 이러한 서비스를 이용하여 자원 에이전트를 찾아 필요한 정보에 대해 질의하는 것이다. 서로 다른 사용자들을 대표하는 에이전트들이 정보를 찾고 융합하는데 협력할 수도 있으나, 상품과 자원을 위해 경쟁할 수도 있다. 유사하게 서비스 에이전트들은 사용자, 자원, 그리고 다른 서비스 에이전트들과 협력하거나 경쟁할 수 있다. 그들이 협력자이건 경쟁자이건 간에, 에이전트들은 목적을 갖고 상호작용해야만 한다. 대부분의 의도적인 상호작용은 - 정보를 알려주거나, 질의하거나, 또는 속이기 위하여 - 에이전트들이 서로 대화하는 것을 필요로 한다. 그리고 이해 가능한 대화를 위해서는 서로가 이해할 수 있는 언어가 필요하다.

  • PDF

A Knowledge-based Question-Answering System: With A View To Constructing A Fact Database (지식기반 (Knowledge-based) 질의응답시스템: 사실 자료 (Faet Database)구축을 중심으로)

  • 신효필
    • Korean Journal of Cognitive Science
    • /
    • v.13 no.1
    • /
    • pp.41-51
    • /
    • 2002
  • In this paper, I describe a knowledge-based question-answering system and significance of the system with a view to constructing a fact database. The knowledge-based system takes advantage of existing NLP-resources such as conceptual structures of ontologies along with morphotogical, syntactic and semantic analysis. The use of conceptual structures allows us to select right answers through inferences basically made by expansions of concepts. However, the work of constructing factual knowledge requires a great amount of acquisition time in large-scale applications because of the nature of human interference. This is why the procedure of acquiring factual knowledge cannot be fully automated. Apart from efficiency considerations. the knowledge-based system deserves serious consideration, I point out benefits of the system and describe the whole procedure of building the system in terms of a fact database.

  • PDF

Open Korean WordNet (KWN): Dictionary-based Semi-Automatic Development (한국어 오픈 워드넷 (KWN) : 사전 기반의 반자동 구축)

  • Lee, In Keun;Hwang, Dosam;Hahm, Younggyun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.193-196
    • /
    • 2014
  • 본 논문에서는 사전자원에 기반한 한국어 워드넷(Open Korean WordNet: KWN)의 반자동 구축 방법을 제안한다. 제안한 방법에서는 각 전문분야별로 분류된 영어-한국어 대역사전, 일본어-한국어 대역사전을 이용하여 영어 워드넷(Princeton WordNet 3.0)과 일본어 워드넷(Japanese WordNet 1.1)의 어휘를 번역하였다. 그리고 번역 결과의 애매성을 해소하기 위하여, (1)영어와 일본어에 대한 한국어 대역어의 중복 여부, (2)사전의 분야 정보와 워드넷의 계층구조를 고려하였다. 제안한 방법으로 117,659 개의 워드넷 synset 중 63,221 개(약 54 %)의 synset에 대한 자동번역을 수행하여 한국어 워드넷을 구축하였다. 그리고 워드넷 synset의 정의문은 한국어 사전의 정의문을 참조하여 한글화 할 수 있도록 하고, 이 과정을 지원하기 위한 정의문 추천 알고리즘을 제안한다. 제안한 방법에 기반하여 전문가들이 상호 협력하여 한국어 워드넷을 구축할 수 있는 시스템을 개발한다.

  • PDF

Building Korean Science Textbook Corpus (K-STeC) for research of Scientific Language in Education (교육용 과학언어 연구를 위한 범용 자료로서 과학교과서 말뭉치 K-STeC(Korean Science Textbook Corpus) 구축)

  • Yun, Eunjeong;Kim, Jinho;Nam, Kilim;Song, Hyunju;Ok, Cheolyoung;Choi, Jun;Park, Yunebae
    • Journal of The Korean Association For Science Education
    • /
    • v.38 no.4
    • /
    • pp.575-585
    • /
    • 2018
  • In this study, the texts of science textbooks of the past 20 years were collected in order to systematically carry out researches on scientific languages and scientific terms that have not been noticed in science education. We have collected all the science textbooks from elementary school to high school in the 6th curriculum, the 7th curriculum, and the 2009 revised curriculum, and constructed a corpus comprising of 132 textbooks in total. Sequentially, a raw corpus, a morphological annotated corpus, and a semantic annotated corpus of science terms, were constructed. The final constructed science textbook corpus was named K-STeC (Korean Science Textbook Corpus). K-STeC is a semantic annotated corpus with semantic classification and classification of scientific terms, together with meta information of bibliographic information such as curriculum, subject, grade, and publisher, location information such as chapter, section, lesson, page, and sentence, and structure information such as main, inquiry activities, reference materials, and titles. Throughout the three-year study period, a new research method was created by integrating the know-how of the three fields of linguistic informatics, computer science and science education, and a large number of experts were put in to produce labor-intensive results. This paper introduces new research methodologies and outcomes by looking at the whole research process and methods, and discusses the possibility of future development of scientific language research and how to use the results.

Object-Oriented Model of Resources for Real-Time Applications (실시간 활용을 위한 객체지향 자원관리)

  • Park, Dong-Won
    • The Journal of Engineering Research
    • /
    • v.3 no.1
    • /
    • pp.117-121
    • /
    • 1998
  • This paper describes a model suitable for real-time languages, which explicitly defines a set of resource objects. The resource objects are constituted in a specialization hierarchy which allows programmers to perform resource handling at any desired level of detail, as well as providing a uniform interface. This object-oriented model is used to extend the applicability of the imprecise computation approach to deal with shortfalls of any computational resource, and enable to build real-time systems which can handle dynamic situations.

  • PDF

Automatic Extraction of English-Chinese Transliteration Pairs using Dynamic Window and Tokenizer (동적 윈도우와 토크나이저를 이용한 영-중 음차표기 대역쌍 자동 추출)

  • Jin, Cheng-Guo;Na, Seung-Hoon;Kim, Dong-Il;Lee, Jong-Hyeok
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.13 no.6
    • /
    • pp.417-421
    • /
    • 2007
  • Recently, many studies have focused on extracting transliteration pairs from bilingual texts. Most of these studies are based on the statistical transliteration model. The paper discusses the limitations of previous approaches and proposes novel approaches called dynamic window and tokenizer to overcome these limitations. Experimental results show that the average rates of word and character precision are 99.0% and 99.78%, respectively.

Generating Premise-Hypothesis-Label Triplet Using Chain-of-Thought and Program-aided Language Models (Chain-of-Thought와 Program-aided Language Models을 이용한 전제-가설-라벨 삼중항 자동 생성)

  • Hee-jin Cho;Changki Lee;Kyoungman Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.352-357
    • /
    • 2023
  • 자연어 추론은 두 문장(전제, 가설)간의 관계를 이해하고 추론하여 함의, 모순, 중립 세 가지 범주로 분류하며, 전제-가설-라벨(PHL) 데이터셋을 활용하여 자연어 추론 모델을 학습한다. 그러나, 새로운 도메인에 자연어 추론을 적용할 경우 학습 데이터가 존재하지 않거나 이를 구축하는 데 많은 시간과 자원이 필요하다는 문제가 있다. 본 논문에서는 자연어 추론을 위한 학습 데이터인 전제-가설-라벨 삼중항을 자동 생성하기 위해 [1]에서 제안한 문장 변환 규칙 대신에 거대 언어 모델과 Chain-of-Thought(CoT), Program-aided Language Models(PaL) 등의 프롬프팅(Prompting) 방법을 이용하여 전제-가설-라벨 삼중항을 자동으로 생성하는 방법을 제안한다. 실험 결과, CoT와 PaL 프롬프팅 방법으로 자동 생성된 데이터의 품질이 기존 규칙이나 기본 프롬프팅 방법보다 더 우수하였다.

  • PDF

LGG-based Phrase-Pattern Dictionaries of Non-Standard Tokens that contain Bound Nouns in Social Media Texts (SNS 텍스트의 비정규토큰 분석 성능 향상을 위한 의존명사 내포 어형의 LGG 기반 패턴문법 사전)

  • Choi, Seong-Yong;Shin, Dong-Hyok;Hwang, Chang-Hoe;Yoo, Gwang-Hoon;Nam, Jee-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.394-399
    • /
    • 2018
  • 본 연구는 SNS 텍스트에서 형태소 분석기로 분석되지 않는 비정규토큰 유형 중 고빈도로 나타나는 의존명사 내포 어형의 형태소를 인식할 수 있는 LGG 기반 패턴문법 사전 구축과 그 성능을 평가하는 것을 목표로 한다. SNS 텍스트에서는 기존의 정형화된 텍스트와 달리, 띄어쓰기 오류로 인한 미분석어가 매우 높은 빈도로 나타나는데, 특히 의존명사를 포함한 유형이 20% 이상을 차지하며 가장 빈번한 것으로 나타났다. 이에 본 연구에서는 의존명사를 내포한 비정규토큰의 띄어쓰기 오류 문제를 효과적으로 처리하기 위해, 부분 문법 그래프(Local Grammar Graph: LGG) 프레임에 기반한 패턴문법 사전을 구축하였다. 이를 SNS 코퍼스에 적용하여 성능을 평가한 결과, 정확률 91.28%, 재현율 89%, 조화 평균 90.13%의 성능을 통해 본 연구의 접근 방법론의 유용성과 구축 자원의 실효성을 입증하였다.

  • PDF

Predicate Ontology for Automatic Ontology Building (온톨로지 자동 구축을 위한 서술어 온톨로지)

  • Min, Young-Kun;Lee, Bog-Ju
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.05a
    • /
    • pp.28-31
    • /
    • 2008
  • 시맨틱 웹의 기반인 온톨로지는 검색, 추론, 지식표현 등 다양한 분야에서 사용하고 있다. 하지만 잘 구성된 온톨로지를 개발하는 것은 시간적, 물질적으로 많은 자원이 소모된다. 온톨로지를 자동으로 구축하면 이러한 소모를 줄일 수 있는 장점이 있다. 본 논문에서는 자연어처리를 온톨로지 자동 구축에 사용하기 위하여 자연어의 서술부분을 온톨로지의 서술어로 변환할 수 있는 서술어 온톨로지를 제안한다. 그리고 제안된 서술어 온톨로지를 사용하여 자연어 문장의 서술어 부분을 온톨로지의 predicate 로 변환하는 알고리즘을 소개한다. 또한 제안된 온톨로지를 온톨로지 언어인 OWL을 사용하여 구축하였다.

Fuzzy OWL을 이용한 사용자 Context의 표현 및 추론

  • Son, Jong-Su;Jeong, In-Jeong
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2007.11a
    • /
    • pp.451-456
    • /
    • 2007
  • 유비쿼터스 컴퓨팅 환경을 구축하기 위해서는 사용자 및 주변 상황에 관한 인지기술이 필수적이다. 이에 따라 이기종 분산형 시스템에서 언어와 기종에 영향을 받지 않고 사용자 Context를 인지하고 표현하는 문제는 해결해야할 중요한 과제로 대두되었다. 이에 따라, 본 논문에서는 이 과제를 해결하기 위하여 시맨틱 웹 기술 및 퍼지 개념을 이용하여 사용자 Context를 기술하는 것을 제안한다. 온톨로지는 컴퓨터가 정보자원의 의미를 파악하고 자동적으로 처리할 수 있도록 고안된 지식표현 언어이므로 이기종 시스템 하에서의 사용자 Context를 표현하는데 적합하다. 한편, 사용자가 접할 실세계의 환경은 일반집합(Crisp Set)으로 표현하기 힘들기 때문에 본 논문에서는 퍼지개념과 표준 웹 온톨로지 언어 OWL이 융합된 Fuzzy OWL언어를 사용했다. 본 논문에서 제안하는 방법은 Context를 Fuzzy OWL로 표현하기 위하여 먼저 사용자가 접한 환경정보들을 수치로 표현한다. 그리고 이를 OWL로 기술하며 OWL로 표현된 사용자 Context를 Fuzzy OWL로 변환한다. 마지막으로 퍼지 개념이 포함된 사용자 Context를 이용하여 자동적인 상황인지가 가능한지 여부를 퍼지 추론 엔진인 FiRE를 사용하여 실험한다. 본 논문에서 제시한 방법을 사용하면 이기종 분산시스템에서도 사용할 수 있는 형태로 Context를 기술할 수 있다. 그리고 기술된 Context를 기반으로 현재 사용자가 접한 환경의 상태를 추론할 수 있다. 또한 퍼지 기술 로직 언어(Fuzzy Description Logic)기반 추론기인 FiRE를 이용하여 이를 검증한다.

  • PDF