• Title/Summary/Keyword: 시간정보추출

Search Result 2,165, Processing Time 0.042 seconds

Constructing a Korean Language Resource and Developing a Temporal Information Extraction System for Korean Documents (한국어 시간정보추출 연구를 위한 언어자원 및 시스템 구축)

  • Lim, Chae-Gyun;Oh, KyoJoong;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.636-638
    • /
    • 2018
  • 본 논문에서는 영어권에 비해 상대적으로 부족한 한국어 언어자원을 지속적으로 구축함으로써 한국어 문서로 구성된 시간정보 주석 말뭉치를 확보하고 이를 바탕으로 한국어 시간정보추출 시스템에 대한 연구를 수행한다. 말뭉치 구축 과정에서의 시간정보 주석 작업은 가이드라인을 숙지한 주석자들이 수작업으로 기록하고, 어떤 주석 결과에 대해 의견이 다른 경우에는 중재자가 주석자들과 함께 검토하며 합의점을 도출한다. 시간정보추출 시스템은 자연어 문장에 대한 형태소 분석결과를 이용하여 시간표현(TIMEX3), 시간관계와 연관된 사건(EVENT), 시간표현 및 사건들 간의 시간관계(TLINK)를 추출하는 단계로 이루어진다. 추출된 한국어 시간정보는 문서 내 공통된 개체에 대한 공간정보와 결합함으로써 시공간정보가 모두 반영된 SPOTL을 생성한다. 추후 실험을 통하여 제안시스템의 구체적인 시간정보추출 성능을 파악할 것이다.

  • PDF

Design of LSTM-based Model for Extracting Relative Temporal Relations for Korean Texts (한국어 상대시간관계 추출을 위한 LSTM 기반 모델 설계)

  • Lim, Chae-Gyun;Jeong, Young-Seob;Lee, Young Jun;Oh, Kyo-Joong;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.301-304
    • /
    • 2017
  • 시간정보추출 연구는 자연어 문장으로부터 대화의 문맥과 상황을 파악하고 사용자의 의도에 적합한 서비스를 제공하는데 중요한 역할을 하지만, 한국어의 고유한 언어적 특성으로 인해 한국어 텍스트에서는 개체간의 시간관계를 정확하게 인식하기 어려운 경향이 있다. 특히, 시간표현이나 사건에 대한 상대적인 시간관계는 시간 문맥을 체계적으로 파악하기 위해 중요한 개념이다. 본 논문에서는 한국어 자연어 문장에서 상대적인 시간표현과 사건 간의 관계를 추출하기 위한 LSTM(long short-term memory) 기반의 상대시간관계 추출 모델을 제안한다. 시간정보추출 연구에는 TIMEX3, EVENT, TLINK 추출의 세 가지 과정이 포함되지만, 본 논문에서는 특정 문장에 대해서 이미 추출된 TIMEX3 및 EVENT 개체를 제공하고 상대시간관계 TLINK를 추출하는 것만을 목표로 한다. 또한, 사람이 직접 태깅한 한국어 시간정보 주석 말뭉치를 대상으로 LSTM 기반 제안모델들의 상대적 시간관계 추출 성능을 비교한다.

  • PDF

Design of LSTM-based Model for Extracting Relative Temporal Relations for Korean Texts (한국어 상대시간관계 추출을 위한 LSTM 기반 모델 설계)

  • Lim, Chae-Gyun;Jeong, Young-Seob;Lee, Young Jun;Oh, Kyo-Joong;Choi, Ho-Jin
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.301-304
    • /
    • 2017
  • 시간정보추출 연구는 자연어 문장으로부터 대화의 문맥과 상황을 파악하고 사용자의 의도에 적합한 서비스를 제공하는데 중요한 역할을 하지만, 한국어의 고유한 언어적 특성으로 인해 한국어 텍스트에서는 개체간의 시간관계를 정확하게 인식하기 어려운 경향이 있다. 특히, 시간표현이나 사건에 대한 상대적인 시간관계는 시간 문맥을 체계적으로 파악하기 위해 중요한 개념이다. 본 논문에서는 한국어 자연어 문장에서 상대적인 시간표현과 사건 간의 관계를 추출하기 위한 LSTM(long short-term memory) 기반의 상대시간관계 추출 모델을 제안한다. 시간정보추출 연구에는 TIMEX3, EVENT, TLINK 추출의 세 가지 과정이 포함되지만, 본 논문에서는 특정 문장에 대해서 이미 추출된 TIMEX3 및 EVENT 개체를 제공하고 상대시간관계 TLINK를 추출하는 것만을 목표로 한다. 또한, 사람이 직접 태깅한 한국어 시간정보 주석 말뭉치를 대상으로 LSTM 기반 제안모델들의 상대적 시간관계 추출 성능을 비교한다.

  • PDF

Temporal Relationship Extraction for Natural Language Texts by Using Deep Bidirectional Language Model (양방향 언어 모델을 활용한 자연어 텍스트의 시간 관계정보 추출 기법)

  • Lim, Chae-Gyun;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.81-84
    • /
    • 2019
  • 자연어 문장으로 작성된 문서들에는 대체적으로 시간에 관련된 정보가 포함되어 있을 뿐만 아니라, 문서의 전체 내용과 문맥을 이해하기 위해서 이러한 정보를 정확하게 인식하는 것이 중요하다. 주어진 문서 내에서 시간 정보를 발견하기 위한 작업으로는 시간적인 표현(time expression) 자체를 인식하거나, 시간 표현과 연관성이 있는 사건(event)을 찾거나, 시간 표현 또는 사건 간에서 발생하는 시간적 연관 관계(temporal relationship)를 추출하는 것이 있다. 문서에 사용된 언어에 따라 고유한 언어적 특성이 다르기 때문에, 만약 시간 정보에 대한 관계성을 고려하지 않는다면 주어진 문장들로부터 모든 시간 정보를 추출해내는 것은 상당히 어려운 일이다. 본 논문에서는, 양방향 구조로 학습된 심층 신경망 기반 언어 모델을 활용하여 한국어 입력문장들로부터 시간 정보를 발견하는 작업 중 하나인 시간 관계정보를 추출하는 기법을 제안한다. 이 기법은 주어진 단일 문장을 개별 단어 토큰들로 분리하여 임베딩 벡터로 변환하며, 각 토큰들의 잠재적 정보를 고려하여 문장 내에 어떤 유형의 시간 관계정보가 존재하는지를 인식하도록 학습시킨다. 또한, 한국어 시간 정보 주석 말뭉치를 활용한 실험을 수행하여 제안 기법의 시간 관계정보 인식 정확도를 확인한다.

  • PDF

Extraction of Eye Region in Consideration for Performance and Accuracy (수행 시간과 정확도를 고려한 얼굴 영상의 눈 영역 추출)

  • Jang, Chang-Hyuk;Park, An-Jin;Jung, Kee-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.11a
    • /
    • pp.269-272
    • /
    • 2006
  • 얼굴 인식의 전처리 단계로써 얼굴의 특징 영역인 눈, 코, 입을 추출하는 방법들이 최근 다양하게 연구되고 있다. 얼굴 영상의 특징 영역을 추출 하는 방법에는 일반적으로 특징 점을 이용한 방법과 에지 정보를 이용한 방법이 있다. 특징 점을 이용한 방법은 높은 정확도를 보이는 반면 느린 수행시간을 보이는 문제점이 있으며, 에지 정보를 이용한 방법은 빠른 수행시간을 보이지만 정확도가 떨어지는 문제점이 있다. 본 논문에서는 정확도와 수행시간을 동시에 향상시킬 수 있는 방법을 제안한다. 빠른 수행 시간을 위해 에지 정보와 에지의 방향성 정보를 이용하여 대략적으로 영역을 추출하여, 잡음에 의해 발생된 에지나 빛에 의해 추출되지 못한 에지에서 생긴 눈 추출의 오류는 추출된 영역의 가로, 세로 비율과 각 영역의 공간 정보를 이용하여 해결한다. 실험 결과에서 85%의 정확도와 평균 0.3초의 수행시간을 보였으며, 에지 정보를 이용한 방법의 문제점인 정확도와 특징 점을 이용한 방법의 문제점인 수행시간을 동시에 향상시킨 결과를 보였다.

  • PDF

Schedule Time Information Extraction System from Itemized Sentences of Korean E-mail (한국어 E-mail의 개조식 부분으로부터 일정의 시간 정보 추출 시스템)

  • Choi, DongHyun;Kim, Eun-Kyung;Shim, Sang-Ah;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.81-85
    • /
    • 2010
  • 최근에 스마트 폰과 같은 모바일 플랫폼의 사용이 증가함에 따라, 모바일 플랫폼에서 사용자의 편의성을 증대시켜주는 시스템 및 프로그램에 대한 요구 사항이 커지고 있다. 본 논문에서는 한국어 E-mail로부터 회의 등의 일정에 관한 정보를 얻어내는 시스템 구조를 제안하고, 그 중 일정의 시간 정보에 대한 구현 및 성능을 제시한다. 본 논문에서는 일정을 서술하기 위해 필요할 것으로 생각되는 12가지의 정보 유형을 정의하였다. 또한, E-mail의 서술 형태를 개조식으로 서술된 부분과 비개조식으로 서술된 부분으로 분류하고, 개조식으로 서술된 부분에 대하여 시간과 관련된 2가지 정보를 추출 하였다. 실험 결과, 일정의 '시작 시간'에 대한 정보 추출의 경우 F-Measure 90.10% 일정의 '종료 시간'에 대한 정보 추출의 경우 F-Measure 84.07%를 달성하였다.

  • PDF

Multi-task Learning Approach for Deep Neural Networks Using Temporal Relations (시간적 관계정보를 활용한 멀티태스크 심층신경망 모델 학습 기법)

  • Lim, Chae-Gyun;Oh, Kyo-Joong;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.211-214
    • /
    • 2021
  • 다수의 태스크를 처리 가능하면서 일반화된 성능을 제공할 수 있는 모델을 구축하는 자연어 이해 분야의 연구에서는 멀티태스크 학습 기법에 대한 연구가 다양하게 시도되고 있다. 또한, 자연어 문장으로 작성된 문서들에는 대체적으로 시간에 관련된 정보가 포함되어 있을 뿐만 아니라, 문서의 전체 내용과 문맥을 이해하기 위해서 이러한 정보를 정확하게 인식하는 것이 중요하다. NLU 분야의 태스크를 더욱 정확하게 수행하려면 모델 내부적으로 시간정보를 반영할 필요가 있으며, 멀티태스크 학습 과정에서 추가적인 태스크로 시간적 관계정보를 추출하여 활용 가능하다. 본 논문에서는, 한국어 입력문장의 시간적 맥락정보를 활용할 수 있도록 NLU 태스크들의 학습 과정에서 시간관계 추출 태스크를 추가한 멀티태스크 학습 기법을 제안한다. 멀티태스크 학습의 특징을 활용하기 위해서 시간적 관계정보를 추출하는 태스크를 설계하고 기존의 NLU 태스크와 조합하여 학습하도록 모델을 구성한다. 실험에서는 학습 태스크들을 다양하게 조합하여 성능 차이를 분석하며, 기존의 NLU 태스크만 사용했을 경우에 비해 추가된 시간적 관계정보가 어떤 영향을 미치는지 확인한다. 실험결과를 통하여 전반적으로 멀티태스크 조합의 성능이 개별 태스크의 성능보다 높은 경향을 확인하며, 특히 개체명 인식에서 시간관계가 반영될 경우에 크게 성능이 향상되는 결과를 볼 수 있다.

  • PDF

Automatic Recognition and Normalization System of Korean Time Expression using the individual time units (시간의 단위별 처리를 이용한 자동화된 한국어 시간 표현 인식 및 정규화 시스템)

  • Seon, Choong-Nyoung;Kang, Sang-Woo;Seo, Jung-Yun
    • Korean Journal of Cognitive Science
    • /
    • v.21 no.4
    • /
    • pp.447-458
    • /
    • 2010
  • Time expressions are a very important form of information in different types of data. Thus, the recognition of a time expression is an important factor in the field of information extraction. However, most previously designed systems consider only a specific domain, because time expressions do not have a regular form and frequently include different ellipsis phenomena. We present a two-level recognition method consisting of extraction and transformation phases to achieve generality and portability. In the extraction phase, time expressions are extracted by atomic time units for extensibility. Then, in the transformation phase, omitted information is restored using basis time and prior knowledge. Finally, every complete atomic time unit is transformed into a normalized form. The proposed system can be used as a general-purpose system, because it has a language- and domain-independent architecture. In addition, this system performs robustly in noisy data like SMS data, which include various errors. For SMS data, the accuracies of time-expression extraction and time-expression normalization by using the proposed system are 93.8% and 93.2%, respectively. On the basis of these experimental results, we conclude that the proposed system shows high performance in noisy data.

  • PDF

Judgment about the Usefulness of Automatically Extracted Temporal Information from News Articles for Event Detection and Tracking (사건 탐지 및 추적을 위해 신문기사에서 자동 추출된 시간정보의 유용성 판단)

  • Kim Pyung;Myaeng Sung-Hyon
    • Journal of KIISE:Software and Applications
    • /
    • v.33 no.6
    • /
    • pp.564-573
    • /
    • 2006
  • Temporal information plays an important role in natural language processing (NLP) applications such as information extraction, discourse analysis, automatic summarization, and question-answering. In the topic detection and tracking (TDT) area, the temporal information often used is the publication date of a message, which is readily available but limited in its usefulness. We developed a relatively simple NLP method of extracting temporal information from Korean news articles, with the goal of improving performance of TDT tasks. To extract temporal information, we make use of finite state automata and a lexicon containing time-revealing vocabulary. Extracted information is converted into a canonicalized representation of a time point or a time duration. We first evaluated the extraction and canonicalization methods for their accuracy and investigated on the extent to which temporal information extracted as such can help TDT tasks. The experimental results show that time information extracted from text indeed helps improve both precision and recall significantly.

Temporal Information Extraction from Korean News for Event Detection and Tracking (사건 탐지/추적을 위한 시간 정보 추출)

  • Kim, Pyung;Sung, Ki-Youn;Myaeng, Sung-Hyon
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.22-29
    • /
    • 2003
  • 시간정보는 사건 탐지/추적 시스템은 물론 정보 추출, 질의/응답 시스템 등에서 매우 중요한 역할을 한다. 본 연구에서는 한국어 신문 기사를 대상으로 시간 표현을 추출하고 정규화한 후 사건 관련 동사와 연결하는 자동화된 방법들을 제안하였다. 시간 표현을 추출하기 위해서 품사정보로 구축된 패턴과 시간 표현 어휘가 사용되었고, 정규화 과정과 사건 관련 동사와의 연결을 위한 규칙이 만들어졌다. 한국어 신문을 대상으로 제안한 방법의 단계별 평가를 수행하였고, 제안하는 방법의 확장성을 보이기 위해 서로 다른 도메인에도 실험을 하였다.

  • PDF