• 제목/요약/키워드: 시간정보추출

검색결과 2,165건 처리시간 0.035초

한국어 시간정보추출 연구를 위한 언어자원 및 시스템 구축 (Constructing a Korean Language Resource and Developing a Temporal Information Extraction System for Korean Documents)

  • 임채균;오교중;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.636-638
    • /
    • 2018
  • 본 논문에서는 영어권에 비해 상대적으로 부족한 한국어 언어자원을 지속적으로 구축함으로써 한국어 문서로 구성된 시간정보 주석 말뭉치를 확보하고 이를 바탕으로 한국어 시간정보추출 시스템에 대한 연구를 수행한다. 말뭉치 구축 과정에서의 시간정보 주석 작업은 가이드라인을 숙지한 주석자들이 수작업으로 기록하고, 어떤 주석 결과에 대해 의견이 다른 경우에는 중재자가 주석자들과 함께 검토하며 합의점을 도출한다. 시간정보추출 시스템은 자연어 문장에 대한 형태소 분석결과를 이용하여 시간표현(TIMEX3), 시간관계와 연관된 사건(EVENT), 시간표현 및 사건들 간의 시간관계(TLINK)를 추출하는 단계로 이루어진다. 추출된 한국어 시간정보는 문서 내 공통된 개체에 대한 공간정보와 결합함으로써 시공간정보가 모두 반영된 SPOTL을 생성한다. 추후 실험을 통하여 제안시스템의 구체적인 시간정보추출 성능을 파악할 것이다.

  • PDF

한국어 상대시간관계 추출을 위한 LSTM 기반 모델 설계 (Design of LSTM-based Model for Extracting Relative Temporal Relations for Korean Texts)

  • 임채균;정영섭;이영준;오교중;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.301-304
    • /
    • 2017
  • 시간정보추출 연구는 자연어 문장으로부터 대화의 문맥과 상황을 파악하고 사용자의 의도에 적합한 서비스를 제공하는데 중요한 역할을 하지만, 한국어의 고유한 언어적 특성으로 인해 한국어 텍스트에서는 개체간의 시간관계를 정확하게 인식하기 어려운 경향이 있다. 특히, 시간표현이나 사건에 대한 상대적인 시간관계는 시간 문맥을 체계적으로 파악하기 위해 중요한 개념이다. 본 논문에서는 한국어 자연어 문장에서 상대적인 시간표현과 사건 간의 관계를 추출하기 위한 LSTM(long short-term memory) 기반의 상대시간관계 추출 모델을 제안한다. 시간정보추출 연구에는 TIMEX3, EVENT, TLINK 추출의 세 가지 과정이 포함되지만, 본 논문에서는 특정 문장에 대해서 이미 추출된 TIMEX3 및 EVENT 개체를 제공하고 상대시간관계 TLINK를 추출하는 것만을 목표로 한다. 또한, 사람이 직접 태깅한 한국어 시간정보 주석 말뭉치를 대상으로 LSTM 기반 제안모델들의 상대적 시간관계 추출 성능을 비교한다.

  • PDF

한국어 상대시간관계 추출을 위한 LSTM 기반 모델 설계 (Design of LSTM-based Model for Extracting Relative Temporal Relations for Korean Texts)

  • 임채균;정영섭;이영준;오교중;최호진
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.301-304
    • /
    • 2017
  • 시간정보추출 연구는 자연어 문장으로부터 대화의 문맥과 상황을 파악하고 사용자의 의도에 적합한 서비스를 제공하는데 중요한 역할을 하지만, 한국어의 고유한 언어적 특성으로 인해 한국어 텍스트에서는 개체간의 시간관계를 정확하게 인식하기 어려운 경향이 있다. 특히, 시간표현이나 사건에 대한 상대적인 시간관계는 시간 문맥을 체계적으로 파악하기 위해 중요한 개념이다. 본 논문에서는 한국어 자연어 문장에서 상대적인 시간표현과 사건 간의 관계를 추출하기 위한 LSTM(long short-term memory) 기반의 상대시간관계 추출 모델을 제안한다. 시간정보추출 연구에는 TIMEX3, EVENT, TLINK 추출의 세 가지 과정이 포함되지만, 본 논문에서는 특정 문장에 대해서 이미 추출된 TIMEX3 및 EVENT 개체를 제공하고 상대시간관계 TLINK를 추출하는 것만을 목표로 한다. 또한, 사람이 직접 태깅한 한국어 시간정보 주석 말뭉치를 대상으로 LSTM 기반 제안모델들의 상대적 시간관계 추출 성능을 비교한다.

  • PDF

양방향 언어 모델을 활용한 자연어 텍스트의 시간 관계정보 추출 기법 (Temporal Relationship Extraction for Natural Language Texts by Using Deep Bidirectional Language Model)

  • 임채균;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.81-84
    • /
    • 2019
  • 자연어 문장으로 작성된 문서들에는 대체적으로 시간에 관련된 정보가 포함되어 있을 뿐만 아니라, 문서의 전체 내용과 문맥을 이해하기 위해서 이러한 정보를 정확하게 인식하는 것이 중요하다. 주어진 문서 내에서 시간 정보를 발견하기 위한 작업으로는 시간적인 표현(time expression) 자체를 인식하거나, 시간 표현과 연관성이 있는 사건(event)을 찾거나, 시간 표현 또는 사건 간에서 발생하는 시간적 연관 관계(temporal relationship)를 추출하는 것이 있다. 문서에 사용된 언어에 따라 고유한 언어적 특성이 다르기 때문에, 만약 시간 정보에 대한 관계성을 고려하지 않는다면 주어진 문장들로부터 모든 시간 정보를 추출해내는 것은 상당히 어려운 일이다. 본 논문에서는, 양방향 구조로 학습된 심층 신경망 기반 언어 모델을 활용하여 한국어 입력문장들로부터 시간 정보를 발견하는 작업 중 하나인 시간 관계정보를 추출하는 기법을 제안한다. 이 기법은 주어진 단일 문장을 개별 단어 토큰들로 분리하여 임베딩 벡터로 변환하며, 각 토큰들의 잠재적 정보를 고려하여 문장 내에 어떤 유형의 시간 관계정보가 존재하는지를 인식하도록 학습시킨다. 또한, 한국어 시간 정보 주석 말뭉치를 활용한 실험을 수행하여 제안 기법의 시간 관계정보 인식 정확도를 확인한다.

  • PDF

수행 시간과 정확도를 고려한 얼굴 영상의 눈 영역 추출 (Extraction of Eye Region in Consideration for Performance and Accuracy)

  • 장창혁;박안진;정기철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.269-272
    • /
    • 2006
  • 얼굴 인식의 전처리 단계로써 얼굴의 특징 영역인 눈, 코, 입을 추출하는 방법들이 최근 다양하게 연구되고 있다. 얼굴 영상의 특징 영역을 추출 하는 방법에는 일반적으로 특징 점을 이용한 방법과 에지 정보를 이용한 방법이 있다. 특징 점을 이용한 방법은 높은 정확도를 보이는 반면 느린 수행시간을 보이는 문제점이 있으며, 에지 정보를 이용한 방법은 빠른 수행시간을 보이지만 정확도가 떨어지는 문제점이 있다. 본 논문에서는 정확도와 수행시간을 동시에 향상시킬 수 있는 방법을 제안한다. 빠른 수행 시간을 위해 에지 정보와 에지의 방향성 정보를 이용하여 대략적으로 영역을 추출하여, 잡음에 의해 발생된 에지나 빛에 의해 추출되지 못한 에지에서 생긴 눈 추출의 오류는 추출된 영역의 가로, 세로 비율과 각 영역의 공간 정보를 이용하여 해결한다. 실험 결과에서 85%의 정확도와 평균 0.3초의 수행시간을 보였으며, 에지 정보를 이용한 방법의 문제점인 정확도와 특징 점을 이용한 방법의 문제점인 수행시간을 동시에 향상시킨 결과를 보였다.

  • PDF

한국어 E-mail의 개조식 부분으로부터 일정의 시간 정보 추출 시스템 (Schedule Time Information Extraction System from Itemized Sentences of Korean E-mail)

  • 최동현;김은경;심상아;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.81-85
    • /
    • 2010
  • 최근에 스마트 폰과 같은 모바일 플랫폼의 사용이 증가함에 따라, 모바일 플랫폼에서 사용자의 편의성을 증대시켜주는 시스템 및 프로그램에 대한 요구 사항이 커지고 있다. 본 논문에서는 한국어 E-mail로부터 회의 등의 일정에 관한 정보를 얻어내는 시스템 구조를 제안하고, 그 중 일정의 시간 정보에 대한 구현 및 성능을 제시한다. 본 논문에서는 일정을 서술하기 위해 필요할 것으로 생각되는 12가지의 정보 유형을 정의하였다. 또한, E-mail의 서술 형태를 개조식으로 서술된 부분과 비개조식으로 서술된 부분으로 분류하고, 개조식으로 서술된 부분에 대하여 시간과 관련된 2가지 정보를 추출 하였다. 실험 결과, 일정의 '시작 시간'에 대한 정보 추출의 경우 F-Measure 90.10% 일정의 '종료 시간'에 대한 정보 추출의 경우 F-Measure 84.07%를 달성하였다.

  • PDF

시간적 관계정보를 활용한 멀티태스크 심층신경망 모델 학습 기법 (Multi-task Learning Approach for Deep Neural Networks Using Temporal Relations)

  • 임채균;오교중;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.211-214
    • /
    • 2021
  • 다수의 태스크를 처리 가능하면서 일반화된 성능을 제공할 수 있는 모델을 구축하는 자연어 이해 분야의 연구에서는 멀티태스크 학습 기법에 대한 연구가 다양하게 시도되고 있다. 또한, 자연어 문장으로 작성된 문서들에는 대체적으로 시간에 관련된 정보가 포함되어 있을 뿐만 아니라, 문서의 전체 내용과 문맥을 이해하기 위해서 이러한 정보를 정확하게 인식하는 것이 중요하다. NLU 분야의 태스크를 더욱 정확하게 수행하려면 모델 내부적으로 시간정보를 반영할 필요가 있으며, 멀티태스크 학습 과정에서 추가적인 태스크로 시간적 관계정보를 추출하여 활용 가능하다. 본 논문에서는, 한국어 입력문장의 시간적 맥락정보를 활용할 수 있도록 NLU 태스크들의 학습 과정에서 시간관계 추출 태스크를 추가한 멀티태스크 학습 기법을 제안한다. 멀티태스크 학습의 특징을 활용하기 위해서 시간적 관계정보를 추출하는 태스크를 설계하고 기존의 NLU 태스크와 조합하여 학습하도록 모델을 구성한다. 실험에서는 학습 태스크들을 다양하게 조합하여 성능 차이를 분석하며, 기존의 NLU 태스크만 사용했을 경우에 비해 추가된 시간적 관계정보가 어떤 영향을 미치는지 확인한다. 실험결과를 통하여 전반적으로 멀티태스크 조합의 성능이 개별 태스크의 성능보다 높은 경향을 확인하며, 특히 개체명 인식에서 시간관계가 반영될 경우에 크게 성능이 향상되는 결과를 볼 수 있다.

  • PDF

시간의 단위별 처리를 이용한 자동화된 한국어 시간 표현 인식 및 정규화 시스템 (Automatic Recognition and Normalization System of Korean Time Expression using the individual time units)

  • 선충녕;강상우;서정연
    • 인지과학
    • /
    • 제21권4호
    • /
    • pp.447-458
    • /
    • 2010
  • 시간 정보는 문서나 문장 등에서 매우 중요한 정보로 사용되기 때문에 다양한 종류의 데이터에서 시간 정보의 인식은 매우 중요하다. 시간 정보는 일정한 형태를 가진 것으로 간주되지만 실제 사용되는 시간 표현은 매우 다양하고 복잡하며 정보의 일부가 빈번하게 생략되는 경우가 발생한다. 본 연구에서는 시간 표현의 추출뿐만 아니라 추출된 표현을 정규화된 표준 형식으로 변환하는 범용 시간 표현 추출 및 변환 시스템을 제안한다. 다양한 시간 표현의 추출과 변환에 필요한 노력을 줄이고 새로운 데이터에 대한 확장성을 보장하기 위해 기본 시간 단위를 정의하였다. 추출단계에서는 기본 시간 단위의 조합으로 구성된 사전을 사용하여 가능한 시간 표현들을 추출한다. 정규화 변환 단계에서는 인접 추출 정보와 기준 시간 등을 사용하여 생략된 기본 시간 단위 정보를 복원하고 최종적으로 모든 기본 시간 정보들은 통합되어 정규화된 표준 형식으로 변환된다. 제안한 시스템은 모바일 기기 등의 잡음 환경에서 강인한 성능을 보장하며 영역이나 언어에 대해 독립적이므로 많은 영역에서 응용이 가능하다. 본 연구는 실험에서 다량의 오류가 포함된 SMS 데이터에서 시간 표현 추출 정확도 93.8%, 시간 표현 변환 정확율 93.2%을 보임으로써 오류에 강인하면서도 높은 성능을 유지함을 증명하였다.

  • PDF

사건 탐지 및 추적을 위해 신문기사에서 자동 추출된 시간정보의 유용성 판단 (Judgment about the Usefulness of Automatically Extracted Temporal Information from News Articles for Event Detection and Tracking)

  • 김평;맹성현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권6호
    • /
    • pp.564-573
    • /
    • 2006
  • 시간정보는 정보 추출, 질의응답 시스템, 자동 요약과 같은 자연언어 처리 응용분야에서 중요한 역할을 한다. 사건 탐지 및 추적 분야에서는 기사의 발행일이 기사간 유사도 계산에 많이 사용되고 있지만 그 유용성에는 한계가 있다. 본 연구에서는 사건 탐지 및 추적 시스템의 성능을 향상시키기 위해서, 한국어 신문기사를 대상으로 비교적 간단한 자연언어 처리 기술을 사용해서 시간정보를 추출하는 방법을 개발하였다. 시간표현 어구를 추출하기 위해 품사패턴과 어휘사전이 사용되었고, 추출된 시간표현 어구는 정규화 과정을 통해 특정 시각 또는 기간으로 변환되었다. 실험을 통해 시간표현 추출과정의 정확도를 측정하였고, 기사에서 자동으로 추출된 시간을 사용함으로써 사건 탐지 및 추적 시스템의 성능을 향상시킬 수 있었다.

사건 탐지/추적을 위한 시간 정보 추출 (Temporal Information Extraction from Korean News for Event Detection and Tracking)

  • 김평;성기윤;맹성현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.22-29
    • /
    • 2003
  • 시간정보는 사건 탐지/추적 시스템은 물론 정보 추출, 질의/응답 시스템 등에서 매우 중요한 역할을 한다. 본 연구에서는 한국어 신문 기사를 대상으로 시간 표현을 추출하고 정규화한 후 사건 관련 동사와 연결하는 자동화된 방법들을 제안하였다. 시간 표현을 추출하기 위해서 품사정보로 구축된 패턴과 시간 표현 어휘가 사용되었고, 정규화 과정과 사건 관련 동사와의 연결을 위한 규칙이 만들어졌다. 한국어 신문을 대상으로 제안한 방법의 단계별 평가를 수행하였고, 제안하는 방법의 확장성을 보이기 위해 서로 다른 도메인에도 실험을 하였다.

  • PDF