• 제목/요약/키워드: LSTM-RNN

검색결과 203건 처리시간 0.018초

미등록 어휘에 대한 선택적 복사를 적용한 문서 자동요약 (Automatic Text Summarization based on Selective Copy mechanism against for Addressing OOV)

  • 이태석;선충녕;정영임;강승식
    • 스마트미디어저널
    • /
    • 제8권2호
    • /
    • pp.58-65
    • /
    • 2019
  • 문서 자동 요약은 주어진 문서로부터 주요 내용을 추출하거나 생성하는 방식으로 축약하는 작업을 말한다. 최근 연구에서는 대량의 문서를 딥러닝 기법을 적용하여 요약문 자체를 생성하는 방식으로 발전하고 있다. 생성 요약은 미리 생성된 위드 임베딩 정보를 사용하는데, 전문 용어와 같이 저빈도 핵심 어휘는 입베딩 된 사전에 없는 문제가 발생한다. 인코딩-디코딩 신경망 모델의 문서 자동 요약에서 미등록 어휘의 출현은 요약 성능 저하의 요인이다. 이를 해결하기 위해 본 논문에서는 요약 대상 문서에서 새로 출현한 단어를 복사하여 요약문을 생성하는 방법을 사용한다. 기존의 연구와는 달리 정확한 포인팅 정보와 선택적 복사 지시 정보를 명시적으로 제공하는 방법으로 제안하였다. 학습 데이터는 논문의 초록과 제목을 대상 문서와 정답 요약으로 사용하였다. 제안한 인코딩-디코딩 기반 모델을 통해서 자동 생성 요약을 수행한 결과 단어 제현 기반의 ROUGE-1이 47.01로 나타났으며, 또한 어순 기반의 ROUGE-L이 29.55로 향상되었다.

비주석 재귀신경망 앙상블 모델을 기반으로 한 조위관측소 해수위의 준실시간 이상값 탐지 (A Non-annotated Recurrent Neural Network Ensemble-based Model for Near-real Time Detection of Erroneous Sea Level Anomaly in Coastal Tide Gauge Observation)

  • 이은주;김영택;김송학;주호정;박재훈
    • 한국해양학회지:바다
    • /
    • 제26권4호
    • /
    • pp.307-326
    • /
    • 2021
  • 상시 관측되는 조위관측소 해수위 자료는 결측값과 오측값을 포함하고 있으며, 그 중 오측 값은 이상값으로 분류되는 전처리 대상이다. 이러한 오측을 제거하기 위해 대표적으로 3𝜎 (three standard deviations) 규칙이 적용되어왔으나, 기상이변 등에 의한 극값이 존재하거나 3𝜎 범위 안에서도 오측이 존재하는 해수위 자료에는 그 적용이 어렵다. 본 연구에서 설계된 모델은 오측에 대한 사전 정보가 필요하지 않은 비주석 학습으로 구성되며, 재귀신경망과 앙상블 기법을 이용함으로써 실시간으로 수집되는 해수위 자료가 오측일 가능성을 발생한지 20분 이내로 제시한다. 검증이 완료된 모델은 평시 및 기상이변시의 정상값과 오측값을 잘 분리하며, 학습이 이뤄지지 않은 연도의 해수위 자료에서도 이상값 탐지가 가능함을 확인하였다. 본 연구의 관측 이상치 탐지 알고리즘은 조위관측소 해수위에 국한되지 않고 다양한 해양 및 대기자료의 이상치 탐지 인공신경망 모델에 확장 적용할 수 있다.

국가별 행정체계 특성을 반영한 인공지능 활용 해외 주소데이터 품질검증 기법 (Overseas Address Data Quality Verification Technique using Artificial Intelligence Reflecting the Characteristics of Administrative System)

  • 김진실;이경희;조완섭
    • 한국빅데이터학회지
    • /
    • 제7권2호
    • /
    • pp.1-9
    • /
    • 2022
  • 글로벌 시대에 들어서면서 수입식품 안전관리에 대한 중요성이 증가하고 있다. 해외 식품업체 주소정보는 수입식품 안전관리를 위한 핵심 정보로써 식품위해 발생시 신속한 대처와 사후관리를 위해 반드시 검증되어야 한다. 그러나 각국의 주소체계가 다른 관계로 하나의 검증시스템이 모든 국가의 주소를 검증할 수는 없다. 또한, 주소검증은 사용하는 분야에 따라 검정목적이 상이할 수 있다. 본 논문에서는 주어진 해외 식품업체 주소로부터 해당 국가의 행정구역 레벨로 분류하는 문제를 다룬다. 수입식품 안전관리를 정확하고 효율적으로 하기 위하여 수입식품제조업체 주소를 해당 국가의 행정구역 수준으로 정확하게 매칭하는 것이 필요하다. 수입식품이 생산·제조되는 위치와 식품제조에 영향을 줄 수 있는 환경정보, 재난재해 정보를 결합함으로써 선제적 수입식품 안전관리가 가능하다. 그러나, 일부 국가에서는 주소를 표기할 때 행정구역 레벨명을 생략하여 작성하고 있으며, 동일한 지명이 여러 행정구역 레벨에서 중복되는 경우가 있어 주소로부터 행정구역 레벨을 정확히 분류하는 일은 쉽지 않다. 본 연구에서는 이러한 경우에 적합한 딥러닝 기반 행정구역 레벨 분류 모델을 제안하고, 실제 해외 식품회사 주소 데이터에 대하여 검증한다. 구체적으로 다중 레이블 분류 모델에서 멱집합(Label Powerset)을 이용해 훈련하는 방식을 사용한다. 제안된 기법의 검증을 위해 식약처에 등록된 에콰도르 및 베트남에 있는 해외 제조업소 주소에 대하여 정확도를 검증하였으며, 기존의 분류 모델보다 정확도가 각각 28.1% 및 13% 정도 향상되었다.