• 제목/요약/키워드: 태깅

검색결과 443건 처리시간 0.039초

정보추출을 위한 고유명사 및 대용어 태깅 (Named Entity and Coreference Tagging for Information Extraction)

  • 장성호;강승식;우종우;윤보현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (하)
    • /
    • pp.1111-1114
    • /
    • 2002
  • 최근 정보추출에 대한 중요성이 점차 증가하면서 정보추출에서 필요로 하는 Named Entity와 Coreference, Information Extraction, Information Retrieval의 소개와 한국어에 대해 적용시키기 위한 정의와 방법을 제시한다. 또한, 대량의 문서에 대한 태깅을 효율적으로 수행할 수 있도록 Named Entity와 Coreference 태깅을 쉽게 할 수 있는 NE-CO 태깅 도구를 개발하였다. 이 태깅 도구를 이용하여 시험적으로 경제, 공연, 여행 분야의 300문서에 대한 말뭉치를 구축하였으며, 이 말뭉치는 한국어 정보추출 시스템을 개발하는데 기초 자료로서 활용될 예정이다.

  • PDF

XML 편집도구를 이용한 향상된 RDFa 태깅 기법 (Enhanced RDFa Tagging Method using XML Editing Tool)

  • 최영호;차승준;이규철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.155-158
    • /
    • 2010
  • 시맨틱 웹 기술을 활용한 OpenAPI 의미 기반 검색 시스템에서 설명정보페이지에 의미정보를 가진 메타데이터를 첨가하기 위해 RDFa 기술을 이용한 태깅을 하였다. 하지만 태깅 시 사람이 수작업을 통해 입력하기 때문에 시간소모가 크고 오류 위험이 높다는 제약사항이 있다. 이러한 제약사항을 해결하기 위해 본 논문에서는 XML/XHTML 편집도구를 이용한 향상된 RDFa 태깅을 제안한다. 이는 속도향상과 오류 감소의 방법으로 XML/XHTML 편집도구에서 제공하는 자동완성 기능을 제안하고 있다. 그리고 자동완성 기능을 사용하기 위해 DTD를 수정하여 적용하였고 수정된 방법을 테스트한 결과 기존의 수동 태깅 기법보다 걸리는 시간이 단축됐고, 오류를 줄일 수 있음이 확인되었다. 결과를 얻을 수 있었다.

BERT기반 LSTM-CRF 모델을 이용한 한국어 형태소 분석 및 품사 태깅 (Korean Morphological Analysis and Part-Of-Speech Tagging with LSTM-CRF based on BERT)

  • 박천음;이창기;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.34-36
    • /
    • 2019
  • 기존 딥 러닝을 이용한 형태소 분석 및 품사 태깅(Part-Of-Speech tagging)은 feed-forward neural network에 CRF를 결합하는 방법이나 sequence-to-sequence 모델을 이용한 방법 등의 다양한 모델들이 연구되었다. 본 논문에서는 한국어 형태소 분석 및 품사 태깅을 수행하기 위하여 최근 자연어처리 태스크에서 많은 성능 향상을 보이고 있는 BERT를 기반으로 한 음절 단위 LSTM-CRF 모델을 제안한다. BERT는 양방향성을 가진 트랜스포머(transformer) 인코더를 기반으로 언어 모델을 사전 학습한 것이며, 본 논문에서는 한국어 대용량 코퍼스를 어절 단위로 사전 학습한 KorBERT를 사용한다. 실험 결과, 본 논문에서 제안한 모델이 기존 한국어 형태소 분석 및 품사 태깅 연구들 보다 좋은 (세종 코퍼스) F1 98.74%의 성능을 보였다.

  • PDF

Transformer를 이용한 한국어 Head-Tail 품사 태거 (Korean Head-Tail POS-Tagger by using Transformer)

  • 김정민;서현재;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.544-547
    • /
    • 2021
  • 한국어의 품사 태깅 문제는 입력 어절의 형태소 분석 후보들로부터 통계적으로 적절한 품사 태그를 가지는 후보들을 찾는 방식으로 해결하여 왔다. 어절을 형태소 단위로 분리하고 품사를 부착하는 기존의 방식은 품사태그 정보를 딥러닝 feature로 사용할 때 문장의 의미를 이해하는데 복잡도를 증가시키는 요인이 된다. 본 연구에서는 품사 태깅 문제를 단순화 하여 한 어절을 Head와 Tail이라는 두 가지 유형의 형태소 토큰으로 분리하여 Head와 Tail에 대해 품사를 부착한다. Head-Tail 품사 태깅 방법을 Sequence-to-Sequence 문제로 정의하여 Transformer를 이용한 Head-Tail 품사 태거를 설계하고 구현하였다. 학습데이터로는 KCC150 말뭉치의 품사 태깅 말뭉치 중에서 788만 문장을 사용하고, 실험 데이터로는 10만 문장을 사용하였다. 실험 결과로 토큰 정확도는 99.75%, 태그 정확도는 99.39%, 토큰-태그 정확도는 99.31%로 나타났다.

  • PDF

EmoNSMC: Distant Supervision 을 이용한 한국어 감정 태깅 데이터셋 구축 (EmoNSMC: Constructing Korean Emotion Tagging Dataset Using Distant Supervision)

  • 이영준;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.519-521
    • /
    • 2019
  • 최근 소셜 메신저를 통해 많은 사람들이 의사소통을 주고받음에 따라, 텍스트에서 감정을 파악하는 것이 중요하다. 따라서, 감정이 태깅된 데이터가 필요하다. 하지만, 기존 연구는 감정이 태깅된 데이터의 양이 많지가 않다. 이는 텍스트에서 감정을 파악하는데 성능 저하를 야기할 수 있다. 이를 해결하기 위해, 본 논문에서는 단어 매칭 방법과 형태소 매칭 방법을 이용하여 많은 양의 한국어 감정 태깅 데이터셋인 EmoNSMC 를 구축하였다. 구축한 데이터셋은 네이버 영화 감상 리뷰 데이터 (NSMC)에 디스턴트 수퍼비전 방법 (distant supervision) 방법을 적용하여 weak labeling을 진행하였고, 이 과정에서 한국어 감정 어휘 사전 (KTEA) 을 이용하였다. 구축된 데이터셋의 감정 분포 결과, 형태소 매칭 방법을 통해 구축한 데이터셋이 좀 더 감정 분포가 균등한 것을 확인할 수 있었다. 해당 데이터셋은 공개되어 있다.

  • PDF

디지털 아카이브의 이용자 참여의 활성화를 위한 소셜 태깅 활용 방안 연구 (A Study on Social Tagging for Promoting Users' Participation in Digital Archives)

  • 박희진
    • 정보관리학회지
    • /
    • 제34권3호
    • /
    • pp.269-290
    • /
    • 2017
  • 본 연구는 국내 문화유산기관에서 디지털 콘텐츠의 효과적인 접근과 활용을 도모하고 이용자 참여를 활성화할 수 있는 소셜 태깅의 활용방안을 제안하는 것을 목적으로 한다. 이를 위해 정보기술을 활용한 아카이브의 성과를 바탕으로 국내외 아카이브의 기술 적용 현황을 파악하고, 소셜 태깅이 적용된 국내외 디지털 아카이브의 사례연구를 통해 소셜 태킹의 활용 현황과 특성을 분석하였다. 이용자 참여 단계유형을 재구성하여 소셜 태깅을 통한 참여 단계 모델을 제시하고, 디지털 아카이브에서 이용자의 참여와 콘텐츠의 기여도를 중심으로 표현, 커뮤니케이션, 협업에 따른 소셜 태깅의 활용 방안을 제안하였다.

규칙과 어절 확률을 이용한 혼합 품사 태깅 모델 (POS-Tagging Model Combining Rules and Word Probability)

  • 황명진;강미영;권혁철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.11-15
    • /
    • 2006
  • 본 논문은, 긍정적 가중치와 부정적 가중치를 통해 표현되는 규칙에 기반을 둔 품사 태깅 모델과, 형태 소 unigram 정보와 어절 내의 카테고리 패턴에 기반하여 어절 확률을 추정하는 품사 태깅 모델의 장점을 취하고 단점을 보완할 수 있는 혼합 품사 태깅 모델을 제안한다. 이 혼합 모델은 먼저, 규칙에 기반한 품사 태깅을 적용한 후, 규칙이 해결하지 못한 결과에 대해서 통계적인 기법을 사용하여 품사 태깅을 한다. 본 연구는 어절 내 카테고리 패턴정보에 따른 파라미터 set과 형태소 unigram만을 이용해 어절 확률을 계산해 내므로 다른 통계기반 접근방법에서와는 달리 작은 크기의 통계사전만을 필요로 하며, 카테고리 패턴 정보를 사용함으로써 통계기반 접근 방법의 가장 큰 문제점인 data sparseness 문제 또한 줄일 수 있다는 이점이 있다. 특히, 본 논문에서 사용할 통계 모델은 어절 확률에 기반을 두고 있기 때문에 한국어의 특성을 잘 반영할 수 있다. 본 논문에서 제안한 혼합 모델은 규칙이 적용된 후에도 후보열이 둘 이상 남아 오류로 반환되었던 어절 중 24%를 개선한다.

  • PDF

질의 응답 시스템을 위한 반교사 기반의 정답 유형 분류 (Semi-Supervised Answer Type Classification For Question-Answering System)

  • 박선영;이동현;김용희;류성한;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.45-49
    • /
    • 2013
  • 기존 연구에서는 질의 응답 시스템에서 정답 유형을 분류하기 위해 패턴 매칭 방식이나 교사 학습(Supervised Learning)을 이용했다. 패턴 매칭 방식은 질의 분석을 통해 수동으로 패턴을 구축해야 한다. 교사 학습에서는 훈련 데이터 전체에 정답 유형이 태깅(Tagging)되어야 하며, 이를 위해서는 사용자의 질의에 정답 유형을 수동으로 태깅하는 작업이 많이 필요하다. 웹을 통해 정답 유형이 태깅되지 않은 대용량의 사용자 질의 말뭉치를 구할 수 있지만, 이 데이터에는 정답 유형이 태깅되어 있지 않다. 따라서, 대용량의 사용자 질의에 비례하여, 정답 유형을 수동으로 태깅하는 작업량이 증가한다. 앞서 언급한 두 가지 방법론에서, 정답 유형 분류를 위해 수작업이 많이 필요하다는 문제점을 해결하고자 본 논문에서는 일부 태깅된 훈련 데이터를 필요로 하는 반교사 학습(Semi-supervised Learning)에 기반한 정답 유형 분류를 제안한다. 이는 정답 유형 분류 작업에 필요한 노동력을 최소화함으로 대용량의 데이터를 통한 효율적 질의 응답 시스템 구축을 가능하게 한다.

  • PDF

퍼지망을 이용한 한국어 품사 태깅 (A Part-of-Speech Tagging Using Fuzzy Network)

  • 김재훈;조정미;김창현;서정연;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.593-603
    • /
    • 1993
  • 본 논문은 퍼지 망(Fuzzy Network)외 개념을 도입하여 한국어 단어의 품사 태깅에 관한 새로운 모델을 제시하고자 한다. 한국어 단어의 품사 태깅이란 여러 개의 품사를 가진 단어가 한국어 문장 속에 나타났을 때, 단어의 품사를 올바르게 결정하는 것이다. 여기서 가장 기본적인 문제는 여러 가지의 태그를 포함하고 있는 단어들의 나열을 어떻게 퍼지 망으로 표현하는가 하는 문제이다. 본 논문에서는 한국어 품사를 태깅할 때 사용한 퍼지 망을 정점(vertex)으로 단어 품사의 퍼지 집합을 표현하고, 연결선(edge)으로 품사와 품사간의 퍼지관계를 표현한다. 일단 퍼지망으로 표현되면, 퍼지망에서의 최적의 경로를 찾는 문제와 동일하게 풀 수 있다. 일반적으로 퍼지 망에서 최적의 경로를 찾는 문제는 dynamic programming 방법에 의해서 효과적으로 해결할 수 있다. 약 2만 6천개의 형태소를 실험 데이타로 하여 실험한 결과, 전체적인 품사 태깅 정확률은 95.6%로 비교적 좋은 결과를 보였다. 앞으로 좀 더 세분화된 태그 집합과 정확히 태깅된 실험 데이타로부터 추출된 소속함수를 이용한다면, 더 좋은 결과를 기대할 수 있다.

  • PDF

응용을 위한 품사 태깅 시스템의 매핑 (Application portable Part-Of-Speech tagger mapping)

  • 김준석;차정원;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.368-375
    • /
    • 2000
  • 품사 태깅 시스템은 자연 언어 처리의 가장 기본이 되는 부분으로 상위 자연 언어 처리 분야인 구문분석, 의미분석의 전처리로 사용되거나, 기계번역, 정보검색이나 음성인식 및 합성 등과 같은 많은 응용 시스템을 위해서도 필요하다. 이렇게 여러 가지 목적을 위해 품사 태깅 시스템은 존재하는데, 각각의 응용을 위해서 최적화된 태깅 시스템을 따로 구성하기도 하고, 하나의 태깅 시스템을 여러 가지 응용을 위해서 사용하기도 한다. 이때, 문제가 되는 것 중에 하나는 각 응용마다 요구하는 품사 태그 세트가 다르다는 것이다. 품사 태그세트가 고정되어 있다면 어떤 응용을 위해서는 사용되는 품사 태그세트가 너무 적어서 문제가 되고, 반대로 품사태그세트가 너무 많아서 시스템의 수행속도가 중요시되는 응용에서 성능저하의 요인이 되기도 한다. 본 논문에서는 하나의 태깅 시스템의 품사태그세트를 조절할 수 있도록 하여 몇 가지 응용시스템에 맞게 최적화시킬 수 있는 방법론을 제시하고 실험을 통해서 시스템의 성능, 유지보수 및 시스템의 여러 리소스 관리 측면에서도 가장 효율적인 방법론임을 입증하고자 한다.

  • PDF