• 제목/요약/키워드: 자질 인식

검색결과 230건 처리시간 0.024초

기계학습 기법을 이용한 문장경계인식 (Sentence Boundary Detection Using Machine Learning Techniques)

  • 박수혁;임해창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 춘계학술발표대회
    • /
    • pp.69-72
    • /
    • 2008
  • 본 논문은 언어의 통계적 특징을 이용하여 범용의 문장경계 인식기를 제안한다. 제안하는 방법은 대량의 코퍼스 내에서 사용되고 있는 문장 경계를 기준으로 음절 및 어절 등의 자질을 이용하여 통계적 특징을 추출하고 다양한 기계학습 기법을 사용하여 문장경계를 인식하고자 하였다. 또한 특정 언어나 도메인에 제한적이지 않고 범용적인 자질만을 사용하려고 노력하였다. 언어의 특성상 문장의 구분이 애매한 경우 또는 잘못 사용 된 구두점 등의 경우에도 적용 가능하도록 다양한 자질을 사용하여 실험하였으며, 한국어와 영문 코퍼스에 대해서 동일한 자질을 적용하여 실험하여 본 논문에서 제시한 자질들이 한국어 및 다른 언어권의 언어에도 적용될 수 있는 범용적인 자질임을 확인할 수 있었다. 한국어 문장경계 인식을 위한 기계학습 및 실험을 위해서 세종계획 코퍼스를 사용하였으며, 성능척도로는 정확률과 재현율을 사용하였으며, 실험결과 제안한 방법으로 99%의 정확률과 99.2%의 재현율을 보였다. 영문의 경우는 Wall Street Journal 코퍼스를 사용하였으며, 동일한 자질을 적용하여 실험한 결과 98.9%의 정확률과 94.6%의 재현율을 보였다.

문자 기반 LSTM-CRF 한국어 개체명 인식을 위한 사전 자질 활용 (Lexicon Feature Infused Character-Based LSTM CRFs for Korean Named Entity Recognition)

  • 민진우;나승훈
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.99-101
    • /
    • 2016
  • 문자 기반 LSTM CRF는 개체명 인식에서 높은 인식을 보여주고 있는 LSTM-CRF 방식에서 미등록어 문제를 해결하기 위해 단어 단위의 임베딩 뿐만 아니라 단어를 구성하는 문자로부터 단어 임베딩을 합성해 내는 방식으로 기존의 LSTM CRF에서의 성능 향상을 가져왔다. 한편, 개체명 인식에서 어휘 사전은 성능향상을 위한 외부 리소스원으로 활용하고 있는데 다양한 사전 매칭 방법이 파생될 수 있음에도 이들 자질들에 대한 비교 연구가 이루어지지 않았다. 본 논문에서는 개체명 인식을 위해 다양한 사전 매칭 자질들을 정의하고 이들을 LSTM-CRF의 입력 자질로 활용했을 때의 성능 비교 결과를 제시한다. 실험 결과 사전 자질이 추가된 LSTM-CRF는 ETRI 개체명 말뭉치의 학습데이터에서 F1 measure 기준 최대 89.34%의 성능까지 달성할 수 있었다.

  • PDF

문자 기반 LSTM-CRF 한국어 개체명 인식을 위한 사전 자질 활용 (Lexicon Feature Infused Character-Based LSTM CRFs for Korean Named Entity Recognition)

  • 민진우;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.99-101
    • /
    • 2016
  • 문자 기반 LSTM CRF는 개체명 인식에서 높은 인식을 보여주고 있는 LSTM-CRF 방식에서 미등록어 문제를 해결하기 위해 단어 단위의 임베딩 뿐만 아니라 단어를 구성하는 문자로부터 단어 임베딩을 합성해 내는 방식으로 기존의 LSTM CRF에서의 성능 향상을 가져왔다. 한편, 개체명 인식에서 어휘 사전은 성능 향상을 위한 외부 리소스원으로 활용하고 있는데 다양한 사전 매칭 방법이 파생될 수 있음에도 이들 자질들에 대한 비교 연구가 이루어지지 않았다. 본 논문에서는 개체명 인식을 위해 다양한 사전 매칭 자질들을 정의하고 이들을 LSTM-CRF의 입력 자질로 활용했을 때의 성능 비교 결과를 제시한다. 실험 결과 사전 자질이 추가된 LSTM-CRF는 ETRI 개체명 말뭉치의 학습데이터에서 F1 measure 기준 최대 89.34%의 성능까지 달성할 수 있었다.

  • PDF

어휘 자질 기반 기계 학습을 사용한 한국어 암묵 인용문 인식 (Recognition of Korean Implicit Citation Sentences Using Machine Learning with Lexical Features)

  • 강인수
    • 한국산학기술학회논문지
    • /
    • 제16권8호
    • /
    • pp.5565-5570
    • /
    • 2015
  • 암묵인용문 인식은 학술문헌의 본문 텍스트 내에서 명시적 인용표지가 누락된 인용문장을 자동 인식하는 것으로 인용 기반 논문 검색 및 요약의 핵심 기술이다. 기존 암묵인용문 인식의 최신 연구들은 단어 ngram, 단서어구, 명시인용문과의 거리, 기존 연구자의 성, 기존 방법의 명칭 등 다양한 자질을 활용하여 50% 이상 인식 수준을 보고하고 있다. 그러나 대부분의 기존 연구들은 영어에 대해 수행되었으며 한국어의 경우 최근 긍정/부정 단서어구 패턴을 활용한 규칙 기반 시도에서 42% 성능 수준이 보고되어 있어 추가 성능 향상이 요구되는 상황이다. 이 연구에서는 한국어 어휘 자질을 사용하여 한국어 암묵인용문의 기계학습 기반 인식을 시도하였다. 이를 위해 어절, 형태소, 음절 단위에 기반한 다양한 크기의 어휘 ngram 자질들의 인식 성능을 비교 평가하고 한국어 암묵인용문 인식에 적합한 어휘 자질로 형태소 1gram 및 음절 2gram 단위를 결정하였다. 또한 이들 어휘 자질들을 전후 명시인용문들과의 인접성을 표현한 위치 자질들과 결합하여 한국어 암묵인용문 인식 성능을 50% 이상 수준으로 대폭 향상시켰다.

기계학습 기반 개체명 인식을 위한 사전 자질 생성 (Feature Generation of Dictionary for Named-Entity Recognition based on Machine Learning)

  • 김재훈;김형철;최윤수
    • 정보관리연구
    • /
    • 제41권2호
    • /
    • pp.31-46
    • /
    • 2010
  • 오늘날 정보 추출의 한 단계로서 개체명 인식은 정보검색 분야 뿐 아니라 질의응답과 요약 분야에서 매우 유용하게 사용되고 있다. 개체명은 일반 단어와 달리 다양한 문서에서 꾸준히 생성되고 변화되고 있다. 이와 같은 개체명의 특성 때문에 여러 응용 시스템에서 미등록어 문제가 야기된다. 본 논문에서는 이런 미등록어 문제를 해결하기 위해 기계학습 기반 개체명 인식 시스템을 위한 새로운 자질 생성 방법을 제안한다. 일반적으로 기계학습 기반 개체명 인식 시스템은 단어 단위의 자질을 사용하므로 구절 단위의 개체명을 그대로 자질로 사용할 수 없다. 이 문제를 해결하기 위해 본 논문에서는 새로운 구절 단위의 정보를 단어 단위의 자질로 변환하는 자질 생성 방법을 제안하였다. 이 방법으로 개체명 사전과 WordNet을 개체명 인식의 자질로 사용할 수 있었다. 그 결과 영어 개체명 시스템은 F1 점수의 약 6%가 향상되었고 오류의 약 38%가 줄어들었다.

Maximum Entropy 모델을 이용한 나열 및 병렬형 인식 (Syntax Analysis of Enumeration type and Parallel Type Using Maximum Entropy Model)

  • 임수종;이창기;허정;장명길
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 1부
    • /
    • pp.1240-1245
    • /
    • 2006
  • 한국어 문장을 구조 분석할 때에 모호성을 발생시키는 유형 중의 하나가 나열 및 병렬형이다. 문장 구조 복잡도를 증가시키는 나열 및 병렬형을 구조 분석 전에 미리 하나의 단위로 묶어서 처리하는 것이 문장 구조 분석의 정확도를 높이는데 중요하다. 본 연구에서는 형태소 태그를 이용한 기본 규칙으로 문장을 청크 단위로 분할하고 분할된 청크 중에서 나열형을 인식하여 해당되는 청크들을 하나의 나열 청크로 통합하여 청크의 개수를 줄인다. 병렬형에 대해서는 반복되는 병렬 청크의 범위와 생략된 용언을 복원한다. 이러한 인식은 첫 단계로 기호(symbol)를 중심으로 구축된 간단한 규칙으로 인식을 하고 이러한 규칙에 해당되지 않는 형태의 나열 및 병렬형은 Maximum Entropy 모델을 이용하여 적용한다. ME모델은 어휘자질, 형태소 품사 자질, 거리 자질, 의미자질, 구 단위 태그 자질(NP:명사구, VP:동사구, AP:형용사구), BIO 태그(Begin, Inside, Outside) 자질에 대한 ME(Maximum Entropy) 모델을 이용하여 구축되었다.

  • PDF

전문용어 및 정보추출에 기반한 문서분류시스템 (Text Categorization Based on Terminology and Information Extraction)

  • 이경순;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.79-84
    • /
    • 1999
  • 본 연구에서는 문서분류시스템에서 자질의 표현으로 전문분야사전을 이용한 분야정보와 개체정보추출을 통한 개체정보를 이용한다. 또한 지식정보를 보완하기 위해 통계적인 방법으로 범주 전문용어를 인식하여 자질로 표현하는 방법을 제안한다. 문서에 나타난 용어들이 어떤 특정 전문분야에 속하는 용어들이 많이 나타나는 경우 그 문서는 용어들이 속한 분야의 문서일 가능성이 높다. 또한, 정보추출을 통해 용어가 어떠한 개체를 나타내는지를 인식하여 문서를 표현함으로써 문서가 내포하는 의미를 보다 잘 반영할 수 있게 된다. 분야정보나 개체정보를 알 수 없는 용어에 대해서는 학습문서로부터 전문분야를 자동 인식함으로써 문서표현의 지식정보를 보완한다. 전문분야, 개체정보 및 범주전문용어에 기반해서 표현된 문서의 자질에 대해서 지지벡터기계 학습에 기반한 문서분류기틀 이용하여 각 범주에 대해 이진분류를 하였다. 제안된 문서자질표현은 용어기반의 자질표현에 비해 좋은 성능을 보이고 있다.

  • PDF

어절의 중심어 정보를 이용한 한국어 기반 명사구 인식 (Korean BaseNP Chunking Using Head-word of Word Phrase)

  • 서충원;오종훈;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.145-151
    • /
    • 2003
  • 기반 명사구는 명사구 내부에 다른 명사구를 포함하지 않는 명사구로 정의된다. 이러한 기반명사구인식은 구문해석의 성능을 향상시키기 위한 방법으로 많이 사용되어 왔다. 효과적인 기반 명사구인식을 위해서는 올바른 학습자질의 선택과 적절한 문맥의 범위의 설정이 중요하다. 이러한 관점에서 기존의 연구에서는 여러 가지 학습자질과 문맥의 범위로 기반명사구를 인식하였다. 하지만 기존의 연구들에서는 학습자질로 단순한 어휘, 품사, 띄어쓰기 정보만을 사용하여 좁은 범위의 문맥정보만을 사용하였다. 본 논문에서는 한국어의 기반 명사구 인식을 위해 학습의 자질로 어절의 중심어를 사용하는 HMM모델을 제안한다. 본 논문의 방법을 통해 정확률 94.3%, 재현률 93.2%의 성능을 얻었다.

  • PDF

성대신호 명령어 인식기를 위한 음운자질에 기반한 성대신호 연구 (Vocal-cord Signal Study based on Phonological Feature for Vocal-cord Signal Isolated-Word recognizer)

  • 정영규;한문성;조관현
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 1부
    • /
    • pp.565-570
    • /
    • 2006
  • 웨어러블 환경에서 가장 유용한 사용자 인터페이스는 음성이다. 그러나 현재 노이즈 제거 기술로는 웨어러블 환경과 같은 고소음 환경에서 음성 인식기의 실제적인 응용은 거의 불가능하다. 본 논문은 환경노이즈를 원천적으로 차단하는 성대 마이크를 이용한 명령어 인식기를 개발한다. 이를 위해 성대신호를 한국어 음운자질 이론을 기반으로 설명하고, 입력신호를 분석하여 이러한 접근방법의 타당성을 검증한다. 이러한 성대신호의 분석을 위해 스펙트럼과, FFT 결과를 사용하고, MFCC 알고리즘을 이용하여 주파수 영역내의 정보량이 인식에 미치는 영향을 분석한다. 그리고 분석결과를 바탕으로 성대신호 명령어 인식기를 위한 특징벡터로 유/무성음 분리에 사용되는 특징벡터가 유용함을 ZCPA 알고리즘을 이용한 성대신호 명령어 인식기를 개발하여 검증한다. 실험결과 ZCPA 를 사용한 것이 MFCC 에 비해 16%높은 인식률을 보인다.

  • PDF

국외여행인솔자의 자질 실증연구 -여행객과 여행업종사자를 대상으로- (An Empirical Study on Tour Conductor's Quality - focused on tourists and travel agents)

  • 현길남;허희영
    • 산학경영연구
    • /
    • 제19권1호
    • /
    • pp.137-156
    • /
    • 2006
  • 1989년 국외여행자유화가 시행된 이후 국외여행사수와 국외여행객수는 빠른 속도로 증가하고 있다. 국외여행의 출발부터 도착까지 여행 전 일정에 관여하는 국외여행인솔자의 자질은 여행객의 여행만족에 중요한 요소로서 인식되어지고 있다. 이 연구는 여행객의 여행만족에 영향을 미치는 국외여행인솔자의 자질에 관한 분석에 초점을 두고 있다. 몇몇 자질요인평가에 여행객과 여행업종사자 사이에는 그 중요도 인식에 다소 차이가 있는 것으로 분석결과 나타났지만 여행객만족에 국외여행인솔자의 역할이 중요하다는 인식에는 두 집단 모두 동의하는 것으로 조사되었다. 이러한 분석결과를 근거하여 국외여행인솔자는 여행객과 업계가 요구하는 자질개발이 필요하다.

  • PDF