• 제목/요약/키워드: 한국어 어절 표현

검색결과 42건 처리시간 0.024초

한국어 수사어절의 유형 분류 및 정규화 (Classification and Normalization of Korean Numerals)

  • 강승식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.187-189
    • /
    • 1999
  • 여러 가지 형태로 표현되는 수사어절을 아라비아 숫자로 구성된 표준형으로 변환하기 위하여 수사어절을 인식하는 알고리즘과 수사어절을 표준형으로 변환하는 수사어절 정규화 알고리즘을 제안한다. 띄어쓴 수사어절은 전처리 단계에서 수사어절 인식 알고리즘을 이용하여 한 어절로 결합한다.

  • PDF

한국어 의존 구문 분석의 분석 단위에 관한 실험적 연구 (Empirical Research on Segmentation Method for Korean Dependency Parsing)

  • 이진우;조혜미;박수연;신효필
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.427-432
    • /
    • 2021
  • 현재 한국어 의존 구문 분석의 표준은 어절 단위로 구문 분석을 수행하는 것이다. 그러나 의존 구문 분석의 분석 단위(어절, 형태소)에 대해서는 현재까지 심도 있는 비교 연구가 진행된 바 없다. 본 연구에서는 의존 구문 분석의 분석 단위가 자연어 처리 분야의 성능에 유의미한 영향을 끼침을 실험적으로 규명한다. STEP 2000과 모두의 말뭉치를 기반으로 구축한 형태소 단위 의존 구문 분석 말뭉치를 사용하여, 의존 구문 분석기 모델 및 의존 트리를 입력으로 활용하는 문장 의미 유사도 분석(STS) 및 관계 추출(RE) 모델을 학습하였다. 그 결과, KMDP가 기존 어절 단위 구문 분석과 비교하여 의존 구문 분석기의 성능과 응용 분야(STS, RE)의 성능이 모두 유의미하게 향상됨을 확인하였다. 이로써 형태소 단위 의존 구문 분석이 한국어 문법을 표현하는 능력이 우수하며, 문법과 의미를 연결하는 인터페이스로써 높은 활용 가치가 있음을 입증한다.

  • PDF

외국인 학습자를 위한 문맥 기반 실시간 국어 문장 교정 (Context Based Real-time Korean Writing Correcting for Foriengers)

  • 박영근;최재성;김재민;이성동;이현아
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.273-275
    • /
    • 2016
  • 외국인 유학생과 국내 체류 외국인을 포함하여 한국어를 학습하고자 하는 외국인이 지속적으로 증가함에 따라, 외국인 한국어 학습자의 교육에 대한 관심도 높아지고 있다. 기존 맞춤법 검사기는 한국어를 충분히 이해할 수 있는 한국인의 사용에 중점을 두고 있어, 외국인 한국어 학습자가 사용하기에는 다소 부적절하다. 본 논문에서는 한국어의 문맥 특성과 외국인의 작문 특성을 반영한 한국어 교정 방식을 제안한다. 제안하는 시스템에서는 말뭉치에서 추출한 어절 바이그램에 대한 음절 역색인을 구성하여 추천 표현을 빠르게 제시할 수 있으며, 키보드 후킹에 기반한 사용자인터페이스를 제공하여 사용자 편의를 높인다.

  • PDF

한국어 형태소 분석에서의 수사 처리 (Processing Methodology for a Numeral in Korean Morphological Analyzing)

  • 김민정;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1991년도 제3회 한글 및 한국어정보처리 학술대회
    • /
    • pp.178-187
    • /
    • 1991
  • 본 논문에서는 컴퓨터를 이용한 형태소 분석에서 수사의 고유한 특성을 고려한 수사 처리에 관하여 연구하였다. 명사나 관형사와는 다른 수사 고유 특성 중 하나인 합성수사를 만드는 어순규칙을 경험정보(heuristic information)로 이용하기 위해 유한 상태 오토마타로 표현하였으며, 어절의 어순을 이용하여 수사 처리를 여러 어절까지 가능하게 하였다. 수사에 의해 영향을 받는 단위명사도 수사와 함께 처리할 수 없게 하였다. 제시된 수사 처리 방법은 중의성을 줄이고 보다 정확한 분석을 가능하게 했다.

  • PDF

음절 임베딩과 양방향 LSTM-CRF를 이용한 한국어 문장 자동 띄어쓰기 (Bi-LSTM-CRF and Syllable Embedding for Automatic Spacing of Korean Sentences)

  • 이현영;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.605-607
    • /
    • 2018
  • 본 논문에서는 음절 임베딩과 양방향 LSTM-CRF 모델을 이용한 한국어 문장 자동 띄어쓰기 시스템을 제안한다. 문장에 대한 자질 벡터 표현을 위해 문장을 구성하는 음절을 Unigram 및 Bigram으로 나누어 각 음절을 연속적인 벡터 공간에 표현하고, 양방향 LSTM을 이용하여 현재 자질에 양방향 자질들과 의존성을 부여한 새로운 자질 벡터를 생성한다. 이 새로운 자질 벡터는 전방향 신경망과 선형체인(Linear-Chain) CRF를 이용하여 최적의 띄어쓰기 태그 열을 예측하고, 생성된 띄어쓰기 태그를 기반으로 문장 자동 띄어쓰기를 수행하였다. 문장 13,500개와 277,718개 어절로 이루어진 학습 데이터 집합과 문장 1,500개와 31,107개 어절로 이루어진 테스트 집합의 학습 및 평가 결과는 97.337%의 음절 띄어쓰기 태그 분류 정확도를 보였다.

  • PDF

Bidirectional LSTM을 이용한 전이기반 한국어 의존 구문분석 (Transition-Based Korean Dependency Parsing using Bidirectional LSTM)

  • 하태빈;이태현;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.527-529
    • /
    • 2018
  • 초기 자연언어처리에 FNN(Feedforward Neural Network)을 적용한 연구들에 비해 LSTM(Long Short-Term Memory)은 현재 시점의 정보뿐만 아니라 이전 시점의 정보를 담고 있어 문장을 이루는 어절들, 어절을 이루는 형태소 등 순차적인(sequential) 데이터를 처리하는데 좋은 성능을 보인다. 본 논문에서는 스택과 버퍼에 있는 어절을 양방향 LSTM encoding을 이용한 representation으로 표현하여 전이기반 의존구문분석에 적용하여 현재 UAS 89.4%의 정확도를 보였고, 자질 추가 및 정제작업을 통해 성능이 개선될 것으로 보인다.

  • PDF

형식형태소가 한국어 단어 벡터 생성에 미치는 영향 (Grammatical morphemes' effect on Korean word vector generation)

  • 윤준영;김도원;민태홍;이재성
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.179-183
    • /
    • 2017
  • 단어 벡터는 단어 사이의 관계를 벡터 연산으로 가능하게 할 뿐 아니라, 상위의 신경망 프로그램의 사전학습 데이터로 많이 활용되고 있다. 한국어 어절은 생산적인 조사나 어미 때문에 효율적인 단어 벡터 생성이 어려워 대개 실질형태소만을 사용하여 한국어 단어 벡터를 생성한다. 본 논문에서는 실질형태소와 형식형태소를 모두 사용하되, 형식형태소를 적절하게 분류하여 단어 벡터의 성능을 높이는 방법을 제안한다. 자체 구축한 단어 관계 테스트 집합으로 추출 성능을 평가해 본 결과, 제안한 방법으로 형식형태소를 사용할 경우, 성능이 향상되었다.

  • PDF

한국어 동사와 명사 관용구 인식 알고리즘 (A recognition algorithm of Korean verb and noun idiomatic phrases)

  • 이호석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.170-175
    • /
    • 2009
  • 본 논문은 한국어 관용구 인식 알고리즘에 대하여 논의한다. 다음(daum) 전자 사전에는 관용구의 의미를, "두 개 이상의 단어로 이루어져 있으면서, 그 단어들의 의미만으로는 전체 의미를 알 수 없는, 특수한 의미를 나타내는 어구" 라고 설명되어 있다. 한국어 관용구의 길이는 2글자 ~ 4글자인 경우가 많으며 그 이상인 경우도 있다. 대부분의 관용구는 일반 사전에 동사와 명사를 기준으로 분류되어 있으며, 품사 표시나 구절 표시 없이 어절의 문자열 형태로만 표현되어 나타난다. 본 논문에서는 전자 사전에 품사 표시나 구절 표시 없이 어절 문자열 형태로 저장되어 있는 한국어 관용구를 입력 문장에서 인식하는 관용구 인식 알고리즘에 대하여 논의한다. 그리고 연어 인식과 명사의 의미 속성 처리에 대하여서도 논의한다.

  • PDF

어절별 중의성 해소 규칙을 이용한 혼합형 한국어 품사 태깅 시스템 (Korean Part-of-Speech Tagging System Using Resolution Rules for Individual Ambiguous Word)

  • 박희근;안영민;서영훈
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제13권6호
    • /
    • pp.427-431
    • /
    • 2007
  • 본 논문에서는 어절별 중의성 해소 규칙과 trigram 통계 정보를 이용하는 혼합형 한국어 품사 태깅 시스템에 대하여 기술한다. 어절별 중의성 해소 규칙은 중의성을 가지는 어절들 각각에 대해 정의된 중의성 해소 규칙으로, 현재 중의성을 가지는 어절의 50%에 대해 작성되어 있다. 본 논문의 태깅 시스템은 먼저 보조용언, 숙어, 관용적 표현 등에 해당하는 공통규칙을 적용하고, 그 후에 어절별 중의성 해소 규칙을 적용한다. 마지막으로 중의성이 해소되지 않은 어절은 각 어절을 중심으로 하는 trigram 통계 정보를 이용하여 중의성을 해소한다. 실험 결과는 본 논문에서 제안하는 어절별 중의성 해소 규칙과 trigram 통계 정보를 혼합하여 중의성을 해소 시키는 방법이 높은 정확률과 넓은 처리 범위를 가지고 있다는 것을 보여준다.

형식형태소가 한국어 단어 벡터 생성에 미치는 영향 (Grammatical morphemes' effect on Korean word vector generation)

  • 윤준영;김도원;민태홍;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.179-183
    • /
    • 2017
  • 단어 벡터는 단어 사이의 관계를 벡터 연산으로 가능하게 할 뿐 아니라, 상위의 신경망 프로그램의 사전학습 데이터로 많이 활용되고 있다. 한국어 어절은 생산적인 조사나 어미 때문에 효율적인 단어 벡터 생성이 어려워 대개 실질형태소만을 사용하여 한국어 단어 벡터를 생성한다. 본 논문에서는 실질형태소와 형식형태소를 모두 사용하되, 형식형태소를 적절하게 분류하여 단어 벡터의 성능을 높이는 방법을 제안한다. 자체 구축한 단어 관계 테스트 집합으로 추출 성능을 평가해 본 결과, 제안한 방법으로 형식형태소를 사용할 경우, 성능이 향상되었다.

  • PDF