• Title/Summary/Keyword: 한국어수준

Search Result 299, Processing Time 0.031 seconds

Implementation of Korean Sentence Similarity using Sent2Vec Sentence Embedding (Sent2Vec 문장 임베딩을 통한 한국어 유사 문장 판별 구현)

  • Park, Sang-Kil;Shin, MyeongCheol
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.541-545
    • /
    • 2018
  • 본 논문에서는 Sent2Vec을 이용한 문장 임베딩으로 구현한 유사 문장 판별 시스템을 제안한다. 또한 한국어 특성에 맞게 모델을 개선하여 성능을 향상시키는 방법을 소개한다. 고성능 라이브러리 구현과 제품화 가능한 수준의 완성도 높은 구현을 보였으며, 자체 구축한 평가셋으로 한국어 특성을 반영한 모델에 대한 P@1 평가 결과 Word2Vec CBOW에 비해 9.25%, Sent2Vec에 비해 1.93% 더 높은 성능을 보였다.

  • PDF

A Plug-In Component-based Korean Morphological Analyzer (플러그인 컴포넌트 기반의 한국어 형태소 분석기)

  • Park, Sangwon;Choi, Donghyun;Kim, Eunkyung;Choi, Keysun
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.197-201
    • /
    • 2010
  • 지식/정보 서비스의 수준이 급격히 발전함에 따라 기반 기술인 자연언어처리의 중요성이 증가했고, 또 여러 분야에서 다양한 목적에 부합하는 자연언어처리 도구를 필요로 하고 있다. 한국어 자연언어처리 기반 기술 중에서 형태소 분석은 기초적이면서도 중요한 분석 단계이다. 하지만 현재까지 개발된 한국어 형태소 분석기들은 대부분 특정 시스템에 맞게 최적화되어 실행 효율성과 정확성을 높이는데 중점을 두고 있다. 이러한 도구들은 접근성과 확장성이 떨어지고 다양한 요구에 유언하게 대처할 수 없는 단점이 있다. 따라서 본 논문에서는 플러그인 형태의 한국어 형태소 분석 컴포넌트들을 이용하여 유연하게 워크플로를 구성하고 다양한 목적에 맞게 활용할 수 있도록 지원하는 한국어 형태소 분석 시스템을 제안한다. 이번 연구를 통해서 보다 많은 사람들이 형태소 분석 기술에 쉽게 접근하고 활용하여, 한국어 분석 기반 기술 및 용용 기술이 더욱 발전 할 수 있을 것으로 기대한다.

  • PDF

KcBERT: Korean comments BERT (KcBERT: 한국어 댓글로 학습한 BERT)

  • Lee, Junbum
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.437-440
    • /
    • 2020
  • 최근 자연어 처리에서는 사전 학습과 전이 학습을 통하여 다양한 과제에 높은 성능 향상을 성취하고 있다. 사전 학습의 대표적 모델로 구글의 BERT가 있으며, 구글에서 제공한 다국어 모델을 포함해 한국의 여러 연구기관과 기업에서 한국어 데이터셋으로 학습한 BERT 모델을 제공하고 있다. 하지만 이런 BERT 모델들은 사전 학습에 사용한 말뭉치의 특성에 따라 이후 전이 학습에서의 성능 차이가 발생한다. 본 연구에서는 소셜미디어에서 나타나는 구어체와 신조어, 특수문자, 이모지 등 일반 사용자들의 문장에 보다 유연하게 대응할 수 있는 한국어 뉴스 댓글 데이터를 통해 학습한 KcBERT를 소개한다. 본 모델은 최소한의 데이터 정제 이후 BERT WordPiece 토크나이저를 학습하고, BERT Base 모델과 BERT Large 모델을 모두 학습하였다. 또한, 학습된 모델을 HuggingFace Model Hub에 공개하였다. KcBERT를 기반으로 전이 학습을 통해 한국어 데이터셋에 적용한 성능을 비교한 결과, 한국어 영화 리뷰 코퍼스(NSMC)에서 최고 성능의 스코어를 얻을 수 있었으며, 여타 데이터셋에서는 기존 한국어 BERT 모델과 비슷한 수준의 성능을 보였다.

  • PDF

Recognition of Korean Implicit Citation Sentences Using Machine Learning with Lexical Features (어휘 자질 기반 기계 학습을 사용한 한국어 암묵 인용문 인식)

  • Kang, In-Su
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.16 no.8
    • /
    • pp.5565-5570
    • /
    • 2015
  • Implicit citation sentence recognition is to locate citation sentences which lacks explicit citation markers, from articles' full-text. State-of-the-art approaches exploit word ngrams, clue words, researcher's surnames, mentions of previous methods, and distance relative to nearest explicit citation sentences, etc., reaching over 50% performance. However, most previous works have been conducted on English. As for Korean, a rule-based method using positive/negative clue patterns was reported to attain the performance of 42%, requiring further improvement. This study attempted to learn to recognize implicit citation sentences from Korean literatures' full-text using Korean lexical features. Different lexical feature units such as Eojeol, morpheme, and Eumjeol were evaluated to determine proper lexical features for Korean implicit citation sentence recognition. In addition, lexical features were combined with the position features representing backward/forward proximities to explicit citation sentences, improving the performance up to over 50%.

Egyptian learners' learnability of Korean phonemes (이집트 한국어 학습자들의 한국어 음소 학습용이성)

  • Benjamin, Sarah;Lee, Ho-Young;Hwang, Hyosung
    • Phonetics and Speech Sciences
    • /
    • v.11 no.4
    • /
    • pp.19-33
    • /
    • 2019
  • This paper examines the perception of Korean phonemes by Egyptian learners of Korean and presents the learnability gradient of Korean consonants and vowels through High Variability Phonetic Training (HVPT). 50 Egyptian learners of Korean (27 low proficiency learners and 23 high proficiency learners) participated in 10 sessions of HVPT for Korean vowels, word initial and final consonants. Participants were tested on their identification ability of Korean vowels, word initial consonants, and syllable codas before and after the training. The results showed that both low and high proficiency groups did benefit from the training. Low proficiency learners showed a higher improvement rate than high proficiency learners. Based on the HVPT results, a learnability gradient was established to give insights into priorities in teaching Korean sounds to Egyptian learners.

A Comparative Study on Korean Reading Comprehension by Adjusting Vocabulary Levels (수준별 어휘 조정에 따른 한국어 읽기 텍스트 이해도 비교 연구)

  • Ju, Jae-hwan
    • Journal of Korean language education
    • /
    • v.29 no.4
    • /
    • pp.201-223
    • /
    • 2018
  • The purpose of this study is to observe the effects of text modification by comparing differences in Korean reading comprehension levels that arise from differences in vocabulary levels in texts. This study intends to use simplified texts with the vocabulary difficulty adjusted differently from the original text to measure reading comprehension levels of Korean learners and analyze the result. To measure reading comprehension, the researcher divided 55 Korean learners of intermediate to advanced level of fluency into two groups; the control group read the original text and the treatment group read a simplified text in which complex vocabulary were substituted with easier words of medium difficulty. Then the two groups were tested with the same questionnaire to measure comprehension levels of each group. The result showed that the groups that read simplified texts scored higher than the control group; this suggests that the reading comprehension level was increased in the treatment group. The experiment confirmed that unknown vocabulary density has direct impact on Korean reading comprehension. The result shows that the proportion of unknown vocabulary should be reduced for meaning-focused reading. It also demonstrates that comprehension of the learner was enhanced with lexical simplification rather than structural simplification i.e. simplification of grammar or sentences. Thus, diverse reading materials adjusted to the learners' level of fluency should be developed to enable reading for learning Korean. By reducing the burden of understanding the meaning of each vocabulary, learners will be able to achieve the initial goal of reading.

Radial Basis Function Neural Network Modeling of Depression Experience in Elementary School Students of Multi-cultural Families (방사기저함수 인공 신경망을 이용한 다문화가정 초등학생의 우울증상 경험 예측 모델링)

  • Byeon, Haewon
    • Journal of the Korea Convergence Society
    • /
    • v.8 no.11
    • /
    • pp.293-298
    • /
    • 2017
  • The purpose of this study was to analyze the risk factors of depression in elementary school students in Korea. The subjects of the study were 23,291 elementary school students (12,016 male, 11,275 female) aged 9 to 12 years. Dependent variable was defined as experience of depression. Explanatory variables were included as sex, residential areas, social discrimination experience, experience of school violence for the past year, experience of Korean language education, experience of using multicultural family support center, reading to Korean, speaking to Korean, and writing to Korean, listening to Korean. In the RBF neural network analysis, experience of Korean education, experience of school violence, experience of Korean social discrimination, level of Korean reading were significantly associated with depression in elementary school students. In order to prevent depression in multicultural children, priority attention and counseling are needed for the group whose level of Korean reading is low.

Survey of depression level of police officers (경찰관의 우울증 수준 조사)

  • Sin, Sung-Won;Kim, Seong-Hwan
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2019.05a
    • /
    • pp.133-134
    • /
    • 2019
  • 이 연구에서는 우울증이 만연하고 있는 국내 실정에서 경찰관의 우울증 수준을 파악하여 그 심각성의 정도를 실증적으로 확인하고자 한다. 그리고 인구사회학적 특성에 따른 경찰관의 우울증 수준을 분석하여 보기로 한다. 우울증 수준 측정은 한국어판 우울증 선별도구(PHQ-9: Patient Health Questionnaire 9)를 활용하였다.

  • PDF

Implementation to phonological alteration module for a korean text-to-speech (한국어 Text-to-Speech 변환을 위한 음운 변동 시스템에 관한 연구)

  • Park, Su-Hyun;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.35-38
    • /
    • 1995
  • Text-to-speech 시스템은 텍스트를 입력으로 받아 텍스트와 일치하는 음성을 출력하는 시스템으로, 인간이 자신의 모국어로 텍스트를 읽는 것과 비슷한 수준의 음성을 출력하는 데 목적이 있다. 한국어의 각 단어들은 한 단어 내에 있는 형태소들 사이에 음운 변동 현상을 일으켜 쓰여진 형태와 다르게 발음된다. 그러므로 한국어 텍스트를 자연스럽게 발음하기 위해서는 음운 변동 현상을 효율적으로 처리할 수 있어야 한다. 한국어에서 음운 변동을 일으키는 규칙은 여러 가지이고, 정확한 발음을 위해서는 이러한 규칙들이 차례대로 적용되어져야 한다. 따라서 본 논문에서는 이러한 한국어의 발음상의 특성을 고려하여 two-level 모델에 기반한 음운 변동 시스템을 구현한다.

  • PDF

Korean Syntax Analysis Using Sentence Pattern Information (문형 정보를 이용한 한국어 구문 분석)

  • Han, Yong-Gi;Hwang, Yi-Gyu;Lee, Yong-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.23-29
    • /
    • 1995
  • 대부분의 한국어 구문 분석은 용언과 명사구 사이의 하위범주화 정보를 이용하여 용언에 대한 명사구의 문법적 역할을 밝히는 방향으로 구문 분석을 시도하였다. 여기에 이용된 용언의 하위 범주화 정보가 단지 자릿수 서술어나 형용사, 자동사, 타동사 등으로 분류하는 수준이었기 때문에 구문 모호성이 많이 발생하고 틀린 문장이 구문적으로 옳기 때문에 옳은 문장으로 인식되는 경우가 발생하였다. 이러한 문제점을 해결하기 위하여 본 논문에서는 한국어의 용언에 따른 문장 형태(문형)를 세분류하고 문장에 필수적으로 나타나는 명사구(NP[case])와 수의적으로 나타나는 명사구(NP[case])를 분류하여 분석을 시도하였다. 확장된 PATR II로 문법을 기술하여 동적인 파싱을 쉽게 제어할 수 있도록 하였다. 문형 정보는 한국어의 기본 구조를 자연스럽게 표현할 수 있기 때문에 그 자체를 기계번역을 위한 한국어 문법으로 설정하는 것이 타당하다고 생각된다.

  • PDF