• 제목/요약/키워드: 한국어수준

검색결과 299건 처리시간 0.023초

Sent2Vec 문장 임베딩을 통한 한국어 유사 문장 판별 구현 (Implementation of Korean Sentence Similarity using Sent2Vec Sentence Embedding)

  • 박상길;신명철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.541-545
    • /
    • 2018
  • 본 논문에서는 Sent2Vec을 이용한 문장 임베딩으로 구현한 유사 문장 판별 시스템을 제안한다. 또한 한국어 특성에 맞게 모델을 개선하여 성능을 향상시키는 방법을 소개한다. 고성능 라이브러리 구현과 제품화 가능한 수준의 완성도 높은 구현을 보였으며, 자체 구축한 평가셋으로 한국어 특성을 반영한 모델에 대한 P@1 평가 결과 Word2Vec CBOW에 비해 9.25%, Sent2Vec에 비해 1.93% 더 높은 성능을 보였다.

  • PDF

플러그인 컴포넌트 기반의 한국어 형태소 분석기 (A Plug-In Component-based Korean Morphological Analyzer)

  • 박상원;최동현;김은경;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.197-201
    • /
    • 2010
  • 지식/정보 서비스의 수준이 급격히 발전함에 따라 기반 기술인 자연언어처리의 중요성이 증가했고, 또 여러 분야에서 다양한 목적에 부합하는 자연언어처리 도구를 필요로 하고 있다. 한국어 자연언어처리 기반 기술 중에서 형태소 분석은 기초적이면서도 중요한 분석 단계이다. 하지만 현재까지 개발된 한국어 형태소 분석기들은 대부분 특정 시스템에 맞게 최적화되어 실행 효율성과 정확성을 높이는데 중점을 두고 있다. 이러한 도구들은 접근성과 확장성이 떨어지고 다양한 요구에 유언하게 대처할 수 없는 단점이 있다. 따라서 본 논문에서는 플러그인 형태의 한국어 형태소 분석 컴포넌트들을 이용하여 유연하게 워크플로를 구성하고 다양한 목적에 맞게 활용할 수 있도록 지원하는 한국어 형태소 분석 시스템을 제안한다. 이번 연구를 통해서 보다 많은 사람들이 형태소 분석 기술에 쉽게 접근하고 활용하여, 한국어 분석 기반 기술 및 용용 기술이 더욱 발전 할 수 있을 것으로 기대한다.

  • PDF

KcBERT: 한국어 댓글로 학습한 BERT (KcBERT: Korean comments BERT)

  • 이준범
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.437-440
    • /
    • 2020
  • 최근 자연어 처리에서는 사전 학습과 전이 학습을 통하여 다양한 과제에 높은 성능 향상을 성취하고 있다. 사전 학습의 대표적 모델로 구글의 BERT가 있으며, 구글에서 제공한 다국어 모델을 포함해 한국의 여러 연구기관과 기업에서 한국어 데이터셋으로 학습한 BERT 모델을 제공하고 있다. 하지만 이런 BERT 모델들은 사전 학습에 사용한 말뭉치의 특성에 따라 이후 전이 학습에서의 성능 차이가 발생한다. 본 연구에서는 소셜미디어에서 나타나는 구어체와 신조어, 특수문자, 이모지 등 일반 사용자들의 문장에 보다 유연하게 대응할 수 있는 한국어 뉴스 댓글 데이터를 통해 학습한 KcBERT를 소개한다. 본 모델은 최소한의 데이터 정제 이후 BERT WordPiece 토크나이저를 학습하고, BERT Base 모델과 BERT Large 모델을 모두 학습하였다. 또한, 학습된 모델을 HuggingFace Model Hub에 공개하였다. KcBERT를 기반으로 전이 학습을 통해 한국어 데이터셋에 적용한 성능을 비교한 결과, 한국어 영화 리뷰 코퍼스(NSMC)에서 최고 성능의 스코어를 얻을 수 있었으며, 여타 데이터셋에서는 기존 한국어 BERT 모델과 비슷한 수준의 성능을 보였다.

  • PDF

어휘 자질 기반 기계 학습을 사용한 한국어 암묵 인용문 인식 (Recognition of Korean Implicit Citation Sentences Using Machine Learning with Lexical Features)

  • 강인수
    • 한국산학기술학회논문지
    • /
    • 제16권8호
    • /
    • pp.5565-5570
    • /
    • 2015
  • 암묵인용문 인식은 학술문헌의 본문 텍스트 내에서 명시적 인용표지가 누락된 인용문장을 자동 인식하는 것으로 인용 기반 논문 검색 및 요약의 핵심 기술이다. 기존 암묵인용문 인식의 최신 연구들은 단어 ngram, 단서어구, 명시인용문과의 거리, 기존 연구자의 성, 기존 방법의 명칭 등 다양한 자질을 활용하여 50% 이상 인식 수준을 보고하고 있다. 그러나 대부분의 기존 연구들은 영어에 대해 수행되었으며 한국어의 경우 최근 긍정/부정 단서어구 패턴을 활용한 규칙 기반 시도에서 42% 성능 수준이 보고되어 있어 추가 성능 향상이 요구되는 상황이다. 이 연구에서는 한국어 어휘 자질을 사용하여 한국어 암묵인용문의 기계학습 기반 인식을 시도하였다. 이를 위해 어절, 형태소, 음절 단위에 기반한 다양한 크기의 어휘 ngram 자질들의 인식 성능을 비교 평가하고 한국어 암묵인용문 인식에 적합한 어휘 자질로 형태소 1gram 및 음절 2gram 단위를 결정하였다. 또한 이들 어휘 자질들을 전후 명시인용문들과의 인접성을 표현한 위치 자질들과 결합하여 한국어 암묵인용문 인식 성능을 50% 이상 수준으로 대폭 향상시켰다.

이집트 한국어 학습자들의 한국어 음소 학습용이성 (Egyptian learners' learnability of Korean phonemes)

  • ;이호영;황효성
    • 말소리와 음성과학
    • /
    • 제11권4호
    • /
    • pp.19-33
    • /
    • 2019
  • 이 연구는 한국어 자음과 모음 대해 단기간의 지각 훈련을 받은 이집트인 학습자들이 학습 수준별로 어떠한 지각 개선 양상을 보이는지 조사하고, 각 음소 쌍의 학습용이성 정도를 파악해 이집트인 학습자들을 대상으로 하는 한국어 발음교육에 실질적인 기여를 하는 것을 목적으로 한다. 이를 위해 50명의 한국어 학습자를 대상으로 이집트 현지에서 고변이 음성 훈련을 실시하였다. 한국어 수준에 따라 학습자를 초급 집단과 중고급 집단으로 나누었고, 2주간에 걸쳐 각 집단에 대해 30~40분의 지각 훈련을 10회 진행하였다. 고변이 음성 훈련용 자료는 다수의 한국어 원어민 화자가 발화한 자연음이었으며, 최소대립 쌍을 이루는 단어와 문장으로 최대한 다양하게 구성하였다. 사전과 사후 테스트 비교 결과, 이집트인 초급과 중고급 집단의 한국어 모음과 초성에 대한 지각 능력이 뚜렷하게 향상된 것을 확인할 수 있었다. 종성에 대한 지각 능력 역시 향상되었지만 훈련 전부터 정확도가 높아 향상폭은 다소 낮게 나타났다. 각 음소에 대한 지각 정확도와 향상도를 바탕으로 음소 쌍별 학습용이성을 측정하고, 이집트인 학습자를 위한 학습용이성 위계를 학습 단계별로 설정하였다.

수준별 어휘 조정에 따른 한국어 읽기 텍스트 이해도 비교 연구 (A Comparative Study on Korean Reading Comprehension by Adjusting Vocabulary Levels)

  • 주재환
    • 한국어교육
    • /
    • 제29권4호
    • /
    • pp.201-223
    • /
    • 2018
  • The purpose of this study is to observe the effects of text modification by comparing differences in Korean reading comprehension levels that arise from differences in vocabulary levels in texts. This study intends to use simplified texts with the vocabulary difficulty adjusted differently from the original text to measure reading comprehension levels of Korean learners and analyze the result. To measure reading comprehension, the researcher divided 55 Korean learners of intermediate to advanced level of fluency into two groups; the control group read the original text and the treatment group read a simplified text in which complex vocabulary were substituted with easier words of medium difficulty. Then the two groups were tested with the same questionnaire to measure comprehension levels of each group. The result showed that the groups that read simplified texts scored higher than the control group; this suggests that the reading comprehension level was increased in the treatment group. The experiment confirmed that unknown vocabulary density has direct impact on Korean reading comprehension. The result shows that the proportion of unknown vocabulary should be reduced for meaning-focused reading. It also demonstrates that comprehension of the learner was enhanced with lexical simplification rather than structural simplification i.e. simplification of grammar or sentences. Thus, diverse reading materials adjusted to the learners' level of fluency should be developed to enable reading for learning Korean. By reducing the burden of understanding the meaning of each vocabulary, learners will be able to achieve the initial goal of reading.

방사기저함수 인공 신경망을 이용한 다문화가정 초등학생의 우울증상 경험 예측 모델링 (Radial Basis Function Neural Network Modeling of Depression Experience in Elementary School Students of Multi-cultural Families)

  • 변해원
    • 한국융합학회논문지
    • /
    • 제8권11호
    • /
    • pp.293-298
    • /
    • 2017
  • 이 연구는 방사기저함수(RBF) 인공신경망을 이용하여 우리나라 다문화가정 초등학생의 우울증상 경험 예측 모델링을 구축하였다. 전국조사에 참여한 만 9세 이상 12세 이하 다문화 자녀 초등학생 23,291명(남 12,016명, 여 11,275명)을 분석 대상으로 하였다. 결과변수는 이분형의 우울증상 경험으로 정의하였고, 설명변수는 성, 거주지역, 사회적 차별 경험, 지난 1년간 학교폭력 경험, 한국어 교육 경험, 다문화 가족지원센터이용경험, 한국어 읽기, 한국어 말하기, 한국어 쓰기, 한국어 듣기, 한국 사회 적응 교육 경험을 포함하였다. RBF 인공신경망 모델링 결과, 한국어 교육 경험, 학교 폭력 피해 경험, 한국 사회 차별 경험, 한국어 읽기 수준은 다문화 초등학생의 우울증상을 분류하는 주요 예측 요인이었다. 다문화 아동의 우울증을 예방하기 위해서 한국어 읽기 수준이 저하된 집단에 대한 우선적인 관심과 상담이 필요하다.

경찰관의 우울증 수준 조사 (Survey of depression level of police officers)

  • 신성원;김성환
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2019년도 춘계종합학술대회
    • /
    • pp.133-134
    • /
    • 2019
  • 이 연구에서는 우울증이 만연하고 있는 국내 실정에서 경찰관의 우울증 수준을 파악하여 그 심각성의 정도를 실증적으로 확인하고자 한다. 그리고 인구사회학적 특성에 따른 경찰관의 우울증 수준을 분석하여 보기로 한다. 우울증 수준 측정은 한국어판 우울증 선별도구(PHQ-9: Patient Health Questionnaire 9)를 활용하였다.

  • PDF

한국어 Text-to-Speech 변환을 위한 음운 변동 시스템에 관한 연구 (Implementation to phonological alteration module for a korean text-to-speech)

  • 박수현;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.35-38
    • /
    • 1995
  • Text-to-speech 시스템은 텍스트를 입력으로 받아 텍스트와 일치하는 음성을 출력하는 시스템으로, 인간이 자신의 모국어로 텍스트를 읽는 것과 비슷한 수준의 음성을 출력하는 데 목적이 있다. 한국어의 각 단어들은 한 단어 내에 있는 형태소들 사이에 음운 변동 현상을 일으켜 쓰여진 형태와 다르게 발음된다. 그러므로 한국어 텍스트를 자연스럽게 발음하기 위해서는 음운 변동 현상을 효율적으로 처리할 수 있어야 한다. 한국어에서 음운 변동을 일으키는 규칙은 여러 가지이고, 정확한 발음을 위해서는 이러한 규칙들이 차례대로 적용되어져야 한다. 따라서 본 논문에서는 이러한 한국어의 발음상의 특성을 고려하여 two-level 모델에 기반한 음운 변동 시스템을 구현한다.

  • PDF

문형 정보를 이용한 한국어 구문 분석 (Korean Syntax Analysis Using Sentence Pattern Information)

  • 한용기;황이규;이용석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.23-29
    • /
    • 1995
  • 대부분의 한국어 구문 분석은 용언과 명사구 사이의 하위범주화 정보를 이용하여 용언에 대한 명사구의 문법적 역할을 밝히는 방향으로 구문 분석을 시도하였다. 여기에 이용된 용언의 하위 범주화 정보가 단지 자릿수 서술어나 형용사, 자동사, 타동사 등으로 분류하는 수준이었기 때문에 구문 모호성이 많이 발생하고 틀린 문장이 구문적으로 옳기 때문에 옳은 문장으로 인식되는 경우가 발생하였다. 이러한 문제점을 해결하기 위하여 본 논문에서는 한국어의 용언에 따른 문장 형태(문형)를 세분류하고 문장에 필수적으로 나타나는 명사구(NP[case])와 수의적으로 나타나는 명사구(NP[case])를 분류하여 분석을 시도하였다. 확장된 PATR II로 문법을 기술하여 동적인 파싱을 쉽게 제어할 수 있도록 하였다. 문형 정보는 한국어의 기본 구조를 자연스럽게 표현할 수 있기 때문에 그 자체를 기계번역을 위한 한국어 문법으로 설정하는 것이 타당하다고 생각된다.

  • PDF