• Title/Summary/Keyword: 한국어의 특성

Search Result 757, Processing Time 0.033 seconds

Phoneme-level Embedding based Korean Language Model (음소 단위 임베딩 기반 한국어 모델)

  • Choi, Woosung;Hyun, Kyungseok;Chung, Jaehwa;Jung, Soon Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.1026-1029
    • /
    • 2019
  • 최근 제안되고 있는 Bert 등의 딥러닝 언어 모델 기반 pre-training 기법은 다양한 NLP 분야에서 활용되고 있다. 텍스트로 작성된 데이터 셋을 딥러닝 언어 모델이 학습하기 위해서는 토크나이징(tokenizing) 기술이 필요하다. 그러나 기존 토크나이징 방식은 한국어 및 한글이 가지는 고유한 특성(교착어적 특성과 모아쓰기 반영)을 반영하기 어렵다는 한계를 가지고 있다. 본 논문에서는 한국어와 한글이 가지는 고유한 특성을 고려하기 위하여 음소 단위의 임베딩 기법을 제안하며, 이를 기반으로 언어 모델을 설계 및 구현한다. 또한 음소 단위 임베딩 기반 한국어 모델이 실제 데이터 집합(구약성서)에서 나타나는 언어적 패턴을 학습할 수 있다는 것을 실험을 통하여 밝힌다.

Implementation to phonological alteration module for a korean text-to-speech (한국어 Text-to-Speech 변환을 위한 음운 변동 시스템에 관한 연구)

  • Park, Su-Hyun;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.35-38
    • /
    • 1995
  • Text-to-speech 시스템은 텍스트를 입력으로 받아 텍스트와 일치하는 음성을 출력하는 시스템으로, 인간이 자신의 모국어로 텍스트를 읽는 것과 비슷한 수준의 음성을 출력하는 데 목적이 있다. 한국어의 각 단어들은 한 단어 내에 있는 형태소들 사이에 음운 변동 현상을 일으켜 쓰여진 형태와 다르게 발음된다. 그러므로 한국어 텍스트를 자연스럽게 발음하기 위해서는 음운 변동 현상을 효율적으로 처리할 수 있어야 한다. 한국어에서 음운 변동을 일으키는 규칙은 여러 가지이고, 정확한 발음을 위해서는 이러한 규칙들이 차례대로 적용되어져야 한다. 따라서 본 논문에서는 이러한 한국어의 발음상의 특성을 고려하여 two-level 모델에 기반한 음운 변동 시스템을 구현한다.

  • PDF

Expansion and Improvement of Korean FrameNet utilizing linguistic features (언어적 특징을 반영한 한국어 프레임넷 확장 및 개선)

  • Kim, Jeong-uk;Choi, Key-Sun
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.85-89
    • /
    • 2016
  • 프레임넷 (FrameNet) 프로젝트는 버클리에서 1997년에 처음 제안했으며, 최근에는 다양한 언어적 특징을 반영하여 여러 국가에서 사용되고 있다. 하지만 문장의 프레임을 분석하는 것은 자연언어처리 전문가들이 많은 시간을 들여야 한다. 이 때문에, 한국어 프레임넷을 처음 만들 때는 충분한 훈련을 받은 번역가들이 영어 프레임넷의 문장들과 그 주석 정보들을 직접 번역하는 방법을 사용했다. 결과적으로 상대적으로 적은 비용이 들지만, 여전히 한 문장에 여러 번 등장하는 프레임 정보를 모두 번역하고 에러를 분석해야 했기에 많은 노력이 들어갔다. 본 연구에서는 일본어와 한국어의 언어적 유사성을 사용하여 비교적 적은 비용으로 한국어 프레임넷을 확장하는 방법을 제시한다. 또한 프레임넷에 친숙하지 않은 사용자가 더욱 쉽게 프레임 정보를 활용할 수 있도록 PubAnnotation 기술을 도입하고 "조사"라는 특성을 고려한 Valence pattern 분류를 통해 한국어 공개 프레임넷 사이트를 개선하였다.

  • PDF

Korean Proposition Bank Guidelines for ExoBrain (ExoBrain을 위한 한국어 의미역 가이드라인 및 말뭉치 구축)

  • Lim, Soojong;Kwon, Minjung;Kim, Junsu;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.250-254
    • /
    • 2015
  • 본 논문은 한국어 의미역을 정의하고, 기계학습에 기반하여 한국어 의미역 인식 기술을 개발할 때 필요한 학습 말뭉치를 구축할 때 지켜야할 가이드라인을 제시하고자 한다. 한국어 의미역 정의는 전세계적으로 널리 쓰이고 있는 Proposition Bank를 따르면서, 한국어의 특성을 반영하였다. 또한 정의된 의미역 및 태깅 가이드라인에 따라 반자동 태깅 툴을 이용하여 말뭉치를 구축하였다.

  • PDF

KcBERT: Korean comments BERT (KcBERT: 한국어 댓글로 학습한 BERT)

  • Lee, Junbum
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.437-440
    • /
    • 2020
  • 최근 자연어 처리에서는 사전 학습과 전이 학습을 통하여 다양한 과제에 높은 성능 향상을 성취하고 있다. 사전 학습의 대표적 모델로 구글의 BERT가 있으며, 구글에서 제공한 다국어 모델을 포함해 한국의 여러 연구기관과 기업에서 한국어 데이터셋으로 학습한 BERT 모델을 제공하고 있다. 하지만 이런 BERT 모델들은 사전 학습에 사용한 말뭉치의 특성에 따라 이후 전이 학습에서의 성능 차이가 발생한다. 본 연구에서는 소셜미디어에서 나타나는 구어체와 신조어, 특수문자, 이모지 등 일반 사용자들의 문장에 보다 유연하게 대응할 수 있는 한국어 뉴스 댓글 데이터를 통해 학습한 KcBERT를 소개한다. 본 모델은 최소한의 데이터 정제 이후 BERT WordPiece 토크나이저를 학습하고, BERT Base 모델과 BERT Large 모델을 모두 학습하였다. 또한, 학습된 모델을 HuggingFace Model Hub에 공개하였다. KcBERT를 기반으로 전이 학습을 통해 한국어 데이터셋에 적용한 성능을 비교한 결과, 한국어 영화 리뷰 코퍼스(NSMC)에서 최고 성능의 스코어를 얻을 수 있었으며, 여타 데이터셋에서는 기존 한국어 BERT 모델과 비슷한 수준의 성능을 보였다.

  • PDF

A Study on UCCA for Korean Semantic Analysis (Universal conceptual cognitive annotation(UCCA) 주석 체계의 한국어 적용 연구)

  • Oh, Tae-Hwan;Han, Ji-Yoon;Choe, Hyon-Su;Park, Seok-Won;Kim, Han-Saem
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.353-356
    • /
    • 2019
  • 본 논문은 Universal conceptual cognitive annotation(보편 개념 인지 주석, 이하 UCCA)를 한국어에 적용하는 방안에 대해 제시하였다. 우선 기존의 한국어 의미 분석 체계들의 장단점을 살펴본 뒤, UCCA가 가지고 있는 상대적인 장점들을 소개하였다. UCCA는 모든 언어에 대하여 일관적인 기술을 하려는 Meaning representation framework의 하나로, 보편언어적인 의미 분석 체계를 가지고 있다. 본고는 주석 단위와 문법적 요소의 관점에서 한국어의 특성을 반영하여 UCCA를 한국어에 적용하는 방안을 검토하였다.

  • PDF

Aspects of Korean rhythm realization by second language learners: Focusing on Chinese learners of Korean (제 2언어 학습자의 한국어 리듬 실현양상 -중국인 한국어 학습자를 중심으로-)

  • Youngsook Yune
    • Phonetics and Speech Sciences
    • /
    • v.15 no.3
    • /
    • pp.27-35
    • /
    • 2023
  • This study aimed to investigate the effect of Chinese on the production of Korean rhythm. Korean and Chinese are typologically classified into different rhythmic categories; because of this, the phonological properties of Korean and Chinese are similar and different at the same time. As a result, Chinese can exert both positive and negative influences on the realization of Korean rhythm. To investigate the influence of the rhythm of the native language of L2 learners on their target language, we conducted an acoustic analysis using acoustic metrics like of the speech of 5 Korean native speakers and 10 advanced Chinese Korean learners. The analyzed material is a short paragraph of five sentences containing a variety of syllable structures. The results showed that KS and CS rhythms are similar in %V, VarcoV, and nPVI_S. However, CS, unlike KS, showed characteristics closer to those of a stress-timed language in the values of %V and VarcoV. There was also a significant difference in nPVI_V values. These results demonstrate a negative influence of the native language in the realization of Korean rhythm. This can be attributed to the fact that all vowels in Chinese sentence are not pronounced with the same emphasis due to neutral tone. In this sense, this study allowed us to observe influences of L1 on L2 production of rhythm.

A Study on the Dataset of the Korean Multi-class Emotion Analysis in Radio Listeners' Messages (라디오 청취자 문자 사연을 활용한 한국어 다중 감정 분석용 데이터셋연구)

  • Jaeah, Lee;Gooman, Park
    • Journal of Broadcast Engineering
    • /
    • v.27 no.6
    • /
    • pp.940-943
    • /
    • 2022
  • This study aims to analyze the Korean dataset by performing Korean sentence Emotion Analysis in the radio listeners' text messages collected personally. Currently, in Korea, research on the Emotion Analysis of Korean sentences is variously continuing. However, it is difficult to expect high accuracy of Emotion Analysis due to the linguistic characteristics of Korean. In addition, a lot of research has been done on Binary Sentiment Analysis that allows positive/negative classification only, but Multi-class Emotion Analysis that is classified into three or more emotions requires more research. In this regard, it is necessary to consider and analyze the Korean dataset to increase the accuracy of Multi-class Emotion Analysis for Korean. In this paper, we analyzed why Korean Emotion Analysis is difficult in the process of conducting Emotion Analysis through surveys and experiments, proposed a method for creating a dataset that can improve accuracy and can be used as a basis for Emotion Analysis of Korean sentences.

$Infinitivit\"{a}t$ des deutschen und koreanischen Verbs - Im sprachtypologischen Vergleich beider Sprachen (언어 유형학적인 비교를 통한 독일어와 한국어 동사의 부정성)

  • Park Jin-Gil
    • Koreanishche Zeitschrift fur Deutsche Sprachwissenschaft
    • /
    • v.6
    • /
    • pp.79-98
    • /
    • 2002
  • 지금까지 우리는 한국어와 독일어를 비교하면서 동사의 정형과 부정형을 관찰해 왔다. 이 부정성(역으로 말하면 비구속성)은 한국어 동사에는 전반적으로 통용되는 데 반해 독일어에는 부정형/동사원형과 분사가 그러할 뿐이다. 동사의 특성 연구는 어느 자연어/개별언어의 상이한 기능을 위해서 뿐만이 아니라 외국어 학습/습득을 위해서도 큰 의미를 갖는다. 이러한 중요성에도 불구하고 독특한 한국어 동사의 부정성, 그 연구는 거의 찾아볼 수가 없다. 한국어와 독일어 동사의 부정성 비교에서 드러난 문제점은 대체로 다음과 같이 요약될 수 있을 것이다. $\ast$ 한국어 동사의 특징인 부정성은 우리의 운명으로 간주해야 할 것이다. 왜냐하면 우리가 어떤 면에서는 유익함을, 그리고 어떤 다른 면에서는 문제점을 감수해야 하기 때문이다. 특히 전형적인 전치성 언어인 유럽언어를 습득할 때 언어간섭현상을 통해 그러하다. $\ast$ 독일어의 부정사/분사 및 한국어 동사가 인칭변화를 하지 않는다는 것은 그들이 주어를 갖지 않고 있거나 (독일어의 경우), 아니면 그것이 어떤 문법/통사적 역할을 하는가 (한국어의 경우)에 주된 원인이 있다. $\ast$ 비교 대상의 양쪽은 생략가능성, 즉 원자가 요구에 대한 자유/비구속성을 누린다. 핵(성분), 즉 독일어의 부정형 및 분사 그리고 한국어 동사는 혼자 남을 때까지 생략이 계속될 수 있다. 이러한 의미에서 부정성은 <비한정성/비구속성>과 관련된 것 같으며, 반면에 정동사의 특성은 <한정성/구속성>과 관계되어 있다. $\ast$ 원자가 요구/충족에 대한 자유/비구속성은 한국어 동사/술어가 문장 끝에 고정되어 있다는 사실은, 직접 또는 간접으로 본동사 앞에 놓여 있어야 되는 모든 문장성분과 부문장 때문에, 즉 한국어의 전면적인 전위수식 현상으로 흔히 큰 부담/복잡함을 야기한다는 데에 그 원인이 있다. 이러한 상황에서 동사는 가능한 한 그의 문장성분을 줄이려 한다. 통사적으로 보장되어 이미 있으니 말이다. 그래서 한국어 동사의 부정성은 일종의 부담해소 대책으로 간주될 수 있을 것이다. $\ast$ 두 비교 대상에서의 핵 및 최소문장 가능성은 역시 원자가에 대한 비구속성에서 비롯된다. $\ast$ 우리 한국인이 빨리 말할 때 흔히 범하는 부정성으로 인한 인칭변화에서의 오류는 무엇보다도 정형성/제한성을 지닌 독일어 정동사가 인칭 변화하는 데 반해 한국어에서는 부정성/비구속성을 지닌 동사가 그것과는 무관한 페 기인한다. 동사의 속성을 철저히 분석함으로써 이런 과오를 극복해야 할 것이다. 한국어 동사의 부정성은 지금까지 거의 연구되지 않았다. 이 문제는 또한 지속적으로 수많은 다른 자연어들과의 비교분석을 통해 관찰돼야 할 것이다. 이 논문이 이런 연구와 언어습득을 위한 작업에 도움이 되기를 바란다.

  • PDF

Syntax analysis of Korean based on CFG using Sentence Pattern Information as a constraint (문형을 제약 조건으로 하는 CFG 기반의 한국어 구문분석)

  • 이현영;황이규;배우정;이용석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.190-192
    • /
    • 1999
  • 한국어는 용언이 의미적 제약을 통해 문장을 지배하는 SOV 구조의 언어이다. 또한, 조사나 어미와 같은 기능어의 발달은 물론 관형절은 내포하는 문장이 주류를 이룬다. 따라서 한국어의 구문분석은 부착에 따른 많은 구문 모호성이 발생하게 된다. 본 논문에서는 조건단일화 기반의 CFG문법을 기술하고 문형을 구문 제약으로 하여 구문모호성을 해결하는 방안을 제시한다. 문형은 한국어의 특성을 용언의 하위범주화에 맞게 재분류한 문장의 구조적 유형을 말한다. 본 논문에서 제안하는 문형은 동사와 형용사를 구분하여 39가지로 설정하였다. 이런 문형 정보를 이용하여 관형형 어미를 갖는 용언이 최대의 정보를 가지도록 함으로써 관형절에서 발생하는 부사 및 체언구 부착의 문제가 해결된다. 또한 문형은 이중주어나 이중 목적어 문장을 처리할 수가 있어 한국어에서 발생하는 많은 구문모호성을 해결할 수 있다.

  • PDF