• Title/Summary/Keyword: 한국어 학습자 말뭉치

Search Result 28, Processing Time 0.025 seconds

Building a Corpus for Korean Tutoring Chatbot (한국어 튜터링 챗봇을 위한 말뭉치 구축)

  • Kim, Hansaem;Choi, Kyung-Ho;Han, Ji-Yoon;Jung, Hae-Young;Kwak, Yong-Jin
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.288-293
    • /
    • 2017
  • 교수-학습 발화는 발화 턴 간에 규칙화된 인과관계가 강하고 자연 발화에서의 출현율이 낮다. 일반적으로 어휘부, 표현 제시부, 대화부로 구성되며 커리큘럼과 화제에 따라 구축된 언어자원이 필요하다. 기존의 말뭉치는 이러한 교수-학습 발화의 특징을 반영하지 않았기 때문에 한국어 교육용 튜터링 챗봇을 개발하는 데에 활용도가 떨어진다. 이에 따라 이 논문에서는 자연스러운 언어 사용 수집, 도구 기반의 수집, 주제별 수집 및 분류, 점진적 구축 절차의 원칙에 따라 교수-학습의 실제 상황을 반영하는 준구어 말뭉치를 구축한다. 교실에서 발생하는 언어학습 상황을 시나리오로 구성하여 대화 흐름을 제어하고 채팅용 메신저와 유사한 형태의 도구를 통해 말뭉치를 구축한다. 이 연구는 한국어 튜터링 챗봇을 개발하기 위해 말뭉치 구축용 챗봇과 한국어 학습자, 한국어 교수자가 시나리오를 기반으로 발화문을 생성한 준구어 말뭉치를 최초로 구축한다는 데에 의의가 있다.

  • PDF

Building a Corpus for Korean Tutoring Chatbot (한국어 튜터링 챗봇을 위한 말뭉치 구축)

  • Kim, Hansaem;Choi, Kyung-Ho;Han, Ji-Yoon;Jung, Hae-Young;Kwak, Yong-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.288-293
    • /
    • 2017
  • 교수-학습 발화는 발화 턴 간에 규칙화된 인과관계가 강하고 자연 발화에서의 출현율이 낮다. 일반적으로 어휘부, 표현 제시부, 대화부로 구성되며 커리큘럼과 화제에 따라 구축된 언어자원이 필요하다. 기존의 말뭉치는 이러한 교수-학습 발화의 특징을 반영하지 않았기 때문에 한국어 교육용 튜터링 챗봇을 개발하는데에 활용도가 떨어진다. 이에 따라 이 논문에서는 자연스러운 언어 사용 수집, 도구 기반의 수집, 주제별 수집 및 분류, 점진적 구축 절차의 원칙에 따라 교수-학습의 실제 상황을 반영하는 준구어 말뭉치를 구축한다. 교실에서 발생하는 언어학습 상황을 시나리오로 구성하여 대화 흐름을 제어하고 채팅용 메신저와 유사한 형태의 도구를 통해 말뭉치를 구축한다. 이 연구는 한국어 튜터링 챗봇을 개발하기 위해 말뭉치 구축용 챗봇과 한국어 학습자, 한국어 교수자가 시나리오를 기반으로 발화문을 생성한 준구어 말뭉치를 최초로 구축한다는 데에 의의가 있다.

  • PDF

Study on the Use of Objectification Strategy in Academic Writing (학술적 글쓰기에서의 객관화 전략 사용 양상 연구 - 한국어 학습자와 한국어 모어 화자 간의 비교를 중심으로 -)

  • Kim, Han-saem;Bae, Mi-yeon
    • Cross-Cultural Studies
    • /
    • v.49
    • /
    • pp.95-126
    • /
    • 2017
  • The purpose of this paper is to compare learners' academic texts with academic texts of native speakers and to examine the usage patterns of learners' objectification strategies in detail. In order to achieve objectivity as a discourse mechanism applied to describe the results of academic inquiry in a scientific way with universality and validity, we analyzed concepts and signs such as related intentionality, accuracy, and mitigation of the linguistic markers of objectification strategies. As a result of the comparison, it was analyzed that there are intersectional overlaps with the signs that reveal objectivity, signs indicating related mechanisms, and there is a different set that is differentiated. Objective markers can be broadly classified as emphasizing stativity of research results, separating research subjects from research results, and generalizing research contents. Sustainable expressions and noun phrases emphasize statehood, and non-inhabited expressions, passive expressions, and self-quotations are maintained in the distance between the claimant and the writer, and the pluralization through first-person pronouns and suffixes contributes to generalization. In the case of the learner, the non-inhuman expression of the quotation type appears to be very less compared to the maw speaker, which could be due to the lack of recognition of the citation method of the Korean academic text. Next, in the generalization of the research contents, the expression of 'we' was very less compared to the maw speakers.

A Study on the Use of adverbs by Chinese Korean learners (중국어권 한국어 학습자의 부사 사용에 대한 연구)

  • 한송화
    • Language Facts and Perspectives
    • /
    • v.48
    • /
    • pp.33-59
    • /
    • 2019
  • In this paper, I analyzed the usage patterns of Chinese Korean learners in the Korean learners' corpus. To this purpose, I compared NIKL learners' corpus 674,553 words with the native speakers' corpus 1,055,790 words. According to the analysis, Chinese Korean learners used about 28 more adverbs per 1,000 words than native Korean in their writing. And Chinese Korean learners have either overused or underused the high frequency adverbs, the degree of overuse was stronger than underuse. And compared to native speakers, they lacked the diversity of the use of adverbs. From this corpus analysis, we were able to identify the characteristics of Chinese Korean learners' use of adverbs. Korean learners overused adverbs such as '너무, 아주'and modal adverbs '정말, 진짜'to reinforce their own discourse, and they also used a lot of mimetic adverbs due to the influence of teaching. In addition, through the analysis of the learners' corpus, we were able to identify problems with the use of adverbs by Chinese Korean learners. Chinese Korean learners should try to expand available adverbs and diversify their choice of adverbs in their composition. And they should also develop the recognition of written and spoken registers when selecting adverbs.

Native Language Identification for Korean Learner Corpus (한국어 학습자 말뭉치의 모어 판별)

  • Hur, Heuijung;Chung, Seung Yeon;Kim, Han-Saem
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.300-304
    • /
    • 2021
  • 모어 판별이란 제 2 언어를 습득하는 학습자들이 생산한 목표 언어에 기반하여 학습자들의 제 1 언어를 자동적으로 확인하는 작업을 말한다. 모여 판별 과제를 성공적으로 수행하기 위한 방법을 다룬 다양한 연구들이 진행되어 왔으나, 한국어를 대상으로 진행된 모어 판별 연구는 그 수가 극히 적다. 본 연구에서는 한국어 학습자 텍스트를 대상으로 머신 러닝, 딥 러닝의 다양한 문서 분류 모델을 실험하고, 이를 통해 한국어 학습자 텍스트 모어 판별을 위해 적합한 모델을 구축하기 위해 필요한 조건을 찾아보고자 하였다.

  • PDF

Detecting errors on Korean POS tagged corpus using GMM (GMM을 이용한 품사 부착 말뭉치의 오류 탐지)

  • Choi, Min-Seok;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Ho-Min;Yoon, Ho;Namgoong, Young;Kim, Jae-Kyun;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.246-251
    • /
    • 2019
  • 품사 부착 말뭉치란 문장에 포함된 각 단어에 품사 표지를 부착한 말뭉치를 말한다. 이런 말뭉치에는 다양한 형태의 오류들이 포함되어 있으며, 오류가 포함된 말뭉치를 학습 자료로 사용하는 자연언어처리 시스템의 좋은 성능을 기대할 수 없다. 따라서 말뭉치의 일관성이나 정확도는 자연언어처리 시스템의 성능에 많은 영향을 준다. 하지만 말뭉치 구축 과정에서 작업자의 실수가 발생하고 여러 작업자가 작업을 수행하다 보니 일관성을 유지하기가 쉽지 않다. 본 논문에서는 이러한 문제를 해결하기 위해서 GMM을 이용한 군집화를 수행하여 오류 후보를 추출한다. 이를 통해서 말뭉치 구축 과정에서 작업자의 실수를 방지하고 일관성을 유지하고자 한다. 세종품사부착 말뭉치를 대상으로 임의로 오류를 유발시켜 실험한 결과, 재현율 84.74%의 성능으로 오류를 탐지하였다. 향후에 좀 더 높은 재현율을 위해서 자질 확장이나 회귀 분석 방법 등을 추진할 계획이다.

  • PDF

Context Based Real-time Korean Writing Correcting for Foriengers (외국인 학습자를 위한 문맥 기반 실시간 국어 문장 교정)

  • Park, Young-Keun;Choi, Jae-Sung;Kim, Jae-Min;Lee, Seong-Dong;Lee, Hyun-Ah
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.273-275
    • /
    • 2016
  • 외국인 유학생과 국내 체류 외국인을 포함하여 한국어를 학습하고자 하는 외국인이 지속적으로 증가함에 따라, 외국인 한국어 학습자의 교육에 대한 관심도 높아지고 있다. 기존 맞춤법 검사기는 한국어를 충분히 이해할 수 있는 한국인의 사용에 중점을 두고 있어, 외국인 한국어 학습자가 사용하기에는 다소 부적절하다. 본 논문에서는 한국어의 문맥 특성과 외국인의 작문 특성을 반영한 한국어 교정 방식을 제안한다. 제안하는 시스템에서는 말뭉치에서 추출한 어절 바이그램에 대한 음절 역색인을 구성하여 추천 표현을 빠르게 제시할 수 있으며, 키보드 후킹에 기반한 사용자인터페이스를 제공하여 사용자 편의를 높인다.

  • PDF

Context Based Real-time Korean Writing Correction for Foreigners (외국인 학습자를 위한 문맥 기반 실시간 국어 문장 교정)

  • Park, Young-Keun;Kim, Jae-Min;Lee, Seong-Dong;Lee, Hyun Ah
    • Journal of KIISE
    • /
    • v.44 no.10
    • /
    • pp.1087-1093
    • /
    • 2017
  • Educating foreigners in Korean language is attracting increasing attention with the growing number of foreigners who want to learn Korean or want to reside in Korea. Existing spell checkers mostly focus on native Korean speakers, so they are inappropriate for foreigners. In this paper, we propose a correction method for the Korean language that reflects the contextual characteristics of Korean and writing characteristics of foreigners. Our method can extract frequently used expressions by Koreans by constructing syllable reverse-index for eojeol bi-gram extracted from corpus as correction candidates, and generate ranked Korean corrections for foreigners with upgraded edit distance calculation. Our system provides a user interface based on keyboard hooking, so a user can easily use the correction system along with other applications. Our system improves the detection rate for foreign language users by about 45% compared to other systems in foreign language writing environments. This will help foreign users to judge and correct their own writing errors.

Semi-automatic Semantic Role Labelling Tool based on Korean Case Frame (한국어 격틀사전 기반 의미역 반자동 부착 도구)

  • Kim, Wansu;Ock, CheolYoung
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.251-254
    • /
    • 2014
  • 의미역 결정은 문장의 서술어와 그 서술어에 속하는 논항들 사이의 의미관계를 결정하는 문제로, 기계학습에 의한 의미역을 부착하기 위해서는 의미역 부착 말뭉치를 필요로 한다. 본 논문에서 격틀 사전을 사용하여 각 서술어의 논항의 의미역을 제한하여 작업자가 빠르게 의미역 말뭉치를 구축할 수 있도록 하는 의미역 반자동 부착 도구(UTagger-SR)를 개발하였다.

  • PDF

An Automatic Classification of Korean Documents Using Weight for Keywords of Document and Corpus : Bayesian classifier (문서의 주제어별 가중치와 말뭉치를 이용한 한국어 문서의 자동분류 : 베이지안 분류자)

  • 허준희;고수정;김태용;최준혁;이정현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.154-156
    • /
    • 1999
  • 문서 분류는 미리 정의된 두 개 또는 그 이상의 클래스에 새로 생성되는 객체들을 할당하는 방법이다. 문서의 자동 분류에 대한 연구는 오래 전부터 연구되어 왔지만 한국어에 대한 적용 및 연구는 다른 분야에 비해 아직까지 활발히 이루어지지 않고 있다. 본 논문에서는 문서를 자동으로 분류하기 위해 문서의 주제어에 가중치를 부여하고, 부족한 문서의 특징을 보충하기 위하여 말뭉치로부터 주제어들과의 상호정보에 의해 추출된 단어를 사용하여 문서를 표현한 후, 가중치를 부여한 문서의 주제어에 베이지안 분류자를 사용하여 문서분류를 수행한다. 실험은 한국어 정보검색 실험용 데이터 집합인 KTset95 문서 4,414개 중 1,300개의 문서를 학습 집합으로, 1,000개의 문서를 분류에 대한 검증 집합으로 사용하였다. 실험 결과, 순수 베이지안 확률을 사용한 기존의 방법보다 실험 집합과 검증 집합에서 각각 1.92%, 4.3% 향상된 분류 정확도를 얻었다.

  • PDF