• 제목/요약/키워드: 한국어

검색결과 5,292건 처리시간 0.033초

한국어의 이형태 표준화를 통한 구 기반 통계적 기계 번역 성능 향상 (Improve Performance of Phrase-based Statistical Machine Translation through Standardizing Korean Allomorph)

  • 이원기;김영길;이의현;권홍석;조승우;조형미;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.285-290
    • /
    • 2016
  • 한국어는 형태론적으로 굴절어에 속하는 언어로서, 어휘의 형태가 문장 속에서 문법적인 기능을 하게 되고, 형태론적으로 풍부한 언어라는 특징 때문에 조사나 어미와 같은 기능어들이 다양하게 내용어들과 결합한다. 이와 같은 특징들은 한국어를 대상으로 하는 구 기반 통계적 기계번역 시스템에서 데이터 부족 문제(Data Sparseness problem)를 더욱 크게 부각시킨다. 하지만, 한국어의 몇몇 조사와 어미는 함께 결합되는 내용어에 따라 의미는 같지만 두 가지의 형태를 가지는 이형태로 존재한다. 따라서 본 논문에서 이러한 이형태들을 하나로 표준화하여 데이터부족 문제를 완화하고, 베트남-한국어 통계적 기계 번역에서 성능이 개선됨을 보였다.

  • PDF

외국인 학습자를 위한 문맥 기반 실시간 국어 문장 교정 (Context Based Real-time Korean Writing Correcting for Foriengers)

  • 박영근;최재성;김재민;이성동;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.273-275
    • /
    • 2016
  • 외국인 유학생과 국내 체류 외국인을 포함하여 한국어를 학습하고자 하는 외국인이 지속적으로 증가함에 따라, 외국인 한국어 학습자의 교육에 대한 관심도 높아지고 있다. 기존 맞춤법 검사기는 한국어를 충분히 이해할 수 있는 한국인의 사용에 중점을 두고 있어, 외국인 한국어 학습자가 사용하기에는 다소 부적절하다. 본 논문에서는 한국어의 문맥 특성과 외국인의 작문 특성을 반영한 한국어 교정 방식을 제안한다. 제안하는 시스템에서는 말뭉치에서 추출한 어절 바이그램에 대한 음절 역색인을 구성하여 추천 표현을 빠르게 제시할 수 있으며, 키보드 후킹에 기반한 사용자인터페이스를 제공하여 사용자 편의를 높인다.

  • PDF

단어의 음성학적 특징을 이용한 한국어 기계 번역 데이터 세트 구축 방안 (Proposed Methodology for Building Korean Machine Translation Data sets Considering Phonetic Features)

  • 장칭하오;양홍진;김세린;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.592-595
    • /
    • 2022
  • 한국어에서 한자어와 외래어가 차지하는 비중은 매우 높다. 일상어의 경우 한자어와 외래어의 비중이 약 53%, 전문어의 경우 약 92%에 달한다. 한자어나 외래어는 중국이나 다른 나라로부터 영향을 받아 한국에서 쓰이는 단어들이다. 한국어에서 사용되는 한자어와 외래어의 한글 표기과 원어 표기를 발음해보면, 발음이 상당히 유사하다는 것을 알 수 있다. 한자어인 도서관(图书馆)을 중국어로 발음해보면 thu.ʂu.kwan'로 해당 단어에 대한 한국 사람의 발음과 상당히 유사하다. 본 논문에서는 Source Length, Source IPA Length, Target Length, Target IPA Length, IPA Distance 등 총 5가지의 음성학적 특징을 고려한 한국어-중국어 한국어-영어 단어 기계번역 데이터 세트를 구축하고자 한다.

  • PDF

한국어 문장 임베딩의 언어적 속성 입증 평가 (A Probing Task on Linguistic Properties of Korean Sentence Embedding)

  • 안애림;고병일;이다니엘;한경은;신명철;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.161-166
    • /
    • 2021
  • 본 연구는 한국어 문장 임베딩(embedding)에 담겨진 언어적 속성을 평가하기 위한 프로빙 태스크(Probing Task)를 소개한다. 프로빙 태스크는 임베딩으로부터 문장의 표층적, 통사적, 의미적 속성을 구분하는 문제로 영어, 폴란드어, 러시아어 문장에 적용된 프로빙 테스크를 소개하고, 이를 기반으로하여 한국어 문장의 속성을 잘 보여주는 한국어 문장 임베딩 프로빙 태스크를 설계하였다. 언어 공통적으로 적용 가능한 6개의 프로빙 태스크와 한국어 문장의 주요 특징인 주어 생략(SubjOmission), 부정법(Negation), 경어법(Honorifics)을 추가로 고안하여 총 9개의 프로빙 태스크를 구성하였다. 각 태스크를 위한 데이터셋은 '세종 구문분석 말뭉치'를 의존구문문법(Universal Dependency Grammar) 구조로 변환한 후 자동으로 구축하였다. HuggingFace에 공개된 4개의 다국어(multilingual) 문장 인코더와 4개의 한국어 문장 인코더로부터 획득한 임베딩의 언어적 속성을 프로빙 태스크를 통해 비교 분석한 결과, 다국어 문장 인코더인 mBART가 9개의 프로빙 태스크에서 전반적으로 높은 성능을 보였다. 또한 한국어 문장 임베딩에는 표층적, 통사적 속성보다는 심층적인 의미적 속성을 더욱 잘 담고 있음을 확인할 수 있었다.

  • PDF

KommonGen: 한국어 생성 모델의 상식 추론 평가 데이터셋 (KommonGen: A Dataset for Korean Generative Commonsense Reasoning Evaluation)

  • 서재형;박찬준;문현석;어수경;강명훈;이승훈;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.55-60
    • /
    • 2021
  • 최근 한국어에 대한 자연어 처리 연구는 딥러닝 기반의 자연어 이해 모델을 중심으로 각 모델의 성능에 대한 비교 분석과 평가가 활발하게 이루어지고 있다. 그러나 한국어 생성 모델에 대해서도 자연어 이해 영역의 하위 과제(e.g. 감정 분류, 문장 유사도 측정 등)에 대한 수행 능력만을 정량적으로 평가하여, 생성 모델의 한국어 문장 구성 능력이나 상식 추론 과정을 충분히 평가하지 못하고 있다. 또한 대부분의 생성 모델은 여전히 간단하고 일반적인 상식에 부합하는 자연스러운 문장을 생성하는 것에도 큰 어려움을 겪고 있기에 이를 해결하기 위한 개선 연구가 필요한 상황이다. 따라서 본 논문은 이러한 문제를 해결하기 위해 한국어 생성 모델이 일반 상식 추론 능력을 바탕으로 문장을 생성하도록 KommonGen 데이터셋을 제안한다. 그리고 KommonGen을 통해 한국어 생성 모델의 성능을 정량적으로 비교 분석할 수 있도록 평가 기준을 구성하고, 한국어 기반 자연어 생성 모델의 개선 방향을 제시하고자 한다.

  • PDF

한국어 뉴스 분석 성능 향상을 위한 번역 전처리 기법 (Translation Pre-processing Technique for Improving Analysis Performance of Korean News)

  • 이지민;정다운;구영현;유성준
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.619-623
    • /
    • 2020
  • 한국어는 교착어로 1개 이상의 형태소가 단어를 이루고 있기 때문에 텍스트 분석 시 형태소를 분리하는 작업이 필요하다. 자연어를 처리하는 대부분의 알고리즘은 영미권에서 만들어졌고 영어는 굴절어로 특정 경우를 제외하고 일반적으로 하나의 형태소가 단어를 구성하는 구조이다. 그리고 영문은 주로 띄어쓰기 위주로 토큰화가 진행되기 때문에 텍스트 분석이 한국어에 비해 복잡함이 떨어지는 편이다. 이러한 이유들로 인해 한국어 텍스트 분석은 영문 텍스트 분석에 비해 한계점이 있다고 알려져 있다. 한국어 텍스트 분석의 성능 향상을 위해 본 논문에서는 번역 전처리 기법을 제안한다. 번역 전처리 기법이란 원본인 한국어 텍스트를 영문으로 번역하고 전처리를 거친 뒤 분석된 결과를 재번역하는 것이다. 본 논문에서는 한국어 뉴스 기사 데이터와 번역 전처리 기법이 적용된 영문 뉴스 텍스트 데이터를 사용했다. 그리고 주제어 역할을 하는 키워드를 단어 간의 유사도를 계산하는 알고리즘인 Word2Vec(Word to Vector)을 통해 유사 단어를 추출했다. 이렇게 도출된 유사 단어를 텍스트 분석 전문가 대상으로 성능 비교 투표를 진행했을 때, 한국어 뉴스보다 번역 전처리 기법이 적용된 영문 뉴스가 약 3배의 득표 차이로 의미있는 결과를 도출했다.

  • PDF

100 K-Poison: 한국어 생성 모델을 위한 독성 텍스트 저항력 검증 데이터셋 (100 K-Poison: Poisonous Texts Resistance Test Dataset For Korean Generative Models)

  • 비립;강예지;박서윤;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.149-154
    • /
    • 2023
  • 본고는 한국어 생성 모델의 독성 텍스트 저항 능력을 검증하기 위해 'CVALUE' 데이터셋에서 추출한 고난도 독성 질문-대답 100쌍을 바탕으로 한국어 생성 모델을 위한 '100 K-Poison' 데이터셋을 시범적으로 구축했다. 이 데이터셋을 토대로 4가지 대표적인 한국어 생성 모델 'ZeroShot TextClassifcation'과 'Text Generation7 실험을 진행함으로써 현재 한국어 생성 모델의 독성 텍스트 식별 및 응답 능력을 종합적으로 고찰했고, 모델 간의 독성 텍스트 저항력 격차 현상을 분석했으며, 앞으로 한국어 생성 모델의 독성 텍스트 식별 및 웅대 성능을 한층 더 강화하기 위한 '이독공독(以毒攻毒)' 학습 전략을 새로 제안하였다.

  • PDF

다문화 학생을 위한 제2언어로서의 한국어교재 평가 연구 (A Study of Evaluating the KSL Textbook for Students with Multicultural Backgrounds)

  • 장경숙;구영산;전영주
    • 한국콘텐츠학회논문지
    • /
    • 제16권10호
    • /
    • pp.33-46
    • /
    • 2016
  • 본 연구의 목적은 다문화 학생의 한국어교육을 위해 개발된 한국어교재평가를 통해 개선점을 모색하고 향후 개발 방향에 대한 제언을 하는 것이다. 교재평가에는 선행연구 분석을 통해 종합적으로 한국어교재를 평가할 수 도구를 활용하였다. 학교에서 표준한국어 교재를 활용한 경험이 있는 32명의 한국어 교사들이 평가에 참여하였다. 평가 도구에 제시된 51개의 세부 기준에 따라 교재의 내적 외적 구성요소별 평가를 시행하였다. 평가 결과에 의하면 학습자의 수준에 맞는 어휘 제시, 어휘의 반복적 사용, 문화에 대한 내용 확대 등이 개선점으로 지적되었다. 한국어교재 평가 결과를 바탕으로 학교급별 표준한국어교재 개발의 방향, 한국어 교원의 교재평가 전문성 제고, 평가 결과 기반 교재 선정 및 활용에 대한 제언을 제시하였다.

The Development of A System for Translation of Korean Definition of IEV and Implementation of Korean Electropedia

  • Moon, Bonghee
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권2호
    • /
    • pp.141-148
    • /
    • 2020
  • 본 논문에서는 IEV의 영어 기술 용어의 정의를 한국어로 번역하는 시스템의 개발 및 한국어 일렉트로피디아인 웹 시스템의 구현을 소개하고 있다. 작업 과정은 3부분으로 구성되었다. 첫 번째 작업은 IEV의 영어 정의를 한국어로 번역하기 위한 데이터베이스를 구축하는 것이다. 두 번째 작업은 한국 TC 1 멤버들이 개발된 컴퓨터 프로그램과 작업 데이터베이스를 사용하여 영어 용어의 정의를 한국어로 번역하고 한국어의 정의를 유의미한 수준으로 수정하는 것이다. 마지막 작업은 프로젝트 보고서를 위한 문서를 만들고 한국어 일렉트로피디아인 웹 시스템을 구현하는 것이다. 그 결과, 전자 용어의 영어 정의 20,996개가 한국어로 번역되었고, 이를 기반으로 프로토타입의 한국어 일렉트로피디아 웹 시스템이 구현되었다. 향후, 한국의 정규 일렉트로피디아를 개설하고 IEC의 일렉트로피디아와 연계할 필요가 있다.

모바일을 활용한 한류 기반 한국어 학습자 대상 한국어 교육 연구 (A Study on Korean Language Education for Korean Learners Using Mobile Based on Korean Wave)

  • 우원묵
    • 한국콘텐츠학회논문지
    • /
    • 제17권9호
    • /
    • pp.120-131
    • /
    • 2017
  • 한류의 유행은 국제적으로 한국어와 한국 문화에 대한 관심과 흥미를 불러 일으켰으나 이것이 진정한 한국어 학습자 형성으로는 이어지지 않고 있다. 그 이유로 한류 기반 한국어 학습자에게 다른 한국어 학습자와는 다른 특성이 있음을 들 수 있으며 그렇기 때문에 학습 효과를 높이기 위해서 다른 방식의 학습 방법을 연구할 필요가 있다. 이에 본 연구에서는 모바일 기기가 가지는 학습 도구로서의 효과에 주목하여 모바일 기기의 특성을 살피고 이것이 교육에 사용된 사례를 통해 모바일 기기가 한류 기반 한국어 학습자들의 지속적인 한국어 학습에 긍정적인 영향을 줄 수 있을 것으로 보았다. 그 결과 모바일 기기가 가지는 다양한 특징이 한류 기반 한국어 학습자의 학습자 특성에 긍정적으로 작용하여 학습효과를 높이고 지속적인 학습을 가능하게 할 것이라는 기대를 할 수 있었다.