• Title/Summary/Keyword: 한국어

Search Result 5,285, Processing Time 0.025 seconds

Improve Performance of Phrase-based Statistical Machine Translation through Standardizing Korean Allomorph (한국어의 이형태 표준화를 통한 구 기반 통계적 기계 번역 성능 향상)

  • Lee, Won-Kee;Kim, Young-Gil;Lee, Eui-Hyun;Kwon, Hong-Seok;Jo, Seung-U;Cho, Hyung-Mi;Lee, Jong-Hyeok
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.285-290
    • /
    • 2016
  • 한국어는 형태론적으로 굴절어에 속하는 언어로서, 어휘의 형태가 문장 속에서 문법적인 기능을 하게 되고, 형태론적으로 풍부한 언어라는 특징 때문에 조사나 어미와 같은 기능어들이 다양하게 내용어들과 결합한다. 이와 같은 특징들은 한국어를 대상으로 하는 구 기반 통계적 기계번역 시스템에서 데이터 부족문제(Data Sparseness problem)를 더욱 크게 부각시킨다. 하지만, 한국어의 몇몇 조사와 어미는 함께 결합되는 내용어에 따라 의미는 같지만 두 가지의 형태를 가지는 이형태로 존재한다. 따라서 본 논문에서 이러한 이형태들을 하나로 표준화하여 데이터부족 문제를 완화하고, 베트남-한국어 통계적 기계 번역에서 성능이 개선됨을 보였다.

  • PDF

Open Korean WordNet (KWN): Dictionary-based Semi-Automatic Development (한국어 오픈 워드넷 (KWN) : 사전 기반의 반자동 구축)

  • Lee, In Keun;Hwang, Dosam;Hahm, Younggyun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.193-196
    • /
    • 2014
  • 본 논문에서는 사전자원에 기반한 한국어 워드넷(Open Korean WordNet: KWN)의 반자동 구축 방법을 제안한다. 제안한 방법에서는 각 전문분야별로 분류된 영어-한국어 대역사전, 일본어-한국어 대역사전을 이용하여 영어 워드넷(Princeton WordNet 3.0)과 일본어 워드넷(Japanese WordNet 1.1)의 어휘를 번역하였다. 그리고 번역 결과의 애매성을 해소하기 위하여, (1)영어와 일본어에 대한 한국어 대역어의 중복 여부, (2)사전의 분야 정보와 워드넷의 계층구조를 고려하였다. 제안한 방법으로 117,659 개의 워드넷 synset 중 63,221 개(약 54 %)의 synset에 대한 자동번역을 수행하여 한국어 워드넷을 구축하였다. 그리고 워드넷 synset의 정의문은 한국어 사전의 정의문을 참조하여 한글화 할 수 있도록 하고, 이 과정을 지원하기 위한 정의문 추천 알고리즘을 제안한다. 제안한 방법에 기반하여 전문가들이 상호 협력하여 한국어 워드넷을 구축할 수 있는 시스템을 개발한다.

  • PDF

Automatic cognitive processing of korean written language as indexed by visual MMN(vMMN) (시각적 MMN(vMMN)의 분석을 통한 한국어 글말의 무의식적인 인지과정 연구)

  • Lee, Sung Eun
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.67-72
    • /
    • 2009
  • ERP의 일종인 MMN(Mismatch Negativity)은 언어의 청각 인지정보 처리과정(central auditory processing)을 규명하는 데 유용한 수단으로 이용되어 왔다. 그런데, 최근의 연구들은 이러한 MMN이 청각 자극뿐만 아니라 시각 자극에 의해서도 검출될 수 있음을 밝혀냈다. 본 연구는 이러한 시각적 MMN을 이용하여 뇌에서 이루어지는 한국어 화자의 무의식적인 한국어 문자 정보처리과정을 규명하려고 시도하였다. 본 연구에서는 한국어의 글말 최소쌍 '므'/'모'와 '므'/'무', 이에 대응되는 비언어자극 '+ㅡ'/'+ㅗ'와 '+ㅡ'/'+ㅜ'(+표시의 아래에 모음을 붙여서 만든 인공문자, 그림1 참고)를 수동적(passive) Oddball paradigm으로 제시하고 언어 자극에 대한 EEG를 비언어자극과 비교 하에 측정, 분석하였다. 본 연구의 결과, 언어자극과 비언어자극 모두에서 시각적 MMN이 검출되었다. 하지만, 언어자극의 시각적 MMN이 비언어자극의 시각적 MMN보다 높게 나타남을 확인하였다. 이는 한국어 모국어화자들이 무의식적인 인지과정에서 언어자극이 갖는 물리적인 시각 정보뿐만 아니라 한국어 문자의 언어적 정보도 함께 처리하고 있음을 보여주는 것이다. 본 연구의 결과들은 한국어 글말의 무의식적인 인지처리과정을 밝혀주는 한편, 한국어 문자가 인지과학에서 갖는 중요한 지위를 보여줄 수 있을 것으로 기대된다.

  • PDF

Constructing Korean Dialogue Natural Inference Dataset through Pseudo Labeling (Pseudo Labeling을 통한 한국어 대화 추론 데이터셋 구축)

  • Young-Jun Lee;Chae-Gyun Lim;Yunsu Choi;Ji-Hui Lm;Ho-Jin Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.205-209
    • /
    • 2022
  • 페르소나 대화 시스템이 상대방의 개인화된 정보에 일관된 응답을 생성하는 것은 상당히 중요하며, 이를 해결하기 위해 최근에 많은 연구들이 활발히 이루어지고 있다. 그 중, PersonaChat 데이터셋에 대해 수반/중립/모순 관계를 라벨링한 DialoguNLI 데이터셋이 제안되었으며, 일관성 측정, 페르소나 속성 추론 태스크 등 여러 분야에 활용되고 있다. 그러나, 공개적으로 이용가능한 한국어로 된 대화 추론 데이터셋은 없다. 본 연구에서는 한국어로 번역된 페르소나 대화 데이터셋과 한국어 자연어 추론 데이터셋에 학습된 모델을 이용하여 한국어 대화 추론 데이터셋(KorDialogueNLI)를 구축한다. 또한, 사전학습된 언어모델을 학습하여 한국어 대화 추론 모델 베이스라인도 구축한다. 실험을 통해 정확도 및 F1 점수 평가 지표에서 KLUE-RoBERTa 모델을 미세조정(fine-tuning)시킨 모델이 가장 높은 성능을 달성하였다. 코드 및 데이터셋은 https://github.com/passing2961/KorDialogueNLI에 공개한다.

  • PDF

An Analysis on Curriculum for Occupational Purpose of the Business Korean Language Curriculum between South Korea and China (한·중 직업교육 중심 비즈니스 한국어 교육 연구)

  • Li, Zhangpei;Park, Changun
    • Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology
    • /
    • v.9 no.2
    • /
    • pp.153-161
    • /
    • 2019
  • The purpose of this study to examine the status of Korean language education, and to examine the future direction between with korean and China. The Korean language course organized by the European Union Chamber of Commerce and Industry, which selects and conducts consignment companies through annual competition every year since 2002, In order to these goals and needs, it is imperative to develop a curriculum that enhances job skills. As Korean language education, a point that is necessary to clarify terms more clearly, which 'vocational education purpose' is widely used in the term of 'business education'. With all languages education, Korean language education is not meant to teach Korean to foreigners, but it is a process by which learners can apply Korean language learned in classroom to various situations, while outside the classroom through teaching and learning. Otherwise, the curriculum in the four-year college Korean language department in China, which is lacking in acquiring the ability to achieve the Korean language education goals and social needs. Korean language education in China is one of foreign language education and it is different from foreign language education such as English education as Minor Languages education.

Two Languages in One Brain Shown by fMRI: Orthography Specific Effects in L2 (fMRI에 나타난 모국어와 외국어로서의 한국문자와 중국문자의 차이)

  • 이동훈;이홍재;문찬홍;유재욱;남기춘
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2002.05a
    • /
    • pp.216-221
    • /
    • 2002
  • 본 연구는 문자 규칙 심층성이 다른 문자체계인 한국어와 중국어의 차이가 이중언어화자의 모국어 처리와 외국어 처리에서 각각 어떤 대뇌 활성화의 차이를 가져오는지 fMRI (functional Magnetic Resonance Imaging)를 이용하여 살펴보았다. 중국어 (Ll)-한국어(L2) 이중언어화자 및 한국어(Ll)-중국어(L2) 이중언어화자를 제 2언어 습득시기에 따라 초기 및 후기 이중언어화자로 구분하여 모국어 차이와 습득시기에 따른 영향을 알아보았다. 실험 1에서는 어휘 판단 과제(lexical decision task)를 실시하였고, 실험 2에서는 의미 판단 과제(semantic decision task)를 각각 실시하였다. 어휘판단과제를 사용한 실험 1의 결과는 음운처리와 관련된 좌반구 SMG(supramarginal gyrus), 하두정소엽(inferior parietal lobule, BA 39, 40)에서 중국어-한국어 초기 및 후기이중언어화자의 경우, 한국어 조건에서 보다 많은 활성화를 보였으나, 한국어-중국어 화자의 경우 활성화가 나타나지 않았다. 철자처리에 관련된 방추상회(fusiform gyrus, BA 37, 19) 영역에서는 중국어-한국어 화자뿐만 아니라, 한국어-중국어 인중언어화자의 경우도 중국어 조건에서 보다 많은 활성화를 보였다. 실험 2에서 사용한 의미판단과제의 경우, 중국어-한국어 이중언어화자의 경우 어휘판단과제를 사용한 실험 1의 결과에서 보고된 한국어 특정적인 반응, 즉 SMG영역에서의 활성화의 증가가 실험 2에서는 나타나지 않았다. 그러나 한국어-중국어 이중언어화자의 경우, 실험 1에서 나타난 것과 같이 철자처리 혹은 의미처리와도 관련된다고 보고되는 방추상회(fusiform gyrus)등의 영역 유의미한 차이를 나타났다. 이는 어휘 판단과제와 의미판단과제가 유도하는 뇌 활성화 양상이 다름을 시사한다. 종합해 볼 때, 이중언어화자의 뇌 영상 연구에서 어휘수준에서는 거의 공통적인 활성화를 보인다는 개략적 수준의 연구 결과를 넘어, 음운처리 및 철자처리와 같은 어휘접근 수준에서는 이중언어화자들의 뇌 활성화가 다르게 일어남을 보여주고 있다. 따라서 이중언어 화자의 뇌 기전을 밝히기 위해서도 보다 개략적 수준을 넘어 언어처리의 세부적인 수준에 따른 접근이 필요함을 시사한다.

  • PDF

A Study on strengthening the Korean pronunciation of Chinese speakers (중국어 화자의 한국어 발음의 강세에 관한 연구)

  • Jee, Sang-Hwi;Park, Hyung-Woo;Bae, Myung-Jin
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.07a
    • /
    • pp.299-300
    • /
    • 2016
  • 매년 급격한 경제성장률을 보이는 중국은 이제 우리나라와 긴밀한 관계가 돼야할 필요성이 있으며, 이러한 이유로 국내외적으로 한국어 홍보와 한국어 학습교재 발간, 학습방법에 대한 논의가 이루어져 왔다. 따라서 중국인화자가 한국어를 발성하였을 때와 외국인화자의 한국어발성시의 특성을 비교, 분석 하였으며, 분석을 통한 향후 외국인들의 한국어 교육 시에 강세의 중요성을 알리기 위해 연구를 하고자 한다. 분석 결과 피치는 비슷하였으나 나머지 포만트 구간에서는 중국어 화자가 전체적으로 낮게 나왔으며, 중간 중간에 에너지가 적거나 없고, 강세부분에서 높낮이가 있지 않고 평탄한 결과를 얻을 수 있었다.

  • PDF

Korean morphological analysis and phrase structure parsing using multi-task sequence-to-sequence learning (Multi-task sequence-to-sequence learning을 이용한 한국어 형태소 분석과 구구조 구문 분석)

  • Hwang, Hyunsun;Lee, Changki
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.103-107
    • /
    • 2017
  • 한국어 형태소 분석 및 구구조 구문 분석은 한국어 자연어처리에서 난이도가 높은 작업들로서 최근에는 해당 문제들을 출력열 생성 문제로 바꾸어 sequence-to-sequence 모델을 이용한 end-to-end 방식의 접근법들이 연구되었다. 한국어 형태소 분석 및 구구조 구문 분석을 출력열 생성 문제로 바꿀 시 해당 출력 결과는 하나의 열로서 합쳐질 수가 있다. 본 논문에서는 sequence-to-sequence 모델을 이용하여 한국어 형태소 분석 및 구구조 구문 분석을 동시에 처리하는 모델을 제안한다. 실험 결과 한국어 형태소 분석과 구구조 구문 분석을 동시에 처리할 시 형태소 분석이 구구조 구문 분석에 영향을 주는 것을 확인 하였으며, 구구조 구문 분석 또한 형태소 분석에 영향을 주어 서로 영향을 줄 수 있음을 확인하였다.

  • PDF

Japanese composition system design based on writing Korean (한국어 작성에 의한 일본어 작문지원시스템 설계)

  • Chang, Won;Yhu, Sang-Hwa;Sim, Chul-Min;Kim, Tae-Wan
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.296-302
    • /
    • 1997
  • 본 논문은 일본어 작문지원시스템에 관한 것으로서, 사용자가 일본어에 대한 언어지식이 전혀 없더라도 한국어 작성 능력만으로 일본어를 작문할 수 있도록 지원하는 일본어 작문지원 시스템 개발 방법에 관한 것이다. 본 논문에서 제안하는 일본어 작문지원 시스템은, 사용자가 일어로 작문하고자 하는 문장을 한 국어의 어절단위 또는 연속된 문자열로 작성해 나가면, 시스템이 자동개입하여 한국어 분석기술과 일본어로의 변환/생성 기술로 일본어의 대응 문자열을 생성해 준다. 따라서 한국어 작성능력만으로 일본어를 작문할 수 있도록 지원한다. 특히, 한국어 분석의 중의성과 일본어 변환시 대응어 선택의 중의성 문제가 있을 경우에는, 사용자가 시스템이 사용자 대화창에 제공하는 한국어 도움말 정보를 참조하여 선택함으로서 문제점을 해소하여 정확한 작문을 유도한다.

  • PDF

Expansion and Improvement of Korean FrameNet utilizing linguistic features (언어적 특징을 반영한 한국어 프레임넷 확장 및 개선)

  • Kim, Jeong-uk;Choi, Key-Sun
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.85-89
    • /
    • 2016
  • 프레임넷 (FrameNet) 프로젝트는 버클리에서 1997년에 처음 제안했으며, 최근에는 다양한 언어적 특징을 반영하여 여러 국가에서 사용되고 있다. 하지만 문장의 프레임을 분석하는 것은 자연언어처리 전문가들이 많은 시간을 들여야 한다. 이 때문에, 한국어 프레임넷을 처음 만들 때는 충분한 훈련을 받은 번역가들이 영어 프레임넷의 문장들과 그 주석 정보들을 직접 번역하는 방법을 사용했다. 결과적으로 상대적으로 적은 비용이 들지만, 여전히 한 문장에 여러 번 등장하는 프레임 정보를 모두 번역하고 에러를 분석해야 했기에 많은 노력이 들어갔다. 본 연구에서는 일본어와 한국어의 언어적 유사성을 사용하여 비교적 적은 비용으로 한국어 프레임넷을 확장하는 방법을 제시한다. 또한 프레임넷에 친숙하지 않은 사용자가 더욱 쉽게 프레임 정보를 활용할 수 있도록 PubAnnotation 기술을 도입하고 "조사"라는 특성을 고려한 Valence pattern 분류를 통해 한국어 공개 프레임넷 사이트를 개선하였다.

  • PDF