• Title/Summary/Keyword: 외국어로서의 한국어

Search Result 111, Processing Time 0.02 seconds

Study of Japanese Korean Syntactic Dictionary Construction (일한 문형사전을 위한 구문연구)

  • Song, Young-Bin;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.295-303
    • /
    • 1998
  • 이 논문은 한국어와 일본어의 대역문형사전 구축 시에 동사의 대역어 선정을 위한 구체적인 방법을 실증적으로 제시하는데 목적이 있다. 현재 자연언어 처리에서의 동사의 의미기술은 동사의 중의성(重義性)을 해소하려는데 초점이 맞추어져 있다. 그 주된 방법론은 동사와 결합하는 명사 의미속성의 기술에 의해 중의성을 해소하려는 것이다. 이 논문에서는 개별언어에 있어서의 명사의 의미속성의 분류가 다국어를 대상으로 하는 경우 어떻게 다루어져야 하는가에 대해 언어학적인 조명을 하는데 목적이 있다. 아울러 현재까지 일본에서 구축된 동사의 의미사전 들을 비교, 명사 의미속성 분류의 기준이 어떻게 설정되어야 하는가에 대해 검증한다. 특히 외국어와의 대조는 동사와 명사의 공기관계가 각 언어마다 독특한 결합관계를 갖으며 문법체계의 차이로 인해 개별언어를 대상으로 했을 때보다 의미기술의 양상이 상당히 달라짐을 보여줄 것이다.

  • PDF

Text/Voice Recognition & Translation Application Development Using Open-Source (오픈소스를 이용한 문자/음성 인식 및 번역 앱 개발)

  • Yun, Tae-Jin;Seo, Hyo-Jong;Kim, Do-Heon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2017.07a
    • /
    • pp.425-426
    • /
    • 2017
  • 본 논문에서는 Google에서 지원하는 오픈소스인 Tesseract-OCR을 이용한 문자/음성 인식 및 번역 앱에 대해 제안한다. 최근 한국어를 포함한 외국어 인식과 번역기능을 이용한 다양한 스마트폰 앱이 개발되어 여행에 필수품으로 자리잡고 있다. 스마트폰의 카메라기능을 이용하여 촬영한 영상을 인식률을 높이도록 처리하고, Crop기능을 넣어 부분 인식기능을 지원하며, Tesseract-OCR의 train data를 보완하여 인식률을 높이고, Google 음성인식 API를 이용한 음성인식 기능을 통해 인식된 유사한 문장들을 선택하도록 하고, 이를 번역하고 보여주도록 개발하였다. 번역 기능은 번역대상 언어와 번역할 언어를 선택할 수 있고 기본적으로 영어, 한국어, 일본어, 중국어로 번역이 가능하다. 이 기능을 이용하여 차량번호 인식, 사진에 포함된 글자를 통한 검색 등 다양한 응용분야에 맞게 앱을 개발할 수 있다.

  • PDF

$Infinitivit\"{a}t$ des deutschen und koreanischen Verbs - Im sprachtypologischen Vergleich beider Sprachen (언어 유형학적인 비교를 통한 독일어와 한국어 동사의 부정성)

  • Park Jin-Gil
    • Koreanishche Zeitschrift fur Deutsche Sprachwissenschaft
    • /
    • v.6
    • /
    • pp.79-98
    • /
    • 2002
  • 지금까지 우리는 한국어와 독일어를 비교하면서 동사의 정형과 부정형을 관찰해 왔다. 이 부정성(역으로 말하면 비구속성)은 한국어 동사에는 전반적으로 통용되는 데 반해 독일어에는 부정형/동사원형과 분사가 그러할 뿐이다. 동사의 특성 연구는 어느 자연어/개별언어의 상이한 기능을 위해서 뿐만이 아니라 외국어 학습/습득을 위해서도 큰 의미를 갖는다. 이러한 중요성에도 불구하고 독특한 한국어 동사의 부정성, 그 연구는 거의 찾아볼 수가 없다. 한국어와 독일어 동사의 부정성 비교에서 드러난 문제점은 대체로 다음과 같이 요약될 수 있을 것이다. $\ast$ 한국어 동사의 특징인 부정성은 우리의 운명으로 간주해야 할 것이다. 왜냐하면 우리가 어떤 면에서는 유익함을, 그리고 어떤 다른 면에서는 문제점을 감수해야 하기 때문이다. 특히 전형적인 전치성 언어인 유럽언어를 습득할 때 언어간섭현상을 통해 그러하다. $\ast$ 독일어의 부정사/분사 및 한국어 동사가 인칭변화를 하지 않는다는 것은 그들이 주어를 갖지 않고 있거나 (독일어의 경우), 아니면 그것이 어떤 문법/통사적 역할을 하는가 (한국어의 경우)에 주된 원인이 있다. $\ast$ 비교 대상의 양쪽은 생략가능성, 즉 원자가 요구에 대한 자유/비구속성을 누린다. 핵(성분), 즉 독일어의 부정형 및 분사 그리고 한국어 동사는 혼자 남을 때까지 생략이 계속될 수 있다. 이러한 의미에서 부정성은 <비한정성/비구속성>과 관련된 것 같으며, 반면에 정동사의 특성은 <한정성/구속성>과 관계되어 있다. $\ast$ 원자가 요구/충족에 대한 자유/비구속성은 한국어 동사/술어가 문장 끝에 고정되어 있다는 사실은, 직접 또는 간접으로 본동사 앞에 놓여 있어야 되는 모든 문장성분과 부문장 때문에, 즉 한국어의 전면적인 전위수식 현상으로 흔히 큰 부담/복잡함을 야기한다는 데에 그 원인이 있다. 이러한 상황에서 동사는 가능한 한 그의 문장성분을 줄이려 한다. 통사적으로 보장되어 이미 있으니 말이다. 그래서 한국어 동사의 부정성은 일종의 부담해소 대책으로 간주될 수 있을 것이다. $\ast$ 두 비교 대상에서의 핵 및 최소문장 가능성은 역시 원자가에 대한 비구속성에서 비롯된다. $\ast$ 우리 한국인이 빨리 말할 때 흔히 범하는 부정성으로 인한 인칭변화에서의 오류는 무엇보다도 정형성/제한성을 지닌 독일어 정동사가 인칭 변화하는 데 반해 한국어에서는 부정성/비구속성을 지닌 동사가 그것과는 무관한 페 기인한다. 동사의 속성을 철저히 분석함으로써 이런 과오를 극복해야 할 것이다. 한국어 동사의 부정성은 지금까지 거의 연구되지 않았다. 이 문제는 또한 지속적으로 수많은 다른 자연어들과의 비교분석을 통해 관찰돼야 할 것이다. 이 논문이 이런 연구와 언어습득을 위한 작업에 도움이 되기를 바란다.

  • PDF

Loanword Recognition Using Deep Learning (심층학습을 이용한 음절태깅 기반의 외래어 인식 시스템)

  • Park, Ho-Min;Kim, Chang-Hyun;Cheon, Min-Ah;Noh, Kyung-Mok;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.71-75
    • /
    • 2017
  • 외래어란 외국어로부터 들어와 한국어에 동화되고 한국어로서 사용되는 언어이다. 나날이 우리의 언어사용 문화에서 외래어의 사용 비율은 높아져가는 추세로, 전문분야에서는 특히 두드러진다. 그러므로 더 효율적이고 효과적인 자연언어처리를 위해서 문서 내 외래어 인식은 중요한 전처리 과정이다. 따라서 본 논문에서는 bidirectional LSTM(이하 bi-LSTM)-CRF 모형의 심층학습을 이용한 음절태깅 기반의 외래어 인식 시스템을 제안한다. 제안하는 시스템의 외래어 인식 학습 과정은 다음과 같다. 첫째, 학습용 말뭉치 자료의 한글 음절들과 공백, 마침표(.)를 토대로 word2vec을 통해 학습용 피쳐(feature) 자료를 생성한다. 둘째, 학습용 말뭉치 자료와 학습용 피쳐 자료를 결합하여 bi-LSTM 모형 학습 자료를 구축한다. 셋째, bi-LSTM 모형을 거쳐 학습된 결과물을 CRF 모형에서 로그 가능도(log likelyhood)와 비터비(Viterbi) 알고리즘을 통해 학습 결과물을 내놓는다. 넷째, 학습용 말뭉치 자료의 정답과 비교한 뒤 모형 내부의 수치들을 조정한다. 다섯째, 학습을 마칠 때까지 반복한다. 본 논문에서 제안하는 시스템을 이용하여 자체적인 뉴스 수집 자료에 대해서 높은 정확도와 재현율을 기록하였다.

  • PDF

Development of Language-Learning Courseware in Korean Environments (한글 환경에서의 언어 교육 시스템 개발)

  • Kim, Hae-Gyung;Yoon, Ae-Sun;Lee, Mi-Hwa
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.335-340
    • /
    • 1998
  • 최근 컴퓨터 통신 기술의 발달로 인하여 교육분야에서의 컴퓨터 통신망을 이용한 학습의 효율성 증대에 대한 연구가 활발하다. 지금까지의 학습 방식은 교과목 특성의 개별성을 인식하지 못하거나 혹은 기술적인 문제점 등으로 인하여 학습자들에게 일관된 단답형이나 선다형의 학습 방식을 요구하여 왔다. 웹을 기반으로 한 원격 교육으로의 활용 측면에서 프랑스어와 같은 제2외국어의 경우, 한국어 환경에서의 프랑스어 악상 문자 입력이나 개별화된 저작 언어 개발 등의 문제점이 제기된다. $\lceil$Voila-web$\rfloor$ 은 한국어를 모국어로 하는 프랑스어 학습자들을 위한 교육 시스템으로 개별 교과목의 특성을 반영하고 능동적인 학습 방식을 통한 학습의 효율성 증대를 위한 시스템이다. 학습자들에게는 학습 자료의 전체적인 내용 흐름만을 제시하고 영역별 구체적인 자료의 전개는 다양한 교과 내용을 자유 항해할 수 있도록 설계되어 있다. 이는 학습자들로 하여금 통신망을 통한 컴퓨터 이용 학습의 장점을 기존의 학습 방식에 보완하여 보다 능동적인 학습 방식을 유도하여 학습의 효율성을 증대시킬 수 있다.

  • PDF

Vocabulary Acquisition of Korean Learners for Academic Purposes -Focusing on the Effects of Instruction Introductory Methods of Context Inference and Activation of Background Knowledge (학문목적 한국어 학습자의 어휘 습득 연구 -문맥 추론과 배경지식 활성화를 통한 수업 도입을 중심으로-)

  • Lee, MinWoo
    • Journal of Korean language education
    • /
    • v.29 no.4
    • /
    • pp.93-112
    • /
    • 2018
  • The purpose of this study is to deal with vocabulary in KFL. As a result of this study, learners learned vocabulary on average 43 points through contextual inference and introduction of the class to activate background knowledge. In particular, the implicit method showed the highest learning rate of 52 points, and the thematic method had a 41 point-learning rate. In contrast, the semantic method was the lowest with a 25 point-learning rate. There was no significant difference in the improvement rate of upper vocabulary learners, but in the case of the lower learner, there was significant difference in the improvement rate. The difference was not significant in the post-test relative gain rate of upper learners, but there was significant in lower learners. In the delayed test relative gain rate, the difference was significant in all groups. There was correlation between vocabulary difficulty and score, but there was no correlation with the thematic method. And there was no correlation between vocabulary difficulty, improvement rate and relative gain rate in all three classes. However, content understanding, lexical grade, improvement rate, and relative gain rate showed a significant correlation.

A Synthetic Dataset for Korean Knowledge Graph-to-Text Generation (한국어 지식 그래프-투-텍스트 생성을 위한 데이터셋 자동 구축)

  • Dahyun Jung;Seungyoon Lee;SeungJun Lee;Jaehyung Seo;Sugyeong Eo;Chanjun Park;Yuna Hur;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.219-224
    • /
    • 2022
  • 최근 딥러닝이 상식 정보를 추론하지 못하거나, 해석 불가능하다는 한계점을 보완하기 위해 지식 그래프를 기반으로 자연어 텍스트를 생성하는 연구가 중요하게 수행되고 있다. 그러나 이를 위해서 대량의 지식 그래프와 이에 대응되는 문장쌍이 요구되는데, 이를 구축하는 데는 시간과 비용이 많이 소요되는 한계점이 존재한다. 또한 하나의 그래프에 다수의 문장을 생성할 수 있기에 구축자 별로 품질 차이가 발생하게 되고, 데이터 균등성에 문제가 발생하게 된다. 이에 본 논문은 공개된 지식 그래프인 디비피디아를 활용하여 전문가의 도움 없이 자동으로 데이터를 쉽고 빠르게 구축하는 방법론을 제안한다. 이를 기반으로 KoBART와 mBART, mT5와 같은 한국어를 포함한 대용량 언어모델을 활용하여 문장 생성 실험을 진행하였다. 실험 결과 mBART를 활용하여 미세 조정 학습을 진행한 모델이 좋은 성능을 보였고, 자연스러운 문장을 생성하는데 효과적임을 확인하였다.

  • PDF

Germanische Resonantengemination und Laryngaltheorie (게르만어의 공명음 중복현상과 후두음이론)

  • Jeon Soon-Hwan
    • Koreanishche Zeitschrift fur Deutsche Sprachwissenschaft
    • /
    • v.5
    • /
    • pp.1-22
    • /
    • 2002
  • 본 논문의 목적은 게르만제어(예를들어 고트어, 고대북구어, 고고지독일어, 고대영어 등)에 나타나는 공명음중복 현상이 원-인도유럽어시기의 후두음에 기인함을 보이는 것이다. 고트어의 ddj/ggw, 고대북구어의 ggi/ggr, 고고지독일어 ij/uw (이상 소위 '예음화현상'으로 불림)와 그 외 게르만제어에 공통적으로 나타나는 공명음들의 중복, -rr-, -ll-, -nn-, -mm- 등은 원-게르만어시기에 각각 $\ast-ii-,\;\ast-uu-,\;\ast-rr-,\;\ast-ll-,\;\ast-nn-,\;\ast-mm-$ 등으로 소급된다. 그러나 이러한 자음군이 게르만어 이외의 다른 인도유럽어들( 대표적으로 고대인도이란어, 고전희랍어, 라전어 등)과 비교되어 원-인도유럽어시기로 소급되는 경우, 각각 $\ast-iH-,\;\ast-uH-,\;\ast-rH-,\;\ast-lH-,\;\ast-nH-,\;\ast-mH-$ 등으로 재구된다. 따라서 원-게르만어의 자음중복 현상이 후두음의 영향으로 나타난 것으로 해석되는데, 아마도 후두음이 선행하는 공명음에 동화되어 일어난 것으로 보인다. 소쉬르(1987)이래 발전해 온 후두음이론은 현재 그 이론적 틀을 확립한 상태이다. 이 이론은 고전 인도유럽어학에서 설명하지 못했던 여러 언어현상들을 설명하였고, 현대 인도유럽어 역사비교언어학에서 언어변화에 대한 필수적인 설명기재로서 사용되고 있다. 원-인도유럽어의 많은 특징들을 계승한 전형적인 다른 고대 인도유럽어들과는 달리, 시기적으로 늦은 고대 게르만어에서 음운론적 층위에서 공명음중복 현상이 후두음에 기인함은 인도유럽어 역사비교언어학에서 뿐만 아니라 게르만어학에서도 큰 의미를 갖는다고 볼 수 있다.간접으로 본동사 앞에 놓여 있어야 되는 모든 문장성분과 부문장 때문에, 즉 한국어의 전면적인 전위수식 현상으로 흔히 큰 부담/복잡함을 야기한다는 데에 그 원인이 있다. 이러한 상황에서 동사는 가능한 한 그의 문장성분을 줄이려 한다. 통사적으로 보장되어 이미 있으니 말이다. 그래서 한국어 동사의 부정성은 일종의 부담해소 대책으로 간주될 수 있을 것이다. $\ast$ 두 비교 대상에서의 핵 및 최소문장 가능성은 역시 원자가에 대한 비구속성에서 비롯된다. $\ast$ 우리 한국인이 빨리 말할 때 흔히 범하는 부정성으로 인한 인칭변화에서의 오류는 무엇보다도 정형성/제한성을 지닌 독일어 정동사가 인칭 변화하는 데 반해 한국어에서는 부정성/비구속성을 지닌 동사가 그것과는 무관한 페 기인한다. 동사의 속성을 철저히 분석함으로써 이런 과오를 극복해야 할 것이다. 한국어 동사의 부정성은 지금까지 거의 연구되지 않았다. 이 문제는 또한 지속적으로 수많은 다른 자연어들과의 비교분석을 통해 관찰돼야 할 것이다. 이 논문이 이런 연구와 언어습득을 위한 작업에 도움이 되기를 바란다.적 성분구조가 다르다는 것을 알 수 있다. 우리는 이 글이 외국어로서의 독일어를 배우는 이들에게 독일어의 관용구를 보다 올바르게 이해할 수 있는 방법론적인 토대를 제공함은 물론, (관용어) 사전에서 외국인 학습자를 고려하여 관용구를 알기 쉽게 기술하는 데 도움을 줄 수 있기를 바란다.되기 시작하면서 남황해 분지는 구조역전의 현상이 일어났으며, 동시에 발해 분지는 인리형 분지로 발달하게 되었다. 따라서, 올리고세 동안 발해 분지에서는 퇴적작용이, 남황해 분지에서는 심한 구조역전에 의한 분지변형이 동시에 일어났다 올리고세 이후 현재까지, 남황해

  • PDF

Visualization of Korean Speech Based on the Distance of Acoustic Features (음성특징의 거리에 기반한 한국어 발음의 시각화)

  • Pok, Gou-Chol
    • The Journal of Korea Institute of Information, Electronics, and Communication Technology
    • /
    • v.13 no.3
    • /
    • pp.197-205
    • /
    • 2020
  • Korean language has the characteristics that the pronunciation of phoneme units such as vowels and consonants are fixed and the pronunciation associated with a notation does not change, so that foreign learners can approach rather easily Korean language. However, when one pronounces words, phrases, or sentences, the pronunciation changes in a manner of a wide variation and complexity at the boundaries of syllables, and the association of notation and pronunciation does not hold any more. Consequently, it is very difficult for foreign learners to study Korean standard pronunciations. Despite these difficulties, it is believed that systematic analysis of pronunciation errors for Korean words is possible according to the advantageous observations that the relationship between Korean notations and pronunciations can be described as a set of firm rules without exceptions unlike other languages including English. In this paper, we propose a visualization framework which shows the differences between standard pronunciations and erratic ones as quantitative measures on the computer screen. Previous researches only show color representation and 3D graphics of speech properties, or an animated view of changing shapes of lips and mouth cavity. Moreover, the features used in the analysis are only point data such as the average of a speech range. In this study, we propose a method which can directly use the time-series data instead of using summary or distorted data. This was realized by using the deep learning-based technique which combines Self-organizing map, variational autoencoder model, and Markov model, and we achieved a superior performance enhancement compared to the method using the point-based data.

A Morph Analyzer For MATES/CK (중한 기계 번역 시스템을 위한 형태소 분석기)

  • Kang, Won-Seok;Kim, Ji-Hyoun;Song, Young-Mi;Song, Hee-Jung;Huang, Jin-Xia;Chae, Young-Soog;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.331-336
    • /
    • 2000
  • MATES/CK는 기계번역 시스템에서 전통적으로 사용하고 있는 세 단계(분석/변환/생성)에 의해서 중한 번역을 수행하는 시스템이다. MATES/CK는 시스템 성능을 높이기 위해 패턴 기반과 통계적 정보를 이용한다. 태거(Tagger)는 중국어 단어 분리를 최장일치법으로 수행하기 때문에 일부 단어에 대해 오류를 범하게 되고 품사(POS : Part Of Speech) 태깅 시 확률적 정보만 이용하여 특정 단어가 다 품사인 경우 그 단어에 대해 특정 품사만 태깅되는 문제점이 발생한다. 또한 중국어 및 외국어 인명 및 지명에 대한 미등록들에 대해서도 올바른 결과를 도출하지 못한다. 사전에 있어서 텍스트 기반으로 존재하여 이를 관리하기에 힘이 든다. 본 논문에서는 단어 분리 오류 및 품사 태깅 오류를 해결하기 위해 중국어 태깅 제약 규칙을 적용하는 방법을 제시하고 중국어 및 외국어 인명/지명에 대한 미등록어 처리방법을 제시한다. 또한 중국어 사전 관리에 대해 알아본다.

  • PDF