• Title/Summary/Keyword: 외국어로서의 한국어

Search Result 111, Processing Time 0.022 seconds

An Empirical Study of Topic Classification for Korean Newspaper Headlines (한국어 뉴스 헤드라인의 토픽 분류에 대한 실증적 연구)

  • Park, Jeiyoon;Kim, Mingyu;Oh, Yerim;Lee, Sangwon;Min, Jiung;Oh, Youngdae
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.287-292
    • /
    • 2021
  • 좋은 자연어 이해 시스템은 인간과 같이 텍스트에서 단순히 단어나 문장의 형태를 인식하는 것 뿐만 아니라 실제로 그 글이 의미하는 바를 정확하게 추론할 수 있어야 한다. 이 논문에서 우리는 뉴스 헤드라인으로 뉴스의 토픽을 분류하는 open benchmark인 KLUE(Korean Language Understanding Evaluation)에 대하여 기존에 비교 실험이 진행되지 않은 시중에 공개된 다양한 한국어 라지스케일 모델들의 성능을 비교하고 결과에 대한 원인을 실증적으로 분석하려고 한다. KoBERT, KoBART, KoELECTRA, 그리고 KcELECTRA 총 네가지 베이스라인 모델들을 주어진 뉴스 헤드라인을 일곱가지 클래스로 분류하는 KLUE-TC benchmark에 대해 실험한 결과 KoBERT가 86.7 accuracy로 가장 좋은 성능을 보여주었다.

  • PDF

A Study on Hangeul Orthography Guidelines for Foreigners (외국인을 위한 한글맞춤법 시안 연구)

  • Han, Jae young
    • Journal of Korean language education
    • /
    • v.28 no.4
    • /
    • pp.273-296
    • /
    • 2017
  • This study focuses on a review of Hangeul orthography guidelines in Korean language regulations. It is indispensable to revise the guidelines thoroughly because it has been more than 80 years since a unified plan of Korean orthography was established in 1933, which the current orthography is based on. Also, it has been approximately 30 years since 1989, when the current guidelines were issued and promulgated. The viewpoint towards this review reflects the requirements by education fields of Korean as a foreign language and modern Korean users. Hangeul orthography consists of six clauses, along with an appendix regarding punctuation marks: 1) general rules, 2) consonants and vowels, 3) related to sounds, 4) about forms, 5) spacing between words, and 6) miscellaneous. This paper examined individual clauses and specific usages of the clauses, in terms of Korean as a foreign language. Based on the review, this paper suggests the following tasks in order to establish a draft of Hangeul orthography for foreigners. A. Among the individual clauses, some clauses that embody vocabulary education aspects should be addressed in a Korean dictionary, and deleted in Hangeul orthography guidelines. B. The clauses of Hangeul orthography guidelines should be edited for revision and substitution where necessary. C. The usage of individual clauses should be replaced with more appropriate examples aligned with everyday conversation. D. In order to establish 'Hangeul orthography for foreigners', linguists should continuously review several chapters and the appendix of Hangeul orthography, such as components about forms, spacing between words, miscellaneous, and punctuation marks. The purpose of this review is to pursue the simplicity of Hangeul orthography guidelines and the practicality in terms of reflecting more realistic examples. This review contributes to facilitate Korean language usage not only for non-native learners, but also native users.

High-Quality Multimodal Dataset Construction Methodology for ChatGPT-Based Korean Vision-Language Pre-training (ChatGPT 기반 한국어 Vision-Language Pre-training을 위한 고품질 멀티모달 데이터셋 구축 방법론)

  • Jin Seong;Seung-heon Han;Jong-hun Shin;Soo-jong Lim;Oh-woog Kwon
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.603-608
    • /
    • 2023
  • 본 연구는 한국어 Vision-Language Pre-training 모델 학습을 위한 대규모 시각-언어 멀티모달 데이터셋 구축에 대한 필요성을 연구한다. 현재, 한국어 시각-언어 멀티모달 데이터셋은 부족하며, 양질의 데이터 획득이 어려운 상황이다. 따라서, 본 연구에서는 기계 번역을 활용하여 외국어(영문) 시각-언어 데이터를 한국어로 번역하고 이를 기반으로 생성형 AI를 활용한 데이터셋 구축 방법론을 제안한다. 우리는 다양한 캡션 생성 방법 중, ChatGPT를 활용하여 자연스럽고 고품질의 한국어 캡션을 자동으로 생성하기 위한 새로운 방법을 제안한다. 이를 통해 기존의 기계 번역 방법보다 더 나은 캡션 품질을 보장할 수 있으며, 여러가지 번역 결과를 앙상블하여 멀티모달 데이터셋을 효과적으로 구축하는데 활용한다. 뿐만 아니라, 본 연구에서는 의미론적 유사도 기반 평가 방식인 캡션 투영 일치도(Caption Projection Consistency) 소개하고, 다양한 번역 시스템 간의 영-한 캡션 투영 성능을 비교하며 이를 평가하는 기준을 제시한다. 최종적으로, 본 연구는 ChatGPT를 이용한 한국어 멀티모달 이미지-텍스트 멀티모달 데이터셋 구축을 위한 새로운 방법론을 제시하며, 대표적인 기계 번역기들보다 우수한 영한 캡션 투영 성능을 증명한다. 이를 통해, 우리의 연구는 부족한 High-Quality 한국어 데이터 셋을 자동으로 대량 구축할 수 있는 방향을 보여주며, 이 방법을 통해 딥러닝 기반 한국어 Vision-Language Pre-training 모델의 성능 향상에 기여할 것으로 기대한다.

  • PDF

Phonetic Similarity Meausre for the Korean Transliterations of Foreign Words (외국어 음차 표기의 음성적 유사도 비교 알고리즘)

  • Gang, Byeong-Ju;Lee, Jae-Seong;Choe, Gi-Seon
    • Journal of KIISE:Software and Applications
    • /
    • v.26 no.10
    • /
    • pp.1237-1246
    • /
    • 1999
  • 최근 모든 분야에서 외국과의 교류가 증대됨에 따라서 한국어 문서에는 점점 더 많은 외국어 음차 표기가 사용되는 경향이 있다. 하지만 같은 외국어에 대한 음차 표기에 개인차가 심하여 이들 음차 표기를 포함한 문서들에 대한 검색을 어렵게 만드는 원인이 되고 있다. 한 가지 해결 방법은 색인 시에 같은 외국어에서 온 음차 표기들을 등가부류로 묶어서 색인해 놓았다가 질의 시에 확장하는 방법이다. 본 논문에서는 외국어 음차 표기들의 등가부류를 만드는데 필요한 음차 표기의 음성적 유사도 비교 알고리즘인 Kodex를 제안한다. Kodex 방법은 기존의 스트링 비교 방법인 비음성적 방법에 비해 음차 표기들을 등가부류로 클러스터링하는데 있어 더 나은 성능을 보이면서도, 계산이 간단하여 훨씬 효율적으로 구현될 수 있는 장점이 있다.Abstract With the advent of digital communication technologies, as Koreans communicate with foreigners more frequently, more foreign word transliterations are being used in Korean documents more than ever before. The transliterations of foreign words are very various among individuals. This makes text retrieval tasks about these documents very difficult. In this paper we propose a new method, called Kodex, of measuring the phonetic similarity among foreign word transliterations. Kodex can be used to generate the equivalence classes of the transliterations while indexing and conflate the equivalent transliterations at the querying stage. We show that Kodex gives higher precision at the similar recall level and is more efficient in computation than non-phonetic methods based on string similarity measure.

Loanword Recognition Using Deep Learning (심층학습을 이용한 음절태깅 기반의 외래어 인식 시스템)

  • Park, Ho-Min;Kim, Chang-Hyun;Cheon, Min-Ah;Noh, Kyung-Mok;Kim, Jae-Hoon
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.71-75
    • /
    • 2017
  • 외래어란 외국어로부터 들어와 한국어에 동화되고 한국어로서 사용되는 언어이다. 나날이 우리의 언어사용 문화에서 외래어의 사용 비율은 높아져가는 추세로, 전문분야에서는 특히 두드러진다. 그러므로 더 효율적이고 효과적인 자연언어처리를 위해서 문서 내 외래어 인식은 중요한 전처리 과정이다. 따라서 본 논문에서는 bidirectional LSTM(이하 bi-LSTM)-CRF 모형의 심층학습을 이용한 음절태깅 기반의 외래어 인식 시스템을 제안한다. 제안하는 시스템의 외래어 인식 학습 과정은 다음과 같다. 첫째, 학습용 말뭉치 자료의 한글 음절들과 공백, 마침표(.)를 토대로 word2vec을 통해 학습용 피쳐(feature) 자료를 생성한다. 둘째, 학습용 말뭉치 자료와 학습용 피쳐 자료를 결합하여 bi-LSTM 모형 학습 자료를 구축한다. 셋째, bi-LSTM 모형을 거쳐 학습된 결과물을 CRF 모형에서 로그 가능도(log likelyhood)와 비터비(Viterbi) 알고리즘을 통해 학습 결과물을 내놓는다. 넷째, 학습용 말뭉치 자료의 정답과 비교한 뒤 모형 내부의 수치들을 조정한다. 다섯째, 학습을 마칠 때까지 반복한다. 본 논문에서 제안하는 시스템을 이용하여 자체적인 뉴스 수집 자료에 대해서 높은 정확도와 재현율을 기록하였다.

  • PDF

A Study on the Correlation between Korean Learners' Proficiency and Grammaticality Judgement Competence (한국어 숙달도와 문법성 판단 능력의 상관관계 연구)

  • Kim, Youngjoo;Lee, Sun-Young;Lee, Jungmin;Baik, Juno;Lee, Sunjin;Lee, Jaeeun
    • Journal of Korean language education
    • /
    • v.23 no.1
    • /
    • pp.123-159
    • /
    • 2012
  • This study investigates relationships between TOPIK ratings and measures of grammaticality judgement competence in the acquisition of Korean as a second language. Data were collected on the linguistic abilities of learners' at 3 to 6 on the TOPIK scale, focusing on perception in grammar-mostly morphology and syntax, some lexis, and a few of collocation. The results show that (i) proficiency and grammaticality judgement competence show high correlation, (ii) individual accuracy scores correlate strongly with levels on the TOPIK proficiency scale on most linguistic features in the test, and (iii) Japanese speakers outperform Chinese speakers at the same levels of proficiency on most linguistic features. The findings indicate that global proficiency scales like the TOPIK can be deconstructed using grammaticality judgement test that provides detailed measures of learners' control of linguistic features.

Japanese Speakers' Perception and Production of Korean Lenis, Aspirated, and Fortis Consonants (일본어 화자의 한국어 평음/기음/경음의 지각과 산출)

  • Hwang Yu Mi;Cho Hye Suk;Kim Soo Jin
    • MALSORI
    • /
    • no.44
    • /
    • pp.61-72
    • /
    • 2002
  • The purpose of this research is to investigate how Japanese speakers perceive and produce Lenis, Aspirated and Fortis consonants in Korean. Identification tasks and production tasks were performed. The error analysis of both task showed that the participants had a significant difficulty in discriminating between Lenis and Aspirated sounds. And it was observed that there was a positive correlation between identification scores and production scores.

  • PDF

Word Learning System Using HoloLens (홀로렌즈를 활용한 낱말 학습 시스템)

  • Lim, Hyejeong;Moon, Mikyeong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.529-530
    • /
    • 2022
  • 단어 카드나 그림을 통한 낱말 교육은 집중력과 주의력을 오래 유지하는 것이 어렵다. 유아들은 사물을 심상 혹은 이미지로 인식하는 성향이 있으므로 개념을 무리하게 주입시키기 보다는 감각적이고 입체적인 교육이 필요하다. 본 논문에서는 홀로렌즈와 객체 인식 기능을 이용한 낱말 학습 시스템 개발에 대해 설명한다. 이 시스템을 통해 사용자는 실제 객체와의 상호작용을 통해 낱말 학습이 가능하며, 한국어를 제외한 언어에도 적용하여 외국어 교육에도 효과적일 것으로 기대한다.

  • PDF

Sentiment Analysis BERT Models Challenge (좌충우돌 감성분석 BERT 미세조정 분석)

  • Park, Jung-Won;Mo, Hyun-Su;Kim, Jeong-Min
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.01a
    • /
    • pp.13-15
    • /
    • 2021
  • 텍스트에 나타나는 감성을 분석하는 NLP task 중 하나인 감성분석에 자주 사용되는 한국어와 외국어 데이터들에 대해 다양한 BERT 모델들을 적용한 결과를 고성능 순서로 정리한 사이트(Paper with code)와 Github를 통해 준수한 성능을 보이는 BERT 모델들을 분석하고 실행해보며 성능향상을 통한 차별성을 가지는 것이 목표이다.

  • PDF

Suggestions on bilingual models from the perspectives of mental structures and processes (심성구조와 과정을 반영한 이중언어 정보처리 모형의 제언)

  • Yum, Eun-Young;Chung, Chan-Sup
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.233-239
    • /
    • 1995
  • 기존의 이중언어정보 처리 모형을 기억 모형과 상호 작용 모형으로 나누고 기억모형은 다시 발달적 관점을 지닌 모형과 개념 표상과의 관계 구조에 촛점을 둔 모형으로 분류하여 개관하였다. 이중 언어 정보 처리 과정에 관한 이상적인 모형은 심성 어휘집의 관계 구조. 언어이해와 산출의 자동성, 두 언어 체계간의 작용에 관하여 설명할 수 있어야 한다. 이러한 관점에서 지금까지 개관된 모형을 비판하였다. 일부 모형에서는 위의 가정들을 언급하고 있으나 대부분의 모형들이 각각의 가정을 체계적으로 반영하고 있지 않았다. 비판점들을 보완하여 한국인에게 적합한 외국어 교육 프로그램을 개발하고 한국어-영어 번역시스템의 효과적인 운용과 일반적인 언어 정보 처리 기제에 대한 이해를 돕기 위한 새로운 이중 언어 모형을 제안하였다.

  • PDF