• 제목/요약/키워드: 외국어로서의 한국어

검색결과 112건 처리시간 0.028초

한국어 뉴스 헤드라인의 토픽 분류에 대한 실증적 연구 (An Empirical Study of Topic Classification for Korean Newspaper Headlines)

  • 박제윤;김민규;오예림;이상원;민지웅;오영대
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.287-292
    • /
    • 2021
  • 좋은 자연어 이해 시스템은 인간과 같이 텍스트에서 단순히 단어나 문장의 형태를 인식하는 것 뿐만 아니라 실제로 그 글이 의미하는 바를 정확하게 추론할 수 있어야 한다. 이 논문에서 우리는 뉴스 헤드라인으로 뉴스의 토픽을 분류하는 open benchmark인 KLUE(Korean Language Understanding Evaluation)에 대하여 기존에 비교 실험이 진행되지 않은 시중에 공개된 다양한 한국어 라지스케일 모델들의 성능을 비교하고 결과에 대한 원인을 실증적으로 분석하려고 한다. KoBERT, KoBART, KoELECTRA, 그리고 KcELECTRA 총 네가지 베이스라인 모델들을 주어진 뉴스 헤드라인을 일곱가지 클래스로 분류하는 KLUE-TC benchmark에 대해 실험한 결과 KoBERT가 86.7 accuracy로 가장 좋은 성능을 보여주었다.

  • PDF

외국인을 위한 한글맞춤법 시안 연구 (A Study on Hangeul Orthography Guidelines for Foreigners)

  • 한재영
    • 한국어교육
    • /
    • 제28권4호
    • /
    • pp.273-296
    • /
    • 2017
  • This study focuses on a review of Hangeul orthography guidelines in Korean language regulations. It is indispensable to revise the guidelines thoroughly because it has been more than 80 years since a unified plan of Korean orthography was established in 1933, which the current orthography is based on. Also, it has been approximately 30 years since 1989, when the current guidelines were issued and promulgated. The viewpoint towards this review reflects the requirements by education fields of Korean as a foreign language and modern Korean users. Hangeul orthography consists of six clauses, along with an appendix regarding punctuation marks: 1) general rules, 2) consonants and vowels, 3) related to sounds, 4) about forms, 5) spacing between words, and 6) miscellaneous. This paper examined individual clauses and specific usages of the clauses, in terms of Korean as a foreign language. Based on the review, this paper suggests the following tasks in order to establish a draft of Hangeul orthography for foreigners. A. Among the individual clauses, some clauses that embody vocabulary education aspects should be addressed in a Korean dictionary, and deleted in Hangeul orthography guidelines. B. The clauses of Hangeul orthography guidelines should be edited for revision and substitution where necessary. C. The usage of individual clauses should be replaced with more appropriate examples aligned with everyday conversation. D. In order to establish 'Hangeul orthography for foreigners', linguists should continuously review several chapters and the appendix of Hangeul orthography, such as components about forms, spacing between words, miscellaneous, and punctuation marks. The purpose of this review is to pursue the simplicity of Hangeul orthography guidelines and the practicality in terms of reflecting more realistic examples. This review contributes to facilitate Korean language usage not only for non-native learners, but also native users.

ChatGPT 기반 한국어 Vision-Language Pre-training을 위한 고품질 멀티모달 데이터셋 구축 방법론 (High-Quality Multimodal Dataset Construction Methodology for ChatGPT-Based Korean Vision-Language Pre-training)

  • 성진;한승헌;신종훈;임수종;권오욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.603-608
    • /
    • 2023
  • 본 연구는 한국어 Vision-Language Pre-training 모델 학습을 위한 대규모 시각-언어 멀티모달 데이터셋 구축에 대한 필요성을 연구한다. 현재, 한국어 시각-언어 멀티모달 데이터셋은 부족하며, 양질의 데이터 획득이 어려운 상황이다. 따라서, 본 연구에서는 기계 번역을 활용하여 외국어(영문) 시각-언어 데이터를 한국어로 번역하고 이를 기반으로 생성형 AI를 활용한 데이터셋 구축 방법론을 제안한다. 우리는 다양한 캡션 생성 방법 중, ChatGPT를 활용하여 자연스럽고 고품질의 한국어 캡션을 자동으로 생성하기 위한 새로운 방법을 제안한다. 이를 통해 기존의 기계 번역 방법보다 더 나은 캡션 품질을 보장할 수 있으며, 여러가지 번역 결과를 앙상블하여 멀티모달 데이터셋을 효과적으로 구축하는데 활용한다. 뿐만 아니라, 본 연구에서는 의미론적 유사도 기반 평가 방식인 캡션 투영 일치도(Caption Projection Consistency) 소개하고, 다양한 번역 시스템 간의 영-한 캡션 투영 성능을 비교하며 이를 평가하는 기준을 제시한다. 최종적으로, 본 연구는 ChatGPT를 이용한 한국어 멀티모달 이미지-텍스트 멀티모달 데이터셋 구축을 위한 새로운 방법론을 제시하며, 대표적인 기계 번역기들보다 우수한 영한 캡션 투영 성능을 증명한다. 이를 통해, 우리의 연구는 부족한 High-Quality 한국어 데이터 셋을 자동으로 대량 구축할 수 있는 방향을 보여주며, 이 방법을 통해 딥러닝 기반 한국어 Vision-Language Pre-training 모델의 성능 향상에 기여할 것으로 기대한다.

  • PDF

외국어 음차 표기의 음성적 유사도 비교 알고리즘 (Phonetic Similarity Meausre for the Korean Transliterations of Foreign Words)

  • 강병주;이재성;최기선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권10호
    • /
    • pp.1237-1246
    • /
    • 1999
  • 최근 모든 분야에서 외국과의 교류가 증대됨에 따라서 한국어 문서에는 점점 더 많은 외국어 음차 표기가 사용되는 경향이 있다. 하지만 같은 외국어에 대한 음차 표기에 개인차가 심하여 이들 음차 표기를 포함한 문서들에 대한 검색을 어렵게 만드는 원인이 되고 있다. 한 가지 해결 방법은 색인 시에 같은 외국어에서 온 음차 표기들을 등가부류로 묶어서 색인해 놓았다가 질의 시에 확장하는 방법이다. 본 논문에서는 외국어 음차 표기들의 등가부류를 만드는데 필요한 음차 표기의 음성적 유사도 비교 알고리즘인 Kodex를 제안한다. Kodex 방법은 기존의 스트링 비교 방법인 비음성적 방법에 비해 음차 표기들을 등가부류로 클러스터링하는데 있어 더 나은 성능을 보이면서도, 계산이 간단하여 훨씬 효율적으로 구현될 수 있는 장점이 있다.Abstract With the advent of digital communication technologies, as Koreans communicate with foreigners more frequently, more foreign word transliterations are being used in Korean documents more than ever before. The transliterations of foreign words are very various among individuals. This makes text retrieval tasks about these documents very difficult. In this paper we propose a new method, called Kodex, of measuring the phonetic similarity among foreign word transliterations. Kodex can be used to generate the equivalence classes of the transliterations while indexing and conflate the equivalent transliterations at the querying stage. We show that Kodex gives higher precision at the similar recall level and is more efficient in computation than non-phonetic methods based on string similarity measure.

심층학습을 이용한 음절태깅 기반의 외래어 인식 시스템 (Loanword Recognition Using Deep Learning)

  • 박호민;김창현;천민아;노경목;김재훈
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.71-75
    • /
    • 2017
  • 외래어란 외국어로부터 들어와 한국어에 동화되고 한국어로서 사용되는 언어이다. 나날이 우리의 언어사용 문화에서 외래어의 사용 비율은 높아져가는 추세로, 전문분야에서는 특히 두드러진다. 그러므로 더 효율적이고 효과적인 자연언어처리를 위해서 문서 내 외래어 인식은 중요한 전처리 과정이다. 따라서 본 논문에서는 bidirectional LSTM(이하 bi-LSTM)-CRF 모형의 심층학습을 이용한 음절태깅 기반의 외래어 인식 시스템을 제안한다. 제안하는 시스템의 외래어 인식 학습 과정은 다음과 같다. 첫째, 학습용 말뭉치 자료의 한글 음절들과 공백, 마침표(.)를 토대로 word2vec을 통해 학습용 피쳐(feature) 자료를 생성한다. 둘째, 학습용 말뭉치 자료와 학습용 피쳐 자료를 결합하여 bi-LSTM 모형 학습 자료를 구축한다. 셋째, bi-LSTM 모형을 거쳐 학습된 결과물을 CRF 모형에서 로그 가능도(log likelyhood)와 비터비(Viterbi) 알고리즘을 통해 학습 결과물을 내놓는다. 넷째, 학습용 말뭉치 자료의 정답과 비교한 뒤 모형 내부의 수치들을 조정한다. 다섯째, 학습을 마칠 때까지 반복한다. 본 논문에서 제안하는 시스템을 이용하여 자체적인 뉴스 수집 자료에 대해서 높은 정확도와 재현율을 기록하였다.

  • PDF

한국어 숙달도와 문법성 판단 능력의 상관관계 연구 (A Study on the Correlation between Korean Learners' Proficiency and Grammaticality Judgement Competence)

  • 김영주;이선영;이정민;백준오;이선진;이재은
    • 한국어교육
    • /
    • 제23권1호
    • /
    • pp.123-159
    • /
    • 2012
  • This study investigates relationships between TOPIK ratings and measures of grammaticality judgement competence in the acquisition of Korean as a second language. Data were collected on the linguistic abilities of learners' at 3 to 6 on the TOPIK scale, focusing on perception in grammar-mostly morphology and syntax, some lexis, and a few of collocation. The results show that (i) proficiency and grammaticality judgement competence show high correlation, (ii) individual accuracy scores correlate strongly with levels on the TOPIK proficiency scale on most linguistic features in the test, and (iii) Japanese speakers outperform Chinese speakers at the same levels of proficiency on most linguistic features. The findings indicate that global proficiency scales like the TOPIK can be deconstructed using grammaticality judgement test that provides detailed measures of learners' control of linguistic features.

한국어-영어 말처리 평가시스템 개발을 위한 기초 연구 (Pilot study for the development of Korean and English speech processing task system)

  • 김지영;하지완
    • 말소리와 음성과학
    • /
    • 제16권2호
    • /
    • pp.29-36
    • /
    • 2024
  • 심리언어학적 접근에 기반한 말처리 모델은 다양한 경로를 통해 말소리장애아동의 구체적인 말처리 결함을 한눈에 파악할 수 있는 모델이다. 말소리장애아동이 보이는 말산출 결함은 원인을 알 수 없는 경우가 대부분이기 때문에 개별화된 중재를 위해서는 기저의 강약점을 파악하는 것이 중요하다. 또한 말소리장애 아동의 모국어 결함은 외국어 산출에도 영향을 미칠 수 있기 때문에 모국어와 외국어라는 두 언어 간 말처리 능력을 함께 살펴볼 필요가 있다. 본 연구는 한국어-영어 말처리 평가시스템 개발을 위한 예비연구로, 말소리장애아동(SSD) 10명과 일반아동(NSA) 20명을 대상으로 말산출 과제와 말처리 과제(변별, 음운표상판단, 비단어따라말하기)를 한국어와 영어로 각각 실시하여 언어종류에 따른 집단 간 비교를 시도하였다. 연구 결과, SSD 집단은 두 언어에서 모두 NSA 집단에 비해 유의하게 낮은 산출능력을 보였다. 말처리 과제 결과, 변별과제에서는 유의한 차이를 보이지 않은 반면, 음운표상판단과제의 경우 언어 종류 간, 비단어따라말하기과제의 경우 언어종류와 집단 간에서도 그 차이가 유의하였다. 본 연구의 결과를 통해 아동의 모국어와 외국어 처리능력은 상이할 수 있으며, 추후 말처리 평가 프로그램 개발을 위해 하위과제를 보다 세분화하고 난이도를 조절할 필요가 있음을 확인하였다.

일본어 화자의 한국어 평음/기음/경음의 지각과 산출 (Japanese Speakers' Perception and Production of Korean Lenis, Aspirated, and Fortis Consonants)

  • 황유미;조혜숙;김수진
    • 대한음성학회지:말소리
    • /
    • 제44호
    • /
    • pp.61-72
    • /
    • 2002
  • The purpose of this research is to investigate how Japanese speakers perceive and produce Lenis, Aspirated and Fortis consonants in Korean. Identification tasks and production tasks were performed. The error analysis of both task showed that the participants had a significant difficulty in discriminating between Lenis and Aspirated sounds. And it was observed that there was a positive correlation between identification scores and production scores.

  • PDF

홀로렌즈를 활용한 낱말 학습 시스템 (Word Learning System Using HoloLens)

  • 임혜정;문미경
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.529-530
    • /
    • 2022
  • 단어 카드나 그림을 통한 낱말 교육은 집중력과 주의력을 오래 유지하는 것이 어렵다. 유아들은 사물을 심상 혹은 이미지로 인식하는 성향이 있으므로 개념을 무리하게 주입시키기 보다는 감각적이고 입체적인 교육이 필요하다. 본 논문에서는 홀로렌즈와 객체 인식 기능을 이용한 낱말 학습 시스템 개발에 대해 설명한다. 이 시스템을 통해 사용자는 실제 객체와의 상호작용을 통해 낱말 학습이 가능하며, 한국어를 제외한 언어에도 적용하여 외국어 교육에도 효과적일 것으로 기대한다.

  • PDF

좌충우돌 감성분석 BERT 미세조정 분석 (Sentiment Analysis BERT Models Challenge)

  • 박정원;모현수;김정민
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제63차 동계학술대회논문집 29권1호
    • /
    • pp.13-15
    • /
    • 2021
  • 텍스트에 나타나는 감성을 분석하는 NLP task 중 하나인 감성분석에 자주 사용되는 한국어와 외국어 데이터들에 대해 다양한 BERT 모델들을 적용한 결과를 고성능 순서로 정리한 사이트(Paper with code)와 Github를 통해 준수한 성능을 보이는 BERT 모델들을 분석하고 실행해보며 성능향상을 통한 차별성을 가지는 것이 목표이다.

  • PDF