• 제목/요약/키워드: 외국어로서의 한국어

검색결과 111건 처리시간 0.02초

한국어 문형 패턴 조사기의 설계 및 구현 (Design and Implementation of Frame Pattern Analyzer in Korean)

  • 송유석;이상곤;이인홍
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.409-412
    • /
    • 2010
  • 본 논문에서는 한국어에서 출현하는 일반적인 형태의 문장 패턴을 조사하여 제2 외국어로서 한국어를 배우는 외국인들에게 우선적으로 가르쳐야 할 한국어의 문장 패턴을 검색하는 프로그램을 개발하였다. 이를 위해 지난 10년 동안 조사 구축된 21세기 세종 계획의 결과물에 출현하는 한국어에 적합한 문장 패턴을 조사하는 프로그램을 설계하였다.

모국어와 외국어 어휘 산출과 언어 switch 에 따른 뇌 활성화 영역 (Brain activation areas associated with L1 and L2 vocabulary retrieval and language switching)

  • 남기춘;이동훈;김동휘;문양호
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2002년도 춘계학술대회
    • /
    • pp.203-207
    • /
    • 2002
  • 본 연구에서는 한국사람이 모국어인 한국어 단어를 산출할 때와 외국어인 영어 단어를 산출할 때 관여하는 대뇌 영역을 fMRI 를 통해 조사하였다. 또한, 단일 언어를 산출할 때와 두 언어를 수시로 바꾸어서 인출할 때 관련되는 뇌 영역이 어디인지를 조사하였다. 실험에 참가한 피험자는 외국어를 공식적인 교육을 통해 12 세 근처에서 배우기 시작한 대학생이었다. 흔히 분류하는 방식으로 late learner로 구분되는 학생들이었다. 한 피험자가 세 종류의 실험 모두에 참여하였다. 피험자의 실험과제는 그림을 보고 그림에 해당되는 이름을 인출하여 말하는 과제였다. 실험 1, 2, 3 모두에서 사건관련 fMRI(event-related fMRI) 기법을 사용하였다. 실험 1에서는 그림을 보고 그림 이름에 해당되는 한국어 어휘와 외래어 어휘를 산출하게 하였다. 언어관련 뇌영역인 Wernicke 영역, Broca 영역, SMA 영역, SMG 영역 등에서 유의미한 활성화가 있었다. 실험 2 에서는 실험 1 에서 사용하지 않았던 그림을 사용하여 그림의 영어 이름과 외래어 이름을 인출하게 하였다. 외국어인 영어 단어를 산출할 때에도 모국어 단어를 산출할 때와 유사한 영역이 활성화되었다. 특히 외래어 산출 시에는 뇌 활성화 영역이 모국어와 영어 단어 산출할 때와 모국어 산출할 때 활성화되는 공통 영역이 활성화되었다. 모국어 산출과 영어 단어 산출의 차이점은 외국어 산출 시에 활성화 영역이 전반적으로 더 컸다는 것과 외국어 단어 산출 시에 Broca 영역보다 조금 밑쪽에서 그리고 모국어 단어 산출시에는 전전두엽 영역에서 더 많은 활성화가 있었다. 실험 3 에서도 실험 1 과 실험 2 에 사용하지 않았던 그림을 사용하였다. 실험 3 의 특이한 결과는 언어 switching 이 있는 경우에 전통적인 언어 영역 활성화 외에 전전두엽의 활성화가 컸다는 것이다. 아마도 언어를 바꾸어 가면서 단어를 산출하는 것이 전전두엽의 정보선택과정에 많은 영향을 주었던 것으로 해석된다. 전체적으로 어휘 산출시에 모국어 어휘, 외국어 어휘, 외래어 등을 산출할 때 공통되는 언어 영역과 언어 특성적 영역이 활성화된다고 결론지을 수 있을 것 같다.

  • PDF

Distance LSTM-CNN with Layer Normalization을 이용한 음차 표기 대역 쌍 판별 (Verification of Transliteration Pairs Using Distance LSTM-CNN with Layer Normalization)

  • 이창수;천주룡;김주근;김태일;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.76-81
    • /
    • 2017
  • 외국어로 구성된 용어를 발음에 기반하여 자국의 언어로 표기하는 것을 음차 표기라 한다. 국가 간의 경계가 허물어짐에 따라, 외국어에 기원을 두는 용어를 설명하기 위해 뉴스 등 다양한 웹 문서에서는 동일한 발음을 가지는 외국어 표기와 한국어 표기를 혼용하여 사용하고 있다. 이에 좋은 검색 결과를 가져오기 위해서는 외국어 표기와 더불어 사람들이 많이 사용하는 다양한 음차 표기를 함께 검색에 활용하는 것이 중요하다. 음차 표기 모델과 음차 표기 대역 쌍 추출을 통해 음차 표현을 생성하는 기존 방법 대신, 본 논문에서는 신뢰할 수 있는 다양한 음차 표현을 찾기 위해 문서에서 음차 표기 후보를 찾고, 이 음차 표기 후보가 정확한 표기인지 판별하는 방식을 제안한다. 다양한 딥러닝 모델을 비교, 검토하여 최종적으로 음차 표기 대역 쌍 판별에 특화된 모델인 Distance LSTM-CNN 모델을 제안하며, 제안하는 모델의 Batch Size 영향을 줄이고 학습 시 수렴 속도 개선을 위해 Layer Normalization을 적용하는 방법을 보인다.

  • PDF

DECO-LGG 반자동 증강 학습데이터 활용 멀티태스크 트랜스포머 모델 기반 핀테크 CS 챗봇 NLU 시스템 (Multitask Transformer Model-based Fintech Customer Service Chatbot NLU System with DECO-LGG SSP-based Data)

  • 유광훈;황창회;윤정우;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.461-466
    • /
    • 2021
  • 본 연구에서는 DECO(Dictionnaire Electronique du COreen) 한국어 전자사전과 LGG(Local-Grammar Graph)에 기반한 반자동 언어데이터 증강(Semi-automatic Symbolic Propagation: SSP) 방식에 입각하여, 핀테크 분야의 CS(Customer Service) 챗봇 NLU(Natural Language Understanding)을 위한 주석 학습 데이터를 효과적으로 생성하고, 이를 기반으로 RASA 오픈 소스에서 제공하는 DIET(Dual Intent and Entity Transformer) 아키텍처를 활용하여 핀테크 CS 챗봇 NLU 시스템을 구현하였다. 실 데이터을 통해 확인된 핀테크 분야의 32가지의 토픽 유형 및 38가지의 핵심 이벤트와 10가지 담화소 구성에 따라, DECO-LGG 데이터 생성 모듈은 질의 및 불만 화행에 대한 양질의 주석 학습 데이터를 효과적으로 생성하며, 이를 의도 분류 및 Slot-filling을 위한 개체명 인식을 종합적으로 처리하는 End to End 방식의 멀티태스크 트랜스포머 모델 DIET로 학습함으로써 DIET-only F1-score 0.931(Intent)/0.865(Slot/Entity), DIET+KoBERT F1-score 0.951(Intent)/0.901(Slot/Entity)의 성능을 확인하였으며, DECO-LGG 기반의 SSP 생성 데이터의 학습 데이터로서의 효과성과 함께 KoBERT에 기반한 DIET 모델 성능의 우수성을 입증하였다.

  • PDF

한글에 의한 외국어 표기법에서 음절표현 방법 제안 (Suggestion of syllable representation methods for foreign languages in Hangul)

  • 정태충
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.65-69
    • /
    • 2015
  • 우리 모두 소리의 표현력이 뛰어난 한글의 우수성은 너무나 잘 알고 있으며, 한글의 세계화를 외치고 있다. 그러나 그런 일을 해야할 국립국어원 등 국가기관은 외국어 표기법을 만들지 않고 있다. 외래어표기법으로 충분하다고 생각하고 있는 것이다. 외래어표기법은 현재의 한글을 유지하면서 외국어를 한글 단어로 만들 때 어떻게 만드느냐를 규정한 것이다. 한글세계화에 필요한 외국어 표기법은 한글로 외국어를 잘 표현함으로써 한글을 외국에 퍼트리는 것이 목표이다. 따라서 외국인이 쓰기에 편리해야하고 외국어 발음 왜곡을 최소화 하면서 잘 표현해 내기엔 현재 한글로는 부족한 면이 있음으로 표현력이 확장된 한글을 만들어야한다. 물론 확장된 한글이 현재의 한글과 동떨어지면 안될 것이다. 많은 분들이 여러 아이디어로 제안을 해 왔지만 대부분 자음을 추가하는 데에 집중되어 있다. 확장한글에서 다루어야할 것은 1) 추가되는 자음과 모음 2) 한글에 없는 성조나 강약 및 장단 등에 관한 규정 추가 등이면 된다고 생각하고 있다. 그러나 한글의 큰 특성인 음절이 외국어 표현 때에 왜곡되는 현상이 있는데, 어떻게 외국어와 한글의 음절개념을 일치시킬 수 있을지에 대해 관심을 가지고 방안을 제안하고자 한다. 그 방안으로는 1) 합용병서와 2) 풀어쓰기 활용법이 가능하나, 필자는 중간선으로 3) 촉진자 표기법을 제안한다. 또한, 크기조절법에 대응해 음절인 글자 위에 점을 표기하는 음절점표기법도 제안한다.

  • PDF

제2 외국어로 한국어를 배우는 영어권 학습자의 한국어 부사격 조사 '-에 의 습득과 발달에 관한 연구 (The Acquisition and Development of the Korean Adverbial Particle -ey by L1 English Learners of Korean)

  • 에브루 터커
    • 한국어교육
    • /
    • 제28권4호
    • /
    • pp.337-366
    • /
    • 2017
  • 이 연구는 미국 대학에서 제2외국어로 한국어를 배우는 영어권 학습자의 부사형 조사 '-에'의 다양한 의미론적 뜻의 습득을 고찰한다. 이 연구는 초급반, 중급반, 고급반의 45명 참가자들을 대상으로, 한국어 학습 첫 학기 교실에서 이 조사가 가르쳐 졌을 때 각 단계의 학습자들이 어떻게 그 의미를 해석하며 실제로 어떻게 사용하는가에 대한 수행능력을 중심으로 이루어졌다. 이 연구 결과는 다양한 의미론적 뜻에 대해 서로 다른 발달 과정을 보여주고 있다. 통계 분석 결과에 따르면 초급반과 중급반에서는 이 연구 과제 '-에'의 의미 중 시간과 목표, 정적인 위치적 의미의 습득이 접촉의 의미나, 개별의 의미보다 좀 더 쉽게 습득 된다는 것을 보여주고 있다. 반면에 고급반에서는 개별의 의미를 제외하고는 모든 의미론적인 의미가 거의 목표점까지 도달하였다. 이 연구는 의미론적 복합성과 다른 언어권 간의 영향과 같은 요인과 함께, 제2 언어 빈도수, 언어학적 입력, 습득 방식과 같은 다양한 요인이 '-에'의 습득에 영향을 미친다는 것을 제시하고 있다.

반자동 언어데이터 증강 방식에 기반한 FbSA 모델 학습을 위한 감성주석 데이터셋 FeSAD 구축 (Building Sentiment-Annotated Datasets for Training a FbSA model based on the SSP methodology)

  • 윤정우;황창회;최수원;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.66-71
    • /
    • 2021
  • 본 연구는 한국어 자질 기반 감성분석(Feature-based Sentiment Analysis: FbSA)을 위한 대규모의 학습데이터 구축에 있어 반자동 언어데이터 증강 기법(SSP: Semi-automatic Symbolic Propagation)에 입각한 자질-감성 주석 데이터셋 FeSAD(Feature-Sentiment-Annotated Dataset)의 개발 과정과 성능 평가를 소개하는 것을 목표로 한다. FeSAD는 언어자원을 활용한 SSP 1단계 주석 이후, 작업자의 주석이 2단계에서 이루어지는 2-STEP 주석 과정을 통해 구축된다. SSP 주석을 위한 언어자원에는 부분 문법 그래프(Local Grammar Graph: LGG) 스키마와 한국어 기계가독형 전자사전 DECO(Dictionnaire Electronique du COréen)가 활용되며, 본 연구에서는 7개의 도메인(코스메틱, IT제품, 패션/의류, 푸드/배달음식, 가구/인테리어, 핀테크앱, KPOP)에 대해, 오피니언 트리플이 주석된 FeSAD 데이터셋을 구축하는 프로세싱을 소개하였다. 코스메틱(COS)과 푸드/배달음식(FOO) 두 도메인에 대해, 언어자원을 활용한 1단계 SSP 주석 성능을 평가한 결과, 각각 F1-score 0.93과 0.90의 성능을 보였으며, 이를 통해 FbSA용 학습데이터 주석을 위한 작업자의 작업이 기존 작업의 10% 이하의 비중으로 감소함으로써, 학습데이터 구축을 위한 프로세싱의 소요시간과 품질이 획기적으로 개선될 수 있음을 확인하였다.

  • PDF

반자동구축된 개체명 주석코퍼스 DecoNAC과 KoBERT를 이용한 개체명인식 플랫폼 DecoNERO (A Named Entity Recognition Platform Based on Semi-Automatically Built NE-annotated Corpora and KoBERT)

  • 김신우;황창회;윤정우;이성현;최수원;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.304-309
    • /
    • 2020
  • 본 연구에서는 한국어 전자사전 DECO(Dictionnaire Electronique du COreen)와 다단어(Multi-Word Expressions: MWE) 개체명을 부분 패턴으로 기술하는 부분문법그래프(Local-Grammar Graph: LGG) 프레임에 기반하여 반자동으로 개체명주석 코퍼스 DecoNAC을 구축한 후, 이를 개체명 분석에 활용하고 또한 기계학습에 필요한 도메인별 학습 데이터로 활용하는 DecoNERO 개체명인식 플랫폼을 소개하는 데에 목적을 두었다. 최근 들어 좋은 성과를 보이는 것으로 보고되고 있는 기계학습 방법론들은 다양한 도메인을 기반으로한 대규모의 학습데이터를 필요로 한다. 본 연구에서는 정교하게 설계된 개체명 사전과 다단어 개체명 시퀀스에 대한 언어자원을 바탕으로 하는 반자동으로 학습데이터를 생성하는 방법론을 제안하였다. 본 연구에서 제안된 개체명주석 코퍼스 DecoNAC 기반 접근법의 성능을 실험하기 위해 온라인 뉴스 기사 텍스트를 바탕으로 실험을 진행하였다. 이 실험에서 DecoNAC을 적용한 경우, KoBERT 모델만으로 개체명을 인식한 결과에 비해 약 7.49%의 성능향상을 기대할 수 있음을 확인하였다.

  • PDF

유럽어 사용자를 위한 원격 한국어 코스웨어 개발도구 (Developing Tool of Distance Learning Korean Coursewares for European Language Speakers)

  • 김기혜;윤애선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.446-453
    • /
    • 1997
  • 정보화 시대에 한국어의 활발한 보급을 위해서는 다양한 모국어 사용자들의 학습 요구를 충족 시키는 한국어 코스웨어의 개발 및 통신망을 이용한 제공이 필요하다. 하지만, 외국어로서 한국어를 학습하고자 하는 학습자들을 위한 한국어 코스웨어는 영어와 일본어에 국한되어 있어서 유럽어를 모국어로 하는 학습자들의 한국어 학습 효율을 저하시키므로, 그들의 모국어로 된 한국어 코스웨어의 개발이 요구된다. 이러한 개발 단계에서 제일 처음 부딪히는 문제로 한글 윈도우(Windows)나 통신망(net-work) 환경에서 영어의 알파벳을 제외한 유럽어(European Languages) 특수문자의 입 출력이 불가능하다는 것이다. 따라서 비전산 전문가들이 손쉽게 코스웨어를 만들 수 있도록 개발된 기존의 저작 도구(authoring tool)로는 유럽어와 한글을 동시에 사용하는 한국어 학습 내용을 기술할 수 없다. 본 논문에서는 한국어 학습을 위한 원격 교육의 필요성 및 문제점을 알아보고 이를 바탕으로 설계한 유럽어 지원 한국어 코스웨어 개발 도구(developing tool)인 반디(BANDI)의 시스템 구성, 사용자 인터페이스 및 비전산 전문가인 학습 내용 개발자를 위한 스크립트 언어를 소개하였다.

  • PDF

PESAA - 컴퓨터 보조 영어 말하기 훈련 시스템 (PESAA - Computer Assisted English Speaking Training system)

  • 방지수;이종훈;강세천;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.73-76
    • /
    • 2012
  • 영어 교육의 필요성이 증가하고 그에 대한 수요가 늘어남에 따라 컴퓨터를 이용한 외국어 교육 시스템이 개인적인 영어 교육방법으로 소개되고 있다. 새로운 외국어를 접할 때 습득하기 어려운 부분 중 하나가 발음이고, 발음이 외국어 말하기 실력에 중요한 요소이기 때문에 특별한 훈련이 필요하다. 본 논문에서는 이러한 문제점에 대하여 충분히 인지하고 외국어 발음 향상에 도움을 주기 위하여 컴퓨터 보조 발음 훈련시스템을 개발하였다. 본 시스템은 발음 훈련과 억앙 훈련, 즉 문장 강세 훈련과 끊어 읽기 훈련을 포함하며, 사용자의 발화에 대해 적절한 평가와 피드백을 제공한다. 본 논문에서는 발음 훈련 시스템의 구성요소와 동작에 대하여 중점적으로 기술하였다.

  • PDF