• 제목/요약/키워드: 한국어

검색결과 5,292건 처리시간 0.036초

영한 자동번역에서의 한국어 분류사의 반자동 구축 방법 (Semi-Automatic Building of Korean Classifiers in English-Korean MT)

  • 이기영;최승권;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.135-139
    • /
    • 2008
  • 본 논문은 영한 기계번역에서 영어 수사가 포함된 영어 명사구를 한국어로 번역할 때, 영어 명사에 대응되는 한국어 명사의 적절한 분류사를 반자동으로 구축하는 방법에 대해 기술한다. 영한 번역의 측면에서, 분류사는 목표언어인 한국어에서만 나타나는 현상이다. 따라서 영어를 한국어로 번역할 때, 적절한 분류사를 생성하지 않으면 한국어 어법에 맞지 않는 부자연스러운 번역 결과를 생성한다. 본 논문에서는 한국어 태그드 코퍼스와 한국어 의미코드 체계에 따라 한국어 분류사를 반자동으로 구축하는 방법을 제안한다. 제안하는 방법에 따라 한국어 명사에 대해서 한국어 분류사가 구축되었으며, 이렇게 구축된 분류사는 영한 기계번역시스템의 번역 사전에 'KCOUNT'라는 자질을 할당하여 부가하였다. 제안하는 방법의 검증을 위해 수동평가와 자동평가를 수행하였으며, 그 결과, 영한 기계번역의 문장 생성에 있어서 자연스러움(fluency)의 측면에서 번역률 향상이 있었다.

  • PDF

Kant 시스템에서의 한국어 생성을 위한 언어 정보의 구축 (Construction of Korean Linguistic Information for the Korean Generation on KANT)

  • 윤덕호
    • 한국정보처리학회논문지
    • /
    • 제6권12호
    • /
    • pp.3539-3547
    • /
    • 1999
  • KANT(Knowledge-based Accurate Natural language Translation) 시스템 생성 엔진을 위한 한국어 언어 정보를 구축하였다. KANT 시스템은 언어 중립적인 생성 엔진을 갖고 있기 때문에 한국어 언어 정보의 구축은 사실상 한국어 생성 모듈의 개발을 의미한다. 구축된 언어 정보는 개념별 한국어 대응 규칙, 범주별 한국어 대응 규칙, 한국어 사전 및 템플리트 선언, 한국어 문법 규칙, 한국어 어휘 유형, 한국어 어휘 규칙, 한국어 다시 쓰기 규칙 등으로 구성된다. 구축된 언어 정보를 이용해 KANT 시스템 개발 측이 준비한 118 문장 분량의 중간 언어 표현로부터 106 문장을 올바르며 완전한 한국어 문장으로서 생성하였다.

  • PDF

유럽어 사용자를 위한 원격 한국어 코스웨어 개발도구 (Developing Tool of Distance Learning Korean Coursewares for European Language Speakers)

  • 김기혜;윤애선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.446-453
    • /
    • 1997
  • 정보화 시대에 한국어의 활발한 보급을 위해서는 다양한 모국어 사용자들의 학습 요구를 충족 시키는 한국어 코스웨어의 개발 및 통신망을 이용한 제공이 필요하다. 하지만, 외국어로서 한국어를 학습하고자 하는 학습자들을 위한 한국어 코스웨어는 영어와 일본어에 국한되어 있어서 유럽어를 모국어로 하는 학습자들의 한국어 학습 효율을 저하시키므로, 그들의 모국어로 된 한국어 코스웨어의 개발이 요구된다. 이러한 개발 단계에서 제일 처음 부딪히는 문제로 한글 윈도우(Windows)나 통신망(net-work) 환경에서 영어의 알파벳을 제외한 유럽어(European Languages) 특수문자의 입 출력이 불가능하다는 것이다. 따라서 비전산 전문가들이 손쉽게 코스웨어를 만들 수 있도록 개발된 기존의 저작 도구(authoring tool)로는 유럽어와 한글을 동시에 사용하는 한국어 학습 내용을 기술할 수 없다. 본 논문에서는 한국어 학습을 위한 원격 교육의 필요성 및 문제점을 알아보고 이를 바탕으로 설계한 유럽어 지원 한국어 코스웨어 개발 도구(developing tool)인 반디(BANDI)의 시스템 구성, 사용자 인터페이스 및 비전산 전문가인 학습 내용 개발자를 위한 스크립트 언어를 소개하였다.

  • PDF

한국어 부분언어에 대한 문법 정의 및 GLR 파싱 (A grammar definition and the GLR parsing for Korean sub-language)

  • 김지현;정병채;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.142-145
    • /
    • 2013
  • 최근 한국어를 배우는 외국인의 증가로 '외국어로서의 한국어 학습(KFL)'에 대한 관심이 늘고 있다. 본 논문에서는 외국인을 위한 한국어 교재에서 사용된 회화 문장으로부터 문장 패턴을 분석하고 이를 기반으로 한국어 부분 언어 문법을 정의한다. 대개 부분 언어 문법은 간단하고 배우기 쉬우므로 외국어로서의 한국어 학습자들이 쉽게 한국어로 의사소통을 할 수 있을 것이다. 특히, 본 논문에서는 이 부분 문법이 컴퓨터로 해석될 수 있도록 문법을 정의하였고, 이를 자동 어휘분석기 생성기(flex)와 자동 파서 생성기(bison)을 이용해 기본적인 검증을 하였다.

  • PDF

Show, Attend and Tell 모델을 이용한 한국어 캡션 생성 (Korean Image Caption Generator Based on Show, Attend and Tell Model)

  • 김다솔;이계민
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 추계학술대회
    • /
    • pp.258-261
    • /
    • 2022
  • 최근 딥러닝 기술이 발전하면서 이미지를 설명하는 캡션을 생성하는 모델 또한 발전하였다. 하지만 기존 이미지 캡션 모델은 대다수 영어로 구현되어있어 영어로 캡션을 생성하게 된다. 따라서 한국어 캡션을 생성하기 위해서는 영어 이미지 캡션 결과를 한국어로 번역하는 과정이 필요하다는 문제가 있다. 이에 본 연구에서는 기존의 이미지 캡션 모델을 이용하여 한국어 캡션을 직접 생성하는 모델을 만들고자 한다. 이를 위해 이미지 캡션 모델 중 잘 알려진 Show, Attend and Tell 모델을 이용하였다. 학습에는 MS-COCO 데이터의 한국어 캡션 데이터셋을 이용하였다. 한국어 형태소 분석기를 이용하여 토큰을 만들고 캡션 모델을 재학습하여 한국어 캡션을 생성할 수 있었다. 만들어진 한국어 이미지 캡션 모델은 BLEU 스코어를 사용하여 평가하였다. 이때 BLEU 스코어를 사용하여 생성된 한국어 캡션과 영어 캡션의 성능을 평가함에 있어서 언어의 차이에 인한 결과 차이가 발생할 수 있으므로, 영어 이미지 캡션 생성 모델의 출력을 한국어로 번역하여 같은 언어로 모델을 평가한 후 최종 성능을 비교하였다. 평가 결과 한국어 이미지 캡션 생성 모델이 영어 이미지 캡션 생성 모델을 한국어로 번역한 결과보다 좋은 BLEU 스코어를 갖는 것을 확인할 수 있었다.

  • PDF

한국어에 적합한 단어 임베딩 모델 및 파라미터 튜닝에 관한 연구 (On Word Embedding Models and Parameters Optimized for Korean)

  • 최상혁;설진석;이상구
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.252-256
    • /
    • 2016
  • 본 논문에서는 한국어에 최적화된 단어 임베딩을 학습하기 위한 방법을 소개한다. 단어 임베딩이란 각 단어가 분산된 의미를 지니도록 고정된 차원의 벡터공간에 대응 시키는 방법으로, 기계번역, 개체명 인식 등 많은 자연어처리 분야에서 활용되고 있다. 본 논문에서는 한국어에 대해 최적의 성능을 낼 수 있는 학습용 말뭉치와 임베딩 모델 및 적합한 하이퍼 파라미터를 실험적으로 찾고 그 결과를 분석한다.

  • PDF

LSTM을 이용한 한국어 이미지 캡션 생성 (Generate Korean image captions using LSTM)

  • 박성재;차정원
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.82-84
    • /
    • 2017
  • 본 논문에서는 한국어 이미지 캡션을 학습하기 위한 데이터를 작성하고 딥러닝을 통해 예측하는 모델을 제안한다. 한국어 데이터 생성을 위해 MS COCO 영어 캡션을 번역하여 한국어로 변환하고 수정하였다. 이미지 캡션 생성을 위한 모델은 CNN을 이용하여 이미지를 512차원의 자질로 인코딩한다. 인코딩된 자질을 LSTM의 입력으로 사용하여 캡션을 생성하였다. 생성된 한국어 MS COCO 데이터에 대해 어절 단위, 형태소 단위, 의미형태소 단위 실험을 진행하였고 그 중 가장 높은 성능을 보인 형태소 단위 모델을 영어 모델과 비교하여 영어 모델과 비슷한 성능을 얻음을 증명하였다.

  • PDF

딥러닝을 이용한 한국어 VQA (Korean VQA with Deep learning)

  • 배장성;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.364-366
    • /
    • 2018
  • Visual Question Answering(VQA)은 주어진 이미지와 질문에 대해 알맞은 정답을 찾는 기술이다. VQA는 어린이 학습, 인공지능 비서 등 여러 분야에 활용할 수 있는 중요한 기술이다. 그러나 관련된 한국어 데이터를 확보하기 힘든 이유로 한국어를 이용한 연구는 이루어지지 못하고 있다. 본 논문에서는 기존 영어 VQA 데이터를 한글로 번역하여 한국어 VQA 데이터로 사용하며, 이미지 정보와 질문 정보를 적절히 조절할 수 있는 Gate를 한국어 VQA에 적용한다. 실험 결과, 본 논문에서 제안한 모델이 영어 및 한국어 VQA 데이터에서 다른 모델보다 더 좋은 성능을 보였다.

  • PDF

외국인 학습자를 위한 문맥 기반 실시간 국어 문장 교정 (Context Based Real-time Korean Writing Correcting for Foriengers)

  • 박영근;최재성;김재민;이성동;이현아
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.273-275
    • /
    • 2016
  • 외국인 유학생과 국내 체류 외국인을 포함하여 한국어를 학습하고자 하는 외국인이 지속적으로 증가함에 따라, 외국인 한국어 학습자의 교육에 대한 관심도 높아지고 있다. 기존 맞춤법 검사기는 한국어를 충분히 이해할 수 있는 한국인의 사용에 중점을 두고 있어, 외국인 한국어 학습자가 사용하기에는 다소 부적절하다. 본 논문에서는 한국어의 문맥 특성과 외국인의 작문 특성을 반영한 한국어 교정 방식을 제안한다. 제안하는 시스템에서는 말뭉치에서 추출한 어절 바이그램에 대한 음절 역색인을 구성하여 추천 표현을 빠르게 제시할 수 있으며, 키보드 후킹에 기반한 사용자인터페이스를 제공하여 사용자 편의를 높인다.

  • PDF

한국어 학습자를 위한 조사 자동 교정 방법 (Automatic Korean postposition checking for Korean language learners)

  • 이다니엘;곽수정;박용민;김보겸;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.195-200
    • /
    • 2012
  • 한국어 조사는 다른 외국어에는 대응하는 어휘가 없는 경우가 대부분이기 때문에 외국인이 한국어를 배울때 조사를 가장 어려워한다. 특히, 한국어에서 조사는 문법적 특징을 결정하는 매우 중요한 형태소이며 문장의 뜻을 매우 다르게 바꿀 수 있으므로 올바른 사용이 필수적이다. 본 논문에서는 외국민이 입력한 불완전한 한국어 문장에서 조사를 올바르게 교정하는 방법을 제안한다. 이 방법은 주어진 문장에 대해 한국어 형태소 분석기와 품사 태거를 이용하여 체언과 용언을 추출하고 이를 세종 용언 사전과 체언 사전의 문형 정보를 이용하여 올바른 조사를 부착하고 교정해 준다.

  • PDF