• 제목/요약/키워드: 영어형태소

검색결과 57건 처리시간 0.254초

LSTM을 이용한 한국어 이미지 캡션 생성 (Generate Korean image captions using LSTM)

  • 박성재;차정원
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.82-84
    • /
    • 2017
  • 본 논문에서는 한국어 이미지 캡션을 학습하기 위한 데이터를 작성하고 딥러닝을 통해 예측하는 모델을 제안한다. 한국어 데이터 생성을 위해 MS COCO 영어 캡션을 번역하여 한국어로 변환하고 수정하였다. 이미지 캡션 생성을 위한 모델은 CNN을 이용하여 이미지를 512차원의 자질로 인코딩한다. 인코딩된 자질을 LSTM의 입력으로 사용하여 캡션을 생성하였다. 생성된 한국어 MS COCO 데이터에 대해 어절 단위, 형태소 단위, 의미형태소 단위 실험을 진행하였고 그 중 가장 높은 성능을 보인 형태소 단위 모델을 영어 모델과 비교하여 영어 모델과 비슷한 성능을 얻음을 증명하였다.

  • PDF

에서로/KE:한영 기계 번역 시스템 (FromTo/KE: A Korean-English Machine Translation)

  • 여상화;김영길;최승권;김태완;박동인;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.283-287
    • /
    • 1997
  • 본 논문에서는 당 연구소 주관으로 연구개발정보센터(KORDIC), 서울대와 공동으로 개발중인 한영 기계번역 시스템, '에서로/KE'의 prototype system을 설명한다. 에서로/KE는 KORDIC에서 한국어 형태소 분석기와 Tagger를 개발하고, 서울대에서 한국어 구문해석기와 한영 변환기를 개발하고, SERI에서 영어 구문 생성기와 영어 형태소 생성기를 개발한다. 한국어 Tagger는 HMM에 기반하여 제작되었으며 sample 200문장에 대해 98.9%의 정확률을 보인다. 한국어 구문 해석기는 의존 문법에 기반하여 CYK 알고리즘을 사용하여 제작되었으며 중의성 해결을 위해 29개의 최적 parse 선택 규칙이 구현되어 있다. 한영 변환기는 collocation과 idiom에 기반하여 한영 변환을 수행한다. 영어 구문 생성기는 Tree 변환 언어인 GWL(Grammar Writing Language)를 사용하여 작성되었으며, 영어 형태소 생성기는 최종적으로 자연스러운 영어 표층문을 생성한다. 에서로/KE는 현재 1차년도 Prototype system이 Unix 환경에서 구현되어 있으며, 현재 각 모듈별 성능 개선과 대량 사전 구축을 통해 상용화될 예정이다.

  • PDF

LSTM을 이용한 한국어 이미지 캡션 생성 (Generate Korean image captions using LSTM)

  • 박성재;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.82-84
    • /
    • 2017
  • 본 논문에서는 한국어 이미지 캡션을 학습하기 위한 데이터를 작성하고 딥러닝을 통해 예측하는 모델을 제안한다. 한국어 데이터 생성을 위해 MS COCO 영어 캡션을 번역하여 한국어로 변환하고 수정하였다. 이미지 캡션 생성을 위한 모델은 CNN을 이용하여 이미지를 512차원의 자질로 인코딩한다. 인코딩된 자질을 LSTM의 입력으로 사용하여 캡션을 생성하였다. 생성된 한국어 MS COCO 데이터에 대해 어절 단위, 형태소 단위, 의미형태소 단위 실험을 진행하였고 그 중 가장 높은 성능을 보인 형태소 단위 모델을 영어 모델과 비교하여 영어 모델과 비슷한 성능을 얻음을 증명하였다.

  • PDF

중학교 1학년 영어 교과서의 영어 형태소 도입 순위와 자연적 순서 가설과의 상관관계 연구 (A study on the correlation between the introduction order of English morphemes in the English textbook for the 7th graders and the natural order hypothesis)

  • 송해성
    • 영어어문교육
    • /
    • 제9권1호
    • /
    • pp.131-152
    • /
    • 2003
  • The purpose of this study is to investigate the correlation between the introduction order of 9 English morphemes in the English textbook used in the middle school and the learning order of the morphemes by the 7th graders learning English as a foreign language. The subjects are 139 students in two middle schools, who learn English with different textbooks. The introduction order of each morpheme in two textbooks was examined according to its quantity and frequency. Data on the real learning order were collected through the written SLOPE test, and each morpheme was ranked by its group score. The introduction order of each morpheme in the textbook and the real learning order were analyzed by Spearman rank order correlation. It was shown that the correlation between the two was very low. This means that those textbooks do not take the learning order of English morphemes into account. Also it was shown that in the earlier stage of learning English the introduction order of each morpheme in the textbook had much influence on its learning order, but in the later stage such influence reduced gradually. This means that the learning order of English morphemes approaches the natural order as time passes by.

  • PDF

우리글 읽기에서 형태소정보의 미리보기 효과 (Morphological Parafoveal Preview Benefit Effects in Reading Korean)

  • 이상은;주혜리;고성룡
    • 인지과학
    • /
    • 제31권2호
    • /
    • pp.25-54
    • /
    • 2020
  • 이 연구의 목적은 안구운동 추적 기법을 통해 우리글을 읽을 때 중심와(fovea)의 주변에서 형태소 정보가 추출되는지를 알아보고자 한다. 다수 영어권 연구에서는 경계선 기법(Rayner, 1975)을 사용하여 중심와주변(parafovea)에서 형태소 정보가 추출되지 않는다고 보고하였다(Pollatsek, & Rayner, 2001; Rayner, Balota, & Pollatsek, 1986 등). 그러나 우리글인 한글은 영어와 같이 음소문자체계이면서 또한 모아쓰기를 하기를 때문에 한 자가 형태소가 될 수 있다. 또한 불규칙용언은 형태가 변하기 때문에 영어권의 결과와 다르게 글을 읽을 때 중심와주변에서 형태소 정보를 추출할 수도 있다. 실험은 경계선 기법으로 불규칙용언을 써서 미리 보기 네 조건-동일조건(예: 구워), 형태소 조건(예: 굽다), 시각유사조건(예: 굼다), 무관조건(예: 죨어)-으로 제시했다. 실험 결과는 단일고정시간에서 형태소조건은 동일조건보다는 반응시간이 길었지만 시각유사조건과 무관조건에서는 이득효과가 있었다. 첫고정시간과 주시시간에서 형태소조건이 시간유사조건과 무관조건과 차이가 없었지만 무관조건보다 더 이득효과가 있었다. 이는 우리글 읽기에서는 중심와주변에서 형태소 정보가 추출될 수 있음을 시사한다.

용언구에 기반한 한영 기계번역 시스템 : 'CaptionEye/KE' (Korean-to-English Machine Translation System based on Verb-Phrase : 'CaptionEye/KE')

  • 서영애;김영길;서광준;최승권
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.269-272
    • /
    • 2000
  • 본 논문에서는 ETRI에서 개발 중인 용언구에 기반한 한영 기계번역 시스템 CaptionEye/KE에 대하여 논술한다. CaptionEye/KE는 대량의 고품질 한-영 양방향 코퍼스로부터 추출된 격틀사전 및 대역패턴, 대역문 연결패턴 등의 언어 지식들을 바탕으로 하여, 한국어의 용언구 단위의 번역을 조합하여 전체 번역을 수행한다. CaptionEye/KE는 변환방식의 기계번역 시스템으로서, 크게 한국어 형태소 분석기, 한국어 구문 분석기, 부분 대역문 연결기, 부분 대역문 생성기, 대역문 선택/정련기, 영어형태소 생성기로 구성된다. 입력된 한국어 문장에 대해 형태소 분석 및 태깅을 수행한 후, 격틀사전을 이용하여 구문구조를 분석하고 의존 트리를 생성해 낸다. 이렇게 생성된 의존 트리로부터 대역문 연결패턴을 이용하여 용언구들간의 연결에 대한 번역을 수행한 후 대역패턴을 이용하여 각 용언구들을 번역하고 문장 정련과정을 거쳐 영어 문장을 최종 생성한다.

  • PDF

"의미적 한 단어" 유형 분석 및 형태소 분석 기법 (Korean Morphological Analysis Considering a Term with Multiple Parts of Speech)

  • 허윤영;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.128-131
    • /
    • 1994
  • 한국어 문서중 신문이나 시사지, 법률관련문서, 경제학관련문서, 국문학관련문서와 같은 전문분야 문서에는 한글, 한자, 영어, 문장부호와 같은 기호들의 결합으로 이루어지면서 하나의 뜻으로 나타내는 "의미적 한 단어"가 많이 존재한다. 이러한 단어들은 이를 고려하지 못한 형태소 분석기의 분석률을 감소시키고, 오분석율을 증가시킨다. 본 논문은 "의미적 한 단어"의 유형과 분석과정에 따른 유형을 분류하였으며 그에 적합한 형태소 분석기법을 제시하였다. 유형 분류과 제사된 형태소 분석기법으로 구현된 형태소 분석기는 기존의 형태소 분석기보다 분석률이 증가되었으며 오분석률은 감소되었다.

  • PDF

LHMM기반 영어 형태소 품사 태거의 도메인 적응 방법 (Domain Adaptation Method for LHMM-based English Part-of-Speech Tagger)

  • 권오욱;김영길
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권10호
    • /
    • pp.1000-1004
    • /
    • 2010
  • 형태소 품사 태거는 언어처리 시스템의 전처리기로 많이 활용되고 있다. 형태소 품사 태거의 성능 향상은 언어처리 시스템의 전체 성능 향상에 크게 기여할 수 있다. 자동번역과 같이 복잡도가 놓은 언어처리 시스템은 최근 특정 도메인에서 좋은 성능을 나타내는 시스템을 개발하고자 한다. 본 논문에서는 기존 일반도메인에서 학습된 LHMM이나 HMM 기반의 영어 형태소 품사 태거를 특정 도메인에 적응하여 높은 성능을 나타내는 방법을 제안한다. 제안하는 방법은 특정도메인에 대한 원시코퍼스를 이용하여 HMM이나 LHMM의 기학습된 전이확률과 출력확률을 도메인에 적합하게 반자동으로 변경하는 도메인 적응 방법이다. 특허도메인에 적응하는 실험을 통하여 단어단위 태깅 정확률 98.87%와 문장단위 태깅 정확률 78.5%의 성능을 보였으며, 도메인 적응하지 않은 형태소 태거보다 단어단위 태깅 정확률 2.24% 향상(ERR: 6.4%)고 문장단위 태깅 정확률 41.0% 향상(ERR: 65.6%)을 보였다.

한영 자동 번역을 위한 보조 용언 생성 (English Auxiliary Verb Generation for Korean-to-English Machine Translation)

  • 신종훈;양성일;서영애;김창현;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.143-147
    • /
    • 2011
  • 본 논문에서는 한국어로 입력된 문장을 분석한 결과로부터 그에 해당하는 영어 대역문을 생성하는 과정에서, 어떻게 한국어의 보조용언을 영어 대역문에 반영 할 것인가를 다룬다. 특히 대화체 분야를 다루는 한영 자동번역 시스템에서는 한국어의 보조용언 생성이 대역문의 품질을 향상시키는데 중요한 위치를 차지하기 때문에, 한영 자동 번역에서의 자연스러운 영어 보조용언 생성을 위한 방법론을 제안한다. 첫째, 기존 패턴 기반 한영 자동 번역 엔진과 한국어 말뭉치를 형태소 분석한 결과를 살펴보고, 자연스러운 보조 용언 대역어 생성의 어려움을 살펴본다. 둘째, 자연스러운 보조용언 생성에 필요한 양상을 규칙화 한 지식을 기반으로 자연스러운 단일 보조용언 생성을 위한 방법을 제시한다. 셋째, 두 개 이상의 보조용언이 연속해서 나타나는 다중 보조용언의 생성 방법을 제시한다. 마지막으로, 실험과 결론을 통하여 본 논문이 제안하는 방법론을 사용했을 때, 자동 번역 엔진의 성능 평가 지표 중 하나인 BLEU와 NIST점수의 변화를 나타내봄으로 그 성능을 보인다.

  • PDF

효율적인 한국어 분석을 위한 확장된 최장일치법 (The extended longest match strategy for efficient Korean analysis)

  • 이기오;이근용;이용석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.255-261
    • /
    • 1996
  • 한국어 형태소 분석 방법중 최장일치법은 영어의 분석처럼 one-pass로 한국어를 분석할 수 있도록 하는 기법에 가장 적절하다. 그러나 최장일치법은 매우 많은 분석 후보를 생성하여 탐색 회수가 많아 시스템의 성능을 떨어뜨린다. 또한 대부분의 한국어 형태소 분석 시스템들은 형태소 자체에만 중점을 두어 한국어 분석 시스템 전체의 성능은 고려하지 않아 형태소 분석 시스템의 결과가 파서의 입력에 적절치 못한 결과를 생성한다. 본 논문에서는 형태소 분석의 원형복원 규칙과 사전 탐색을 통합하여 과분석 후보에 대한 탐색 회수를 줄이고 전체 시스템의 성능을 향상시키기 위해 파서에 적합한 입력을 제공하는 확장된 최장일치법을 제안한다.

  • PDF