• Title/Summary/Keyword: 언어 분석

Search Result 4,670, Processing Time 0.028 seconds

A Korean Generator using Left-Right Connectivity Information (DaMaN: 좌우접속정보를 이용한 한국어 생성기)

  • Chang, Won;Yuh, Sang-Hwa;Jung, Han-Min;Kim, Tae-Wan;Hwang, Do-Sam;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.121-130
    • /
    • 1995
  • 기계번역은 대상 언어를 해석하고 변환하여 목적언어의 대역어를 선정한 후, 목적언어를 생성하는 과정을 거친다. 이때, 대상언어의 분석 단위에 따라 대역어의 생성 단위 또는 깊이가 다르다. 그러므로, 특정한 시스템을 위한 생성기는 그 시스템의 해석 또는 변환단계에서 추출되는 대역어에 의존하게 되어 시스템 호환성을 상실한다. 따라서, 중복된 생성기의 개발을 피하기 위하여 번역시스템 특성에 국한되지 않고 독립적으로 이용될 수 있는 한국어 형태소생성기 개발이 필요하다. 본 논문에서는 한국어 해석에 사용되는 한국어 형태소 좌우인접정보를 이용하여 한국어형태소를 생성하는 시스템인 DaMaN을 소개한다. 세분류된 형태소의 활용과 접속, 조사의 변동, 띄어쓰기를 고려한 형태소 좌우접속 정보를 임의 조합 가능한 복합형태 (합성어)에도 적용할 수 있도록 확장하였다. 따라서, 대상언어의 분석단위에 제한 받지 않으므로 시스템 호환성이 있다.

  • PDF

Generation and Recognition Language Model for Spoken Language Parser (구어파서를 위한 생성 인식 언어모델)

  • Jeong, Hong;Hwang, Kwang-Il
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.167-172
    • /
    • 1999
  • 구어는 프로그래밍 언어와는 달리 주어진 문장 내에서의 해당 어휘의 뜻(semantic information)을 알고 다른 어휘들과의 연관성 (grammatical information)을 알아야만 적절한 형태소분석이 가능하다. 또한 구어는 방대한 양의 어휘들로 구성되어 있으며 사용하는 사람마다의 다양한 응용과 공식화되기 어려운 수많은 예외들로 운용되기 때문에 단순히 찾아보기표와 오토마타만으로는 형태소분석에 한계가 있다. 이에 본 논문에서는 주어진 어휘집과 그 어휘들로 만들어진 다양한 문장들로부터 구어운용의 근본기제를 스스로 학습해나가는 강화학습중심의 언어모델을 제안하고 실제로 한국어 형태소분석에 적용하여 그 성능과 특성을 파악해보았다. 구어파서의 입력은 음절단위의 발음이며 인간이 문장을 듣거나 보는 것과 동일하게 시간에 따라 순차적으로 입력된다. 파서의 출력 또한 시간에 따라 변화되면서 나타나며 입력된 연속음절을 형태소단위로 분리(segmentation)하고 분류(labeling)한 결과를 나타낸다. 생성인식 언어모델이 기존의 언어모델과 다른 점은 구어 파싱에 있어서 필수적인 미등륵어에 대한 유연성과 앞단의 음성인식기 오류에 적절한 반응(fault tolerance)을 나타내는 것이다.

  • PDF

Effects of Task-based Language Learning Utilizing Self-regulated Learning Strategies (자기조절학습전략 활용 과제기반언어학습의 효과분석)

  • Kim, Soo-Hyun;Lee, Myung-Geun
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2012.01a
    • /
    • pp.153-157
    • /
    • 2012
  • 이 연구는 자기조절학습전략 활용 과제기반언어학습을 영어수업에 적용한 후 학업성취도와 영어 학습태도 차원에서 그 효과성을 규명하고자 하였다. 먼저 학습자의 능동적인 학습과정을 도울 수 있는 자기조절학습전략 활용 과제기반언어 교수 학습 모형을 도출하였다. 이어서 초등영어 5학년 정규교육과정운영 틀에서 자기조절학습전략 활용 과제기반언어학습 수업을 설계하고 실제 적용하였다. 연구결과 첫째, 자기조절학습전략 활용 과제기반언어학습은 학업성취 상위, 중위, 하위 집단에 따른 학업성취도 변화에 대한 분석 결과 학업성취 상위집단과 하위집단 간에 유의미한 차이를 보였다. 둘째, 자기조절학습전략 활용 과제기반언 어학습은 영어에 대한 자아개념, 영어에 대한 태도, 영어에 대한 학습 습관으로 정의된 영어 학습태도의 모든 영역에서 유의미한 차이가 있었다. 자기조절학습전략 활용 과제기반언어학습은 학습자 중심 교육이라는 초등영어교육 추세를 고려할 때 교육현장에 유용하므로 자기조절학습력과 실제적 의사소통능력에 초점을 둔 보다 다양한 교수설계 연구가 요청된다.

  • PDF

Automatic Evaluation of Speech and Machine Translation Systems by Linguistic Test Points (자동통번역 시스템의 언어 현상별 자동 평가)

  • Choi, Sung-Kwon;Choi, Gyu-Hyun;Kim, Young-Gil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.1041-1044
    • /
    • 2019
  • 자동통번역의 성능을 평가하는데 가장 잘 알려진 자동평가 기술은 BLEU이다. 그러나 BLEU로는 자동통번역 결과의 어느 부분이 강점이고 약점인지를 파악할 수 없다. 본 논문에서는 자동통번역 시스템의 언어 현상별 자동평가 방법을 소개하고자 한다. 언어 현상별 자동평가 방법은 BLEU가 제시하지 못하는 언어 현상별 자동평가가 가능하며 개발자로 하여금 해당 자동통번역 시스템의 언어 현상별 강점과 약점을 직관적으로 파악할 수 있도록 한다. 언어 현상별 정확도 측정은 Google 과 Naver Papago 를 대상으로 실시하였다. 정확률이 40%이하를 약점이라고 간주할 때, Google 영한 자동번역기의 약점은 스타일(32.50%)번역이었으며, Google 영한 자동통역기의 약점은 음성(30.00%)인식, 담화(30.00%)처리였다. Google 한영 자동번역기 약점은 구문(34.00%)분석, 모호성(27.50%)해소, 스타일(20.00%)번역이었으며, Google 한영 자동통역기 약점은 담화(30.00%)처리였다. Papago 영한 자동번역기는 대부분 정확률이 55% 이상이었으며 Papago 영한 자동통역기의 약점은 담화(30.00%)처리였다. 또한 Papago 한영 자동번역기의 약점은 구문(38.00%)분석, 모호성(32.50%)해소, 스타일(20.00%)번역이었으며, Google 한영 자동통역기 약점은 담화(20.00%)처리였다. 언어 현상별 자동평가의 궁극적인 목표는 자동통번역기의 다양한 약점을 찾아내어 약점과 관련된 targeted corpus 를 반자동 수집 및 구축하고 재학습을 하여 자동통번역기의 성능을 점증적으로 향상시키는 것이다.

Morphological Analyzer of Yonsei Univ., morany: Morphological Analysis based on Large Lexical Database Extracted from Corpus (연세대 형태소 분석기 morany: 말뭉치로부터 추출한 대량의 어휘 데이터베이스에 기반한 형태소 분석)

  • Yoon, Jun-Tae;Lee, Chung-Hee;Kim, Seon-Ho;Song, Man-Suk
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.92-98
    • /
    • 1999
  • 본 논문에서는 연세대학교 컴퓨터과학과에서 연구되어 온 형태소 분석 시스템에 대해 설명한다. 연세대학교 자연 언어 처리 시스템의 기본적인 바탕은 무엇보다도 대량의 말뭉치를 기반으로 하고 있다는 점이다. 예컨대, 형태소 분석 사전은 말뭉치 처리에 의해 재구성 되었으며, 3000만 어절로부터 추출되어 수작업에 의해 다듬어진 어휘 데이터베이스는 형태소 분석 결과의 상당 부분을 제한하여 일차적인 중의성 해결의 역할을 담당한다. 또한 복합어 분석 역시 말뭉치에서 얻어진 사전을 바탕으로 이루어진다. 품사 태깅은 bigram hmm에 기반하고 있으며 어휘 규칙 등에 의한 후처리가 보강되어 있다. 이렇게 구성된 형태소 분석기 및 품사 태거는 구문 분석기와 함께 연결되어 이용되고 있다.

  • PDF

말뭉치를 이용한 형태소 분석 단계에서의 중의성 해결에 관한 연구

  • Kim, Gyeong-Seo;Kim, Dae-Cheol;Jeong, Gang-Seok;Song, Man-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 1991.10a
    • /
    • pp.36-43
    • /
    • 1991
  • 자연 언어 처리의 효율성은 대량의 정보를 담고 있는 사전을 잘 구성하는 데 있다. 사전을 잘 이용하기 위해서는 입력 어절에 대한 정확한 표제어(원형)를 효과적으로 찾아야한다. 입력 어절에 대한 표제어를 찾는 역할을 하는 형태소 분석기는 한 어절의 정보만 이용하기 때문에 입력 어절을 두 가지 이상의 표제어로 해석할 수 있다. 연세 대학교 사전편찬실이 갖고 있는 연세 말뭉치 I 에 대해 10% 이상의 어절이 두가지 이상으로 분석되는 중의성을 가진다. 이렇게 중의성을 가지는 어절이 그대로 구문 구조 분석기에 전달되면 중의성올 해결하기 위해 구운 구조 분석기의 처리 과정이 복잡해진다. 본 논문은 표제어의 중의성을 보이는 어절을 구문 구조 분석기에게 전달하기 전에 형태소 분석기와 구문 구조 분석기 사이에서 정확한 표제어를 찾는 방법을 제안한다.

  • PDF

BERT with subword units for Korean Morphological Analysis (BERT에 기반한 Subword 단위 한국어 형태소 분석)

  • Min, Jin-Woo;Na, Seung-Hoon;Sin, Jong-Hun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.37-40
    • /
    • 2019
  • 한국어 형태소 분석은 입력된 문장 내의 어절들을 지니는 최소의 단위인 형태소로 분리하고 품사 부착하는 작업을 의미한다. 기존 한국어 형태소 분석 방법은 음절 기반 연구가 주를 이루고 이를 순차 태깅 문제로 보고 SVM, CRF혹은 Bi-LSTM-CRF 등을 이용하거나 특정 음절에서 형태소의 경계를 결정하는 전이 기반 모델을 통해 분석하는 모델 등이 연구되었다. 최근 자연어 처리 연구에서 대용량 코퍼스로부터 문맥을 고려한 BERT 등의 언어 모델을 활용한 연구가 각광받고 있다. 본 논문에서는 음절 단위가 아닌 BERT를 이용한 Sub-word 기반 형태소 분석 방법을 제안하고 기분석 사전을 통해 분석하는 과정을 거쳐 세종 한국어 형태소 분석 데이터 셋에서 형태소 단위 F1 : 95.22%, 어절 정확도 : 93.90%의 성능을 얻었다.

  • PDF

A Linguistic Study of Automatic Speech Act Classification for Korean Dialog (한국어 대화문 화행 자동분류를 위한 언어학적 기반연구)

  • Koo, Youngeun;Kim, Jiyoun;Hong, Munpyo;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.17-22
    • /
    • 2017
  • 화행이란 의사소통 과정에서 발화자가 가지는 발화 의도를 말한다. 성공적인 의사소통을 위해서는 발화자의 화행을 정확하게 파악하는 것이 매우 중요하다. 본 논문에서는 한국어 대화체 문장의 화행 자동분류를 위해, 화행을 결정짓는 요인이 무엇인지 언어학적으로 분석하고자 하였다. 한국어 수업 대화를 분석하여 화행 분류 체계를 새롭게 자체 정립하였고, 언어학적 근거를 바탕으로 10개의 화행 분류 자질을 제안하였다. 또한 제안하는 화행 분류 자질을 검증하고자 웨카(Weka)를 이용하여 정확률 실험을 진행하였다.

  • PDF

Plasmid-DNAgram : Anagram Solving by Molecular Computing Based on GFP-Expressing Plasmid DNA (Plasmid-DNAgram : 녹색형광단백질 발현 Plasmid DNA 기반 분자컴퓨팅에 의한 언어 퍼즐 문제 해결)

  • Kim, Su-Dong;Lee, Eun-Seok;Zhang, Byoung-Tak
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.293-299
    • /
    • 2003
  • 인간 게놈 프로젝트가 완료됨에 다라 생체서열과 언어 사이의 대응 관계가 부각되고 있다. 본고에서는 Lewis Carroll의 언어 유희 사례를 컴퓨터생물학의 측면에서 재조명하고, Carroll이 제시한 문제 중에서 간단한 anagram 문제의 해결을 다루고자 한다. 우선 DNA 컴퓨팅의 방법론을 적용한 DNAgram의 개념을 확장하여 plasmid-DNAgram의 개념을 새롭게 도입하였다. 이 개념을 형광단백질에 대한 DNAgram의 개념을 확장하여 plasmid-DNAgram의 개념을 새롭게 도입하였다. 이 개념을 형광단백질에 대한 FRET(fluorescent resonance energy transfer)분석기법의 응용 사례인 cameleon 형광단백질에 대한 FRET 분석기법에 적용함으로써 anagram 문제의 어휘론적, 구문론적, 의미론적, 화용론적 측면에 대응하는 바이오분자 컴퓨팅 방법론을 제안하였다.

  • PDF

Application of Meaning Base for Car Navigation System (카네비게이션 시스템을 위한 의미베이스의 활용)

  • 장문수
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2003.09b
    • /
    • pp.17-20
    • /
    • 2003
  • 언어는 인간의 지적 활동의 가장 근본적인 도구이다. 컴퓨팅에 있어서도 특히, 인간의 지적 활동을 모방하는 경우에 언어를 통한 컴퓨팅이 효과적일 수 있다. 의미베이스는 시스템 기능문법(SFLT)을 기반으로 한 인간 사고의 모델링으로 언어기반 컴퓨팅의 도구로 이용될 수 있다 본 논문에서는 카네비게이션 시스템을 예로 들어 언어를 매개로 한 지적 컴퓨팅에 관한 아이디어를 제시한다. 의미베이스의 계층은 컨텍스트, 의미, 어휘문법으로 나뉘고, 각 계층은 시스템, 서브시스템, 인스턴스로 세분된다 본 논문에서는 카네비게이션의 컨텍스트를 정의하고, 이것을 바탕으로 의미층에서 의미를 생성함을 보인다 그리고, 제시한 의미베이스 안에서 대화를 분석 및 생성하는 과정을 통해 컴퓨팅이 이루어질 수 있음을 예를 통하여 보인다.

  • PDF