• 제목/요약/키워드: 단어 분리

검색결과 114건 처리시간 0.023초

중한 기계 번역 시스템을 위한 형태소 분석기 (A Morph Analyzer For MATES/CK)

  • 강원석;김지현;송영미;송희정;황금하;채영숙;최기선
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.331-336
    • /
    • 2000
  • MATES/CK는 기계번역 시스템에서 전통적으로 사용하고 있는 세 단계(분석/변환/생성)에 의해서 중한 번역을 수행하는 시스템이다. MATES/CK는 시스템 성능을 높히기 위해 패턴 기반과 통계적 정보를 이용한다. 태거(Tagger)는 중국어 단어 분리를 최장일치법으로 수행하기 때문에 일부 단어에 대해 오류를 범하게 되고 품사(POS : Part Of Speech) 태킹 시 확률적 정보만 이용하여 특정 단어가 다 품사인 경우 그 단어에 대해 특정 품사만 태깅되는 문제점이 발생한다. 또한 중국어 및 외국어 인명 및 지명에 대한 미등록들에 대해서도 올바른 결과를 도출하지 못한다. 사전에 있어서 텍스트 기반으로 존재하여 이를 관리하기에 힘이 든다. 본 논문에서는 단어 분리 오류 및 품사 태깅 오류를 해결하기 위해 중국어 태킹 제약 규칙을 적용하는 방법을 제시하고 중국어 및 외국어 인명/지명에 대한 미등록어 처리방법을 제시한다. 또한 중국어 사전 관리에 대해 알아본다.

  • PDF

연결 성분 간 간격 측정에 의한 필기체 수표 금액 문장에서의 단어 추출 (Word Separation in Handwritten Legal Amounts on Bank Check by Measuring Gap Distance Between Connected Components)

  • 김인철
    • 한국지능시스템학회논문지
    • /
    • 제14권1호
    • /
    • pp.57-62
    • /
    • 2004
  • 본 논문에서는 연결 성분간의 공간적 간격에 기반하여 수표 영상 내의 필기체 문장 금액에서 단어를 효율적으로 추출하기 위한 방법을 제안한다. 인접한 연결 성분간의 거리측정을 위한 기존의 방식들은 과대추정 또는 과소추정 문제로 인한 단어 분리 오류를 초래할 수 있으나 본 논문에서는 이러한 문제를 줄이기 위해 각 측정 방식들을 수정 보완하였다. 또한 본 논문에서는 서로 다른 형태의 세 가지 거리 측정법들을 효과적으로 결합하여 각 개별 측정법이 가지는 단점을 상호 보완하고 전체 단어 추출 성능을 좀더 향상시킬 수 있는 4-클래스 군집화에 기반한 결합 방법을 새로이 제안하였다. 분장 금액에 대한 단어 추출 실험 결과로부터 수정된 각 거리 측정법이 대응되는 기존의 측정법에 비해 2-3% 정도 향상된 단어 분리율을 보임을 확인하였다. 또한 제안된 4-클래스 군집화에 기반한 결합 방식은 각 측정 방식에서 개별적으로 발생하는 에러뿐만 아니라 두 개의 방식에서 동시에 나타나는 에러도 효율적으로 감소시킴으로서 전체 단어 분리 성능을 향상 시킬수 있었다.

텍스트의 정서 단어 추출을 통한 문학 작품의 정서 분석 (Analyzing Emotions in Literature by Extracting Emotion Terms)

  • 함준석;이신영;고일주
    • 감성과학
    • /
    • 제14권2호
    • /
    • pp.257-268
    • /
    • 2011
  • 본 논문에서는 단위 시단 동안 주로 작용하는 정서를 '지배적 정서(dominant emotion)'라고 정의하고, 문학작품의 지배적 정서 흐름을 자동적으로 추출하기 위한 방법론을 제시한다. 한국어는 언어 구조적 특성상 접미어에 따라 의미가 역전되거나 달라질 수 있다. 하지만 소설이나 수필 같이 일정 이상의 분량을 가진 텍스트에서 정서 단어를 추출한다면 어느 정도 추출이 잘못되어도 지배적 정서 흐름을 판단하는 것이 가능한 것이다. 문학작품에서 지배적 정서를 추출하기 위한 절차는 다음과 같다. 먼저 문학작품의 전제 텍스트에서 형태소를 분석하여 형태소 단위의 단어를 추출한다. 추출된 단어를 정서 단어 데이터베이스와 매칭하여 정서적 의미를 담고 있는 단어를 분리해 낸다. 분리된 단어들을 정서 모델에 사상하여 해당 단어가 갖고 있는 정서를 도출한다. 도출된 정서 단어들을 통해 지배적 정서를 분석한다. 제안한 방법론에 따라 현진건의 현대소설 '운수 좋은 날'과 윤오영의 수필 '방망이 깎던 노인'을 분석한 결과, 지배적 정서의 흐름을 파악할 수 있었다.

  • PDF

의존관계에 근거한 키워드 추출방법 (Keyword Abstraction Method to be based in Dependence)

  • 정규철;이진관;이태헌;박기홍
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (하)
    • /
    • pp.1221-1224
    • /
    • 2001
  • 논문의 키워드는 논문을 읽을지 여부를 알아보는 아주 중요한 요소로 존재이다. 그러나 키워드가 되는 단어가 원문 중에 존재하지 않고, 키워드의 구성 단어로 분리하여 존재하는 경우에는 대처할 수 없다. 본 논문에서는 문서를 읽기 위한 판단의 재료가 되는 키워드의 추출을 목적으로 하고, 특히 복합명사 생성 규칙을 이용하여 키워드의 구성 단어로 분리되어 존재하는 키워드를 추출하는 방법을 제안한다.

  • PDF

HMM과 GA를 이용한 한국어 음성의 음소단위 인식 (Phoneme-based Recognition of Korean Speech Using HMM(Hidden Markov Model) and Genetic Algorithm)

  • 박준하;조성원
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1997년도 추계학술대회 학술발표 논문집
    • /
    • pp.291-295
    • /
    • 1997
  • 현재에 주로 개발되어 상용화가 시작되고 있는 음성인식 시스템의 대부분은 단어인식을 기분으로 하는 시스템으로 적용 단어수를 늘려줌으로서 인식범위를 늘일 수 있으나, 그에 따라 검색해야하는 단어수가 늘어남으로서 전체적인 시스템의 속도 및 성능이 저하되는 경향이 있다. 이러한 단점의 극복을 위하여 본 논문에서는 HMM(Hidden Markov Model)과 GA(Genetic Algorithm)를 이용한 한국어 음성의 음소단위 인식 시스템을 구현하였다. 음성 특징으로는 LPC Cepstrum 계수를 사용하였으며, 인식시는 인식대상이 되는 단어에 대하여 GA(Genetic Algorithm)을 통하여 각 음소를 분리하고, 음소단위로 학습된 HMM 파라미터를 적용하여 인식함으로써 각각의 음소별 가능하도록 하는 방법을 제안하였다.

  • PDF

HMM에 의한 한국어음성의 자동분할 시스템의 구현에 관한 연구 (A Study on the Implementation of an Automatic Segmentation System of Korean Speech based on the Hidden Markov Model)

  • 김윤중;김미경;이인동
    • 정보기술응용연구
    • /
    • 제1권3_4호
    • /
    • pp.1-23
    • /
    • 1999
  • 본 연구에서는 HMM(Hidden Markov Model) 및 Levelbuilding 알고리즘을 이용하여 인식대상 음소열의 표본 집합(훈련패턴 집합)을 입력으로 하는 음성의 자동 분할 시스템을 구현하였다. 본 시스템은 자연스럽게 발음되어진 연결음 음성으로부터 표준 음소모델을 생성한다. 본 시스템의 구성은 초기화 과정, HMM학습과정 그리고 Levelbuilding을 이용한 분리 및 CLustering 과정으로 구성되어 있다. 초기화 과정에서는 제어 정보를 이용하여 훈련패턴 집합으로부터 초기 음소 집합 군을 생성한다. Levelbuilding을 이용한 분리 및 Clustering 단계에서는 음소 모델과 제어 정보를 이용하여 훈련패턴들을 음소 단위로 분리하고, 분리된 후보 음소들을 Clustering하여 음소집합 군을 생성한다. 음소모델의 구성에 변화가 없을 때까지 이 작업을 반복 수행하여 최적의 음소모델을 생성한다. 본 연구에서는 3개 이하의 숫자단어로 구성된 연결되어 음성 패턴을 대상으로 실험하였다. 연결단어에 대한 음소의 표준모델 생성과정에서 가장 중요한 처리인 훈련패턴의 자동분할 과정을 분석하기 위하여 각 반복과정에서 분리된 정보를 그래프로 도시화하여 확인하였다.

  • PDF

중한 기계 번역 시스템을 위한 형태소 분석기 (A Morph Analyzer For MATES/CK)

  • 강원석;김지현;송영미;송희정;황금하;채영숙;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.331-336
    • /
    • 2000
  • MATES/CK는 기계번역 시스템에서 전통적으로 사용하고 있는 세 단계(분석/변환/생성)에 의해서 중한 번역을 수행하는 시스템이다. MATES/CK는 시스템 성능을 높이기 위해 패턴 기반과 통계적 정보를 이용한다. 태거(Tagger)는 중국어 단어 분리를 최장일치법으로 수행하기 때문에 일부 단어에 대해 오류를 범하게 되고 품사(POS : Part Of Speech) 태깅 시 확률적 정보만 이용하여 특정 단어가 다 품사인 경우 그 단어에 대해 특정 품사만 태깅되는 문제점이 발생한다. 또한 중국어 및 외국어 인명 및 지명에 대한 미등록들에 대해서도 올바른 결과를 도출하지 못한다. 사전에 있어서 텍스트 기반으로 존재하여 이를 관리하기에 힘이 든다. 본 논문에서는 단어 분리 오류 및 품사 태깅 오류를 해결하기 위해 중국어 태깅 제약 규칙을 적용하는 방법을 제시하고 중국어 및 외국어 인명/지명에 대한 미등록어 처리방법을 제시한다. 또한 중국어 사전 관리에 대해 알아본다.

  • PDF

한국어-영어 이중언어자의 영어 산출 구조 분석 (English-Production Structures of Korean-English Bilinguals)

  • 신승식;염은영;정찬섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.128-141
    • /
    • 1996
  • 한국어-영어 이중언어자와 비이중언어자인 한국 대학생들을 대상으로 두 언어 처리의 독립성과 영어 처리의 사고 억제 과정을 알아보기 위해서 두 개의 산출실험을 실시하였다. 실험 1에서는 한국어와 영어로 산출 과제를 준 후에 한국어, 영어 단어에 대한 어휘 판단 과제를 하였다. 이중언어자는 한국어-영어 처리 체계가 분리되어 있어서 산출 언어와 목표 단어의 언어가 바뀐 경우에 단어 판단시간이 더 길 것으로 예상하였으나 유의미한 결과는 나오지 않았다. 비이중언어자는 영어 산출 후에 한국어, 영어 단어에 대한 판단 시간이 모두 느려졌으며 이것은 영어 산출에 많은 심적 자원을 소모하였기 때문이라고 해석하였다. 실험2에서는 영어로만 1분간 산출 과제를 주고 20초씩 나눈 세 구간에서 발화된 단어 수를 측정하였다. 이중언어자는 세 번째 구간에서 유의미하게 발화된 단어수가 감소하였지만 비이중언어자는 세 구간에서 발화된 단어수가 비슷하였다. 이것을 영어 산출시의 처리 부담과 관련하여 논하였다.

  • PDF

품사 사전 자동 학습을 통한 중국어 단어 분할 및 품사 태깅 (Chinese Segmentation and POS-Tagging by Automat ic POS Dictionary Training)

  • 하주홍;정옥;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.33-39
    • /
    • 2002
  • 중국어의 품사 태깅(part-of-speech tagging)을 위해서는 중국어 문장들은 내부 단어간의 명확한 분리가 없기 때문에 단어 분할(word segmentation)과 품사 태깅을 동시에 처리해야 한다. 본 논문은 규칙 기반(rule base)과 사전 기반(dictionary base) 기법을 혼합하여 구현한 단어 분할 시스템을 사용하여 입력 문장을 단어 단위로 분할하고, HMM(hidden Markov model) 기반 통계적 품사 태깅 기법을 사용한다. 특히, 본 논문에서는 주어진 말뭉치(corpus)로부터 자동 학습(automatic training)을 통해 품사 사전을 구축하여 구현된 시스템과 말뭉치간의 독립성을 유지한다. 말뭉치는 중국어 간체와 번체 모두를 대상으로 하고, 각 말뭉치로부터 자동 학습을 통해 얻어진 품사 사전으로 단어 분할과 품사 태깅을 한다. 실험결과들은 간체, 번체 각각의 단어 분할 성능과 품사 태깅 성능을 보여준다.

  • PDF

다층 형태론과 한국어 형태소 분석 모델 (Multi-level Morphology and Morphological Analysis Model for Korean)

  • 강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.140-145
    • /
    • 1994
  • 형태소 분석은 단위 형태소를 분리한 후에 변형이 일어난 형태소의 원형을 복원하고, 분리된 단위 형태소들로부터 단어 형성 규칙에 맞는 연속된 형태소들을 구하는 과정이다. 이러한 일련의 분석 과정은 독립적인 특성이 강하면서 각 모듈이 서로 밀접하게 연관되어 있으므로 Two-level 모델에서는 형태론적 변형뿐만 아니라 형태소 분리 문제를 통합 규칙으로 처리하고 있다. 그러나 한국어에 Two-level 모델을 적응해 보면 형태소 분리와 형태론적 변형이 복합되어 있어서 교착어의 특성과 관계되는 단어 유형을 분석할 때 비효율적인 요소가 발견된다. 따라서 본 논문에서는 교착어인 한국어의 형태소 분석시에 발생하는 문제점들을 해결하는데 적합한 방법론으로 다층 형태론(multi-level morphology)과 다단계 모델(multi-level model)을 제안한다.

  • PDF