• Title/Summary/Keyword: 한국어 문장 생성

Search Result 331, Processing Time 0.024 seconds

Bi-LSTM-CRF and Syllable Embedding for Automatic Spacing of Korean Sentences (음절 임베딩과 양방향 LSTM-CRF를 이용한 한국어 문장 자동 띄어쓰기)

  • Lee, Hyun-Young;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.605-607
    • /
    • 2018
  • 본 논문에서는 음절 임베딩과 양방향 LSTM-CRF 모델을 이용한 한국어 문장 자동 띄어쓰기 시스템을 제안한다. 문장에 대한 자질 벡터 표현을 위해 문장을 구성하는 음절을 Unigram 및 Bigram으로 나누어 각 음절을 연속적인 벡터 공간에 표현하고, 양방향 LSTM을 이용하여 현재 자질에 양방향 자질들과 의존성을 부여한 새로운 자질 벡터를 생성한다. 이 새로운 자질 벡터는 전방향 신경망과 선형체인(Linear-Chain) CRF를 이용하여 최적의 띄어쓰기 태그 열을 예측하고, 생성된 띄어쓰기 태그를 기반으로 문장 자동 띄어쓰기를 수행하였다. 문장 13,500개와 277,718개 어절로 이루어진 학습 데이터 집합과 문장 1,500개와 31,107개 어절로 이루어진 테스트 집합의 학습 및 평가 결과는 97.337%의 음절 띄어쓰기 태그 분류 정확도를 보였다.

  • PDF

Syntactic informations in the Sejong Electronic Dictionary of Korean Nouns (세종명사전자사전의 통사정보)

  • Hong, Chai-Song;Ko, Kil-Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.348-355
    • /
    • 2001
  • 세종전자사전은 한국어 어휘의 정보를 총체적으로 표상하는 전산어휘자료체이다. 세종전자사전은 궁극적으로 다양한 유형과 기능의 한국어 자동처리에의 활용을 목표로 한다. 세종체언전자사전은 최종적으로 5만여 항목을 대상으로 구축될 것이다. 세종명사전자사전은 전산적 효율성을 고려하여 명사 어휘의 정보를 8개의 하위정보구획과 50여개의 세부정보항목으로 구분하여 표상한다. 특히, 명사의 어휘 통사적인 결합에 관한 정보는 한국어 명사구와 문장의 자동생성에 직접 활용될 수 있는 정보이다. 명사는 수식어 요소 또는 조사와 결합하여 명사구를 형성하고, 동사 및 형용사와 결합하여 문장의 생성에 참여한다. 개별 명사들은 이 과정에서 다양한 제약적인 양상들을 보여주고 있으며, 세종명사전자사전은 이 정보들을 명시적으로 표상한다. 또한 명사는 기능동사와 결합하는 술어명사와 그렇지 않은 비술어명사로 구분이 된다. 술어 명사가 기능동사와 결합하여 문장을 형성할 때, 명사와 그 논항들은 다양한 통사적 기능을 담당한다. 또한 술어명사는 논항과 결합하여 명사구를 형성한다. 그러나, 술어명사의 명사구 형성과 기능동사의 결합은 불규칙적이고, 명사와 기능동사의 의미적 특성에 따라 다양한 제약이 발견된다. 이 정보들의 정밀한 표상은 개별 술어명사로부터 생성될 수 있는 가능한 명사구와 문장의 형태를 구체적으로 밝혀주게 된다. 세종명사전자사전의 어휘 통사적인 결합에 관한 정보들은 명사구 또는 문장의 자동생성의 정확성과 효율성을 높여줄 것이다.

  • PDF

A Right-to-Left Parsing using Headable Path (지배가능경로를 이용한 오른쪽 우선 구문 분석)

  • Kim, Chang-Hyun;Kim, Jae-Hoon;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.35-44
    • /
    • 1993
  • 본 논문에서는 의존문법을 이용해 한국어와 같이 비교적 어순이 자유롭고, 지배성분 후위의 특성을 갖는 언어를 효율적으로 분석할 수 있는 오른쪽 우선 분석 방법을 제안한다. 지배가능경로를 이용하면 생성되는 의존 트리의 수를 줄일 수 있음을 보이며, 의존 관계의 검사를 위해서는 지배가능경로 상의 문장 성분만을 조사하면 됨을 보인다. 한국어에 적용한 실험 결과를 보이며, 각 방식에 따른 비교 기준은 생성되는 외존 트리의 갯수와 분석 수행 시간으로 한다. 이때 한국어 문장성분간의 의존관계는 품사 분류에 의한 기본적인 의존 관계만을 이용하며, 격돌이나 의미 속성 등 추가적인 제약 사항은 이용하지 않는다. 오른쪽 우선 구문 분석은 지배가능경로를 이용함으로써 의존 관계의 빠른 검색을 할 수 있었으며, 문장 지배 성찰을 포함하지 않는 부분 의존 트리를 생성하지 않음으로써 생성되는 의존 트리의 수를 줄일 수 있었다.

  • PDF

Probabilistic Dependency Grammar Induction (한국어 확률 의존문법 학습)

  • 최선화;박혁로
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.513-515
    • /
    • 2003
  • 본 논문에서는 코퍼스를 이용한 확률 의존문법 자동 생성 기술을 다룬다. 의존문법 생성을 위해 구성성분의 기능어들 간의 의존관계를 학습했던 기존 연구와는 달리. 한국어 구성성분은 내용어와 기능어의 결함 형태로 구성되고 임의 구성성룬 기능어와 임의 구성성분 내용어간의 의존관계가 의미가 있다는 사실을 반영한 의존문법 학습방법을 제안한다. KAIST의 트리 부착 코퍼스 31,086문장에서 추출한 30,600문장의 Tagged Corpus을 가지고 학습한 결과 초기문법을 64%까지 줄인 1.101 개의 의존문법을 획득했고. 실험문장 486문장을 Parsing한 결과 73.81%의 Parsing 정확도를 보였다.

  • PDF

SRLev-BIH: An Evaluation Metric for Korean Generative Commonsense Reasoning (SRLev-BIH: 한국어 일반 상식 추론 및 생성 능력 평가 지표)

  • Jaehyung Seo;Yoonna Jang;Jaewook Lee;Hyeonseok Moon;Sugyeong Eo;Chanjun Park;Aram So;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.176-181
    • /
    • 2022
  • 일반 상식 추론 능력은 가장 사람다운 능력 중 하나로써, 인공지능 모델이 쉽게 모사하기 어려운 영역이다. 딥러닝 기반의 언어 모델은 여전히 일반 상식에 기반한 추론을 필요로 하는 분야에서 부족한 성능을 보인다. 특히, 한국어에서는 일반 상식 추론과 관련한 연구가 상당히 부족한 상황이다. 이러한 문제 완화를 위해 최근 생성 기반의 일반 상식 추론을 위한 한국어 데이터셋인 Korean CommonGen [1]이 발표되었다. 그러나, 해당 데이터셋의 평가 지표는 어휘 단계의 유사성과 중첩에 의존하는 한계를 지니며, 생성한 문장이 일반 상식에 부합한 문장인지 측정하기 어렵다. 따라서 본 논문은 한국어 일반 상식 추론 및 생성 능력에 대한 평가 지표를 개선하기 위해 문장 성분의 의미역과 자모의 형태 변화를 바탕으로 생성 결과를 평가하는 SRLev, 사람의 평가 결과를 학습한 BIH, 그리고 두 평가 지표의 장점을 결합한 SRLev-BIH를 제안한다.

  • PDF

English-Korean Machine Translation based-on Bilingual Relation of Idiomatic Expressions (관용적 표현의 대응 관계에 기반한 영어-한국어 기계 번역)

  • Yoon, Sung-Hee;Kim, Yung-Taek
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.571-580
    • /
    • 1993
  • 영어 문장을 한국어 문장으로 기계 번역하는 과정에는 분석 규칙이나 변환 규칙만으로는 해결하기 어려운 표현의 대응 관계들이 많이 나타난다. 본 논문은 영어-한국어 기계 번역에서 질적으로 향상된 한국어 문장을 얻기 위하여 두 언어 표현들 사이의 관용적 대응 관계에 기반하는 번역 방식을 논한다. 두 언어 표현들 사이의 다양한 직접 대응 관계를 제공하는 번역 사전을 이용하며, 입력 영어 문장으로부터 이와 같은 표현들을 인식하고 한국어 표현으로 직접적으로 대응시키는 번역 방식이다. 이러한 번역 방식은 기존의 변환 규칙 기반의 번역 방식보다 자연스러운 한국어 문장을 생성할 뿐만 아니라, 많은 구조적-의미적 모호성을 해결함으로써 시간적-공간적 처리효율을 크게 높일 수 있다.

  • PDF

Solution Method and Embodying of Adverb's Positioning Restrictions and Orderings for Korean-English Machine Translation (한.영 기계 번역을 위한 부사의 위치 및 순서제약 해결의 방안 및 구현)

  • Jo, Jun-Mo;Lee, Sang-Jo
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.163-167
    • /
    • 1994
  • 본 논문에서는 한국어 문장을 입력으로 받아 영어문장을 생성해 내는 한 영 기계번역 시스템에서 부사를 처리함으로써 더욱 자연스러운 역어생성을 꾀하였다 특히, 한국어보다 어순의 제약이 심한 영어를 처리함에 있어서 이들 부사의 위치 및 순서는 자연스러운 역어생성을 하기 위해서는 중요한 요소가 된다. 즉, 부사의 종류에 따라서 문장에서의 위치가 다르며, 한 문장내에서 2개 이상의 부사가 존재 할 때는 이를 부사의 순서를 정해 주어야 한다. 또한, 부사의 처리 없이는 이와 관련된 완료시제와 같은 관련 영역의 처리가 어렵다. 이러한 처리를 위해서, 한 영 기계번역 시스템의 목적에 알맞게 부사들의 특성을 조사하여 이들을 분류하였고, 이것을 기초로 하여 부사의 위치, 순서등의 처리를 하도록 하였다.

  • PDF

Fluent Text Generation Using GANs with Graph-search (GAN에서 그래프 탐색을 이용한 유창한 문장 생성)

  • Oh, Jinyoung;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.404-408
    • /
    • 2019
  • 비지도 학습 모델인 GAN은 학습 데이터 구축이 어려운 여러 분야에 활용되고 있으며, 알려진 문제점들을 보완하기 위해 다양한 모델 결합 및 변형으로 발전하고 있다. 하지만 문장을 생성하는 GAN은 풀어야 할 문제가 많다. 그중에서도 문제가 되는 것은 완성도가 높은 문장을 생성하는데 어려움이 있다는 것이다. 본 논문에서는 단어 그래프를 구성하여 GAN의 학습에 도움을 주며 완성도가 높은 문장을 생성하는 방법을 제안한다.

  • PDF

Translating a Complex Sentence in Korean into a Sign Language Script for an Automatic Sign Language Generation (수화 애니메이션 자동 생성을 위한 한국어 복문의 수화 스크립트 변환 방법)

  • Kim, Sangha;Chang, Eunyoung;Park, Jong C.
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.15-22
    • /
    • 2007
  • 한국 수화는 시각, 공간언어로 한국어와는 상이한 문법체계를 가진 언어로 수화를 일차 언어로 사용하는 농인들에게 있어 복잡한 구조의 한국어 문장은 부담이 된다. 본 논문은 이런 한국어 문장의 복잡한 구조를 농인들이 이해하기 쉬운 구조의 전개방식으로 변환하는 수화 스크립트 생성 시스템을 제안한다. 시스템은 세 단계로 구성되는데, 첫 번째 단계는 한국어 문장의 결합범주문법을 이용한 구문 분석이며, 두 번째 단계는 농인들이 이해하기 수월한 전개방식으로의 절단위 재배열이고, 세 번째 단계는 공간이동을 고려한 스크립트 형태로의 변환이다. 본 논문은 한국 수화의 복문 실현 방법에 대해 살펴본 후, 이를 처리하는 시스템의 단계별 처리 방안에 대해 구체적으로 논의한다.

  • PDF

An Experimental Speech Translation System for Hotel Reservation (호텔예약을 위한 자동통역 시스템)

  • 구명완;김웅인;김재인;도삼주;강용범;박상규;손일현;김우성;장두성
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.105-108
    • /
    • 1995
  • 한국에 있는 손님이 한국어 만을 사용하여 일본 호텔을 예약할 수 있도록 해 주는 한일간 자동통역 시연 시스템에 관해 기술하였다. 이 시스템은 한국어 음성인식부, 한일 기계번역부, 한국어 음성합성부로 구성되어 있다. 한국어 음성인식부는 기본적으로 HMM을 이용하는 화자독립, 약 300단어급 연속음성인식 시스템으로서 전향 언어 모델로 바이그램 언어 모델, 후향 언어 모델로는 의존 문법을 사용하여 N-BEST 문장을 생성해낸다. 실험결과, 단어 인식률은 top1 문장에 대해 약 94.5%, top5 문장에 대해 약 94.7%의 인식률을 얻었다. 인식 시간은 길이가 다른 여러 문장들에 대해 약 0.1~3초가 걸렸다. 기계번역부에서는 음성인식에서 의존 문법을 사용하여 분석된 파싱 결과를 이용, 직접 번역 방식을 채택하여 일본어를 생성한다. 음성 합성부는 반음소를 합서의 기본단위로 하고, 합성방식으로는 주기 파형 분해 및 재배치 방식으로 하였다. 실험 환경은 2 CPU를 장착한 SPARC 20 workstation 이었으며 실시간 특징 추출을 위해 TMS320C30 DSP 보드 1개를 이용하였다.

  • PDF