• Title/Summary/Keyword: 한국어 코퍼스

Search Result 245, Processing Time 0.021 seconds

Korean Noun Phrase Identification Using Maximum Entropy Method (최대 엔트로피 모델을 이용한 한국어 명사구 추출)

  • 강인호;전수영;김길창
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.127-132
    • /
    • 2000
  • 본 논문에서는 격조사의 구문적인 특성을 이용하여, 수식어까지 포함한 명사구 추출 방법을 연구한다. 명사구 판정을 위해 연속적인 형태소열을 문맥정보로 사용하던 기존의 방법과 달리, 명사구의 처음과 끝 그리고 명사구 주변의 형태소를 이용하여 명사구의 수식 부분과 중심 명사를 문맥정보로 사용한다. 다양한 형태의 문맥 정보들은 최대 엔트로피 원리(Maximum Entropy Principle)에 의해 하나의 확률 분포로 결합된다. 본 논문에서 제안하는 명사구 추출 방법은 먼저 구문 트리 태깅된 코퍼스에서 품사열로 표현되는 명사구 문법 규칙을 얻어낸다. 이렇게 얻어낸 명사구 규칙을 이용하여 격조사와 인접한 명사구 후보들을 추출한다. 추출된 각 명사구 후보는 학습 코퍼스에서 얻어낸 확률 분포에 기반하여 명사구로 해석될 확률값을 부여받는다. 이 중 제일 확률값이 높은 것을 선택하는 형태로 각 격조사와 관계있는 명사구를 추출한다. 본 연구에서 제시하는 모델로 시험을 한 결과 평균 4.5개의 구를 포함하는 명사구를 추출할 수 있었다.

  • PDF

Establishment of Fixed Expression KnowledgeBase for Korean-to-English Machine Translation (한영 기계번역을 위한 고정표현 지식베이스 구축)

  • 이현호;안동언;정성종;김재훈;서영애;김영길
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.369-371
    • /
    • 2000
  • 예제 기반 기계번역 시스템에서 해석의 정확도를 높이기 위해서는 대량의 고품질 대역 코퍼스가 필요하다. 이 대역 코퍼스는 예문을 단순히 나열해 놓은 것이 아니라 일정한 표현 형식에 따라서 기술한 대역 패턴들이다. 본 논문에서는 용언과 필수항인 명사구들로 이루어지는 고정표현을 정의하고 한국어와 영어의 대역 패턴을 기술하여 지식베이스를 구축한다. 빈도수가 높은 용언 5,000개를 중심으로 한영사전에 있는 용례 58,000여 개의 고정표현 지식을 구축하였다. 본 논문에서는 고정표현 지식베이스를 구축하는 과정을 기술하고, 고정표현 지식을 기술하면서 발생하였던 여러 가지 문제점을 예와 같이 기술한다.

  • PDF

Extraction of English-Korean Compound Noun Translation through Automatic Alignment Method (자동 정렬을 통한 영한 복합어의 역어 추출)

  • Lee, Ju-Ho;Choi, Key-Sun;Lee, Jae-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.309-314
    • /
    • 2000
  • 본 논문에서는 양국어로 된 병렬 코퍼스로부터 복합어의 역어를 추출하기 위한 정렬 방법을 제시한다. 여기에서는 개념어에 대한 양국어 공기정보를 사용하여 기본 정렬을 하고, 인접한 개념어로 정렬의 단위를 확장했다. 또한 재추정 기법을 사용하여 대역 확률을 계산함으로써 보다 높은 정확률을 얻을 수 있었다. 본 논문에서 제안한 방법을 적용하여 139,265개의 영어 어절로 이루어진 우루과이 라운드 영한 병렬 코퍼스에 대해서 실험한 결과 2,290개의 대역어 쌍을 얻었고, 그 정확률은 74%였다.

  • PDF

Probabilistic Dependency Grammar Induction using Internal Dependency Relation in Words (어절 내부 의존관계를 고려한 확률 의존 문법 학습)

  • Choi, Seon-Hwa;Park, Hyuk-Ro
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.507-510
    • /
    • 2001
  • 본 논문에서는 코퍼스를 이용한 확률 의존문법 자동 생성 기술을 다룬다. 특히 의존 문법 생성을 위해 확률 재추정 알고리즘을 의존문법생성에 맞도록 변형하여 학습하였으며 정확한 문법 생성 및 회귀데이터(Data Sparseness)문제 해결을 위해서 구성요소의 대표 지배소들 간의 의존관계 만을 학습했던 기존 연구와는 달리 구성요소 내부의 의존관계까지 학습하는 방법을 제안한다. KAIST 의 트리 부착 코퍼스 31,086 문장에서 추출한 25,000 문장의 Tagged Corpus 을 가지고 한국어 확률 의존 문법 학습을 시도 하였다. 그 결과 초기문법을 10.97% 에서 23.73% 까지 줄인 2,349 개의 정확한 문법을 얻을 수 있었다. 문법의 정확성을 실험 하기 위해 350 개의 실험문장을 Parsing 한 결과 69.61%의 파싱 정확도를 보였다. 이로서 구성요소 내부의 의존관계 학습으로 얻어진 의존문법이 더 정확했으며, 회귀데이터 문제 또한 극복할 수 있음을 알 수 있었다.

  • PDF

Disambiguation of Auxiliary Verbs "reru/rareru" in Japanese-Korean MT System (일한 기계 번역의 성능 향상을 위한 조동사 れる/られる의 애매성 해결)

  • 한명수;문경희;이종혁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.188-190
    • /
    • 2000
  • 본 논문은 고품질의 일한 기계 번역 시스템의 개발을 위해서, 코퍼스에서 높은 빈도로 나타나는 일본어 조동사 れる/られる의 애매성 해소 방법을 제안한다. 조동사 れる/られる는 동사와 접속하여 가능, 자발, 피동, 존경의 네 가지 의미로 사용되며, 문맥에 따라서 그 의미가 결정된다. 본 논문에서는 특히, 한국어에는 존재하지 않는 간접 피동과 여격 및 대격을 동시에 가지는 수여동사의 이중피동에 중점을 두어, 동사의 결합가 정보와 구문분석을 통한 패턴 매칭 방법을 이용하여 애매성을 해소하였다. 코퍼스로부터 용법별로 추출된 300 문장을 실험 대상으로 기존의 방법과 논문의 방법을 비교, 평가한 결과 33%의 번역률 향상을 보였다.

  • PDF

A Corpus-driven Approach to Korean and English Newspaper Obituaries (빈도 분석을 활용한 한·영 사망기사 특징 비교)

  • Shin, Hyejung
    • The Journal of the Korea Contents Association
    • /
    • v.14 no.11
    • /
    • pp.592-601
    • /
    • 2014
  • This study examines newspaper obituaries in Korean media and English media. Initially, 100 Korean obituaries were collected from the JoongAng Ilbo which span over more than three years, from May 2011 to August 2014. After that, another 50 Korean obituaries were gathered from the DongA Ilbo which were published over the same time period with the JoongAng Ilbo. As for English newspapers, obituaries from the New York Times and the Guardian were included in the corpus for comparison. First, the structure and composition of obituaries in each language (Korean and English) are compared. Korean obituaries show a pattern of a combination of a death notice and an obituary. Second, distinct features of each newspaper are discussed. The JoongAng Ilbo has its obituary section titled "Life and Memories", and the DongA Ilbo's obituaries are under the heading of "Rest in Peace." Obituaries in the New York Times appear in print on different pages of the paper according to the deceased's field of interest. Following discussion of formal structure and characteristics of each newspaper, Korean and English obituaries will be compared in terms of content and cultural context.

Korean Dependency Parsing Using Stack-Pointer Networks and Subtree Information (스택-포인터 네트워크와 부분 트리 정보를 이용한 한국어 의존 구문 분석)

  • Choi, Yong-Seok;Lee, Kong Joo
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.6
    • /
    • pp.235-242
    • /
    • 2021
  • In this work, we develop a Korean dependency parser based on a stack-pointer network that consists of a pointer network and an internal stack. The parser has an encoder and decoder and builds a dependency tree for an input sentence in a depth-first manner. The encoder of the parser encodes an input sentence, and the decoder selects a child for the word at the top of the stack at each step. Since the parser has the internal stack where a search path is stored, the parser can utilize information of previously derived subtrees when selecting a child node. Previous studies used only a grandparent and the most recently visited sibling without considering a subtree structure. In this paper, we introduce graph attention networks that can represent a previously derived subtree. Then we modify our parser based on the stack-pointer network to utilize subtree information produced by the graph attention networks. After training the dependency parser using Sejong and Everyone's corpus, we evaluate the parser's performance. Experimental results show that the proposed parser achieves better performance than the previous approaches at sentence-level accuracies when adopting 2-depth graph attention networks.

Decision of the Korean Speech Act using Feature Selection Method (자질 선택 기법을 이용한 한국어 화행 결정)

  • 김경선;서정연
    • Journal of KIISE:Software and Applications
    • /
    • v.30 no.3_4
    • /
    • pp.278-284
    • /
    • 2003
  • Speech act is the speaker's intentions indicated through utterances. It is important for understanding natural language dialogues and generating responses. This paper proposes the method of two stage that increases the performance of the korean speech act decision. The first stage is to select features from the part of speech results in sentence and from the context that uses previous speech acts. We use x$^2$ statistics(CHI) for selecting features that have showed high performance in text categorization. The second stage is to determine speech act with selected features and Neural Network. The proposed method shows the possibility of automatic speech act decision using only POS results, makes good performance by using the higher informative features and speed up by decreasing the number of features. We tested the system using our proposed method in Korean dialogue corpus transcribed from recording in real fields, and this corpus consists of 10,285 utterances and 17 speech acts. We trained it with 8,349 utterances and have test it with 1,936 utterances, obtained the correct speech act for 1,709 utterances(88.3%). This result is about 8% higher accuracy than without selecting features.

A Corpus-based Study of Translation Universals in English Translations of Korean Newspaper Texts (한국 신문의 영어 번역에 나타난 번역 보편소의 코퍼스 기반 분석)

  • Goh, Gwang-Yoon;Lee, Younghee (Cheri)
    • Cross-Cultural Studies
    • /
    • v.45
    • /
    • pp.109-143
    • /
    • 2016
  • This article examines distinctive linguistic shifts of translational English in an effort to verify the validity of the translation universals hypotheses, including simplification, explicitation, normalization and leveling-out, which have been most heavily explored to date. A large-scale study involving comparable corpora of translated and non-translated English newspaper texts has been carried out to typify particular linguistic attributes inherent in translated texts. The main findings are as follows. First, by employing the parameters of STTR, top-to-bottom frequency words, and mean values of sentence lengths, the translational instances of simplification have been detected across the translated English newspaper corpora. In contrast, the portion of function words produced contrary results, which in turn suggests that this feature might not constitute an effective test of the hypothesis. Second, it was found that the use of connectives was more salient in original English newspaper texts than translated English texts, being incompatible with the explicitation hypothesis. Third, as an indicator of translational normalization, lexical bundles were found to be more pervasive in translated texts than in non-translated texts, which is expected from and therefore support the normalization hypothesis. Finally, the standard deviations of both STTR and mean sentence lengths turned out to be higher in translated texts, indicating that the translated English newspaper texts were less leveled out within the same corpus group, which is opposed to what the leveling-out hypothesis postulates. Overall, the results suggest that not all four hypotheses may qualify for the label translation universals, or at least that some translational predictors are not feasible enough to evaluate the effectiveness of the translation universals hypotheses.

A Study on Semi-Automatic Construction of Verb Patterns for a Korean-Chinese MT System (한중 기계번역 시스템을 위한 동사구 패턴 반자동 확장 방안 연구)

  • Hong, Mun-Pyo;Ryu, Cheol;Kim, Young-Kil;Park, Sang-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.273-278
    • /
    • 2003
  • 본 논문에서는 한-중 기계번역 시스템에서 사용되는 한중 동사구 패턴의 반자동 생성을 위한 방법론을 제안한다. 한중 동사구 패턴은 한국어와 중국어간의 변환을 위한 정보를 제공할 뿐만 아니라, 한국어의 구문분석과 중국어의 생성을 위해 중요한 정보를 제공하는 고급 언어자원이다. 본 논문에서 제시하는 새로운 패턴 반자동확장 방안은 기존의 한중 동사구 패턴으로부터 대역어 정보를 이용하여 새로운 동사구 패턴을 생성해내는 방법이다. 본 방법론은 시스템 개발 초기에 일반적으로 이루어지는 사전기반 패턴 구축이 끝난 후, 패턴의 커버리지 문제를 해결하기 위해 실용적으로 적용할 수 있는 방법론으로서, 한국어와 중국어 같이 활용 가능한 대역 코퍼스가 아직 많지 않은 경우에 효과적이다. 본 논문에서 제시한 방법론은 실험 결과 67.15%의 정확률과 4.58배의 패턴 확장률을 나타냈다.

  • PDF