• Title/Summary/Keyword: POS-Tagging

Search Result 73, Processing Time 0.025 seconds

Word Segmentation and POS tagging using Seq2seq Attention Model (seq2seq 주의집중 모델을 이용한 형태소 분석 및 품사 태깅)

  • Chung, Euisok;Park, Jeon-Gue
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.217-219
    • /
    • 2016
  • 본 논문은 형태소 분석 및 품사 태깅을 위해 seq2seq 주의집중 모델을 이용하는 접근 방법에 대하여 기술한다. seq2seq 모델은 인코더와 디코더로 분할되어 있고, 일반적으로 RNN(recurrent neural network)를 기반으로 한다. 형태소 분석 및 품사 태깅을 위해 seq2seq 모델의 학습 단계에서 음절 시퀀스는 인코더의 입력으로, 각 음절에 해당하는 품사 태깅 시퀀스는 디코더의 출력으로 사용된다. 여기서 음절 시퀀스와 품사 태깅 시퀀스의 대응관계는 주의집중(attention) 모델을 통해 접근하게 된다. 본 연구는 사전 정보나 자질 정보와 같은 추가적 리소스를 배제한 end-to-end 접근 방법의 실험 결과를 제시한다. 또한, 디코딩 단계에서 빔(beam) 서치와 같은 추가적 프로세스를 배제하는 접근 방법을 취한다.

  • PDF

A fast POS tagging method for speech synthesis (음성합성을 위한 품사태깅시스템의 속도 개선)

  • Kim Jeong-se;Park Jun
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.159-162
    • /
    • 2002
  • 본 논문에서는 음성합성을 위한 의사형태소 품사 태깅 시스템의 속도를 개선하는 방법으로 정확률을 다소 희생하더라도 속도개선이 될 수 있는 방법을 제안하고자 한다. 형태소 해석 시에는 종성으로 올 수 있는 자모를 제외한 나머지에 대해서는 음절단위로 구성하는 변형된 Tabular 파싱법으로 해석하는데, 여기에다 일반적으로 적용 가능한 몇 가지의 규칙을 추가함으로써 해석 가능한 노드들을 줄였다. 태깅 시에는 한국어의 특성상 어절 하나씩을 품사 태깅하였을 경우에도 상당히 정확하다는 점을 이용하여 어절 내부에서는 full search 를 하고 그 다음 어절은 이전 어절의 제일 높은 값을 가지는 품사열 정보를 활용하는 방법을 제안한다. 제안한 시스템은 32 개 품사 태그셋에 2 만 형태소 사전을 이용해 실험한 결과, 기존의 시스템보다 약 $60\%$이상의 속도 개선을 보였으며, 정확률은 약 $1\%$ 정도 떨어졌다.

  • PDF

Length Bitmap HASH Based POS Tagging System (길이 비트맵 해시 기반 형태소 분석 시스템)

  • Seon Choong-Nyoung;Min Kyungkoo;Seo Jungyun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.505-507
    • /
    • 2005
  • 인터넷의 확장에 따라 형태소 분석기에서 사용하는 사전의 규모도 커지고 있다. 이러한 상황은 사전의 증가를 가져옴으로써 기존 형태소 분석기의 자료 구조에 대한 새로운 요구를 발생시켰다. 기존의 트라이를 이용한 방법은 노드의 과다 생성과 데이터 부족문제로 발생하는 메모리 낭비의 문제를 가지고 있다. 효율적인 메모리 사용을 위해서는 해시 구조가 적절하다. 하지만 이 경우 트라이에 비해 검색 횟수의 복잡도가 비약적으로 증가되는 문제점을 안고 있다. 본 논문에서는 해시를 위한 길이 비트맵을 이용하여 검색 횟수를 제한할 수 있는 방법을 제안하였다. 실험을 통해 제안된 자료 구조와 해시와 트라이의 형태소 사전 검색 횟수를 비교하였으며 비문 사용이 많은 영역에서 효율적임을 입증하였다.

  • PDF

An Analysis of Korean Dependency Relation by Homograph Disambiguation (동형이의어 분별에 의한 한국어 의존관계 분석)

  • Kim, Hong-Soon;Ock, Cheol-Young
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.3 no.6
    • /
    • pp.219-230
    • /
    • 2014
  • An analysis of dependency relation is a job that determines the governor and the dependent between words in sentence. The dependency relation of predicate is established by patterns and selectional restriction of subcategorization of the predicate. This paper proposes a method of analysis of Korean dependency relation using homograph predicate disambiguated in morphology analysis phase. The disambiguated homograph predicates has each different pattern. Especially reusing a stage transition training dictionary used during tagging POS and homograph, we propose a method of fixing the dependency relation of {noun+postposition, predicate}, and we analyze the accuracy and an effect of homograph for analysis of dependency relation. We used the Sejong Phrase Structured Corpus for experiment. We transformed the phrase structured corpus to dependency relation structure and tagged homograph. From the experiment, the accuracy of dependency relation by disambiguating homograph is 80.38%, the accuracy is increased by 0.42% compared with one of undisambiguated homograph. The Z-values in statistical hypothesis testing with significance level 1% is ${\mid}Z{\mid}=4.63{\geq}z_{0.01}=2.33$. So we can conclude that the homograph affects on analysis of dependency relation, and the stage transition training dictionary used in tagging POS and homograph affects 7.14% on the accuracy of dependency relation.

An Improved Homonym Disambiguation Model based on Bayes Theory (Bayes 정리에 기반한 개선된 동형이의어 분별 모텔)

  • 김창환;이왕우
    • Journal of the Korea Computer Industry Society
    • /
    • v.2 no.12
    • /
    • pp.1581-1590
    • /
    • 2001
  • This paper asserted more developmental model of WSD(word sense disambiguation) than J. Hur(2000)'s WSD model. This model suggested an improved statistical homonym disambiguation Model based on Bayes Theory. This paper using semantic information(co-occurrence data) obtained from definitions of part of speech(POS) tagged UMRD-S(Ulsan university Machine Readable Dictionary(Semantic Tagged)). we extracted semantic features in the context as nouns, predicates and adverbs from the definitions in the korean dictionary. In this research, we make an experiment with the accuracy of WSD system about major nine homonym nouns and new seven homonym predicates supplementary. The inner experimental result showed average accuracy of 98.32% with regard to the most Nine homonym nouns and 99.53% for the Seven homonym predicates. An Addition, we save test on Korean Information Base and ETRI's POS tagged corpus. This external experimental result showed average accuracy of 84.42% with regard to the most Nine nouns over unsupervised learning sentences from Korean Information Base and ETRI Corpus, 70.81 % accuracy rate for the Seven predicates from Sejong Project phrase part tagging corpus (3.5 million phrases) too.

  • PDF

Light Weight Korean Morphological Analysis Using Left-longest-match-preference model and Hidden Markov Model (좌최장일치법과 HMM을 결합한 경량화된 한국어 형태소 분석)

  • Kang, Sangwoo;Yang, Jaechul;Seo, Jungyun
    • Korean Journal of Cognitive Science
    • /
    • v.24 no.2
    • /
    • pp.95-109
    • /
    • 2013
  • With the rapid evolution of the personal device environment, the demand for natural language applications is increasing. This paper proposes a morpheme segmentation and part-of-speech tagging model, which provides the first step module of natural language processing for many languages; the model is designed for mobile devices with limited hardware resources. To reduce the number of morpheme candidates in morphological analysis, the proposed model uses a method that adds highly possible morpheme candidates to the original outputs of a conventional left-longest-match-preference method. To reduce the computational cost and memory usage, the proposed model uses a method that simplifies the process of calculating the observation probability of a word consisting of one or more morphemes in a conventional hidden Markov model.

  • PDF

Part-Of-Speech Tagging and the Recognition of the Korean Unknown-words Based on Machine Learning (기계학습에 기반한 한국어 미등록 형태소 인식 및 품사 태깅)

  • Choi, Maeng-Sik;Kim, Hark-Soo
    • The KIPS Transactions:PartB
    • /
    • v.18B no.1
    • /
    • pp.45-50
    • /
    • 2011
  • Unknown morpheme errors in Korean morphological analysis are divided into two types: The one is the errors that a morphological analyzer entirely fails to return any morpheme sequences, and the other is the errors that a morphological analyzer returns incorrect combinations of known morphemes. Most previous unknown morpheme estimation techniques have been focused on only the former errors. This paper proposes a unknown morpheme estimation method which can handle both of the unknown morpheme errors. The proposed method detects Eojeols (Korean spacing units) that may include unknown morpheme errors using SVM (Support Vector Machine). Then, using CRFs (Conditional Random Fields), it segments morphemes from the detected Eojeols and annotates the segmented morphemes with new POS tags. In the experiments, the proposed method outperformed the conventional method based on the longest matching of functional words. Based on the experimental results, we knew that the second type errors should be dealt with in order to increase the performance of Korean morphological analysis.

New Text Steganography Technique Based on Part-of-Speech Tagging and Format-Preserving Encryption

  • Mohammed Abdul Majeed;Rossilawati Sulaiman;Zarina Shukur
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • v.18 no.1
    • /
    • pp.170-191
    • /
    • 2024
  • The transmission of confidential data using cover media is called steganography. The three requirements of any effective steganography system are high embedding capacity, security, and imperceptibility. The text file's structure, which makes syntax and grammar more visually obvious than in other media, contributes to its poor imperceptibility. Text steganography is regarded as the most challenging carrier to hide secret data because of its insufficient redundant data compared to other digital objects. Unicode characters, especially non-printing or invisible, are employed for hiding data by mapping a specific amount of secret data bits in each character and inserting the character into cover text spaces. These characters are known with limited spaces to embed secret data. Current studies that used Unicode characters in text steganography focused on increasing the data hiding capacity with insufficient redundant data in a text file. A sequential embedding pattern is often selected and included in all available positions in the cover text. This embedding pattern negatively affects the text steganography system's imperceptibility and security. Thus, this study attempts to solve these limitations using the Part-of-speech (POS) tagging technique combined with the randomization concept in data hiding. Combining these two techniques allows inserting the Unicode characters in randomized patterns with specific positions in the cover text to increase data hiding capacity with minimum effects on imperceptibility and security. Format-preserving encryption (FPE) is also used to encrypt a secret message without changing its size before the embedding processes. By comparing the proposed technique to already existing ones, the results demonstrate that it fulfils the cover file's capacity, imperceptibility, and security requirements.

Hybrid POS Tagging with generalized unknown word handling and post error-correction rules (일반화된 미등록어 처리와 오류 수정규칙을 이용한 혼합형 품사태깅)

  • Cha, Jeong-Won;Lee, Won-Il;Lee, Geun-Bae;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.88-93
    • /
    • 1997
  • 본 논문에서는 품사 태깅을 위해 여러 통계 모델을 실험을 통하여 비교하였으며 이를 토대로 통계적 모델을 구성하였다. 형태소 패턴 사전을 이용하여 미등록어의 위치와 개수에 관계없는 일반적인 방법의 미등록어 처리 방법을 개발하고 통계모델이 가지는 단점을 보완할 수 있는 오류 수정 규칙을 함께 이용하여 혼합형 품사 태깅 시스템인 $POSTAG^{i}$를 개발하였다. 미등록어를 추정하는 형태소 패턴 사전은 한국어 음절 정보와 용언의 불규칙 정보를 이용하여 구성하고 다어절어 사전을 이용하여 여러 어절에 걸쳐 나타나는 연어를 효과적으로 처리하면서 전체적인 태깅 정확도를 개선할 수 있다. 또 오류 수정 규칙은 Brill이 제안한 학습을 통하여 자동으로 얻어진다. 오류 수정 규칙의 자동 추출시에 몇 가지의 휴리스틱을 사용하여 보다 우수하고 일반적인 규clr을 추출할 수 있게 하였다. 10만의 형태소 품사 말뭉치로 학습하고 학습에 참여하지 않은 2만 5천여 형태소로 실험하여 97.28%의 정확도를 보였다.

  • PDF

KTAG99: Highly-Adaptable Koran POS tagging System to New Environments (KTAG99: 새로운 환경에 쉽게 적응하는 한국어 품사 태깅 시스템)

  • Kim, Jae-Hoon;Sun, Choong-Nyoung;Hong, Sang-Wook;Lee, Song-Wook;Seo, Jung-Yun;Cho, Jeong-Mi
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.99-105
    • /
    • 1999
  • 한국어 정보처리를 위한 언어정보는 응용 분야에 따라 큰 차이를 보인다. 특히 말뭉치를 이용한 연구에서는 언어정보가 달라질 때마다 시스템을 새로 구성해야 하는 어려움이 있다. 본 논문에서는 이와 같은 어려움을 다소 완화시키기 위해 새로운 환경에 잘 적응할 수 있는 한국어 품사 태깅 시스템에 관해서 논한다. 본 논문에서는 이 시스템을 KTAG99라고 칭한다. KTAG99는 크게 실행부와 학습부로 구성되었다. 한국어 품사 태깅을 위한 실행부는 고유명사 추정기, 한국어 형태소 분석기, 통계기반 품사 태거, 품사 태깅 오류교정기로 구성되었으며, 실행부에서 필요한 언어정보를 추출하는 학습부는 고유명사 추정규칙 추출기, 형태소 배열규칙 추출기, 사전 추출기, 확률정보 추정기, 품사 태깅 오류수정 규칙 추정기로 구성되었다. KTAG99에서 필요한 언어정보의 대부분은 학습 말뭉치로부터 추출되거나 추정되기 때문에 아주 짧은 시간 내에 새로운 환경에 적응할 수 있다.

  • PDF