• 제목/요약/키워드: morpheme frequency

검색결과 28건 처리시간 0.026초

한국어 음절의 표기빈도와 형태소빈도가 단어인지에 미치는 효과 (Effects of orthographic and morphological frequency of a syllable in Korean word recognition)

  • 이광오;배성봉
    • 인지과학
    • /
    • 제20권3호
    • /
    • pp.309-333
    • /
    • 2009
  • 2음절 한자 합성어의 어휘판단에서 형태소 처리와 글자 처리의 역할을 조사하였다. 실험 1의 단어에 대한 반응에서는 어두와 어말 위치 모두에서 형태소 빈도의 효과는 나타나지 않았으나, 비단어에 대한 반응에서는 글자 빈도의 효과와 글자-형태소 대응의 효과가 나타났다. 빈도가 높은 글자를 포함하는 비단어일수록 반응시간이 길었고, 글자-형태소의 대응이 불투명한 비단어일수록 반응시간이 길었다. 실험 2에서는 실험 1에서 나타난 글자-형태소 대응의 효과를 단어에서 직접 관찰하고자 하였다. 그 결과, 단어 자극에 대해서도 글자-형태소 대응이 불투명할수록 어휘 판단이 느렸으며, 비단어 자극에서 그러한 경향이 더 뚜렷하였다. 본 연구의 결과는, 글자-형태소 대응이 불투명한 단어의 경우 다양한 형태소를 활성화시키게 되고, 그 결과 형태소의 파악은 늦어지고, 결국은 단어 인지의 지연으로 연결된다는 주장을 지지한다. 실험 결과를 바탕으로 하여 한글 표기 한자어의 인지에서 형태소 위치 효과, 글자 빈도의 역할 등에 대해서 논의하였다.

  • PDF

비교사 분할 및 병합으로 구한 의사형태소 음성인식 단위의 성능 (Performance of Pseudomorpheme-Based Speech Recognition Units Obtained by Unsupervised Segmentation and Merging)

  • 방정욱;권오욱
    • 말소리와 음성과학
    • /
    • 제6권3호
    • /
    • pp.155-164
    • /
    • 2014
  • This paper proposes a new method to determine the recognition units for large vocabulary continuous speech recognition (LVCSR) in Korean by applying unsupervised segmentation and merging. In the proposed method, a text sentence is segmented into morphemes and position information is added to morphemes. Then submorpheme units are obtained by splitting the morpheme units through the maximization of posterior probability terms. The posterior probability terms are computed from the morpheme frequency distribution, the morpheme length distribution, and the morpheme frequency-of-frequency distribution. Finally, the recognition units are obtained by sequentially merging the submorpheme pair with the highest frequency. Computer experiments are conducted using a Korean LVCSR with a 100k word vocabulary and a trigram language model obtained by a 300 million eojeol (word phrase) corpus. The proposed method is shown to reduce the out-of-vocabulary rate to 1.8% and reduce the syllable error rate relatively by 14.0%.

Korean Broadcast News Transcription Using Morpheme-based Recognition Units

  • Kwon, Oh-Wook;Alex Waibel
    • The Journal of the Acoustical Society of Korea
    • /
    • 제21권1E호
    • /
    • pp.3-11
    • /
    • 2002
  • Broadcast news transcription is one of the hardest tasks in speech recognition because broadcast speech signals have much variability in speech quality, channel and background conditions. We developed a Korean broadcast news speech recognizer. We used a morpheme-based dictionary and a language model to reduce the out-of·vocabulary (OOV) rate. We concatenated the original morpheme pairs of short length or high frequency in order to reduce insertion and deletion errors due to short morphemes. We used a lexicon with multiple pronunciations to reflect inter-morpheme pronunciation variations without severe modification of the search tree. By using the merged morpheme as recognition units, we achieved the OOV rate of 1.7% comparable to European languages with 64k vocabulary. We implemented a hidden Markov model-based recognizer with vocal tract length normalization and online speaker adaptation by maximum likelihood linear regression. Experimental results showed that the recognizer yielded 21.8% morpheme error rate for anchor speech and 31.6% for mostly noisy reporter speech.

대어휘 연속음성 인식을 위한 결합형태소 자동생성 (Automatic Generation of Concatenate Morphemes for Korean LVCSR)

  • 박영희;정민화
    • 한국음향학회지
    • /
    • 제21권4호
    • /
    • pp.407-414
    • /
    • 2002
  • 본 논문에서는 형태소를 인식 단위로 하는 한국어 연속음성 인식의 성능 개선을 위해 결합형태소를 자동으로 생성하는 방법을 제시한다. 학습코퍼스의 54%를 차지하고 오인식의 주요인이 되는 단음절 형태소를 감소시켜서 인식 성능을 높이는 것을 목적으로 한다. 품사의 접속 규칙을 이용한 기존의 지식기반의 형태소 결합방법은 접속 규칙의 생성이 어렵고, 학습 코퍼스에 나타난 출현 빈도를 반영하지 못하여 저빈도 결합형태소를 다수 생성하는 경향을 보였다. 본 논문에서 제시하는 방법은 학습데이터의 통계정보를 이용하여 결합형태소를 자동 생성한다. 결합할 형태소 쌍 선정을 위한 평가척도로는 형태소 쌍의 빈도, 상호정보, 유니그램 로그 유도값(unigram log likelihood)을 이용하였고 여기에 한국어의 특성 반영을 위해 단음절 형태소 제약과 형태소 결합길이를 제한하는 두개의 제약사항을 추가하였다. 학습에 사용된 텍스트 코퍼스는 방송뉴스와 신문으로 구성된 7백만 형태소이고, 최빈도 2만 형태소 다중 발음사전을 사용하였다. 세가지 평가척도 중 빈도를 이용한 것의 성능이 가장 좋았고 여기에 제약조건을 반영하여 성능을 더 개선할 수 있었다. 특히 최대 결합 길이를 3으로 할 때의 성능이 가장 우수하여 언어모델 혼잡도는 117.9에서 97.3으로 18%감소했으며, 형태소 에러율 (MER: Morpheme error rate)은 21.3%에서 17.6%로 감소하였다. 이때 단음절 형태소는 54%에서 30%로 24%가 감소하였다.

CNN을 적용한 한국어 상품평 감성분석: 형태소 임베딩을 중심으로 (Sentiment Analysis of Korean Reviews Using CNN: Focusing on Morpheme Embedding)

  • 박현정;송민채;신경식
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.59-83
    • /
    • 2018
  • 고객과 대중의 니즈를 파악하기 위한 감성분석의 중요성이 커지면서 최근 영어 텍스트를 대상으로 다양한 딥러닝 모델들이 소개되고 있다. 본 연구는 영어와 한국어의 언어적인 차이에 주목하여 딥러닝 모델을 한국어 상품평 텍스트의 감성분석에 적용할 때 부딪히게 되는 기본적인 이슈들에 대하여 실증적으로 살펴본다. 즉, 딥러닝 모델의 입력으로 사용되는 단어 벡터(word vector)를 형태소 수준에서 도출하고, 여러 형태소 벡터(morpheme vector) 도출 대안에 따라 감성분석의 정확도가 어떻게 달라지는지를 비정태적(non-static) CNN(Convolutional Neural Network) 모델을 사용하여 검증한다. 형태소 벡터 도출 대안은 CBOW(Continuous Bag-Of-Words)를 기본적으로 적용하고, 입력 데이터의 종류, 문장 분리와 맞춤법 및 띄어쓰기 교정, 품사 선택, 품사 태그 부착, 고려 형태소의 최소 빈도수 등과 같은 기준에 따라 달라진다. 형태소 벡터 도출 시, 문법 준수도가 낮더라도 감성분석 대상과 같은 도메인의 텍스트를 사용하고, 문장 분리 외에 맞춤법 및 띄어쓰기 전처리를 하며, 분석불능 범주를 포함한 모든 품사를 고려할 때 감성분석의 분류 정확도가 향상되는 결과를 얻었다. 동음이의어 비율이 높은 한국어 특성 때문에 고려한 품사 태그 부착 방안과 포함할 형태소에 대한 최소 빈도수 기준은 뚜렷한 영향이 없는 것으로 나타났다.

중학교 1학년 영어 교과서의 영어 형태소 도입 순위와 자연적 순서 가설과의 상관관계 연구 (A study on the correlation between the introduction order of English morphemes in the English textbook for the 7th graders and the natural order hypothesis)

  • 송해성
    • 영어어문교육
    • /
    • 제9권1호
    • /
    • pp.131-152
    • /
    • 2003
  • The purpose of this study is to investigate the correlation between the introduction order of 9 English morphemes in the English textbook used in the middle school and the learning order of the morphemes by the 7th graders learning English as a foreign language. The subjects are 139 students in two middle schools, who learn English with different textbooks. The introduction order of each morpheme in two textbooks was examined according to its quantity and frequency. Data on the real learning order were collected through the written SLOPE test, and each morpheme was ranked by its group score. The introduction order of each morpheme in the textbook and the real learning order were analyzed by Spearman rank order correlation. It was shown that the correlation between the two was very low. This means that those textbooks do not take the learning order of English morphemes into account. Also it was shown that in the earlier stage of learning English the introduction order of each morpheme in the textbook had much influence on its learning order, but in the later stage such influence reduced gradually. This means that the learning order of English morphemes approaches the natural order as time passes by.

  • PDF

한국어 연결어미 '-면서'와 중국어 대응표현의 대조연구 -한·중 병렬 말뭉치를 기반으로 (A Comparative Study on Korean Connective Morpheme '-myenseo' to the Chinese expression - based on Korean-Chinese parallel corpus)

  • YI, CHAO
    • 비교문화연구
    • /
    • 제37권
    • /
    • pp.309-334
    • /
    • 2014
  • This study is based on the Korean-Chinese parallel corpus, utilizing the Korean connective morpheme '-myenseo' and contrasting with the Chinese expression. Korean learners often struggle with the use of Korean Connective Morpheme especially when there is a lexical gap between their mother language. '-myenseo' is of the most use Korean Connective Morpheme, it usually contrast to the Chinese coordinating conjunction. But according to the corpus, the contrastive Chinese expression to '-myenseo' is more than coordinating conjunction. So through this study, can help the Chinese Korean language learners learn easier while studying '-myenseo', because the variety Chinese expression are found from the parallel corpus that related to '-myenseo'. In this study, firstly discussed the semantic features and syntactic characteristics of '-myenseo'. The significant semantic features of '-myenseo' are 'simultaneous' and 'conflict'. So in this chapter the study use examples of usage to analyse the specific usage of '-myenseo'. And then this study analyse syntactic characteristics of '-myenseo' through the subject constraint, predicate constraints, temporal constraints, mood constraints, negatives constraints. then summarize them into a table. And the most important part of this study is Chapter 4. In this chapter, it contrasted the Korean connective morpheme '-myenseo' to the Chinese expression by analysing the Korean-Chinese parallel corpus. As a result of the analysis, the frequency of the Chinese expression that contrasted to '-myenseo' is summarized into

    . It can see from the table that the most common Chinese expression comparative to '-myenseo' is non-marker patterns. That means the connection of sentence in Korean can use connective morpheme what is a clarifying linguistic marker, but in Chinese it often connect the sentence by their intrinsic logical relationships. So the conclusion of this chapter is that '-myenseo' can be comparative to Chinese conjunction, expression, non-marker patterns and liberal translation patterns, which are more than Chinese conjunction that discovered before. In the last Chapter, as the conclusion part of this study, it summarized and suggest the limitations and the future research direction.

  • 한글 형태소 및 키워드 분석에 기반한 웹 문서 분류 (Web Document Classification Based on Hangeul Morpheme and Keyword Analyses)

    • 박단호;최원식;김홍조;이석룡
      • 정보처리학회논문지D
      • /
      • 제19D권4호
      • /
      • pp.263-270
      • /
      • 2012
    • 최근 초고속 인터넷과 대용량 데이터베이스 기술의 발전으로 웹 문서의 양이 크게 증가하였으며, 이를 효과적으로 관리하기 위하여 문서의 주제별 자동 분류가 중요한 문제로 대두되고 있다. 본 연구에서는 한글 형태소 및 키워드 분석에 기초한 문서 특성 추출 방법을 제안하고, 이를 이용하여 웹 문서와 같은 비구조적 문서의 주제를 예측하여 문서를 자동으로 분류하는 방법을 제시한다. 먼저, 문서 특성 추출을 위하여 한글 형태소 분석기를 사용하여 용어를 선별하고, 각 용어의 빈도와 주제 분별력을 기초로 주제 분별 용어인 키워드 집합을 생성한 후, 각 키워드에 대하여 주제 분별력에 따라 점수화한다. 다음으로, 추출된 문서 특성을 기초로 상용 소프트웨어를 사용하여 의사 결정 트리, 신경망 및 SVM의 세 가지 분류 모델을 생성하였다. 실험 결과, 제안한 특성 추출 방법을 이용한 문서 분류는 의사 결정 트리 모델의 경우 평균 Precision 0.90 및 Recall 0.84 로 상당한 정도의 분류 성능을 보여 주었다.

    빈도 정보를 이용한 한국어 저자 판별 (Authorship Attribution in Korean Using Frequency Profiles)

    • 한나래
      • 인지과학
      • /
      • 제20권2호
      • /
      • pp.225-241
      • /
      • 2009
    • 본고에서는 빈도 정보를 이용한 저자 판별 (authorship attribution) 기법을 한국어에 적용한 연구를 소개한다. 그 대상으로는 정형화된 장르인 신문 칼럼을, 구체적으로는 조선일보에 연재 중인 4인 칼럼니스트들의 각 40개 칼럼, 총 160개 칼럼 텍스트를 선정하였다. 이들에 대하여 어절, 음절, 형태소, 각 단위 2연쇄 등의 다양한 언어 단위들의 빈도 정보들을 이용한 저자 판별을 시도한 결과, 형태소 빈도를 기반으로 하여 최고 93%를 넘는 높은 예측 정확도를 얻을 수 있었다. 또한, 저자 개인 문체간의 거리도 빈도 정보로써 계량적 표상이 가능함을 보일 수 있었다. 이로써 빈도 분석과 같은 통계적, 계량적 방법을 통하여 한국어 텍스트에 대한 성공적인 저자 판별과 개인 문체의 정량화가 가능하다는 결론을 내릴 수 있다.

    • PDF

    한글 단어 재인 시 음절 빈도가 글자 교환 효과에 미치는 영향 (The influence of the syllable frequency on transposed letter effect of Korean word recognition)

    • 이선경;이윤형;이창환
      • 인지과학
      • /
      • 제32권3호
      • /
      • pp.99-115
      • /
      • 2021
    • 본 연구는 로마자 알파벳 언어에서 일관되게 나타나는 글자 교환 효과와 관련된 혼동 현상이 한국어에서는 발견하기 어려운 사실에 근거하여 관련 소재(locus)를 탐색하고자 수행되었다. 한글 글자 교환에 대한 몇몇 연구에서는 음절이나 형태소 교환의 경우 혼동 효과가 유의미하게 있었지만 단순 글자의 교환에서는 혼동 효과가 미미하였다. 본 연구에서는 일련의 글자 교환 효과에 관한 기존 연구의 분석을 바탕으로 글자의 빈도가 조절변인일 수 있음에 착안하여 이를 검증하였다. 실험 결과, 한글 단어(예: 민주화)의 글자들을 교환하여 형성된 비단어에서 고빈도 음절이 포함되게 한 경우(예: 진무화) 유의미한 글자 교환 효과를 발견하였으나 저빈도 음절이 포함되게 한 경우(예: 경쟁력 → 졍갱력)에는 글자 교환 효과가 나타나지 않았다. 이는 음절 빈도라는 어휘 변인이 한글 글자 교환 효과에 간여하는 주요 변인일 수 있음을 시사하며 한글에서도 글자 수준에서의 교환 효과가 나타날 수 있음을 밝혔다.