• Title/Summary/Keyword: 단어 선정

Search Result 221, Processing Time 0.031 seconds

An Automatic Classification System of Korean Documents Using Weight for Keywords of Document and Word Cluster (문서의 주제어별 가중치 부여와 단어 군집을 이용한 한국어 문서 자동 분류 시스템)

  • Hur, Jun-Hui;Choi, Jun-Hyeog;Lee, Jung-Hyun;Kim, Joong-Bae;Rim, Kee-Wook
    • The KIPS Transactions:PartB
    • /
    • v.8B no.5
    • /
    • pp.447-454
    • /
    • 2001
  • The automatic document classification is a method that assigns unlabeled documents to the existing classes. The automatic document classification can be applied to a classification of news group articles, a classification of web documents, showing more precise results of Information Retrieval using a learning of users. In this paper, we use the weighted Bayesian classifier that weights with keywords of a document to improve the classification accuracy. If the system cant classify a document properly because of the lack of the number of words as the feature of a document, it uses relevance word cluster to supplement the feature of a document. The clusters are made by the automatic word clustering from the corpus. As the result, the proposed system outperformed existing classification system in the classification accuracy on Korean documents.

  • PDF

Developing Korean Affect Word List and It's Application (정서가, 각성가 및 구체성 평정을 통한 한국어 정서단어 목록 개발)

  • Hong, Youngji;Nam, Ye-eun;Lee, Yoonhyoung
    • Korean Journal of Cognitive Science
    • /
    • v.27 no.3
    • /
    • pp.377-406
    • /
    • 2016
  • Current lists of the Korean emotion words either do not consider word frequency, or only include emotion expression words such as 'joy' while disregarding emotion inducing words like 'heaven'. Also, none of the current lists contains the concreteness level of the emotional words. Therefore, the current study aimed to develop a new Korean affect word list that makes up such limitations of the current lists. To do so, in experiment 1, valence, arousal and concreteness ratings of the 450 Korean emotion expression nouns and emotion inducing nouns were surveyed with 399 participants. In addition, in experiment 2, an emotional stroop task was performed with the newly developed word list to test the usefulness of the list. The results showed clear patterns of the congruency effects between emotional words and emotion expressing faces. Increased response times and more errors were found when the emotion of the words and faces are non-matched, than when they were matched. The result suggested that the newly developed Korean affect word list can be effectively adapted to studies examining the influence of various aspects emotion.

Text Categorization Features Automatic Extraction Method Using Chi-squared Statistic (카이제곱 통계량을 이용한 문서분류 자질 자동추출 방법)

  • Park, Jong-Hyun;Park, So-Young;Chang, Ju-No;Kihl, Tae-Suk
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2010.10a
    • /
    • pp.695-697
    • /
    • 2010
  • 문서에 포함되는 어휘는 문서 분류의 정보를 가지므로 문서를 분석하여 유용한 단어를 추출하는 것은 다양한 서비스와 연계되어 사용될 수 있어 매우 유용한 일이다. 문서 자동 분류에서는 분류자질 선정 방식에 따라 분류정확도가 서로 달라질 수 있으며, 문서에서 추출되는 유용한 단어에 따라 인지되는 분야가 달라질 수 있다. 이에 본 논문에서는 각 문서에 포함되는 단어에 대한 카이제곱 통계량 점수를 사용하여 단어별 문서 분류에 대한 단어의 자질을 평가하고 문서의 분류별 유용한 단어를 자동 추출하는 방법을 제안하고 개발한다.

  • PDF

A SVM-based Spam Filtering System for Short Message Service (SMS) (휴대폰 SMS를 위한 SVM 기반의 스팸 필터링 시스템)

  • Joe, In-Whee;Shim, Hye-Taek
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.34 no.9B
    • /
    • pp.908-913
    • /
    • 2009
  • Mobile phones became important household appliance that cannot be without in our daily lives. And the short messaging service (SMS) in these mobile phones is 1.5 to 2 times more than the voice service. However, the spam filtering functions installed in mobile phones take a method to receive specific number patterns or words and recognize spam messages when those numbers or words are present. However, this method cannot properly filters various types of spam messages currently dispatched. This paper proposes a more powerful and more adaptive spam filtering system using SVM and thesaurus. The system went through a process of isolating words from sample data through pro-processing device and integrating meanings of isolated words using a thesaurus. Then it generated characteristics of integrated words through the chi-square statistics and studied the characteristics. The proposed system is realized in a Window environment and the performance is confirmed through experiments.

A Study on the Familiarity and Appropriateness of Korean Interpersonal Words (한국어 대인관계 단어의 친숙성과 적절성에 관한 연구)

  • Jang, Hyejin;Kim, Youngkeun
    • Science of Emotion and Sensibility
    • /
    • v.24 no.3
    • /
    • pp.91-114
    • /
    • 2021
  • The first step of this study is to collect appropriate words from the list of words in the relationship. All vocabularies that are unfamiliar-but capable of guessing the meaning and expressing interpersonal relationships-were collected from three Korean dictionaries. Consequently, a compilation of 2,725 words was created; overlapping words were selected; and 910 words were chosen. Only grammatical forms were found; however, words with similar meanings-or identical meanings-were also found, and a reclassification process was required to reflect this. These procedures were repeated seven times, resulting in a total of 249 words being screened. However, due to the characteristics of this study, the number of words needs to be reduced because the meaning of words is more specific and summarized, and the overall interpersonal aspect is well expressed. Therefore, the process of reclassifying 249 words by their familiarity and appropriateness was subsequently undertaken, and the word with the highest level of familiarity and appropriateness was finally selected.

A Recognition Time Reduction Algorithm for Large-Vocabulary Speech Recognition (대용량 음성인식을 위한 인식기간 감축 알고리즘)

  • Koo, Jun-Mo;Un, Chong-Kwan;,
    • The Journal of the Acoustical Society of Korea
    • /
    • v.10 no.3
    • /
    • pp.31-36
    • /
    • 1991
  • We propose an efficient pre-classification algorithm extracting candidate words to reduce the recognition time in a large-vocabulary recognition system and also propose the use of spectral and temporal smoothing of the observation probability to improve its classification performance. The proposed algorithm computes the coarse likelihood score for each word in a lexicon using the observation probabilities of speech spectra and duration information of recognition units. With the proposed approach we could reduce the computational amount by 74% with slight degradation of recognition accuracy in 1160-word recognition system based on the phoneme-level HMM. Also, we observed that the proposed coarse likelihood score computation algorithm is a good estimator of the likelihood score computed by the Viterbi algorithm.

  • PDF

A Hybrid N-best Part-of-Speech Tagger for English-Korean Machine Translation (영한 기계 번역을 위한 혼합형 N-best 품사 태거)

  • Lim, Heui-Seok;Kwon, Cheol-Joong;Lee, Jae-Won;Oh, Ki-Eun
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.15-19
    • /
    • 1998
  • 기계 번역 시스템에서 품사 태거의 오류는 전체번역 정확률에 결정적인 영향을 미친다. 따라서 어휘 단계의 정보만으로는 중의성 해소가 불가능한 단어에 대해서는 중의성 해소에 충분한 정보를 얻을 수 있는 구문 분석이나 의미 분석 단계까지 완전한 중의성 해소를 유보하는 N-best 품사 태거가 요구된다. 또한 N-best 품사 태거는 단어에 할당되는 평균 품사 개수를 최소화함으로써 상위 단계의 부하를 줄이는 본연의 역할을 수행하여야 한다. 본 논문은 통계 기반 품사 태깅 방법을 이용하여 N-best 후보를 선정하고, 선정된 N-best 후보에 언어 규칙을 적용하여 중의성을 감소시키거나 오류를 보정하는 혼합형 N-best 품사 태깅 방법을 제안한다 제안된 N-best 품사 태거는 6만여 단어의 영어 코퍼스에서 실험한 결과, 단어 당 평균 1.09개의 품사를 할당할 때 0.43%의 오류율을 보인다.

  • PDF

A Study on Automatic Indexing of Korean Texts based on Statistical Criteria (통계적기법에 의한 한글자동색인의 연구)

  • Woo, Dong-Chin
    • Journal of the Korean Society for information Management
    • /
    • v.4 no.1
    • /
    • pp.47-86
    • /
    • 1987
  • The purpose of this study is to present an effective automatic indexing method of Korean texts based on statistical criteria. Titles and abstracts of the 299 documents randomly selected from ETRI's DOCUMENT data base are used as the experimental data in this study the experimental data is divided into 4 word groups and these 4 word groups are respectively analyzed and evaluated by applying 3 automatic indexing methods including Transition Phenomena of Word Occurrence, Inverse Document Frequency Weighting Technique, and Term Discrimination Weighting Technique.

  • PDF

정서관련 어휘 분석을 통한 내적 상태의 차원 연구

  • 김영아;김진관;박수경;오경자
    • Proceedings of the Korean Society for Emotion and Sensibility Conference
    • /
    • 1997.11a
    • /
    • pp.209-214
    • /
    • 1997
  • 본 연구에서는 한국어의 정서관련 어휘분석을 통하여 내적체계의 차원을 알아보고자 하였다. 이를 위해, 연구1에서는 내적경험을표현하는 데 자주 쓰이는 어휘들을 자유연상을 통해 100개를 선정하고 유사성과 빈도평가작업을 통해 대표성을 갖는다고 판단되는 어휘22개를 선정하였다. 22개의 쌍별유사성을 7점척도로 평정한 자료를 다차원분석한 결과, 1차원(63%)은 쾌/불쾌, 2차원(25%)은 각성수준으로 해석될 수 있었고, 이는 기존의 차원모형의 주장과 거의 유사한 결과였다. 다른 어휘목록을 사용하였을 때의 결과와 비교하기 위해, 연구 2에서는 표정을 보고 정서를 추론하는 실험을 통해 자주 언급된 단어를 빈도순으로 22개 선정하였다. 이를 이용하여 같은 방법으로 다차원분석한 결과 연구 3에서는 연구 1,2의 어휘목록이 전체 내적체계의 차원 공간에서 차지하는 상대적인 위치를 비교하기 위해, 두 어휘목록을 포함한 83개 내적체계의 단어를 차원평정시켜 분석하였고, 연구결과가 차원모형에서 갖는 시사점이 논의 되었다.

  • PDF

A Study on Cluster Topic Selection in Hierarchical Clustering (계층적 클러스터링에서 분류 대표어 선정에 관한 연구)

  • Yi, Sang-Seon;Lee, Shin-Won;An, Dong-Un;Chung, Sung-Jong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.669-672
    • /
    • 2004
  • 정보의 양이 많아지면서 정보 검색 시스템에 검색 결과를 자동으로 구조화하는 계층적 클러스터링을 적용하는 시도가 늘고 있다. 계층적 클러스터링은 문서 간의 유사도를 통해 클러스터를 계층 구조로 만들어 검색 성능을 높이고 결과를 사용자에게 이해하기 쉽게 보여준다. 계층 구조는 검색 결과를 요약하는 것이기 때문에 클러스터의 내용을 효과적으로 함축할 수 있는 대표어의 선정이 중요하다. 각 클러스터의 대표어를 선정하기 위해 대표어에 명사인 단어만 추출하고 상위 클러스터 대표어에 사용된 단어는 하위 클러스터에 사용하지 않는 방법을 적용하여 대표어의 질을 높였다.

  • PDF