• Title/Summary/Keyword: 단어빈도

Search Result 542, Processing Time 0.02 seconds

Effects of orthographic and morphological frequency of a syllable in Korean word recognition (한국어 음절의 표기빈도와 형태소빈도가 단어인지에 미치는 효과)

  • Yi, Kwang-Oh;Bae, Sung-Bong
    • Korean Journal of Cognitive Science
    • /
    • v.20 no.3
    • /
    • pp.309-333
    • /
    • 2009
  • Two experiments were conducted to examine the role of Kulja and morpheme in processing two-syllable Sino-Korean words. In Experiment 1, the effects of morphemic frequency were not significant at the initial and final positions of a word while Kulja frequency and Kulja-morpheme correspondence at both positions in a word had a significant impact on the processing of nonwords. Lexical decision times were longer for nonwords with high frequency Kulja and for nonwords with ambiguous Kulja-morpheme correspondence whose Kulja can go with many different morphemes. In Experiment 2 Kulja-morpheme correspondence was examined for words as well as nonwords. Lexical decisions were slower for stimuli with ambiguous Kulja-morpheme correspondence. The effect was more stable for nonwords, which replicated the result of Experiment 1. In sum, the results of this study suggest that words with ambiguous Kulja-morpheme correspondence activate many different morphemes and competition among these morphemic candidates slows down the lexical selection process. Kulja frequency, Kulja neighborhood, morphemic frequency, morphological neighborhood, and Kulja-morpheme correspondence in Korean word recognition were also discussed.

  • PDF

Hangul Word-Frequency in Semantic Categorization Task (범주화 과제에서의 한글단어 빈도효과)

  • Cho, Jeung-Ryeul
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.351-358
    • /
    • 1999
  • Two experiments were conducted to investigate effects of word-frequency on semantic processing of Hangul. Stimuli were two syllable words, and exemplars and target words were different in the final consonant of the second syllable in the Exp 1 and in the final consonant of the first syllable in the Exp2. Exp 1 shows the results that subjects made more errors on low frequency target words and took longer times on high frequency exemplars than on controls. In Exp 2 subjects took longer times on high frequency examplar-low frequency target word conditions than on controls. These results support the predictions of dual process models and suggest that the use of phonological and visual information depends on word frequency. Phonological activation appears to be an optional rather than obligatory process.

  • PDF

A New Metric Space for Words : Corpusgram (단어들을 위한 새로운 메트릭 공간 : 코퍼스그람)

  • Lee, Ho-Suk;Kim, Yung-Taek
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06c
    • /
    • pp.185-188
    • /
    • 2007
  • 본 논문은 코퍼스로부터 추출된 단어들을 빈도수에 따라서 적절하게 표시하고 거리를 계산할 수 있는 새로운 메트릭 공간(metric space)에 대하여 논의한다. 일반적인 Cartesian 좌표 평면은 단어와 빈도수를 표시하는데 불편한 점이 있다고 할 수 있다. 본 논문에서는 빈도수에 기반 한 새로운 좌표 평면과 정보 이론에 기반 한 새로운 거리 계산 방법을 제시하여, 코퍼스 기반 언어 처리에 필요한 계산을 더욱 적합하게 할 수 있도록 하였다.

  • PDF

Automatic Classification of Korean Movie Reviews Using a Word Pattern Frequency (단어 패턴 빈도를 이용한 한국어 영화평 자동 분류기법)

  • Chang, Jae-Young;Kim, Jung-Min;Lee, Sin-Young
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06c
    • /
    • pp.51-53
    • /
    • 2012
  • 데이터 마이닝의 문서분류 기술에서 발전된 오피니언 마이닝은 이제 국외뿐만 아니라 국내의 학계 및 기업에서 중요한 관심분야로 자리잡아가고 있다. 오피니언 마이닝의 핵심은 문서에서 감정 단어를 추출하여 긍정/부정 여부를 얼마나 정확하게 자동적으로 판별하느냐를 평가하는 것이다. 국내에서도 이에 관련된 많은 연구가 이루어 졌으나 아직 실용적으로 적용할 만큼의 정확한 분류 정확도 보이지 않고 있다. 그 이유는 한국어의 경우 비문법적 표현, 감정단어의 다양성 등으로 인해 문서의 극성을 판별하기가 쉽지 않기 때문이다. 본 논문에서는 문법적 요소를 최대한 배제하고 단어 패턴의 빈도만을 고려한 영화평 분류기법을 제안한다. 제안된 방법에서는 문서를 단어들의 리스트로 추상화하여 패턴들의 빈도로 학습한 후 적절한 스코어 함수를 적용하여 문서의 극성을 판별한다. 또한 실험을 통해 제안된 기법의 정확도를 평가한다.

Appearance Frequency of 'Eco-Friendly' Emotion and Sensibility Words and their Changes (친환경 감성 어휘의 종류별 사용빈도 및 변화 양상)

  • Na, Young-Joo
    • Science of Emotion and Sensibility
    • /
    • v.14 no.2
    • /
    • pp.207-220
    • /
    • 2011
  • The purpose of this study is to investigate sensibility words related with eco-friendly in the two media fashion magazines and internet newspapers and to analysis their appearance frequency and changes by the year through 1999~2010. Most frequently used words are 'nature, eco, cotton, natural fiber, health, fresh, clear, preservation, harmony, com fiber, and Lohas'. The words are divided in 4 groups: 'Nature/Environment, Material/Fiber, Human, and Adjectives/Micell'. A point of appearing time is analyzed: 'ecology, memory-shape material, organic, spa' were used before 2000, 'nature environment, eco-friendly, stretch material, wellbeing, substitute, recycling' were in 2000-2001, 'smart material, eco material, green' in 2002-2003, 'coolbiz, Lohas, natural dye' in 2004-2005, 'herb medicine, sustainable, warmbiz' in 2006-2007, 'greensumer, greenlife, solar energy, forest bath' in 2008-2009. Looking into their changes, in early 2000, the words of eco-friendly emotion and sensibility had appeared frequently relatively, but later on they decreased, and again recently increased showing highest appearing frequency. 'Nature/Environment' words have appeared recently very much, while 'Human' sensibility words have not changed much or decreased a little. 'Adjective/Micell' words has increased little bit recently. 'Material/Fiber' words showed decrease at fashion magazine, while they increased at the pages of internet news.

  • PDF

Relevance Feedback Experiments for Korean Information Retrieval Systems (한국어 정보검색 시스템을 위한 다양한 적합성 피드백 방법의 실험)

  • Park, Su-Hyeon;Gwon, Hyeok-Cheol
    • Journal of KIISE:Software and Applications
    • /
    • v.26 no.5
    • /
    • pp.682-691
    • /
    • 1999
  • 정보검색 시스템의 검색 효율 향상을 위해서 다양한 적합성 피드백 방법이 개발되었다. 그러나 한국어 정보검색 시스템을 위한 적합성 피드백에 대한 연구는 거의 이루어지지 않은 실정이다. 이 논문에서는 기존에 개발된 적합성 피드백 방법을 한국어 정보 시스템에 적용하여 검색 효율을 비교하고, 새로운 적합성 피드백 방법을 개발 적용하여 기존의 방법들과 검색 효율을 비교분석하였다. 적합성 피드백은 원질의문을 확장할 단어 선택과 선택된 단어 가중치 부여로 이루어진다. 원질의문이 입력되면 검색된 적합문서에서 원질의문을 단어와 밀접한 관계가 있는 단어를 선택하기 위하여 가중치를 부가한후, 원질의문에 추가하여 질의문을 확장한다. 이 논문에서는 원질의문 확장을 위한 단어 선택과 단어 가중치 부여를 위해 3가지 값을 사용한다. 첫째, TF는 적합문서 내의 단어 빈도의 총합이다. 둘째, idf는 해당 문서집단의 역문헌빈도이다. 셋째, r/R은 검색된 적합문서 중에서 해당단어가 있는 적합문서의 비율을 나타낸다. TF와 idf는 정보검색 시스템에서 일반적으로 사용되고있는 값이고 r/R은 이 논문에서 제안한 새로운 값이다.

The characteristics of eye-movement in Korean sentence reading: cluster length, word frequency, and landing position effects (우리 문장 읽기에서 안구 운동의 특성: 어절 길이, 단어 빈도 및 착지점 관련 효과)

  • Koh, Sung-Ryongng;Yoon, Nak-Yeong
    • Korean Journal of Cognitive Science
    • /
    • v.18 no.4
    • /
    • pp.325-350
    • /
    • 2007
  • This study investigated global and local characteristics of eye movement while 16 college students read 48 easy Korean sentences. It was found that readers lusted for about 225ms at the word cluster(eojeol), made a forward saccade of about 3.6 characters to the next word, skipped short and high-frequent words about 25% during the first-pass reading, and regressed backward at 19%. There were also individual differences in readers' pattern of fixation and saccade. In addition, the effects of word cluster length and word frequency and the effects related to landing position were examined. The eyes landed on the center of a word cluster more frequently than on the boundaries. When the eyes landed at the boundaries, the eyes fixated the word cluster again more frequently. The word clusters with high-frequency words were read faster than those with low-frequency words.

  • PDF

Text Mining Analysis Technique on ECDIS Accident Report (텍스트 마이닝 기법을 활용한 ECDIS 사고보고서 분석)

  • Lee, Jeong-Seok;Lee, Bo-Kyeong;Cho, Ik-Soon
    • Journal of the Korean Society of Marine Environment & Safety
    • /
    • v.25 no.4
    • /
    • pp.405-412
    • /
    • 2019
  • SOLAS requires that ECDIS be installed on ships of more than 500 gross tonnage engaged in international navigation until the first inspection arriving after July 1, 2018. Several accidents related to the use of ECDIS have occurred with its installation as a new major navigation instrument. The 12 incident reports issued by MAIB, BSU, BEAmer, DMAIB, and DSB were analyzed, and the cause of accident was determined to be related to the operation of the navigator and the ECDIS system. The text was analyzed using the R-program to quantitatively analyze words related to the cause of the accident. We used text mining techniques such as Wordcloud, Wordnetwork and Wordweight to represent the importance of words according to their frequency of derivation. Wordcloud uses the N-gram model as a way of expressing the frequency of used words in cloud form. As a result of the uni-gram analysis of the N-gram model, ECDIS words were obtained the most, and the bi-gram analysis results showed that the word "Safety Contour" was used most frequently. Based on the bi-gram analysis, the causative words are classified into the officer and the ECDIS system, and the related words are represented by Wordnetwork. Finally, the related words with the of icer and the ECDIS system were composed of word corpus, and Wordweight was applied to analyze the change in corpus frequency by year. As a result of analyzing the tendency of corpus variation with the trend line graph, more recently, the corpus of the officer has decreased, and conversely, the corpus of the ECDIS system is gradually increasing.

Implement of Relevance Feedback in "MIRINE" Information Retrieval System ("미리내" 정보검색 시스템에서 Relevance Feedback 구현)

  • Park, Su-Hyun;Park, Se-Jin;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.65-71
    • /
    • 1997
  • 이 논문은 부산대학교 전자계산학과 인공지능 연구실에서 개발한 정보검색 시스템 "미리내"의 적합성 피드백 방법을 분석하고, 그 방법들의 검색 효율을 비교 분석하였다. "미리내"에서 질의문은 자연언어 질의문을 사용하고 재검색을 위한 적합성 피드백은 원질의문에서 검색된 문서 중 이용자가 직접 선택한 적합 문서에서 추출한다. 적합성 피드백은 크게 단어 확장(Term Expansion)을 위한 단어 선택 방법과 추가될 단어에 가중치를 부여하는 단어 가중치 부여(Term Weighting)의 2가지 요소로 이루어진다. 단어 선택을 위해서는 적합 문서에 나타난 단어 빈도합(tf), 역문헌빈도(idf), 적합 문서 중에서 해당 단어가 있는 적합 문서의 비율(r/R) 등의 정보를 이용한다. 단어 가중치 부여 방법으로는 정규화 또는 코사인 함수를 이용하여 부여하였다. 단어확장에는 tfidf가 tfidf(r/R)보다 정확도 면에서 나은 향상율을 보였으나, 30위 내 검색된 적합문서의 수를 비교해 보았을 때 tfidf(r/R)의 정확도가 높았다. 단어 선택 방법에서 계산된 값을 정규화하여 가중치를 부여하였을 때 보다 코사인 함수를 이용하여 가중치를 부여하였을 때 정확도가 높았다. 실험은 KT-Set 2.0 (4391 건), 동아일보 96 년 신문기사(70459 건)를 대상으로 수행하였다.

  • PDF

Automatic Document Classification Based on Word Frequency Weight (단어 빈도 가중치를 이용한 자동 문서 분류)

  • Noh, Hyun-A;Kim, Min-Soo;Kim, Soo-Hyung;Park, Hyuk-Ro
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.581-584
    • /
    • 2002
  • 본 논문에서는 범주 내의 키워드 빈도에 의해 문서를 자동으로 분류하는 방법을 제안한다. 문서 자동분류 시스템에서는 문서와 문서를 비교하기 위해서 분류 자질(feature)에 적절한 가중치를 부여할 필요가 있다. 본 논문에서는 수작업으로 분류된 신문기사를 이용하여 자질의 가중치를 학습하는 방법을 사용하였다. 기존의 용어가중치 방법은 각 범주별로 가장 많이 등장한 명사부터 순서대로 추출하여 가중치를 주는 방법을 사용한 것에 비해 본 논문에서는 명사의 출현 횟수뿐만 아니라 출현위치를 함께 고려하여 가중치를 계산하는 방법을 제안한다. 또한 단어 빈도 가중치 방법의 변형된 방식을 사용함으로써 기존의 단어 빈도 가중치 방법과 비교하여 분류 정확도 측면에서 9%이상 성능 향상을 있음을 보인다.

  • PDF