• Title/Summary/Keyword: 속성 단어

Search Result 92, Processing Time 0.028 seconds

Performance Improvement of Document Classification by Rule-based Word Clustering (규칙기반 단어 클러스터링에 의한 문서 분류의 성능 향상)

  • Hyun Woo-Seok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.196-198
    • /
    • 2006
  • 분류되지 않은 문서의 문서 분류는 현재까지 아주 중요한 문제로 대두되고 있다. 컴퓨터를 이용한 문서 검색 엔진인 Citeseer에서는 문서 인덱싱을 하기 위해서 자동문서 분류 방법을 사용하고 있다. 문서 분류는 원본 문서의 단어들을 제1의 속성 표현으로 사용한다. 그러나 이와 같은 표현은 고차원과 속성 부족을 초래하게 된다. 단어 클러스터링은 속성 차원과 속성 부족을 감소시키기 위한 효율적인 방법이며 문서 분류 성능을 향상시켜 준다. 본 연구에서는 클러스터 속성 표현을 위한 도메인 규칙기반 단어 클러스터링 방법을 사용한다. 클러스터는 다양한 도메인 데이터베이스들과 단어 철자 속성들로부터 생성되는데, 이와 같은 클러스터 속성 표현은 중요한 차원 감소뿐만 아니라 문서 헤더 라인의 평균 분류 성능에서 향상을 보여 주었고, 원본 문서 단어 기반 속성 표현과 비교해 보았을 때 도서목록 항목 추출의 정확도를 향상시켰다.

  • PDF

Hemispheric Characteristics of Processing Hangul and Color (대뇌반구간 한글 단어처리와 색채처리 특성)

  • Han, Kwang-Hee;Kham, Kee-Taek
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.57-63
    • /
    • 1994
  • 인간의 정보처리 과정의 특성을 알아보기 위하여 반구별로 색채와 단어의 처리과정을 분석하였다. 단어와 색깔이라는 두가지 자극 속성이 있는 한 개의 자극에 대하여 각 자극 속성에 대한 판단과정을 반응키를 이용하여 반구별로 알아보았다. 단어에 대한 판단과 색깔에 대한 판단을 반구별로 분석한 결과, 색깔처리나 단어처리에 있어서 반구간 비대칭성은 나타나지 않았으나 색깔에 대한 판단이 단어에 대한 판단보다 신속하게 이루어지는 것으로 나타나 색채가 단어보다 기초적인 자극 속성임을 확인하였다. 단어와 색깔이라는 두가지 자극 속성을 이용한 경우에 한가지 자극속성을 처리할 때 다른 자극속성이 자동적으로 영향을 주는 것으로 나타났으나 그 정도에 있어서 반구간의 차이는 없었다. 그러나 색채가 단어처리를 간섭하는 정도가 단어가 색채처리를 간섭하는 정도보다 큰 것으로 나타나 기존의 스트룹 연구결과들과는 상반되는 결과를 얻었는데 이는 과제의 특성이라는 측면으로 기술되었다. 단어 처리에서 반구간 차이가 발견되지 않은 것은 한글의 시각적 특성과 관련지어 논의되었다. 자극의 한 속성이 자동적으로 다른 속성에 영향을 주지만 그 효과의 크기도 반구별로 차이가 없다는 것은 이전의 반구별 스트룹 효과를 알아본 연구들과 상반되는 결과이다. 따라서 자극속성이 상호영향을 줄 수 있는 좀더 일반적인 상황에서는 한 자극 속성이 다른 자극 속성의 처리에 자동적으로 영향을 주는 효과에서 반구 비대칭성이 발견되지 않으며 스트룹 효과는 두 자극 속성의 관계가 밀접한 특별한 경우에 나타나는 반구비대칭성 효과인 것으로 논의되었다.양 발생과 유의적으로 상관관계가 있었다. 본 연구의 결과는 phenol의 종류에 상관없이 식이 phenol에 조직의 항산화(산화억제)를 통해 암 예방(cancer prevention)에 영향을 미친다는 것을 제시해준다.물을 첨가하여 물내리기를 한 후 김이 오른 후 물내린 쌀가루에 15% 이상의 설탕을 첨가하여 20분간 쪄서 만든 백설기가 가장 바람직하다는 것을 알 수 있었다. 이 실험 중 가장 중요한 조건은 첨가하는 물의 양이 10%이며 첨가하는 당이 설탕일 경우는 김이 오른 후 설탕을 섞어 바로 쪄야 하며 설탕의 양이 15% 이상이라는 것이다. 이 조건은 대체적으로 hardness, adhesiveness, gumminess가 큰 수치를 나타낸다.순구조의 Tonpilz형 초음파 변환기와 비교하여 비록 송파전압감도에 있어서는 약 5 dB 정도의 음향출력의 손실이 불가피하지만, 그 대신 주파수 대역폭을 약 5 재 정도 확대시킬 수 있는 장점이 있기 때문에 이 넓은 주파수 대역을 효과적으로 활용하면 어종식별을 위한 음향산란신호를 정량적으로 수집 및 평가하는 것이 가능하다고 판단된다.n A was 11 ug.이, 0.9 ug/g and 3.7 ug/g in the blood, liver and kidney, respectively.sional-managerial who secure the higher autonomy and stability in their work have the highest life chance in the labor and health, and leisure life

  • PDF

Recognition of Word-level Attributed in Machine-printed Document Images (인쇄 문서 영상의 단어 단위 속성 인식)

  • Gwak, Hui-Gyu;Kim, Su-Hyeong
    • Journal of KIISE:Software and Applications
    • /
    • v.28 no.5
    • /
    • pp.412-421
    • /
    • 2001
  • 본 논문은 문서 영상에 존재하는 개별 단어들에 대한 속성정보 추출 방법을 제안한다. 단어 단위의 속성 인식은 단어 영상 매칭의 정확도 및 속도 개선, OCR 시스템에서 인식률 향상, 문서의 재생산 등 다양한 응용 가치를 찾을 수 있으며, 메타정보(meta-information) 추출을 통해 영상 검색(image retrieval)이나 요약(summary) 생성 등에 활용할 수 있다. 제안하는 시스템에서 고려하는 단어 영상의 속성은 언어의 종류(한글, 영문), 스타일(볼드, 이탤릭, 보통, 밑줄), 문자 크기(10, 12, 14 포인트), 문자 개수 (한글: 2, 3, 4, 5, 영문: 4, 5, 6, 7, 8, 9, 10), 서체(명조, 고딕)의 다섯 가지 정보이다. 속성 인식을 위한 특징은, 언어 종류 인식에 2개, 스타일 인식에 3개, 문자 크기와 개수는 각각 1개, 한글 서체 인식은 1개, 영문 서체 인식은 2개를 사용한다. 분류기는 신경망, 2차형 판별함수(QDF), 선형 판별함수(LDF)를 계층적으로 구성한다. 다섯 가지 속성이 조합된 26,400개의 단어 영상을 사용한 실험을 통해, 제안된 방법이 소수의 특징만으로도 우수한 속성 인식 성능을 보임을 입증하였다.

  • PDF

Sentiment words extraction method using pattern (패턴을 이용한 상품평 감정 단어 추출 방법)

  • Chun, Eun-Hye;Shim, Su-Jeong;Park, Hyuk-Ro
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.112-113
    • /
    • 2010
  • 최근 오피니언 마이닝 관련 연구 중 감정 분류에 대한 관심이 높아지면서 많은 연구가 진행되고 있다. 기존 영어권 연구에서 제시되어온 방법은 한국어 상품평에 적용하는 것이 쉽지 않다. 영어 시소러스 기반 한국어 감정단어 추출 기술은 한국어와 영어 단어가 일대일로 일치하기가 어렵다는 문제가 있다. 기존 관련 연구 중 k-Structure 기법은 패턴의 길이가 3인 단순한 문장에 속성단어와 감정단어가 포함되었을 경우를 기준으로 한 것이므로 한정적이다. 본 논문에서 제안하는 방법은 상품평에서 의미적인 패턴을 추출하여 감정 단어의 위치를 파악하는 방법이다.

  • PDF

The Effect of Syllable Frequency, Syllable Type and Final Consonant on Hangeul Word and Pseudo-word Lexical Decision: An Analysis of the Korean Lexicon Project Database (한글 두 글자 단어와 비단어의 어휘판단에 글자 빈도, 글자 유형, 받침이 미치는 영향: KLP 자료의 분석)

  • Myong Seok Shin;ChangHo Park
    • Korean Journal of Cognitive Science
    • /
    • v.34 no.4
    • /
    • pp.277-297
    • /
    • 2023
  • This study attempted to find out how lexical decision of two-syllable words or pseudo-words is affected by syllabic information, such as syllable frequency, syllable (i.e. vowel) type, and presence of final consonant (i.e. batchim), through the analysis of the Korean Lexicon Project Database (KLP-DB). Hierarchical regression of RT data showed that lexical decision of words was influenced by the frequency of the first syllable, the syllable type of the first and second syllables, batchim for the first and second syllables, and also by the interaction of the two syllable types and the interaction of syllable frequency and batchim of the second syllable. For pseudo-words lexical decision was influenced by the frequency of the first and second syllables, syllable type of the first syllable, and batchim for the first and second syllables, and also by the interaction of the two syllable frequencies, the interaction of the two syllable types, and the interaction of syllable frequency and batchim of the first syllable. Word frequency had a strong effect on lexical decision of words, while syllabic information had a stable effect on the lexical decision of pseudo-words. These results indicate that syllabic information should be seriously considered in constructing word and pseudo-word lists and interpreting lexical decision time. Understanding the effect of syllabic information will also contribute to the understanding of word recognition process.

The Effect of Word Frequency on Noun Definitions (단어빈도가 명사정의하기에 미치는 효과)

  • Lee, Chan-Jong
    • The Journal of the Acoustical Society of Korea
    • /
    • v.27 no.6
    • /
    • pp.303-308
    • /
    • 2008
  • The purpose of the present study is to investigate that word frequency has significant influence on noun definitions in Korean. The experimental group was 80 students from Elementary school, Middle school, High school and University. They rated familiarity and wrote definitions for nouns. Noun definitions were analyzed with semantic categories such as "use/purpose," "description," "association/relation," "partial explanation," "explanation," "error," "partial explanation-attribute," "partial explanation-specific class," "partial explanation-nonspecific class," "explanation-specific class," "explanation-nonspecific class." As a result, they showed familiarity for high-frequency nouns. "EXPL" categories that use class terms or critical attributes were used more frequently in definitions of high-frequency nouns compared with low-frequency nouns. They increased with age and errors decreased with age. Word frequency had a significant influence on noun definitions.

Attribute extract method based TDIDT for construction of user profile (사용자 프로파일 구축을 위한 TDIDT기반 관심단어 추출기법)

  • 이선미;박영택
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2002.11a
    • /
    • pp.321-327
    • /
    • 2002
  • 본 논문은 기존의 귀납적 결정 트리 방식에서의 문제점 개선을 통한 사용자 관심 프로파일 구축을 목적으로 한다. 특히 사용자 관심 프로파일의 정확도 향상을 위한 속성 선택에 대한 연구에 초점을 맞추고 있다. 사용자의 관심, 비관심 문서를 대상으로 사용자 관심 키워드를 생성하고 이를 바탕으로 초기 문서들을 재표현한다. 재표현된 문서를 입력 집합으로 하여 기계학습을 진행한다. 본 논문의 의사 결정 트리 생성 알고리즘은 입력 집합을 클래스별로 가장 잘 나누는 속성을 선택하여 노드를 구성하는 면에서는 기존의 알고리즘과 같다. 그러나 기존의 의사 결정 트리 알고리즘에서는 hill-climbing.방식을 사용함으로써 사용자의 관심을 나타내는 중요한 단어가 사용자 관심 프로파일에서 숨겨질 경우가 발생한다. 이를 최소화하기 위해 특징 추출을 통해 선택된 속성을 그대로 학습의 입력 데이터로 사용하는 것이 아니라 입력데이터를 가장 잘 나누는 속성과 그 다음 속성을 대상으로 disjunctive 연산을 통해 새로운 속성을 생성하여 이것을 속성 집합에 포함시키고 이를 학습의 입력 데이터로 이용한다. 이와 같이 disjunctive operator를 이용하여 새로운 속성을 의사 결정 트리 형성 시 이용하면 사용자의 중요한 관심을 포함하는 의미 있는(semantic) 사용자 관심 프로파일 구축이 가능해지고, 사용자 관심 프로파일을 기반으로 사용자가 관심 있는 문서를 제공할 수 있는 개인화 서비스를 제공한다.

  • PDF

Exploring the Feature Selection Method for Effective Opinion Mining: Emphasis on Particle Swarm Optimization Algorithms

  • Eo, Kyun Sun;Lee, Kun Chang
    • Journal of the Korea Society of Computer and Information
    • /
    • v.25 no.11
    • /
    • pp.41-50
    • /
    • 2020
  • Sentimental analysis begins with the search for words that determine the sentimentality inherent in data. Managers can understand market sentimentality by analyzing a number of relevant sentiment words which consumers usually tend to use. In this study, we propose exploring performance of feature selection methods embedded with Particle Swarm Optimization Multi Objectives Evolutionary Algorithms. The performance of the feature selection methods was benchmarked with machine learning classifiers such as Decision Tree, Naive Bayesian Network, Support Vector Machine, Random Forest, Bagging, Random Subspace, and Rotation Forest. Our empirical results of opinion mining revealed that the number of features was significantly reduced and the performance was not hurt. In specific, the Support Vector Machine showed the highest accuracy. Random subspace produced the best AUC results.

Delete and Generate: Korean style transfer based on deleting and generating word n-grams (Delete-Generate: 단어 n-gram의 삭제 및 생성에 기반한 한국어 스타일 변환)

  • Choi, Heyon-Jun;Na, Seung-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.400-403
    • /
    • 2019
  • 스타일 변환(Style Transfer)은 주어진 문장의 긍정이나 부정 같은 속성을 변경하여 다른 속성을 갖는 문장으로 변환하는 과정을 의미한다. 본 연구에서는 스타일 변환을 위한 단어 n-그램 삭제의 기준을 확장하였고, 네이버 영화리뷰 데이터셋을 통해 이를 스타일 변환 이후 원래 문장의 스타일로부터 얼마나 차이가 나게 되었는지를 측정하였다. 측정은 감성분석기를 통해 이루어졌고, 기존 방법에 비해 6.28%p정도 높은 75.13%의 정확도를 보였다.

  • PDF

Machine Learning Based Fire News Filtering Technique Incorporating Meta-features (메타 속성을 융합한 기계 학습 기반 화재 뉴스 필터링 기법)

  • Kim, Tae-Jun;Kim, Han-joon
    • Annual Conference of KIPS
    • /
    • 2016.10a
    • /
    • pp.746-749
    • /
    • 2016
  • 주제 기반 크롤링(Topical Crawling)으로 수집된 문서들은 서로 비슷한 단어들을 가지고 있기 때문에 정작 주어진 주제에 적합하지 않은 문서 들을 포함할 수 있다. 이를 해결하기 위해 특정 주제에 해당하는 문서만을 필터링하는 작업이 필요하다. 본 논문은 화재 뉴스 기사에 대한 필터링을 위해 단어 기반 속성과 어울려 화재 뉴스 기사의 특성을 고려한 메타 데이터 속성을 추출하여 이에 특화된 기계학습 메커니즘을 제안하였다. 제안 기법의 F1-측정치는 92.1 %로서, 현재 최고의 성능을 보이는 SVM, 나이브베이즈 알고리즘보다. 2~3% 개선된 것이다.