• 제목/요약/키워드: Term Classification

검색결과 738건 처리시간 0.023초

Issues and Empirical Results for Improving Text Classification

  • Ko, Young-Joong;Seo, Jung-Yun
    • Journal of Computing Science and Engineering
    • /
    • 제5권2호
    • /
    • pp.150-160
    • /
    • 2011
  • Automatic text classification has a long history and many studies have been conducted in this field. In particular, many machine learning algorithms and information retrieval techniques have been applied to text classification tasks. Even though much technical progress has been made in text classification, there is still room for improvement in text classification. In this paper, we will discuss remaining issues in improving text classification. In this paper, three improvement issues are presented including automatic training data generation, noisy data treatment and term weighting and indexing, and four actual studies and their empirical results for those issues are introduced. First, the semi-supervised learning technique is applied to text classification to efficiently create training data. For effective noisy data treatment, a noisy data reduction method and a robust text classifier from noisy data are developed as a solution. Finally, the term weighting and indexing technique is revised by reflecting the importance of sentences into term weight calculation using summarization techniques.

오디오 부호화기를 위한 스펙트럼 변화 및 MFCC 기반 음성/음악 신호 분류 (Speech/Music Signal Classification Based on Spectrum Flux and MFCC For Audio Coder)

  • 이상길;이인성
    • 한국정보전자통신기술학회논문지
    • /
    • 제16권5호
    • /
    • pp.239-246
    • /
    • 2023
  • 본 논문에서는 오디오 부호화기를 위한 스펙트럼 변화 파라미터와 Mel Frequency Cepstral Coefficients(MFCC) 파라미터를 이용하여 음성과 음악 신호를 분류하는 개루프 방식의 알고리즘을 제안한다. 반응성을 높이기 위해 단구간 특징 파라미터로 MFCC를 사용하고 정확도를 높이기 위해 장구간 특징 파라미터로 스펙트럼 변화를 사용하였다. 전체적인 음성/음악 신호 분류 결정은 단구간 분류와 장구간 분류를 결합하여 이루어진다. 패턴인식을 위해 Gaussian Mixed Model(GMM)을 사용하였고, Expectation Maximization(EM) 알고리즘을 사용하여 최적의 GMM 파라미터를 추출하였다. 제안된 장단구간 결합 음성/음악 신호 분류 방법은 다양한 오디오 음원에서 평균적으로 1.5% 분류 오류율을 보였고 단구간 단독 분류 방법 보다 0.9%, 장구간 단독 분류 방법보다 0.6%의 분류 오류율의 성능 개선을 이룰 수 있었다. 제안된 장단구간 결합 음성/음악 신호 분류 방법은 USAC 오디오 분류 방법보다 타악기 음악 신호에서 9.1% 분류 오류율, 음성신호에서 5.8% 분류 오류율의 성능 개선을 이룰 수 있었다.

인터넷 쇼핑몰의 상품 분류체계에 대한 연구 (A Study of Classification Systems in the Internet Shopping Malls)

  • 곽철완
    • 정보관리학회지
    • /
    • 제18권4호
    • /
    • pp.201-215
    • /
    • 2001
  • 인터넷 쇼핑몰의 상품에 대한 분류체계를 도서관 분류이론에 적용하여, 효과적인 분류체계 구축을 위한 기준점을 파악하고자 하였다. 연구 방법은 기존의 웹 쇼핑몰 세 곳을 선정하여, 분류체계를 Ranganathan의 분류이론을 기준으로 하여 비교 분석하였다. 결과 크게 6가지 기준들이 파악되었는데, 상품의 특성, 범주의 포괄성, 다양한 접근점, 범부의 배열순서와 용어의 일관성, 용어의 최신성과 명백성, 용어의 반복적 사용의 금지들이었다. 추후 연구과제로 상품 탐색 형태와 인터페이스와의 관련성이 제시되었다.

  • PDF

Robust Algorithms for Combining Multiple Term Weighting Vectors for Document Classification

  • Kim, Minyoung
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제16권2호
    • /
    • pp.81-86
    • /
    • 2016
  • Term weighting is a popular technique that effectively weighs the term features to improve accuracy in document classification. While several successful term weighting algorithms have been suggested, none of them appears to perform well consistently across different data domains. In this paper we propose several reasonable methods to combine different term weight vectors to yield a robust document classifier that performs consistently well on diverse datasets. Specifically we suggest two approaches: i) learning a single weight vector that lies in a convex hull of the base vectors while minimizing the class prediction loss, and ii) a mini-max classifier that aims for robustness of the individual weight vectors by minimizing the loss of the worst-performing strategy among the base vectors. We provide efficient solution methods for these optimization problems. The effectiveness and robustness of the proposed approaches are demonstrated on several benchmark document datasets, significantly outperforming the existing term weighting methods.

어텐션 메커니즘 기반 Long-Short Term Memory Network를 이용한 EEG 신호 기반의 감정 분류 기법 (Emotion Classification based on EEG signals with LSTM deep learning method)

  • 김유민;최아영
    • 한국산업정보학회논문지
    • /
    • 제26권1호
    • /
    • pp.1-10
    • /
    • 2021
  • 본 연구에서는 EEG 신호를 기반으로 감정 인식에 유용한 딥러닝 기법을 제안한다. 감정이 시간에 따라 변화하는 특성을 반영하기 위해 Long-Short Term Memory 네트워크를 사용하였다. 또한, 특정 시점의 감정적 상태가 전체 감정 상태에 영향을 미친다는 이론을 기반으로 특정 순간의 감정 상태에 가중치를 주기 위해 어텐션 메커니즘을 적용했다. EEG 신호는 DEAP 데이터베이스를 사용하였으며, 감정은 긍정과 부정의 정도를 나타내는 정서가(Valence)와 감정의 정도를 나타내는 각성(Arousal) 모델을 사용하였다. 실험 결과 정서가(Valence)와 각성(Arousal)을 2단계(낮음, 높음)로 나누었을 때 분석 정확도는 정서가(Valence)의 경우 90.1%, 각성(Arousal)의 경우 88.1%이다. 낮음, 중간, 높음의 3단계로 감정을 구분한 경우 정서가(Valence)는 83.5%, 각성(Arousal)은 82.5%의 정확도를 보였다.

노인요양시설 거주자의 장기요양등급에 따른 요양서비스 및 자원이용량 분석 (Relationship between Resource Utilization and Long-term Care Classification Level for Residents in Nursing Homes)

  • 이민경;김은경
    • 대한간호학회지
    • /
    • 제40권6호
    • /
    • pp.903-912
    • /
    • 2010
  • Purpose: This study was conducted to examine whether the level of classification for long-term care service under longterm care insurance reflects resource utilization level for residents in nursing homes. Methods: From 2 long-term care facilities, the researchers selected 95 participants and identified description and time of care services provided by nurses, certified caregivers, physical therapists and social workers during a 24-hr-period. Results: Resource utilization level was: 281.04 for level 1, 301.05 for level 2 and 270.87 for level 3. Resource utilization was not correlated with level. Differences in resource utilization within the same level were similar with the coefficient of variance, 22.7-27.1%. Physical function was the most influential factor on long-term care scores (r=.88, p<.001). The level for long-term care service did not reflect differences in resource utilization level of residents on long-term care insurance. Conclusion: The results of this study indicate that present grading for long-term care service needs to be reconsidered. Further study is needed to adjust the long-term care classification system to reflect the level of resource utilization for care recipients on the long-term care insurance.

북한 문헌분류표 <분류-검색어사전>의 특징 분석 (A Study on the Features of the <Classification-Search Term Dictionary>, the Library Classification Scheme in North Korea)

  • 최재황
    • 한국도서관정보학회지
    • /
    • 제53권4호
    • /
    • pp.123-142
    • /
    • 2022
  • 북한은 2000년 2권 8책의 <분류-검색어사전>을 개발하여 발표하였고, 이 문헌분류표는 북한 전역에서 현재 사용되고 있다. 본 연구의 목적은 해방 이후 북한도서관의 문헌분류표 발전과정을 통시적으로 살펴보고 2000년에 발표되고 2014년에 개정된 <분류-검색어사전>의 내용, 구성, 원리를 파악해 보는 데 있다. 지금까지 북한의 문헌분류표에 대한 연구는 1964년 북한에서 발표된 <도서분류표>에 대한 논의가 전부이며, 이후 북한의 문헌분류표에 대한 연구는 없었다. <분류-검색어사전(2000)>의 제1권은 '분류기호-검색어', 제2권은 '검색어-분류기호'로 구성된다. 제1권은 1996년에 발표된 <도서 및 서지 분류표>에 기초하고 있으며 다섯 부문에 걸쳐 총 41개의 류문으로 전개된다. 혁명사상과 이론'에 1개(11/19) 류문, '자연과학'에 8개(20~27), '공학기술 및 응용과학'에 가장 많은 19개(30~60/69), '사회과학' 부문에 12개(70~85), 그리고 '총류'에 1개(90)의 류문을 배정하고 있다. 제2권은 주제명표목표와 유사하다. 북한의 <분류-검색어사전>은 국내에 처음 소개되는 문헌분류표이며, 본 연구는 향후 남북간 표준통일분류표 제정 연구를 위한 기초 연구에 활용될 수 있을 것이다.

무의 중기 선행관측모형 개발 (Development of a mid-term preceding observation model for radish)

  • 조재환;이한성
    • 농업과학연구
    • /
    • 제38권3호
    • /
    • pp.571-581
    • /
    • 2011
  • This study develops a mid-term preceding observation model of radish to complement an existing short-term agricultural observation model. The first purpose of the study is to extend a three seasonal classification(spring, summer, fall) of fruit-vegetables to a four seasonal classification that involves the winter additionally. This allows us to verify the reason for demand and supply unbalance and unstable price of radish. The second purpose is to construct a mid-term preceding observation model that would be used to forecast planted areas, output, monthly shipment and price. To achieve these purposes, several multiple regression models are estimated. A system is consisted of a planted areas equation, a yield equation, monthly shipment distribution equation, and monthly price equation. To calculate output an auxiliary equation is involved in the system and the consumer price index etc are considered as exogenous variables.

다양한 어휘 가중치를 이용한 블로그 포스트의 자동 분류 (Automatic Classification of Blog Posts using Various Term Weighting)

  • 김수아;조희선;이현아
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제39권1호
    • /
    • pp.58-62
    • /
    • 2015
  • 대부분의 블로그 사이트에서는 미리 정의된 분류 체계에 따른 내용 기반 분류 환경을 제공하고 있으나, 작성된 포스트의 분류를 수동으로 선택해야하는 번거로움 때문에 대부분의 블로거들은 포스트에 대한 분류를 입력하지 않고 있다. 본 논문에서는 블로그 포스트의 자동 분류를 위해 블로그 사이트에서 분류별 문서를 수집하고 수집된 분류별 문서의 어휘빈도와 문서빈도, 분류별 빈도 등의 다양한 어휘 가중치 조합하여 블로그 포스트의 특성에 적합한 가중치 방식을 찾고자 한다. 실험에서는 본 논문에서 제안한 TF-CTF-IECDF를 어휘 가중치로 사용한 분류 모델이 77.02%의 분류 정확률을 보였다.

텍스트 마이닝에서 심층 신경망을 이용한 문서 분류 (Document classification using a deep neural network in text mining)

  • 이보희;이수진;최용석
    • 응용통계연구
    • /
    • 제33권5호
    • /
    • pp.615-625
    • /
    • 2020
  • 문서-용어 빈도행렬은 그룹정보가 존재하는 문서들의 용어를 추출한 것으로 일반적인 텍스트 마이닝에서의 자료이다. 본 연구에서는 연구 분야 성격에 따른 문서 분류를 위해 문서-용어 빈도행렬을 생성하고, 전통적인 용어 가중치 함수인 TF-IDF와 최근 잘 알려진 용어 가중치 함수인 TF-IGM을 적용하였다. 또 용어 가중치가 적용된 문서-용어 가중행렬에 문서분류 정확도 향상을 위해 핵심어를 추출하여 문서-핵심어 가중행렬을 생성하였다. 핵심어가 추출된 행렬을 바탕으로, 심층 신경망을 이용해 문서를 분류하였다. 심층 신경망에서 최적의 모델을 찾기 위해 매개변수인 은닉층과 은닉노드수를 변화해가며 문서 분류 정확도를 확인하였다. 그 결과 8개의 은닉층을 가진 심층 신경망 모델이 가장 높은 정확도를 보였으며 매개변수 변화에 따른 모든 TF-IGM 문서 분류 정확도가 TF-IDF 문서 분류 정확도보다 높은 것을 확인하였다. 또한 개별 범주에 대한 문서 분류 분석 결과를 서포트 벡터 머신과 비교했을 때 심층 신경망이 대부분의 결과에서 더 좋은 정확도를 보임을 확인하였다.