• 제목/요약/키워드: Domain Categorization

검색결과 26건 처리시간 0.029초

도메인 분석의 신뢰성 향상을 위한 도메인 분류와 복잡도 측정에 관한 연구 (A Study for Domain Categorization and Estimation of Complexity for Reliability Improvement of Domain Analysis)

  • 이은서
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권1호
    • /
    • pp.1-6
    • /
    • 2016
  • 도메인 분석은 신뢰성 있는 프로젝트 개발의 중요한 요소가 된다. 도메인 분석에서 발생되는 오류는 전체 시스템에 영향을 주게 되고, 그 결과 고객의 만족도가 낮아진다. 따라서 요구사항 단계에서 신뢰성 있는 분석을 위하여 도메인의 특성을 분석할 수 있는 방법이 필요하게 된다. 본 논문에서는 이와 같은 문제를 해결하기 위하여 도메인 분석의 신뢰성 향상을 위한 도메인 분류와 복잡도 측정방법을 제시하고자 한다.

효율적인 문서검색을 위한 레벨별 불용어 제거에 기반한 문서 클러스터링 (Document Clustering based on Level-wise Stop-word Removing for an Efficient Document Searching)

  • 주길홍;이원석
    • 컴퓨터교육학회논문지
    • /
    • 제11권3호
    • /
    • pp.67-80
    • /
    • 2008
  • 오늘날 여러 문서 범주화 방법들은 문서 클러스터링 알고리즘을 통하여 의미적으로 비슷한 내용의 문서들을 클러스터로 표현한 후 클러스터링 과정에서의 결합관계를 통해 범주화하는 자동화된 방법과 미리 정의된 분류 기준에 의해 수작업으로 문서를 분류하는 방법으로 구분되어 진다. 자동화된 방법은 속도는 빠르나 의미적으로 낮은 정확성을 가지며, 수작업에 의한 분류 방법은 처리 시간과 비용이 크게 증가하는 단점이 있다. 이러한 단점들을 극복하기 위하여 본 논문에서는 각 문서가 속하는 도메인의 불용어 제거를 기반으로 하여 문서 클러스터링을 수행하여 의미적으로 명확한 클러스터를 빠르게 생성한다. 클러스터의 정확성을 높이기 위하여 생성된 클러스터에 대해 레벨 순서에 따른 불용어 제거와 문서 클러스터링 과정을 반복적으로 적용하여 카테고리 트리를 생성하고, 이를 통해 문서집합간의 상하위 관계를 표현하는 자동화된 문서 범주화 방법을 제안한다.

  • PDF

Impact of Instance Selection on kNN-Based Text Categorization

  • Barigou, Fatiha
    • Journal of Information Processing Systems
    • /
    • 제14권2호
    • /
    • pp.418-434
    • /
    • 2018
  • With the increasing use of the Internet and electronic documents, automatic text categorization becomes imperative. Several machine learning algorithms have been proposed for text categorization. The k-nearest neighbor algorithm (kNN) is known to be one of the best state of the art classifiers when used for text categorization. However, kNN suffers from limitations such as high computation when classifying new instances. Instance selection techniques have emerged as highly competitive methods to improve kNN through data reduction. However previous works have evaluated those approaches only on structured datasets. In addition, their performance has not been examined over the text categorization domain where the dimensionality and size of the dataset is very high. Motivated by these observations, this paper investigates and analyzes the impact of instance selection on kNN-based text categorization in terms of various aspects such as classification accuracy, classification efficiency, and data reduction.

특이점 가중치 기반 PLSA를 이용한 객체 범주화 (Object Categorization Using PLSA Based on Weighting)

  • 송현철;황인택;최광남
    • 인터넷정보학회논문지
    • /
    • 제10권4호
    • /
    • pp.45-54
    • /
    • 2009
  • 본 논문에서는 영상 내 객체들의 카테고리 분석을 위해 연구된 PLSA를 기반으로 특이점에 가중치를 부여하여 보다 유사한 카테고리 간에 인식 성능을 향상시키는 접근법에 대하여 연구하였다. PLSA는 문서기반의 정보검색 분야로부터 소개된 기법으로, 약한 수준의 비감독 방법임에도 불구하고 인상적인 인식성능을 보여준다. 그러나 비슷한 특징점 분포를 보이는 유사한 카테고리 간의 객체 카테고리 인식에 대해서는 비교적 낮은 성능을 보인다. 본 연구에서는 카테고리간의 비교실험을 통해 각 특징점에 대하여 가중치를 부여한 PLSA를 적용하여 유사한 객체 간의 카테고리 인식 가능성을 살펴보았다. 실험에서는 기존의 PLSA 기법과 제안한 가중치를 부여 PLSA 기법을 각각 적용하여 그 성능을 비교하였다. 본 연구에서는 기존 PLSA 기법에서는 비교적 낮은 인식률을 보인 유사한 카테고리 인식에 대하여 실험 결과를 통해 가중치를 부여한 PLSA 기법이 보다 향상된 성능을 보임을 확인하였다.

  • PDF

강건한 한국어 상품평의 감정 분류를 위한 패턴 기반 자질 추출 방법 (A Robust Pattern-based Feature Extraction Method for Sentiment Categorization of Korean Customer Reviews)

  • 신준수;김학수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권12호
    • /
    • pp.946-950
    • /
    • 2010
  • 기계 학습 기반의 많은 감정 분류 시스템들은 문장으로부터 언어적 자질을 추출하기 위하여 형태소 분석기를 사용한다. 그러나 온라인 상품평에는 많은 띄어쓰기 오류 및 철자 오류가 포함되어 있어서 일반적으로 형태소 분석기가 좋은 성능을 내기 어려우며, 기반 시스템의 낮은 성능은 감정 분류 시스템의 성능하락을 초래한다. 이러한 문제를 해결하기 위하여 본 논문에서는 어절 패턴과 음운 패턴의 최장 일치 매칭(matching)에 기반한 자질 추출 방법을 제안한다. 두 종류의 패턴은 대용량의 품사 부착 말뭉치로부터 자동으로 구축된다. 어절 패턴은 영사, 동사와 같은 내용어를 포함하는 어절들로 구성되며, 음운 패턴은 동사나 형용사와 같은 용언의 초성과 중성의 쌍으로 구성된다. 음운 패턴에 초성과 중성만을 사용한 이유는 철자 오류에 영향을 덜 받기 때문이다. 제안 방법을 평가하기 위하여 SVM(Support Vector Machine)을 기계 학습기로 사용하는 감정 분류 시스템을 구현하였다. 한국어 상품평에 대한 실험에서 제안 방법을 자질 추출 모듈로 사용하는 감정 분류 시스템이 형태소 분석기를 사용하는 것보다 우수한 성능을 보였다.

Optimization of Domain-Independent Classification Framework for Mood Classification

  • Choi, Sung-Pil;Jung, Yu-Chul;Myaeng, Sung-Hyon
    • Journal of Information Processing Systems
    • /
    • 제3권2호
    • /
    • pp.73-81
    • /
    • 2007
  • In this paper, we introduce a domain-independent classification framework based on both k-nearest neighbor and Naive Bayesian classification algorithms. The architecture of our system is simple and modularized in that each sub-module of the system could be changed or improved efficiently. Moreover, it provides various feature selection mechanisms to be applied to optimize the general-purpose classifiers for a specific domain. As for the enhanced classification performance, our system provides conditional probability boosting (CPB) mechanism which could be used in various domains. In the mood classification domain, our optimized framework using the CPB algorithm showed 1% of improvement in precision and 2% in recall compared with the baseline.

Guiding Practical Text Classification Framework to Optimal State in Multiple Domains

  • Choi, Sung-Pil;Myaeng, Sung-Hyon;Cho, Hyun-Yang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제3권3호
    • /
    • pp.285-307
    • /
    • 2009
  • This paper introduces DICE, a Domain-Independent text Classification Engine. DICE is robust, efficient, and domain-independent in terms of software and architecture. Each module of the system is clearly modularized and encapsulated for extensibility. The clear modular architecture allows for simple and continuous verification and facilitates changes in multiple cycles, even after its major development period is complete. Those who want to make use of DICE can easily implement their ideas on this test bed and optimize it for a particular domain by simply adjusting the configuration file. Unlike other publically available tool kits or development environments targeted at general purpose classification models, DICE specializes in text classification with a number of useful functions specific to it. This paper focuses on the ways to locate the optimal states of a practical text classification framework by using various adaptation methods provided by the system such as feature selection, lemmatization, and classification models.

Domain formation characteristics during thermomagnetic recording for amorphous TbFe and TbFeCo alloy thin films

  • Kim, Soon-Gwang
    • 한국광학회:학술대회논문집
    • /
    • 한국광학회 1989년도 제4회 파동 및 레이저 학술발표회 4th Conference on Waves and lasers 논문집 - 한국광학회
    • /
    • pp.235-241
    • /
    • 1989
  • Static according tests were carried out on a series of amorphous TbFe thin films of various composition under a constant laser irradiation condition. Examination of recorded domain configurations by using polarizing microscope led to the categorization of domain characteristics into 3 distinctly different types; i.c., type A: circular domains with smooth boundaries, the size not sensitive to variation of bias field, type B: domains of irregular shape at low bias, the size increasing and the boundaries getting smoother and more circular with increasing bias field and type C: not recordable. Critical factor which distinguishes among each types was fond to be the relative magnitude of H and H of the film near T, regardless of constituent atomic species. Micromagnetical process of thermomagnetic recording cycle was analyzed scheniatically for each type.

  • PDF

An Automated Knowledge Acquisition Tool Based on the Inferential Modeling Technique

  • Chan, Christine W.;Nguyen, Hanh H.
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 ITC-CSCC -2
    • /
    • pp.1165-1168
    • /
    • 2002
  • Knowledge acquisition is the process that extracts the required knowledge from available sources, such as experts, textbooks and databases, for incorporation into a knowledge-based system. Knowledge acquisition is described as the first step in building expert systems and a major bottleneck in the efficient development and application of effective knowledge based expert systems. One cause of the problem is that the process of human reasoning we need to understand for knowledge-based system development is not available for direct observation. Moreover, the expertise of interest is typically not reportable due to the compilation of knowledge which results from extensive practice in a domain of problem solving activity. This is also a problem of modeling knowledge, which has been described as not a problem of accessing and translating what is known, but the familiar scientific and engineering problem of formalizing models for the first time. And this formalization process is especially difficult for knowledge engineers who are often faced with the difficult task of creating a knowledge model of a domain unfamiliar to them. In this paper, we propose an automated knowledge acquisition tool which is based on an implementation of the Inferential Modeling Technique. The Inferential Modeling Technique is derived from the Inferential Model which is a domain-independent categorization of knowledge types and inferences [Chan 1992]. The model can serve as a template of the types of knowledge in a knowledge model of any domain.

  • PDF

학교적응의 예측변인에 대한 메타분석 (A Meta-Analysis on the Predictor Variables of the School Adjustment of Youth)

  • 이지언;정익중;백종림
    • 아동학회지
    • /
    • 제35권2호
    • /
    • pp.1-23
    • /
    • 2014
  • The purpose of this research was to investigate the most critical variables in the school adjustment of youth. In addition, this research assessed the impact of variables according to the categorization of individual, family, and school domains. To acquire the effect sizes, published studies between 1990 and 2012 were reviewed systematically and synthesized by meta-analysis. The major findings were as follows. First, this study identified a total of 34 variables which can have an influence on the school adjustment of youth and confirmed that 24 of those variables are significant. The most crucial variable that can influence school adjustment is that of a teacher's support. The next most important variables are self-resilience, relationships with friends, and self-efficiency. Focusing on the categorized elements, self-resilience is the most critical variable in the individual domain, the parent-child relation is the most crucial variable in the family domain, and a teacher's support is the most powerful variable in the school domain. Based on these results, this study suggested a number of the indispensable components in interventions to improve the youth's adjustment in school.