• Title/Summary/Keyword: 새로운 범주

Search Result 397, Processing Time 0.032 seconds

A Comparative Study on Category Assignment Methods of a KNN Classifier (KNN 분류기의 범주할당 방법 비교 실험)

  • 이영숙;정영미
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2000.08a
    • /
    • pp.37-40
    • /
    • 2000
  • KNN(K-Neatest Neighbors)을 사용한 문서의 자동분류에서는 새로운 입력문서에 범주를 할당하기 위해 K개의 유사문서로부터 범주별 문서의 분류빈도나 유사도를 이용한다. 본 연구에서는 KNN 기법에서 보편적으로 사용되는 범주 할당 방법을 응용하여 K개 유사문서 중 최상위 및 상위 M개 문서에 가중치를 부여하는 방법들을 고안하였고 K값의 변화에 따른 이들의 성능을 비교해 보았다.

  • PDF

The Comparison of Neural Network and k-NN Algorithm for News Article Classification (신경망 또는 k-NN에 의한 신문 기사 분류와 그의 성능 비교)

  • 조태호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.363-365
    • /
    • 1998
  • 텍스트 마이닝(Text Mining)이란 텍스트형태의 문서들의 패턴 또는 관계를 추출하여 사용자가 원하는 새로운 정보를 가공하거나 기존의 정보를 변형하는 과정을 말한다. 텍스트 마이닝의 기능에는 문서 범주화(Document Categorization), 문서 군집화(Document Clustering), 그리고 문서 요약(Document Summarization)이 이에 해당된다. 문서 범주화란 문서에게 사전에 정의한 범주를 부여하는 과정을 말하고, 문서 군집화란 문서들을 계층적 구조로 형성하는 과정을 말하고, 문서 요약이란 문서의 전체 내용을 대표할 수 있는 내용의 일부만을 추출하는 과정을 말한다. 이 논문에서는 문서 범주화만을 다룰 것이며 그 대상으로는 신문기사로 설정하였다. 그의 범주는 4가지로 정치, 경제, 스포츠, 그리고 정보통신으로 설정하였다. 문서 범주화는 문서 분류(Document Classification)라고도 하며 문서에 범주를 자동으로 부여하여 기존에 인위적으로 부여함으로써 소요되는 시간과 비용을 절감하는 것이 목적이다. 문서 범주화에 대하여 k-NN(k-Nearest Neighbor)와 신경망을 이용하였으며, 신경망을 이용한 경우가 k-NN을 이용한 경우보다 성능이 우수하였다.

  • PDF

A Fuzzy Clustering Algorithm for Clustering Categorical Data (범주형 데이터의 분류를 위한 퍼지 군집화 기법)

  • 김대원;이광형
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2003.09b
    • /
    • pp.63-66
    • /
    • 2003
  • 본 논문에서는 범주형(categorical) 데이터의 분류를 위한 새로운 기법을 제시한다. 기존의 대표적인 퍼지 군집화 방법인 fuzzy k-modes 알고리즘은 군집 (cluster)의 중심을 단일값으로 표현한 반면, 제안하는 기법에서는 이를 퍼지값으로 정의한다. 이와 같은 퍼지 중심 표현기법을 도입함으로써 범주형 데이터의 분류시에 발생하는 불확실성을 최소화할 수 있다. 기존의 대표적인 방법들과의 비교실험으로 통해 제안한 방법의 성능을 검증하였다.

  • PDF

Automatic Text Categorization Model by Synonym Dictionary (유사어 사전을 이용한 자동범주화 모델 개발)

  • Kim, Qu-Hwan;Lee, Too-Young
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2004.08a
    • /
    • pp.167-172
    • /
    • 2004
  • 기존의 문서분류는 학습문서에 출현하는 자질에 대해 가중치를 계산하여 그 순위에 따라 상위 자질로 구성된 지식베이스를 사용하였다. 그리고 새로운 문서가 들어왔을 때 자질 지식베이스를 근거로 새 문서를 색인하였다. 결국 자질 지식베이스와 정확히 일치하지 않는 키워드는 색인대상에서 제외되는 문제가 있었다. 본 고에서는 이 문제를 해결하기 위하여 분류될 문서의 특징을 나타내는 범주별 자질과 유사한의미를 가지나 형태가 변형되어 기술된 단어에 대하여 유사어 사전을 구축하였으며 이를 통해 새로운 문서가 범주에 할당될 가능성을 높여 자동 문서 범주화 시스템의 성능을 향상시키고자 한다.

  • PDF

An Incremental Method Using Sample Split Points for Global Discretization (전역적 범주화를 위한 샘플 분할 포인트를 이용한 점진적 기법)

  • 한경식;이수원
    • Journal of KIISE:Software and Applications
    • /
    • v.31 no.7
    • /
    • pp.849-858
    • /
    • 2004
  • Most of supervised teaming algorithms could be applied after that continuous variables are transformed to categorical ones at the preprocessing stage in order to avoid the difficulty of processing continuous variables. This preprocessing stage is called global discretization, uses the class distribution list called bins. But, when data are large and the range of the variable to be discretized is very large, many sorting and merging should be performed to produce a single bin because most of global discretization methods need a single bin. Also, if new data are added, they have to perform discretization from scratch to construct categories influenced by the data because the existing methods perform discretization in batch mode. This paper proposes a method that extracts sample points and performs discretization from these sample points in order to solve these problems. Because the approach in this paper does not require merging for producing a single bin, it is efficient when large data are needed to be discretized. In this study, an experiment using real and synthetic datasets was made to compare the proposed method with an existing one.

Assignment Semantic Category of a Word using Word Embedding and Synonyms (워드 임베딩과 유의어를 활용한 단어 의미 범주 할당)

  • Park, Da-Sol;Cha, Jeong-Won
    • Journal of KIISE
    • /
    • v.44 no.9
    • /
    • pp.946-953
    • /
    • 2017
  • Semantic Role Decision defines the semantic relationship between the predicate and the arguments in natural language processing (NLP) tasks. The semantic role information and semantic category information should be used to make Semantic Role Decisions. The Sejong Electronic Dictionary contains frame information that is used to determine the semantic roles. In this paper, we propose a method to extend the Sejong electronic dictionary using word embedding and synonyms. The same experiment is performed using existing word-embedding and retrofitting vectors. The system performance of the semantic category assignment is 32.19%, and the system performance of the extended semantic category assignment is 51.14% for words that do not appear in the Sejong electronic dictionary of the word using the word embedding. The system performance of the semantic category assignment is 33.33%, and the system performance of the extended semantic category assignment is 53.88% for words that do not appear in the Sejong electronic dictionary of the vector using retrofitting. We also prove it is helpful to extend the semantic category word of the Sejong electronic dictionary by assigning the semantic categories to new words that do not have assigned semantic categories.

A Study of MMOPRG Background Story based on Fantasy Theory (환상의 범주에 따른 MMORPG의 세계관 연구)

  • Ahn, Jin-Kyoung;Lyou, Chul-Gyun
    • Journal of Digital Contents Society
    • /
    • v.9 no.2
    • /
    • pp.349-356
    • /
    • 2008
  • MMORPG which offers a utopian world that includes a different rule from the real to satisfy players' needs for escape from the real world has changed. In these days, MMORPGs which have a unique world than middle-age fantasy have appeared as a new experience field. This paper compares MMORPGs have a middle-aged fantasy background story like J.R.R. Tolkein with another types bases on fantasy theory and presents difference.

  • PDF

Automatic Text Categorization Using Term Information of Anchor Text (Anchor Text의 단어 정보를 이용한 자동 문서 범주화)

  • Heo, Hee-keun;Han, Gi-deok;Jung, Sung-won;Lim, Sung-shin;Kwon, Hyuk-chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.665-668
    • /
    • 2004
  • 최근의 웹 문서는 텍스트뿐만 아니라 이미지, 사운드 등 다른 여러 형태로 표현되고 있어서 텍스트의 비중이 낮아지고 있다. 그래서 문서 내에서 일정량 이상의 단어 추출이 어려운 문서들에 대해서 기존의 단어 정보만을 이용한 문서 범주화 방법은 좋은 성능을 기대할 수 없다. 그래서 본 논문은 Anchor Text 단어 정보의 자질 적합성 판단에 의한 새로운 자동 문서 범주화 모델을 제안한다. 문서 범주화 모델로는 베이지언 확률 모델을 이용하였으며, 카이제곱 통계량을 사용하여 자질을 선정하였다. 문서 내에서 추출된 단어 자질들이 해당 문서를 판단하는데 부족하다고 판단되면 문서의 링크정보를 이용하여 연결된 문서의 단어 자질과 Anchor Text의 단어 자질을 반영함으로써 성능을 향상시킨다.

  • PDF

Category of positive game and approach of design for game designers (게임디자이너를 위한 포지티브게임의 범주와 디자인 접근)

  • Eun, Kwang-Ha;Lee, Dong-Lyeor;Kyung, Byung-Pyo;Ryu, Seuc-Ho;Lee, Wan-Bok
    • Journal of Digital Convergence
    • /
    • v.10 no.11
    • /
    • pp.589-594
    • /
    • 2012
  • In the initial stage, domestic games based online concentrated on game development focusing on income for some genres. However, various contents focusing on smart environment and social network are expanded at present and game materials are developed for more various objects. So, this study intends to examine new category, positive game, from the aspect of game designer for game approach based on various objects. And, game approaching process in the category based on pleasure was organized from the standpoint of designer, for the designer approach in the precedent stage of positive game development. From the aspect of designer, systemicity of game category and design approach are necessary to expand wire-wireless environment and new environment based on the convergence media to interactive contents focusing on games.