• 제목/요약/키워드: Incremental Updating

검색결과 34건 처리시간 0.019초

점진적 특징 가중치 기법을 이용한 나이브 베이즈 문서분류기의 성능 개선 (Improving Naïve Bayes Text Classifiers with Incremental Feature Weighting)

  • 김한준;장재영
    • 정보처리학회논문지B
    • /
    • 제15B권5호
    • /
    • pp.457-464
    • /
    • 2008
  • 실제 운용 환경에서 자동문서분류시스템의 성공을 위해서 충분하지 못한 학습문서의 문제와 특징 공간들에 대한 사전지식이 없는 상황을 해결하는 것이 관건이다. 이런 맥락에서 많은 자동문서분류 시스템의 구축을 위해 나이브 베이즈 문서분류 알고리즘을 사용한다. 이는 기존 학습된 분류모델과 특징 공간을 점진적으로 갱신함으로써 분류모델을 향상시키는 것이 매우 용이하기 때문이다. 본 논문에서는 특징 가중치를 이용하여 문서분류기의 성능을 향상시키는 기법을 제안한다. 기본 아이디어는 문서분류 모델의 인자로서 특징들의 분포뿐만 아니라 각 특징들의 중요도를 반영하는 것이다. 속성 선택을 미리 수행하여 학습모델을 만드는 것이 아니라, 속성 중요도를 나이브 베이즈 학습 모델에 포함시킴으로써 보다 정확한 모델을 생성할 수 있다. 또한 동적 환경에서 점진적인 특징 가중치 부여를 위해 기존의 특징 갱신 기법을 확장한 알고리즘도 제안한다. 본 논문에서 제안된 기법을 평가하기 위해서 Reuters-21578과 20Newsgroup 문서집합 이용한 실험을 실시하여, 제안된 기법이 전통적인 나이브 베이즈 분류기의 성능을 크게 향상시킴을 증명한다.

온라인 게임회사의 전략적 양면성: 엔씨소프트의 활용과 탐험 (The Strategic Ambidexterity of Online Game Companies: The Exploitation and Exploration of NCsoft)

  • 배준희;구동모
    • 한국게임학회 논문지
    • /
    • 제15권1호
    • /
    • pp.115-124
    • /
    • 2015
  • 본 연구는 초경쟁적인 환경에서 온라인개발회사가 동태적 역량을 만들어 낼 수 있는 조직학습인 활용과 탐험에 대하여 엔씨소프트 사례를 중심으로 분석하였다. 학습, 루틴, 기존환경과의 적합성을 특징으로 하는 활용은 점진적 혁신을 이끌어 내는 반면, 비학습, 변화하는 환경에의 유연성과 관련된 탐험은 급진적인 혁신을 이끌어 낸다. 문헌연구를 바탕으로 우선 엔씨소프트의 활용과 탐험 활동을 온라인 게임산업의 사이클에 따라 검증하였다. 다음으로 엔씨소프트의 다양한 게임서비스의 사이클을 중심으로 활용과 탐험에 대해 살펴보았다. 온라인게임시장에서 비교적 빠르게 선도적 입지를 구축한 엔씨소프트는 온라인 게임산업 태동기와 성장기에는 활용 활동을 주로 하였으나, 산업의 성숙기에는 탐험활동을 늘여 왔다. 또한 각 게임서비스 라인의 신작 출시 및 기술개발에는 탐험활동을, 지속적인 패치 서비스 업데이트와 마케팅 및 시스템구축에는 활용활동을 수행하였다. 이것은 온라인 게임회사가 활용과 탐험의 균형을 통해 지속적인 경쟁우위를 창출할 수 있음을 시사한다.

Real-time Classification of Internet Application Traffic using a Hierarchical Multi-class SVM

  • Yu, Jae-Hak;Lee, Han-Sung;Im, Young-Hee;Kim, Myung-Sup;Park, Dai-Hee
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제4권5호
    • /
    • pp.859-876
    • /
    • 2010
  • In this paper, we propose a hierarchical application traffic classification system as an alternative means to overcome the limitations of the port number and payload based methodologies, which are traditionally considered traffic classification methods. The proposed system is a new classification model that hierarchically combines a binary classifier SVM and Support Vector Data Descriptions (SVDDs). The proposed system selects an optimal attribute subset from the bi-directional traffic flows generated by our traffic analysis system (KU-MON) that enables real-time collection and analysis of campus traffic. The system is composed of three layers: The first layer is a binary classifier SVM that performs rapid classification between P2P and non-P2P traffic. The second layer classifies P2P traffic into file-sharing, messenger and TV, based on three SVDDs. The third layer performs specialized classification of all individual application traffic types. Since the proposed system enables both coarse- and fine-grained classification, it can guarantee efficient resource management, such as a stable network environment, seamless bandwidth guarantee and appropriate QoS. Moreover, even when a new application emerges, it can be easily adapted for incremental updating and scaling. Only additional training for the new part of the application traffic is needed instead of retraining the entire system. The performance of the proposed system is validated via experiments which confirm that its recall and precision measures are satisfactory.

다중 클래스 SVM을 이용한 계층적 인터넷 애플리케이션 트래픽의 분류 (Hierarchical Internet Application Traffic Classification using a Multi-class SVM)

  • 유재학;이한성;임영희;김명섭;박대희
    • 한국지능시스템학회논문지
    • /
    • 제20권1호
    • /
    • pp.7-14
    • /
    • 2010
  • 본 논문에서는 인터넷 애플리케이션 트래픽 분류방법으로 대표되는 포트 번호 및 페이로드 정보를 이용하는 방법론의 한계점을 극복하는 대안으로서, SVM을 기반으로 한 계층적 인터넷 애플리케이션 트래픽 분류 시스템을 제안한다. 제안된 시스템은 이진 분류기인 SVM과 단일클래스 SVM의 대표적 모델인 SVDD를 계층적으로 결합한 새로운 트래픽 분류 모델로서, 학내에서 수집된 양방향 트래픽 플로우 데이터에 대한 최적의 속성 부분집합을 선택한 후, P2P 트래픽과 non-P2P 트래픽을 빠르게 분류하는 첫 번째 계층, P2P 트래픽들을 파일공유, 메신저, TV로 분류하는 두 번째 계층, 그리고 전체 16가지 애플리케이션 트래픽별로 세분화 분류하는 세 번째 계층으로 구성된다. 제안된 시스템은 인터넷 애플리케이션 트래픽을 coarse 혹은 fine하게 분류함으로써 효율적인 시스템의 자원 관리, 안정적인 네트워크 환경의 지원, 원활한 대역폭의 사용, 그리고 적절한 QoS를 보장할 수 있다. 또한, 새로운 애플리케이션 트래픽이 추가되더라도 전체 시스템을 재학습시킬 필요 없이 새로운 애플리케이션 트래픽만을 추가 학습함으로써 시스템의 점증적 갱신 및 확장성도 가능하다. 실험을 통하여 제안된 시스템의 성능을 검증한다.