• Title/Summary/Keyword: 대용량 분류

Search Result 243, Processing Time 0.053 seconds

Associative Classification based Customized Tourist Attraction Recommendation System applying CPFP-tree (CPFP-tree를 적용한 연관분류 기반의 사용자 맞춤형 관광명소 추천 시스템)

  • Kim, Hyeong-Soo;Park, Soo-Ho;Lee, Dong-Gyu;Ryu, Keun-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06c
    • /
    • pp.134-136
    • /
    • 2012
  • u-City 환경에서 사용자 맞춤형 국토정보를 제공하기 위해 대용량의 데이터를 효과적으로 분석할 수 있는 데이터마이닝 기법이 적용되고 있다. 따라서 이 논문에서는 데이터마이닝 기법 중 연관분류기법을 적용하여 사용자 맞춤형 관광명소 추천 시스템을 개발하였다. 특히, CPFP-tree를 이용하여 빈발항목집합 탐사에 대한 시간을 단축하였으며, 연관분류를 통해 보다 높은 정확도로 결과를 예측 및 분류할 수 있게 하였다. 제시한 시스템은 공간정보에 대해 사용자 맞춤 서비스를 제공할 수 있음을 보였으며, 다양한 시나리오 적용을 통해 맞춤형 국토정보화 기술의 기반이 될 수 있다.

System and Utilization for E-Catalog Classifier (전자 카탈로그 자동분류기 시스템과 그 활용)

  • Lee, Ig-Hoon;Chun, Jong-Hoon
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.14 no.9
    • /
    • pp.876-883
    • /
    • 2008
  • A clearly defined e-catalog (or product) information is a key foundation for an e-commerce system. A classification (or categorization) is a core information to build clear e-catalogs, can play an important role in quality of e-commerce systems using e-catalogs. However, as the wide use of online business transactions, the volume of e-catalog information that needs to be managed in a system has become drastically large, and the classification task of such data has become highly complex. In this paper, we present an e-catalog classifier system, and report on our effort to improve an e-catalog management process and to standardize e-catalogs for enterprises by use of automated approach for e-catalog classifier systems. Also we introduce some of the issues that we have experienced in the projects, so that our work may help those who do a similar project in the future.

PCA-based Feature Extraction using Class Information (클래스 정보를 이용한 PCA 기반의 특징 추출)

  • Park Myoung Soo;Na Jin Hee;Choi Jin Young
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2005.04a
    • /
    • pp.428-432
    • /
    • 2005
  • 영상 데이터와 같은 대용량의 데이터를 분류하고자 할 경우, 입력 데이터의 차원을 줄여서 특징 벡터를 뽑아내는 전처리 과정은 필수적이다. 이 경우 특징 벡터가 입력 데이터의 정보를 최대한 포함하도록 하는 것이 중요하다. 특징 벡터를 뽑는 대표적인 방법으로는 PCA, ICA, LDA, MLP와 같은 특징 추출(feature extraction) 방법을 들 수 있다. PCA와 LDA는 무감독 학습 방식이고, LDA, MLP는 감독 학습 방식에 해당한다. 감독학습 방식의 경우 입력 정보와 함께 클래스 정보를 사용하기 때문에 데이터를 분류하기에 더 좋은 특징들을 뽑아낼 수 있는 장점이 있다. 본 논문에서는 무감독 학습 방식인 PCA에 클래스에 대한 정보를 함께 사용하여 특징을 추출함으로써 데이터 분류에 더욱 적합한 특징들을 뽑는 방법을 제안하였다. 그리고, Yale face database를 사용하여 제안한 알고리즘의 성능을 기존의 알고리즘과 비교, 테스트하였다.

  • PDF

Data Mining Using Reversible Jump MCMC and Bayesian Network Learning (Reversible Jump MCMC와 베이지안망 학습에 의한 데이터마이닝)

  • 하선영;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.90-92
    • /
    • 2000
  • 데이터마이닝 문제는 데이터를 그 속성들에 따라 분류하여 예측하는 것뿐만 아니라 분류된 속성들간의 연관성에 대해 잘 설명할 수 있어야 한다. 일반적으로 변수들간의 연관성을 잘 설명할 수 있으면서도 높은 예측력을 가지는 방법으로는 베이지안 네트웍 분류자(Bayesian network classifier)가 있다. 그러나 이것은 데이터 마이닝과 같은 대용량 데이터에서는 성능이 떨어지는 단점이 있다. 이에 이 논문에서는 최근 RBF 신경망이 입력변수 선정문제에 성공적으로 적용된 Reversible Jump Markov Chain Monte Carlo 방법을 이용하여 최적의 입력변수들만을 선택하여 베이지안 네트웍을 학습하는 Selective BN Augmented Naive-Bayes Classifier를 새로운 방안으로 제안하고 이를 실제 데이터마이닝 문제에 적용한 결과를 제시한다.

  • PDF

Matching Agent using Automatic Weight-Control (가중치 자동 조절을 이용한 매칭 에이전트)

  • 김동조;박영택
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2000.11a
    • /
    • pp.439-445
    • /
    • 2000
  • 다차원의 속성들을 포함한 대용량의 데이터베이스 또는 점보 저장소의 데이터로부터 지식을 추출하고 이를 활용하기 위해서는 데이터 마이닝의 인공지능 기법 중 기계학습을 활용할 수 있다. 본 논문은 질의어를 바탕으로 각 작성들에 가중치를 적용하여 사용자가 원하는 데이터 집합을 분류하고, 사용자 피드백을 통하여 속성 가중치를 동적으로 변화시킴으로써 검색결과를 향상시키는 방법을 제안한다. 본 논문에서는 데이터 집합을 분류해내기 위해서 각 속성간의 거리에 가중치를 적용하는 k-nearest neighbor 분류법을 사용하였고, 속성 가중치를 동적으로 변화시키는 규칙을 추출하기 위한 방법으로는 결정 트리 생성에 의한 규칙(decision rule) 생성 방법을 적용하였다. 검색결과 향상을 \ulcorner이기 위한 실험으로써 온라인 커플매칭(online couple-matching) 시스템의 핵심부문을 구현하고 이를 적용하였다.

  • PDF

Cancer driver gene using multi-omics data and biological network information (멀티 오믹스 데이터 및 생물학적 네트워크 정보를 이용한 드라이버 유전자 분류)

  • Jeong-Ho Park;Kyuri Jo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.490-492
    • /
    • 2023
  • 시퀀싱(sequencing) 기술의 발달로 다양한 오믹스(omics) 데이터의 축적과 인공 지능 기술의 발달로 인하여 다양한 드라이버 유전자 분류기법이 제안되어왔다. 최근에는 암 데이터가 대용량으로 축적되며 기계 학습 기반의 다양한 기법들이 활발히 제안되었다. 특히 다양한 오믹스 데이터를 결합한 고차원 데이터에서 높은 정확도를 확보하기 위한 시도가 활발히 이루어지고 있다. 본 논문에서는 멀티 오믹스와 네트워크 관련 특징을 기반으로 암의 증식 및 발생에 중요한 역할을 하는 드라이버 유전자를 분류하는 딥러닝 모델을 제시한다. 또한 The Cancer Genome Atlas(TCGA) 데이터를 통해서 모델 학습 후 기존 통계 및 머신러닝 기반 기법과 비교하여 성능이 개선되었음을 확인하였다.

BERT-based Hateful Text Filtering System - Focused on University Petition System (BERT 기반 혐오성 텍스트 필터링 시스템 - 대학 청원 시스템을 중심으로)

  • Taejin Moon;Hynebin Bae;Hyunsu Lee;Sanguk Park;Youngjong Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.714-715
    • /
    • 2023
  • 최근들어 청원 시스템은 사람들의 다양한 의견을 반영하고 대응하기 위한 중요한 수단으로 부상하고 있다. 그러나 많은 양의 청원 글들을 수작업으로 분류하는 것은 매우 시간이 많이 소요되며, 인적 오류가 발생할 수 있는 문제점이 존재한다. 이를 해결하기 위해 자연어처리(NLP) 기술을 활용한 청원 분류 시스템을 개발하는 것이 필요하다. 본 연구에서는 BERT(Bidirectional Encoder Representations from Transformers)[1]를 기반으로 한 텍스트 필터링 시스템을 제안한다. BERT 는 최근 자연어 분류 분야에서 상위 성능을 보이는 모델로, 이를 활용하여 청원 글을 분류하고 분류된 결과를 이용해 해당 글의 노출여부를 결정한다. 본 논문에서는 BERT 모델의 이론적 배경과 구조, 그리고 미세 조정 학습 방법을 소개하고, 이를 활용하여 청원 분류 시스템을 구현하는 방법을 제시한다. 우리가 제안하는 BERT 기반의 텍스트 필터링 시스템은 청원 글 분류를 자동화하고, 이에 따른 대응 속도와 정확도를 향상시킬 것으로 기대된다. 또한, 이 시스템은 다양한 분야에서 응용 가능하며, 대용량 데이터 처리에도 적합하다. 이를 통해 대학 청원 시스템에서 혐오성 발언 등 부적절한 내용을 사전에 방지하고 학생들의 의견을 효율적으로 수집할 수 있는 기능을 제공할 수 있다는 장점을 가지고 있다.

Protein-Protein Interaction Reliability Enhancement System based on Feature Selection and Classification Technique (특징 추출과 분석 기법에 기반한 단백질 상호작용 데이터 신뢰도 향상 시스템)

  • Lee, Min-Su;Park, Seung-Soo;Lee, Sang-Ho;Yong, Hwan-Seung;Kang, Sung-Hee
    • The KIPS Transactions:PartB
    • /
    • v.13B no.7 s.110
    • /
    • pp.679-688
    • /
    • 2006
  • Protein-protein interaction data obtained from high-throughput experiments includes high false positives. In this paper, we introduce a new protein-protein interaction reliability verification system. The proposed system integrates various biological features related with protein-protein interactions, and then selects the most relevant and informative features among them using a feature selection method. To assess the reliability of each protein-protein interaction data, the system construct a classifier that can distinguish true interacting protein pairs from noisy protein-protein interaction data based on the selected biological evidences using a classification technique. Since the performance of feature selection methods and classification techniques depends heavily upon characteristics of data, we performed rigorous comparative analysis of various feature selection methods and classification techniques to obtain optimal performance of our system. Experimental results show that the combination of feature selection method and classification algorithms provide very powerful tools in distinguishing true interacting protein pairs from noisy protein-protein interaction dataset. Also, we investigated the effects on performances of feature selection methods and classification techniques in the proposed protein interaction verification system.

Rule-Based Classification Analysis Using Entropy Distribution (엔트로피 분포를 이용한 규칙기반 분류분석 연구)

  • Lee, Jung-Jin;Park, Hae-Ki
    • Communications for Statistical Applications and Methods
    • /
    • v.17 no.4
    • /
    • pp.527-540
    • /
    • 2010
  • Rule-based classification analysis is widely used for massive datamining because it is easy to understand and its algorithm is uncomplicated. In this classification analysis, majority vote of rules or weighted combination of rules using their supports are frequently used in order to combine rules. We propose a method to combine rules by using the multinomial distribution in this paper. Iterative proportional fitting algorithm is used to estimate the multinomial distribution which maximizes entropy constrained on rules' support. Simulation experiments show that this method can compete with other well known classification models in the case of two similar populations.

Efficient Classification of User's Natural Language Question Types using Word Semantic Information (단어 의미 정보를 활용하는 이용자 자연어 질의 유형의 효율적 분류)

  • Yoon, Sung-Hee;Paek, Seon-Uck
    • Journal of the Korean Society for information Management
    • /
    • v.21 no.4 s.54
    • /
    • pp.251-263
    • /
    • 2004
  • For question-answering system, question analysis module finds the question points from user's natural language questions, classifies the question types, and extracts some useful information for answer. This paper proposes a question type classifying technique based on focus words extracted from questions and word semantic information, instead of complicated rules or huge knowledge resources. It also shows how to find the question type without focus words, and how useful the synonym or postfix information to enhance the performance of classifying module.