• Title/Summary/Keyword: 속성 선택 기법

Search Result 169, Processing Time 0.028 seconds

Subnet Selection Scheme based on probability to enhance process speed of Big Data (빅 데이터의 처리속도 향상을 위한 확률기반 서브넷 선택 기법)

  • Jeong, Yoon-Su;Kim, Yong-Tae;Park, Gil-Cheol
    • Journal of Digital Convergence
    • /
    • v.13 no.9
    • /
    • pp.201-208
    • /
    • 2015
  • With services such as SNS and facebook, Big Data popularize the use of small size such as micro blogs are increasing. However, the problem of accuracy and computational cost of the search result of big data of a small size is unresolved. In this paper, we propose a subnet selection techniques based probability to improve the browsing speed of the small size of the text information from big data environments, such as micro-blogs. The proposed method is to configure the subnets to give to the attribute information of the data increased the probability data search speed. In addition, the proposed method improves the accessibility of the data by processing a pair of the connection information between the probability of the data constituting the subnet to easily access the distributed data. Experimental results showed the proposed method is 6.8% higher detection rates than CELF algorithm, the average processing time was reduced by 8.2%.

A Comparative Study on Feature Selection and Classification Methods Using Closed Frequent Patterns Mining (닫힌 빈발 패턴을 기반으로 한 특징 선택과 분류방법 비교)

  • Zhang, Lei;Jin, Cheng Hao;Ryu, Keun Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.148-151
    • /
    • 2010
  • 분류 기법은 데이터 마이닝 기술 중 가장 잘 알려진 방법으로서, Decision tree, SVM(Support Vector Machine), ANN(Artificial Neural Network) 등 기법을 포함한다. 분류 기법은 이미 알려진 상호 배반적인 몇 개 그룹에 속하는 다변량 관측치로부터 각각의 그룹이 어떤 특징을 가지고 있는지 분류 모델을 만들고, 소속 그룹이 알려지지 않은 새로운 관측치가 어떤 그룹에 분류될 것인가를 결정하는 분석 방법이다. 분류기법을 수행할 때에 기본적으로 특징 공간이 잘 표현되어 있다고 가정한다. 그러나 실제 응용에서는 단일 특징으로 구성된 특징공간이 분명하지 않기 때문에 분류를 잘 수행하지 못하는 문제점이 있다. 본 논문에서는 이 문제에 대한 해결방안으로써 많은 정보를 포함하면서 빈발패턴에 대한 정보의 순실이 없는 닫힌 빈발패턴 기반 분류에 대한 연구를 진행하였다. 본 실험에서는 ${\chi}^2$(Chi-square)과 정보이득(Information Gain) 속성 선택 척도를 사용하여 의미있는 특징 선택을 수행하였다. 그 결과, 이 연구에서 제시한 척도를 사용하여 특징 선택을 수행한 경우, C4.5, SVM 과 같은 분류기법보다 더 향상된 분류 성능을 보였다.

A Hybrid Feature Selection Method using Univariate Analysis and LVF Algorithm (단변량 분석과 LVF 알고리즘을 결합한 하이브리드 속성선정 방법)

  • Lee, Jae-Sik;Jeong, Mi-Kyoung
    • Journal of Intelligence and Information Systems
    • /
    • v.14 no.4
    • /
    • pp.179-200
    • /
    • 2008
  • We develop a feature selection method that can improve both the efficiency and the effectiveness of classification technique. In this research, we employ case-based reasoning as a classification technique. Basically, this research integrates the two existing feature selection methods, i.e., the univariate analysis and the LVF algorithm. First, we sift some predictive features from the whole set of features using the univariate analysis. Then, we generate all possible subsets of features from these predictive features and measure the inconsistency rate of each subset using the LVF algorithm. Finally, the subset having the lowest inconsistency rate is selected as the best subset of features. We measure the performances of our feature selection method using the data obtained from UCI Machine Learning Repository, and compare them with those of existing methods. The number of selected features and the accuracy of our feature selection method are so satisfactory that the improvements both in efficiency and effectiveness are achieved.

  • PDF

Exploring the Sentiment Analysis of Electric Vehicles Social Media Data by Using Feature Selection Methods (속성선택방법을 이용한 전기자동차 소셜미디어 데이터의 감성분석 연구)

  • Costello, Francis Joseph;Lee, Kun Chang
    • Journal of Digital Convergence
    • /
    • v.18 no.2
    • /
    • pp.249-259
    • /
    • 2020
  • This study presents a recently obtained social media data set based upon the case study of Electric Vehicles (EV) and looks to implement a sentiment analysis (SA) in order to gain insights. This study uses two methods in order to fully analyze the public's sentiment on EVs. First, we implement a SA tool in which we used to extract the sentiment of comments. Next we labeled the data with these sentiments obtained and classified them. While performing classification we found the problem of dimensionality and also explored the use of feature selection (FS) models in order to reduce the data set's dimensionality. We found that the use of three FS models (Chi Squared, Information Gain and ReliefF) showed the most promising results when used alongside a logistic and support vector machines classification algorithm. the contributions of this paper are in providing an real-world example of social media text analytics which can be adopted in many other areas of research and business. Moving forward researchers can use the methodological approach in this paper to further refine and improve their own case uses in text analytics.

Research on the Importance and Satisfaction of Selection Attribute for Hanok Village using Importance-Performance Analysis(IPA) (IPA기법을 활용한 한옥마을 선택속성의 중요도-만족도 연구)

  • Kim, Yeon-Sun
    • The Journal of the Korea Contents Association
    • /
    • v.20 no.7
    • /
    • pp.585-593
    • /
    • 2020
  • This study was conducted to research the Selection Attributes of tourists in Jeonju Hanok Village. The purpose of this study was to study the importance and satisfaction after visiting the Jeonju Hanok Village using IPA analysis, and to provide results and marketing implications. The survey was conducted from the October to the November in 2018. A total of 300 questionnaires were distributed and 258 responded questionnaires were reliable to be used as a sample. The result of the survey was analyzed by using SPSS 15.0 version for window with Paired t-test and IPA method. Frequency Analysis was also conducted for the characteristic of samples. As a result of the study, first, the cleanliness of tourist attractions was the highest among the selection attributes, and the next ranking was in the order of parking lot facilities, natural scenery, food, and weather. Second, the natural property was the most satisfactory as a selection property item that tourists visiting Hanok Village were satisfied with, followed by climate(weather), regional characteristics, historical and cultural resources, and cleanliness of tourist attractions. Third, depending on the importance-satisfaction value of the selection attribute variable perceived by tourists visiting Hanok Village, it is necessary to develop various programs in Hanok Village and prepare measures to increase tourist satisfaction.

A Genetic Algorithm for Clustering in Data Mining

  • 정지원;최인찬
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.306-309
    • /
    • 2000
  • 본 논문에서는 데이터마이닝 문제에 클러스터링 기법을 적용할 때 발생할 수 있는 문제점 및 속성선택(feature selection)과 그룹 수 산정의 상호연관성을 살펴보고, 데이터 필드의 상대적 중요도와 최적의 그룹 수를 결정하는 수리적 모형을 제시한다. 또한, 이 모형을 풀기 위하여 K-means 알고리즘을 이용한 유전 알고리즘을 제시한다.

  • PDF

Investigating the Airline Choice Factors of Low Cost Carriers (저비용항공사 승객의 항공사 선택 속성에 관한 연구)

  • Park, Jin-woo;Kim, Ji-hyun;Choi, Jin-ho
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2012.05a
    • /
    • pp.213-214
    • /
    • 2012
  • 항공규제완화법과 더불어 항공 협정에 의한 자유경쟁 체제의 돌입과 함께 급성장한 항공운송시장에서 항공사간의 경쟁이 불가피해졌고 이에 각 항공사들은 경쟁력을 갖추기 위해 고객의 유치뿐만 아니라 경쟁사와의 차별화를 둔 새로운 경영 전략을 수립 및 추구해 나가고 있는 실정이다. 본 연구에서는 충성 고객 증진 및 그 보유 방안을 모색하기 위하여 국내 저비용항공사 이용 고객을 대상으로 항공사 선택 속성에 영향을 미칠 수 있는 요인들 중 가격, 서비스, 금전 가치, 감정가치, 만족, 신뢰 및 충성도라는 변수들에 대하여 실증 연구를 통한 분석으로 그 유의성을 알아보고자 한다. 가설 및 연구 모형 검증을 위해 SPSS와 AMOS 프로그램의 활용 및 빈도 분석, 요인 분석, 신뢰도 검정 그리고 공분산 구조 방정식 분석 등의 통계기법을 이용하고자 한다.

  • PDF

A Feature Selection Method Based on Fuzzy Cluster Analysis (퍼지 클러스터 분석 기반 특징 선택 방법)

  • Rhee, Hyun-Sook
    • The KIPS Transactions:PartB
    • /
    • v.14B no.2
    • /
    • pp.135-140
    • /
    • 2007
  • Feature selection is a preprocessing technique commonly used on high dimensional data. Feature selection studies how to select a subset or list of attributes that are used to construct models describing data. Feature selection methods attempt to explore data's intrinsic properties by employing statistics or information theory. The recent developments have involved approaches like correlation method, dimensionality reduction and mutual information technique. This feature selection have become the focus of much research in areas of applications with massive and complex data sets. In this paper, we provide a feature selection method considering data characteristics and generalization capability. It provides a computational approach for feature selection based on fuzzy cluster analysis of its attribute values and its performance measures. And we apply it to the system for classifying computer virus and compared with heuristic method using the contrast concept. Experimental result shows the proposed approach can give a feature ranking, select the features, and improve the system performance.

Analysis of filtering performance of Korean and English spam-mails (한국어와 영어 스팸메일의 필터링 성능 분석)

  • Hwang Wun-Ho;Kang Sin-Jae;Kim Tae-Hee;Kim Hee-Jae;Kim Jong-Wan
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2006.05a
    • /
    • pp.389-396
    • /
    • 2006
  • 본 연구에서는 한국어와 영어 메일을 대상으로 2단계 스팸 메일 필터링 시스템을 구축하여 성능평가를 수행한다. 2단계 스팸 메일 필터링 시스템은 블랙리스트를 활용하는 1단계와 기계학습을 통한 지능적인 분류를 하는 2단계로 구성된다. 만약 새로 도착한 메일이 블랙리스트의 내용을 포함한다면 이 메일은 스팸 메일로 분류되고 그렇지 않은 메일은 2단계로 넘어가서 스팸 메일 여부를 판단하게 된다. 메일의 본문이 영어로 작성된 영어 스팸 메일을 일반 메일로부터 분류해내기 위해서는 우선 Stemming과 Stopping 기법을 이용하여 본문에서 정형화된 어휘정보들을 추출한다. 추출된 어휘정보들을 대상으로 속성벡터를 구축한 후 SVM 기계 학습을 시켜 SVM 분류기를 생성하여 지능적인 스팸 메일 필터링을 수행한다. 속성벡터를 구축할 때 기준이 되는 자질을 어떻게 선택하느냐에 따라 스팸 메일 필터링 시스템의 성능이 좌우된다. 따라서 SYM 기계 학습을 위한 속성벡터를 구축할 때 기준이 되는 자질을 선택하는 여러 알고리즘들을 적용하여 성능을 비교 분석한다. 그리고 한국어 스팸 메일 필터링 시스템과 비교하여 영어 스팸 메일 필터링 시스템의 전체적인 성능을 비교 분석한다.

  • PDF

전자선거 프로토콜의 요구사항 연구

  • 허원근;김희선;김광조
    • Review of KIISC
    • /
    • v.10 no.1
    • /
    • pp.63-69
    • /
    • 2000
  • 본 연구는 전자선거 프로토콜의 요구사항을 규정해 보고, 컴퓨터 통신상에서 이를 충족시키기 위한 암호기법 들을 분석해 본다. 전자선거의 도입이 선거 비용을 절감시키고 투표 장소의 제약을 획기적으로 개선하지만 매표방지등의 문제로 아직은 완전한 이동성을 제공하지는 못한다. 그리고 투표결과의 정확성 검증과 매표방지는 서로 상충되는 요구사항이기도 하다. 실제선거에서는 효율성의 문제로 영지식증명기법등의 사용이 제약 받을 수도 있다. 이러한 문제들을 정리하고, 실제의 선거 절차와 선거 속성들이 전자선거 프로토콜로 어떻게 구현되었는지 비교 검토함으로써, 규정한 요구사항들의 선택적인 적용에 활용코자 한다.

  • PDF