• 제목/요약/키워드: Subset selection

검색결과 203건 처리시간 0.023초

인터넷 상점에서의 내용기반 추천을 위한 상품 및 고객의 자질 추출 성능 비교 (Comparison of Product and Customer Feature Selection Methods for Content-based Recommendation in Internet Storefronts)

  • 안형준;김종우
    • 정보처리학회논문지D
    • /
    • 제13D권2호
    • /
    • pp.279-286
    • /
    • 2006
  • 인터넷 쇼핑몰에서의 상품 추천을 위해 널리 사용되는 방식 중 한 가지는 상품의 특성과 고객의 특성을 비교하여 고객에 맞는 상품을 추천하는 방식이다. 이 방식은 상품이나 고객의 특성을 표현하는 자질(Feature)의 개수가 많을수록 그 중에 어떤 자질을 선택해야 더 좋은 추천 성과를 가져올 수 있는지 파악해 내는 것이 추천의 효과 및 효율성 측면에서 중요하지만 아직까지 충분히 연구되지 않은 실정이다. 본 연구에서는 인터넷 서점에서의 가상 구매실험을 바탕으로 사용자가 구매한 책 들에서 사용자를 잘 나타낼 수 있는 자질을 선택하는 방식에 대해서 벡터 스페이스 모형, TFIDF(Term Frequency-Inverse Document Frequency), Mutual Information, SVD(Singular Value Decomposition) 방식 등을 활용하여 실험하고 그 결과를 비교해본다. 실험 결과 SVD를 응용한 자질 추출 기법이 가장 좋은 성능을 나타내었다.

전화기 숫자 자판을 이용한 대화형 한글 문자 입력 방법 (An Interactive Hangul Text Entry Method Using The Numeric Phone Keypad)

  • 박재화
    • 정보처리학회논문지B
    • /
    • 제14B권5호
    • /
    • pp.391-400
    • /
    • 2007
  • 휴대용 단말기의 숫자 자판을 이용해서 보다 편리하게 한글을 입력할 수 있도록 하는 대화형 방식을 제시하였다. 사용자는 입력하고자 하는 글자의 해당 자소가 있는 키를 한 번씩 눌러 키 시퀀스를 발생시킨다. 인터페이스는 사용자가 입력한 키 시퀀스에 대해 조합 가능한 모든 글자를 발생 시키고 사용자는 발생된 글자 중에서 입력하고자 하는 글자를 선택하도록 한다. 이를 통해 기존의 방법에서 공통으로 사용되는 수동적이고 일차원적인 자소 중심의 인터페이스를 상호 작용이 가능한 입체적인 글자 중심의 방법으로 개선 가능하다. 이 방법은 최종 글자의 입력을 완료하기 위해 필요한 글자 선택의 과정이 부가적으로 필요하지만, 기존 방법의 가장 큰 단점인 멀티탭과 불분명한 음소의 결정을 위한 키 조작의 불편함을 근본적으로 없앨 수 있다. 또한 모든 글자의 입력이 필기 순서와 동일하게 기본 자소에 의해 입력이 가능함으로 사용자의 문자입력에 대한 복잡도를 감소시킬 수 있다. 제안된 방법의 장단점을 실험을 통해 기존의 방법과 비교하였다.

RFE-SHAP을 활용한 온라인 리뷰를 통한 고객 만족도 예측 (Prediction of Customer Satisfaction Using RFE-SHAP Feature Selection Method)

  • 체르냐예바 올가;홍태호
    • 지능정보연구
    • /
    • 제29권4호
    • /
    • pp.325-345
    • /
    • 2023
  • 본 연구는 온라인 리뷰를 이용하여 고객 만족도를 예측하는 새로운 접근 방식을 제안한다. LDA 주제 모델링과 결합된 RFE-SHAP 기능 선택 방법을 활용하여 고객 만족도에 큰 영향을 미치는 주요 기능을 식별하여 예측 분석을 개선했다. 먼저 Random Forest 알고리즘의 경우, 초기 28개 입력변수에서 14개의 변수를 최적 하위 집합으로 추출했다. 제안된 방법에서 Random Forest 모델의 성과는 84%로 확인 되었으며 변수가 많은 모델에서 흔히 발생하는 과적합을 방지하였다. 또한 품질, 착용감, 내구성 등과 같은 리뷰의 특정 요소들이 패션 산업 내에서 소비자 만족도를 증진시키는 중요한 역할을 한다는 사실을 밝혀냈다. 본 연구는 예측 결과를 설명할 때 선택한 각 기능이 고객 만족도에 어떻게 영향을 미치는지에 대한 자세한 설명을 제공하고 고객이 가장 중요하게 생각하는 측면에 대한 세부적인 보기를 제공한다. 본 연구의 공헌도는 다음과 같다. 첫째, 전자상거래 분석 분야 내에서 예측 모델링을 강화하고 특성 중심적인 접근법을 소개함으로써 방법론을 개선하였다. 이는 고객 만족도 예측의 정확도를 높일 뿐만 아니라 예측 모델에서의 변수 선택에 대한 새로운 접근을 제시한다. 둘째, 특히 의류 부문에서 전자상거래 플랫폼에 구체적인 통찰력을 제공한다. 품질, 사이즈, 내구성 등 고객 리뷰의 어떤 부분이 만족도에 가장 큰 영향을 미치는지 강조함으로써, 기업들이 제품과 서비스를 맞춤화 할 수 있는 전략적 방향을 제시한다. 이러한 목표 지향적인 개선은 고객의 쇼핑 경험을 개선하고, 만족도를 향상시키면서 충성도를 이끌어낼 수 있을 것으로 기대한다.

Efficient Measurement Method for Spatiotemporal Compressive Data Gathering in Wireless Sensor Networks

  • Xue, Xiao;Xiao, Song;Quan, Lei
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권4호
    • /
    • pp.1618-1637
    • /
    • 2018
  • By means of compressive sensing (CS) technique, this paper considers the collection of sensor data with spatiotemporal correlations in wireless sensor networks (WSNs). In energy-constrained WSNs, one-dimensional CS methods need a lot of data transmissions since they are less applicable in fully exploiting the spatiotemporal correlations, while the Kronecker CS (KCS) methods suffer performance degradations when the signal dimension increases. In this paper, an appropriate sensing matrix as well as an efficient sensing method is proposed to further reduce the data transmissions without the loss of the recovery performance. Different matrices for the temporal signal of each sensor node are separately designed. The corresponding energy-efficient data gathering method is presented, which only transmitting a subset of sensor readings to recover data of the entire WSN. Theoretical analysis indicates that the sensing structure could have the relatively small mutual coherence according to the selection of matrix. Compared with the existing spatiotemporal CS (CS-ST) method, the simulation results show that the proposed efficient measurement method could reduce data transmissions by about 25% with the similar recovery performance. In addition, compared with the conventional KCS method, for 95% successful recovery, the proposed sensing structure could improve the recovery performance by about 20%.

조음자질을 이용한 한국인 학습자의 영어 발화 자동 발음 평가 (Automatic pronunciation assessment of English produced by Korean learners using articulatory features)

  • 류혁수;정민화
    • 말소리와 음성과학
    • /
    • 제8권4호
    • /
    • pp.103-113
    • /
    • 2016
  • This paper aims to propose articulatory features as novel predictors for automatic pronunciation assessment of English produced by Korean learners. Based on the distinctive feature theory, where phonemes are represented as a set of articulatory/phonetic properties, we propose articulatory Goodness-Of-Pronunciation(aGOP) features in terms of the corresponding articulatory attributes, such as nasal, sonorant, anterior, etc. An English speech corpus spoken by Korean learners is used in the assessment modeling. In our system, learners' speech is forced aligned and recognized by using the acoustic and pronunciation models derived from the WSJ corpus (native North American speech) and the CMU pronouncing dictionary, respectively. In order to compute aGOP features, articulatory models are trained for the corresponding articulatory attributes. In addition to the proposed features, various features which are divided into four categories such as RATE, SEGMENT, SILENCE, and GOP are applied as a baseline. In order to enhance the assessment modeling performance and investigate the weights of the salient features, relevant features are extracted by using Best Subset Selection(BSS). The results show that the proposed model using aGOP features outperform the baseline. In addition, analysis of relevant features extracted by BSS reveals that the selected aGOP features represent the salient variations of Korean learners of English. The results are expected to be effective for automatic pronunciation error detection, as well.

Automatic Detection of Cow's Oestrus in Audio Surveillance System

  • Chung, Y.;Lee, J.;Oh, S.;Park, D.;Chang, H.H.;Kim, S.
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제26권7호
    • /
    • pp.1030-1037
    • /
    • 2013
  • Early detection of anomalies is an important issue in the management of group-housed livestock. In particular, failure to detect oestrus in a timely and accurate way can become a limiting factor in achieving efficient reproductive performance. Although a rich variety of methods has been introduced for the detection of oestrus, a more accurate and practical method is still required. In this paper, we propose an efficient data mining solution for the detection of oestrus, using the sound data of Korean native cows (Bos taurus coreanea). In this method, we extracted the mel frequency cepstrum coefficients from sound data with a feature dimension reduction, and use the support vector data description as an early anomaly detector. Our experimental results show that this method can be used to detect oestrus both economically (even a cheap microphone) and accurately (over 94% accuracy), either as a standalone solution or to complement known methods.

상호정보 추정을 위한 k-최근접이웃 기반방법 (k-Nearest Neighbor-Based Approach for the Estimation of Mutual Information)

  • 차운옥;허문열
    • Communications for Statistical Applications and Methods
    • /
    • 제15권6호
    • /
    • pp.977-991
    • /
    • 2008
  • 본 논문에서는 연속형 변수에 대한 결합확률분포를 추정하지 않고도 상호정보(MI) 추정량을 구할 수 있는 k-최근접이웃 기반방법에 대하여 연구하였다. 변수가 동일한 값들을 가지는 경우 k-최근접이웃을 구할 때 생기는 문제점을 해결하기 위하여 지터링(jittering)과 붓스트랩(bootstrap) 방법을 제안하였다. 몬테칼로 모의실험과 실제 데이터에 대한 실험을 수행한 결과, k=1과 같이 작은 값을 사용한 k-최근접이웃 기반방법에 의해 효율적인 MI 추정량을 구할 수 있었다. k-최근접이웃 기반방법은 연속형 설명변수, 범주형 또는 연속형인 목적변수 형태의 데이터에 적용할 수 있으며, 목적변수에 영향을 주는 중요한 설명변수의 순서를 구할 수 있을 뿐만 아니라 다차원에도 적용할 수 있기 때문에 중요변수의 집합을 구하는 변수 선택(feature subset selection) 문제에도 적용할 수 있다.

SAMPLE-SPACING 방법에 의한 상호정보의 추정 (Sample-spacing Approach for the Estimation of Mutual Information)

  • 허문열;차운옥
    • 응용통계연구
    • /
    • 제21권2호
    • /
    • pp.301-312
    • /
    • 2008
  • 상호정보(mutual information: MI)는 설명변수의 목적변수에 대한 예측정도를 나타내는 척도로서, 목적변수에 대한 설명 변수의 중요도 순위를 구하거나 목적 변수를 잘 설명해주는 설명변수의 집합을 구하는 변수선택문제에 유용하게 사용된다. 본 논문에서는 연속형 설명변수와 범주형 목적변수로 구성된 데이터로부터 결합확률분포를 추정하지 않고도 MI 추정량을 구할 수 있는 Sample-spacing 방법에 대한 연구를 수행하였다. 몬테 칼로 모의 실험과 실제데이터에 대한 실험결과, MI 추정을 위해 Sample-spacing 방법을 사용할 때 m = 1을 사용하면 충분히 신뢰할만한 결과를 얻을 수 있다는 것을 알 수 있었다.

Statistical Analysis for Feature Subset Selection Procedures.

  • Kim, In-Young;Lee, Sun-Ho;Kim, Sang-Cheol;Rha, Sun-Young;Chung, Hyun-Cheol;Kim, Byung-Soo
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2003년도 제2차 연례학술대회 발표논문집
    • /
    • pp.101-106
    • /
    • 2003
  • In this paper, we propose using Hotelling's T2 statistic for the detection of a set of a set of differentially expressed (DE) genes in colorectal cancer based on its gene expression level in tumor tissues compared with those in normal tissues and to evaluate its predictivity which let us rank genes for the development of biomarkers for population screening of colorectal cancer. We compared the prediction rate based on the DE genes selected by Hotelling's T2 statistic and univariate t statistic using various prediction methods, a regulized discrimination analysis and a support vector machine. The result shows that the prediction rate based on T2 is better than that of univatiate t. This implies that it may not be sufficient to look at each gene in a separate universe and that evaluating combinations of genes reveals interesting information that will not be discovered otherwise.

  • PDF

Therapeutic Strategies of the Intracranial Meningioma in Elderly Patients

  • Song, Young-Jin;Sung, Soon-Ki;Noh, Seung-Jin;Kim, Hyung-Dong
    • Journal of Korean Neurosurgical Society
    • /
    • 제41권4호
    • /
    • pp.217-223
    • /
    • 2007
  • Objective : The apparent increase in the incidence of the intracranial meningiomas in the elderly is due in part to improved diagnostic tools and improved span of life. The authors carried out a retrospect study to validate the use of the Clinical-Radiological Grading System [CRGS] as a clinical tool to orientate surgical decision making in elderly patients and to explore prognostic factors of survival. Methods : From January 1997 to January 2006, the authors consecutively recruited and surgically treated 20 patients older than 65 years of age with radiologic findings of intracranial meningiomas and a preoperative evaluation based on the CRGS. Results : High CRGS score was associated with a higher probability of good outcome [p=0.004] and a lower probability of postoperative complications [p=0.049]. Among the different subset items of the CRGS score, larger maximum tumor diameters [$D{\geqq}4cm$] and the presence of a severe peritumoral edema were associated with incidence rate of postoperative poor outcome and complications [p<0.05]. Additionally, the critical location of the tumor was also correlated with poor outcome [p<0.05]. Conclusion : A CRGS score higher than 13 is a good prognostic indication of survival. The CRGS score is a useful and practical tool for the selection of elderly patients affected by intracranial meningiomas as surgical candidates.