• Title/Summary/Keyword: 변수 선별

Search Result 235, Processing Time 0.025 seconds

Terms Based Sentiment Classification for Online Review Using Support Vector Machine (Support Vector Machine을 이용한 온라인 리뷰의 용어기반 감성분류모형)

  • Lee, Taewon;Hong, Taeho
    • Information Systems Review
    • /
    • v.17 no.1
    • /
    • pp.49-64
    • /
    • 2015
  • Customer reviews which include subjective opinions for the product or service in online store have been generated rapidly and their influence on customers has become immense due to the widespread usage of SNS. In addition, a number of studies have focused on opinion mining to analyze the positive and negative opinions and get a better solution for customer support and sales. It is very important to select the key terms which reflected the customers' sentiment on the reviews for opinion mining. We proposed a document-level terms-based sentiment classification model by select in the optimal terms with part of speech tag. SVMs (Support vector machines) are utilized to build a predictor for opinion mining and we used the combination of POS tag and four terms extraction methods for the feature selection of SVM. To validate the proposed opinion mining model, we applied it to the customer reviews on Amazon. We eliminated the unmeaning terms known as the stopwords and extracted the useful terms by using part of speech tagging approach after crawling 80,000 reviews. The extracted terms gained from document frequency, TF-IDF, information gain, chi-squared statistic were ranked and 20 ranked terms were used to the feature of SVM model. Our experimental results show that the performance of SVM model with four POS tags is superior to the benchmarked model, which are built by extracting only adjective terms. In addition, the SVM model based on Chi-squared statistic for opinion mining shows the most superior performance among SVM models with 4 different kinds of terms extraction method. Our proposed opinion mining model is expected to improve customer service and gain competitive advantage in online store.

A Study of Relationship between Organizational Characteristics and the Usage Level of Quick Response Technologies (기업특성과 Quick Response Technologies의 사용 수준과의 관계 연구)

  • 고은주
    • Journal of the Korean Society of Clothing and Textiles
    • /
    • v.20 no.4
    • /
    • pp.586-595
    • /
    • 1996
  • 급변하는 국내외의 교역환경 변화에 따라 의류산업에도 새로운 경영 전략 수립이 요구되고 있다. Quick Response(QR)는 의류제품을 생산하는 기업의 경쟁력을 증가시키기 위해 소개된 새로운 경영 전략으로서, 유통 채녈 사이에 정보와 상품의 흐름을 효울화시켜 최대의 소비자 만족을 제공한다. 본 연구의 목적은 QR technologies의 사용현황을 밝히고 기업 특성과 QR technologies 사용수준과의 관계를 조사하였다. 종족변수는 QR technologies의 사용 수준이며, 선별된 독립변수들은 기업크기 (firm size), 기업전략 (organizational strategy), 제품종류(product category) , 패션변화(fashion change), 주기 적변화(seasonal change)였다. 조사대상은 미국 전역에서 무작위로 추출된 306개의 의류업체를 대상으로 하였으며, 1차 우편과 2차 전화로, 설문지를 통해 자료수집을 하였다. 설문 응답률은 47%(n=103)였고, 자료의 분석은 기술통계(i, e., 빈도, 퍼센트)와 비모수통계기법을 사용하였다. 가장 많이 사용되고 있는 QR technologies는 소량주문(small lot orders) , 단기 사이클 재단 계획 (short cycle cut planning)과 고객의 견이 반영 된 생산계획 (Production planning with customers)이였다. 가장 적게 사용되고 있는 QR technologies는 전자 재주문(electronic reorder)과 단위 생산 시스템 (unit production system)이 였다. QR technologies 사용수준에 관계가 있는 것은 기업크기 (firm size), 기업전략 (organizational strategy), 패션변화(fashion change) 임으로 나타났다. 의류업체의 크기가 클수록, 혁신적 선도기업 일수록, 패션변화가 큰 제품을 취급할수록 QR technologies의 사용수준이 높은 것으로 나타났다. 의류업체는 자원과 생산하는 제품종류에 따라 경영전략과 QR technologies의 사용수준이 다양하였다.

  • PDF

대학중심의 지역기업, 지방정부 및 연구기관 연계를 통한 창업혁신활동 성과지표 개발에 관한 탐색적 연구

  • Byeon, Yeong-Jo;Lee, Sang-Han
    • 한국벤처창업학회:학술대회논문집
    • /
    • 2019.04a
    • /
    • pp.79-85
    • /
    • 2019
  • 대학의 지역 공헌활동에 대한 역할 증대, 학령인구의 지속적 감소와 이에 따른 재정문제에 대비한 대학의 수익원 창출 노력 등, 대학을 중심으로 재정, 지역연계 역할, 정부 및 연구기관과의 활동 등 대학과 지역의 상호발전을 위한 현실적 과제가 증가됨에 따라 대학 스스로 내부자원을 활용한 발전계획을 기획하고 시행할 필요가 있다. 뿐만 아니라 중앙 또는 지방정부의 대학재정 지원 시, 이러한 활동의 표준을 정해보고 활동에 대한 측정 등을 할 수 있는 지표 설정이 필요하다. 기존 대학의 지역연계 활동과 성과지표 선정 등에 대한 다양한 보고서와 논문 등을 선행연구로 하고 대학 중심의 창업지원과제 등을 중심으로 대학을 중심으로 한 다양한 창업혁신활동 주체를 도출, 이들과의 협력관계에 대한 내용을 선별하고 이를 투입, 활동, 실적, 성과 등으로 구분하여 보았다. 활동 및 주체의 타당성 확보를 위해 학계, 창투사, 연구기관의 창업관련 다양한 전문가를 대상으로 측정변수에 대한 타당성 측정 및 AHP 분석을 통한 변수의 적합도를 분석하여 창업활동 주체 및 평가지표 등을 도출 하였다. 본 논문을 통하여 대학은 지역의 기업, 정부/공공기관, 연구기관, 투자기관 등과 협업 연계할 수 있는 주체간의 연관가능 활동과 해당 기관의 자원을 연계하여 지역발전에 기여할 수 있는 모델 및 이를 측정할 수 있는 지표 및 주요 내용을 도출 할 수 있었다.

  • PDF

Prediction on the Ratio of Added Value in Industry Using Forecasting Combination based on Machine Learning Method (머신러닝 기법 기반의 예측조합 방법을 활용한 산업 부가가치율 예측 연구)

  • Kim, Jeong-Woo
    • The Journal of the Korea Contents Association
    • /
    • v.20 no.12
    • /
    • pp.49-57
    • /
    • 2020
  • This study predicts the ratio of added value, which represents the competitiveness of export industries in South Korea, using various machine learning techniques. To enhance the accuracy and stability of prediction, forecast combination technique was applied to predicted values of machine learning techniques. In particular, this study improved the efficiency of the prediction process by selecting key variables out of many variables using recursive feature elimination method and applying them to machine learning techniques. As a result, it was found that the predicted value by the forecast combination method was closer to the actual value than the predicted values of the machine learning techniques. In addition, the forecast combination method showed stable prediction results unlike volatile predicted values by machine learning techniques.

A Study of Machine Learning Model for Prediction of Swelling Waves Occurrence on East Sea (동해안 너울성 파도 예측을 위한 머신러닝 모델 연구)

  • Kang, Donghoon;Oh, Sejong
    • The Journal of Korean Institute of Information Technology
    • /
    • v.17 no.9
    • /
    • pp.11-17
    • /
    • 2019
  • In recent years, damage and loss of life and property have been occurred frequently due to swelling waves in the East Sea. Swelling waves are not easy to predict because they are caused by various factors. In this research, we build a model for predicting the swelling waves occurrence in the East Coast of Korea using machine learning technique. We collect historical data of unloading interruption in the Pohang Port, and collect air pressure, wind speed, direction, water temperature data of the offshore Pohang Port. We select important variables for prediction, and test various machine learning prediction algorithms. As a result, tide level, water temperature, and air pressure were selected, and Random Forest model produced best performance. We confirm that Random Forest model shows best performance and it produces 88.86% of accuracy

A Study on the Analysis of the Related Factors to Distinguish High Risk Group of Female Suicidal Attempts (여성의 자살시도 고위험군 선별을 위한 관련요인 분석)

  • Choi, Hyang Suk;Heo, Myoung-Lyun;Kim, Eun-Mi
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.18 no.5
    • /
    • pp.308-317
    • /
    • 2017
  • This study aims to determine the current status of experiences of suicidal attempts of Korean women and to evaluate related factors and provide basic sources for distinguishing high risk group. The primary data of the 6th period of national health and nutrition survey by KCDC, between 2013 and 2015,wereutilized in this study.Women were selected;general characteristics, psychological characteristics, and relevant information of daily activities were collected. The collected data wereanalyzed by applying the complex sample analysis method,using the SPSS 20.0 program with an application of weighted values. The resultsof this study revealed that 1% of the study population had previously attempted suicide; the suicidal attempts in subjects with prior psychological counselling within 1 year was 5.25 times higher than those without prior counselling.Subjectswith too much stress were 14.92 times more likely to attempt suicide than those without stress. Moreover, subjects with higher-intensity work in daily lives was 4.85 times more likely to attempt suicide than those with less intense work. In addition, subjects who sat for longer period of time was 3.76 times more likely to attempt suicide. All of these were statistically significant. Therefore, these subjects should be considered as high risk for suicidal attempt.In order to prevent female suicide, guidelines that considers the psychological health status and daily activities are required. In addition, it is necessary to approach this issuewith individualized prevention programs as part of social policies.

The Foundation Performance of Selected Waste Plastic Wastes Used in Cement Manufacturing (시멘트 제조에 사용되는 선별된 폐플라스틱 폐기물류 원료로서의 기초 특성 평가)

  • Han, Jong-Min;Kang, Bong-Hee;Park, Jae-Yong;Lee, Jeong-Wook;Kim, Nam-Gyu
    • Resources Recycling
    • /
    • v.29 no.6
    • /
    • pp.88-97
    • /
    • 2020
  • In this study, the selected waste plastic waste logistics used for cement sintering were classified into two types through the process of sorting and crushing, analyzing the characteristics of each, and analyzing the correlation of the strength after cement manufacturing. The experimental variables were classified into soft and hard waste plastic waste, and the correlations between calorific value, chlorine, and moisture were analyzed. In addition, some of each waste was selected and melted, and the basic characteristics were evaluated by analyzing the structure and calorific value. The results of the experiment showed that it was evaluated that it is suitable to obtain a heat source by separating soft waste plastic wastes and sintering them with materials having similar properties. As a result of examining the wastes by strength after cement manufacturing, it was analyzed that the use of hard plastics greatly contributes to the compressive strength on the 1st and 28th, and the use of soft plastics contributes to the compressive strength on the 28th. However, these characteristics are evaluated by collecting only a part of the waste, and since the deviation of the waste occurs, continuous management is required, and a follow-up study on the environmental problems caused by the use of waste is required.

Application of HHIE-S(Hearing Handicap Inventory for the Elderly-Screening version) to screening test of noise-induced hearing loss (소음성 난청 선별검사에 HHIE-S(Hearing Handicap Inventory for the Elderly-Screening version)의 적용)

  • Lee, Mi-Young;Suh, Suk-Kwon;Lee, Choong-Won
    • Journal of Preventive Medicine and Public Health
    • /
    • v.29 no.3 s.54
    • /
    • pp.539-553
    • /
    • 1996
  • The study was conducted from May to September in 1994 to investigate applicability of the Hearing Handicap Inventory for the Elderly-Screening version(HHIE-S) in parallel with the pure-tone audiometer to the initial screening test of noise-induced hearing loss(NIHL) in some noise-exposed workers. Subjects were selected by systemic sampling that took every 10th person from 6, 700 workers taking the annual occupational health examination by the department of Health Maintenance of Dongsan Hospital Keimyung University in Taegu. The authors administered the pure-tone audiometric test and self-reported questionnaire of HHIE-S including items of sociodemographic and job-related variables concurrently. The final subjects analysed were 1,019(488 males and 531 females) excluding fourteen persons who had many missing values in their questionnaires. The reliability coefficients of HHIE-S scale by Cronbach's alpha were 0.84. In the univariate analysis of hearing handicap measured by the HHIE-S, work duration, military service and the hearing threshold loss at 1KHz and 4KHz by the initial audiometer were significant in males while age, work duration and hearing threshold loss at 1KHz and 4KHz were significant in females. In the stepwise linear regression analysis, hearing threshold loss at 1KHz and 4KHz, was the only selected variable explaining the hearing handicap in males and hearing threshold loss at 1KHz and 4KHz, age, and work duration were selected in females. In ROC curves for HHIE-S scores against NIHL as gold standard which was defined by the follow-up audiogram as more than 30dB of the average of 0.5/1/2KHz and 50dB at 4KHz, the optimal cutoff for the parallel HHIE-S appeared to be 8. The results suggest that HHIE-S appeared to have some reliability and validity in this data and might be used in screening NIHL in parallel with pure-tone audiometer in noise-exposed workers.

  • PDF

Basin flood Discharge Characteristic According to AMC Condition (AMC 조건에 따른 유역 홍수유출 특성)

  • Yoo, Chulsang;Lee, Jiho
    • 한국방재학회:학술대회논문집
    • /
    • 2011.02a
    • /
    • pp.207-207
    • /
    • 2011
  • 본 연구에서는 유역 특성의 판단에 적절한 호우사상을 선별하여 사용하는 것이 어느 정도 효과적인지를 평가하였다. 토양의 습윤 정도에 따른 유역의 특성을 반영하기 위해 AMC 조건을 고려하였으며, 유역의 집중시간 및 저류상수의 추정방법으로는 Nash 모형의 구조를 이용하는 방법을 적용하였다. 아울러 강우의 공간변동 정도를 파악하기 위해 변동계수를 이용하여 평가하였으며, 추정된 매개변수들의 대푯값 및 가능범위를 도시적으로 결정하였다. 이를 유역면적이 큰 충주댐 유역의 영춘 지점과 상대적으로 작은 평창강 방림 지점을 대상유역으로 선정하여, 다양한 호우사상에 대한 분석이 유역의 규모에 대비되어 수행될 수 있도록 하였다. 그 결과를 정리하면 다음과 같다. 강우의 공간변동 정도를 변동계수로 평가한 결과 AMC-III 조건에서 강우강도의 공간적 변동폭이 작음을 확인하였다. 따라서 AMC-III 조건에서 유도한 유출특성이 단위도의 이론에 부합하는 것으로 판단된다. 아울러 AMC 조건에 따라 추정된 집중시간과 저류상수는 AMC-I보다 AMC-III 경우에서 상대적으로 변동폭도 작았으며, 선형저수지의 특성 역시 일관됨을 확인하였다. 특히, AMC-I 조건의 경우는 선행강우가 없는 상태에서의 호우사상들로서 일단 그 크기가 작을 가능성이 크다는 문제점을 가지고 있다. 따라서 AMC-I 조건의 호우사상 보다는 AMC-III 조건의 호우사상을 이용하는 게 보다 홍수 유출 해석에 유리하다고 판단된다. 추정된 매개변수의 대푯값과 그의 가능범위 결정에 앞서, AMC-III 조건에서 추정된 매개변수들이 군집해 있는 구간을 설정한 후, 이를 벗어나는 매개변수를 제외하였다. 다음으로 매개변수의 무게중심 즉, 평균을 중점으로 하여 사분위수(25%, 50%, 75%)에 해당되는 매개변수 개수가 선택되도록 사변형을 작성하였다. 이 때 집중시간과 저류상수 사이의 상관성을 고려하기 위해 사변형은 선형저수지 개수의 선과 선형저수지의 저류상수의 선이 만나는 점을 연결하여 작성하였다. 영춘 지점의 경우, 집중시간의 대푯값은 20.6 hr, 저류상수의 대푯값은 18.4 hr, 방림 지점은 각각 7.5 hr, 8.2 hr이다. 매개변수의 대푯값 가능범위는 충주댐 영춘 지점의 경우 1사분에서 집중시간 18-25 hr, 저류 상수는 17-20 hr 정도, 방림 지점의 경우 집중시간은 5-10 hr, 저류상수는 7-11 hr 정도이다. 아울러 추정된 대푯값의 가능 범위를 이용하여 기존의 경험공식을 평가하였다. 그 결과 집중시간의 경우 Kraven 공식, 정성원 공식이, 저류상수의 경우 Sabol 공식, 정성원 공식, 윤태훈 공식이 대푯값의 범위에 속하는 것으로 분석되었다. 그러나 분석 지점의 부족으로 기존의 경험공식의 정량적 평가는 어렵다. 추후에 보다 많은 지점을 대상으로 분석한다면 보다 설득력이 있는 경험공식의 평가와 다양한 유역에 적합한 경험공식의 산정도 가능할 것이다.

  • PDF

Bike Insurance Fraud Detection Model Using Balanced Randomforest Algorithm (균형 랜덤 포레스트를 이용한 이륜차 보험사기 적발 모형 개발)

  • Kim, Seunghoon;Lee, Soo Il;Kim, Tae ho
    • Journal of Digital Convergence
    • /
    • v.20 no.2
    • /
    • pp.241-250
    • /
    • 2022
  • Due to the COVID-19 pandemic, with increased 'untact' services and with unstable household economy, the bike insurance fraud is expected to surge. Moreover, the fraud methodology gets complicated. However, the fraud detection model for bike insurance is absent. we deal with the issue of skewed class distribution and reflect the criterion of fraud detection expert. We utilize a balanced random-forest algorithm to develop an efficient bike insurance fraud detection model. As a result, while the predictive performance of balanced random-forest model is superior than it of non-balanced model. There is no significant difference between the variables used by the experts and the confirmatory models. The important variables to detect frauds are turned out to be age and gender of driver, correspondence between insured and driver, the amount of self-repairing claim, and the amount of bodily injury liability.