• 제목/요약/키워드: 변수선별

검색결과 229건 처리시간 0.023초

Support Vector Machine을 이용한 온라인 리뷰의 용어기반 감성분류모형 (Terms Based Sentiment Classification for Online Review Using Support Vector Machine)

  • 이태원;홍태호
    • 경영정보학연구
    • /
    • 제17권1호
    • /
    • pp.49-64
    • /
    • 2015
  • SNS의 확산으로 온라인 상점에서는 상품에 대한 주관적인 의견이 내포되어 있는 고객리뷰 정보가 빠르게 생성되고 확산되어 다른 고객들에게 큰 영향을 미치고 있다. 이와 더불어, 고객들의 긍정적 또는 부정적 의견을 분석하여 개선방안을 모색하려는 오피니언마이닝(opinion mining)이 주목 받고 있다. 고객리뷰에 내포된 감성정보를 가진 용어들은 감성분류를 하는데 가장 중요한 역할을 하기 때문에 영향력이 높은 용어를 선별하는 것이 가장 중요하다. 본 연구에서는 품사태깅을 이용하여 최적의 용어들을 선별하고 용어정보에 기반한 문서수준에서의 감성분류모형을 제안하고자 한다. 고객리뷰의 감성분류모형에 대표적인 기계학습기법인 SVM을 적용하고, SVM의 입력변수 선정과정에 품사태깅 방식과 용어추출기법을 다르게 조합하고 사용하여 긍정적/부정적 문서를 분류하였다. 본 연구에서 제안한 감성분류모형의 성과를 검증하기 위해 아마존(Amazon.com)의 영화와 도서에 대한 고객리뷰 80,000개를 수집하여 불필요한 용어들을 제거한 후 품사태깅을 통해 용어를 추출하였다. 추출된 용어는 문서빈도, TF-IDF, 정보획득량, 카이제곱 통계량의 값을 산출하여 값을 통해 용어들을 순위화하고, 각 상위 20개에 해당하는 최적의 용어를 선정한 후 SVM을 이용하였다. 제안된 감성분류모형을 통해 기존 연구에서 언급한 형용사만을 사용한 예측변수와 4품사를 사용한 예측변수에서의 실험결과를 통해 비교 분석하였다. 카이제곱 통계량 기반의 감성분류모형이 다른 모형보다 예측성과가 가장 우수하게 나타나는 것을 확인할 수 있었다. 본 연구에서 제안된 문서수준에서의 용어기반 감성분류모형을 이용함으로써 온라인 상점에서의 서비스 개선과 경쟁력 확보에 많은 도움이 될 것으로 기대된다.

기업특성과 Quick Response Technologies의 사용 수준과의 관계 연구 (A Study of Relationship between Organizational Characteristics and the Usage Level of Quick Response Technologies)

  • 고은주
    • 한국의류학회지
    • /
    • 제20권4호
    • /
    • pp.586-595
    • /
    • 1996
  • 급변하는 국내외의 교역환경 변화에 따라 의류산업에도 새로운 경영 전략 수립이 요구되고 있다. Quick Response(QR)는 의류제품을 생산하는 기업의 경쟁력을 증가시키기 위해 소개된 새로운 경영 전략으로서, 유통 채녈 사이에 정보와 상품의 흐름을 효울화시켜 최대의 소비자 만족을 제공한다. 본 연구의 목적은 QR technologies의 사용현황을 밝히고 기업 특성과 QR technologies 사용수준과의 관계를 조사하였다. 종족변수는 QR technologies의 사용 수준이며, 선별된 독립변수들은 기업크기 (firm size), 기업전략 (organizational strategy), 제품종류(product category) , 패션변화(fashion change), 주기 적변화(seasonal change)였다. 조사대상은 미국 전역에서 무작위로 추출된 306개의 의류업체를 대상으로 하였으며, 1차 우편과 2차 전화로, 설문지를 통해 자료수집을 하였다. 설문 응답률은 47%(n=103)였고, 자료의 분석은 기술통계(i, e., 빈도, 퍼센트)와 비모수통계기법을 사용하였다. 가장 많이 사용되고 있는 QR technologies는 소량주문(small lot orders) , 단기 사이클 재단 계획 (short cycle cut planning)과 고객의 견이 반영 된 생산계획 (Production planning with customers)이였다. 가장 적게 사용되고 있는 QR technologies는 전자 재주문(electronic reorder)과 단위 생산 시스템 (unit production system)이 였다. QR technologies 사용수준에 관계가 있는 것은 기업크기 (firm size), 기업전략 (organizational strategy), 패션변화(fashion change) 임으로 나타났다. 의류업체의 크기가 클수록, 혁신적 선도기업 일수록, 패션변화가 큰 제품을 취급할수록 QR technologies의 사용수준이 높은 것으로 나타났다. 의류업체는 자원과 생산하는 제품종류에 따라 경영전략과 QR technologies의 사용수준이 다양하였다.

  • PDF

대학중심의 지역기업, 지방정부 및 연구기관 연계를 통한 창업혁신활동 성과지표 개발에 관한 탐색적 연구

  • 변영조;이상한
    • 한국벤처창업학회:학술대회논문집
    • /
    • 한국벤처창업학회 2019년도 춘계학술대회
    • /
    • pp.79-85
    • /
    • 2019
  • 대학의 지역 공헌활동에 대한 역할 증대, 학령인구의 지속적 감소와 이에 따른 재정문제에 대비한 대학의 수익원 창출 노력 등, 대학을 중심으로 재정, 지역연계 역할, 정부 및 연구기관과의 활동 등 대학과 지역의 상호발전을 위한 현실적 과제가 증가됨에 따라 대학 스스로 내부자원을 활용한 발전계획을 기획하고 시행할 필요가 있다. 뿐만 아니라 중앙 또는 지방정부의 대학재정 지원 시, 이러한 활동의 표준을 정해보고 활동에 대한 측정 등을 할 수 있는 지표 설정이 필요하다. 기존 대학의 지역연계 활동과 성과지표 선정 등에 대한 다양한 보고서와 논문 등을 선행연구로 하고 대학 중심의 창업지원과제 등을 중심으로 대학을 중심으로 한 다양한 창업혁신활동 주체를 도출, 이들과의 협력관계에 대한 내용을 선별하고 이를 투입, 활동, 실적, 성과 등으로 구분하여 보았다. 활동 및 주체의 타당성 확보를 위해 학계, 창투사, 연구기관의 창업관련 다양한 전문가를 대상으로 측정변수에 대한 타당성 측정 및 AHP 분석을 통한 변수의 적합도를 분석하여 창업활동 주체 및 평가지표 등을 도출 하였다. 본 논문을 통하여 대학은 지역의 기업, 정부/공공기관, 연구기관, 투자기관 등과 협업 연계할 수 있는 주체간의 연관가능 활동과 해당 기관의 자원을 연계하여 지역발전에 기여할 수 있는 모델 및 이를 측정할 수 있는 지표 및 주요 내용을 도출 할 수 있었다.

  • PDF

머신러닝 기법 기반의 예측조합 방법을 활용한 산업 부가가치율 예측 연구 (Prediction on the Ratio of Added Value in Industry Using Forecasting Combination based on Machine Learning Method)

  • 김정우
    • 한국콘텐츠학회논문지
    • /
    • 제20권12호
    • /
    • pp.49-57
    • /
    • 2020
  • 본 연구는 우리나라 수출 분야 산업의 경쟁력을 나타내는 부가가치율을 다양한 머신러닝 기법을 활용하여 예측하였다. 아울러, 예측의 정확성 및 안정성을 높이기 위하여 머신러닝 기법 예측값들에 예측조합 기법을 적용하였다. 특히, 본 연구는 산업별 부가가치율에 영향을 주는 다양한 변수를 고려하기 위하여 재귀적특성제거 방법을 사용하여 주요 변수를 선별한 후 머신러닝 기법에 적용함으로써 예측과정의 효율성을 높였다. 분석결과, 예측조합 방법에 따른 예측값은 머신러닝 기법 예측값들보다 실제의 산업 부가가치율에 근접한 것으로 나타났다. 또한, 머신러닝 기법의 예측값들이 큰 변동성을 보이는 것과 달리 예측조합 기법은 안정적인 예측값을 나타내었다.

동해안 너울성 파도 예측을 위한 머신러닝 모델 연구 (A Study of Machine Learning Model for Prediction of Swelling Waves Occurrence on East Sea)

  • 강동훈;오세종
    • 한국정보기술학회논문지
    • /
    • 제17권9호
    • /
    • pp.11-17
    • /
    • 2019
  • 최근 들어 동해안에서 너울성 파도에 의한 손실이 빈번히 발생하고 있다. 너울성 파도는 다양한 요인들이 결합되어 발생하기 때문에 예측이 어렵다. 본 연구에서는 머신러닝 기술에 기초하여 동해안에서 너울성 파도의 발생을 예측하는 모델을 제안하였다. 모델 개발을 위해 포항 신항의 하역중단 데이터 및 신항 부근의 기압, 풍속, 풍향, 수온 등의 기상자료를 수집하였다. 수집한 데이터로부터 너울발생에 중요한 영향을 미치는 변수들을 선별하였으며, 모델 개발을 위해 다양한 머신러닝 예측 알고리즘들을 테스트 하였다. 그 결과 조위, 수온, 기압이 너울 발생 예측을 위한 주요 변수로 확인이 되었고, Random Forest 모델이 가장 우수한 성능을 보였으며. 모델의 예측 정확도는 88.6%이다.

여성의 자살시도 고위험군 선별을 위한 관련요인 분석 (A Study on the Analysis of the Related Factors to Distinguish High Risk Group of Female Suicidal Attempts)

  • 최향숙;허명륜;김은미
    • 한국산학기술학회논문지
    • /
    • 제18권5호
    • /
    • pp.308-317
    • /
    • 2017
  • 본 연구는 한국 여성의 자살시도 경험 현황을 확인하고, 관련요인을 확인하여 고위험군 선별을 위한 기초자료를 제공하고자 시도하였다. 2013년부터 2015년까지 질병관리본부에서 전국적으로 조사한 국민건강영양조사 자료 중 제 6기 3차 자료를 이용하였고. 전체 대상자중 여성만을 선별하여 일반적 특성, 정신건강 관련 특성, 일상생활 활동 특성 등의 자료를 수집하였다. 수집된 자료는 가중치를 적용하여 SPSS 20.0 프로그램의 복합표본 분석방법을 이용하여 빈도분석, 교차분석, 다변량 로지스틱 회귀분석으로 분석하였다. 그 결과 전체 여성의 1%에서 자살 시도 경험이 있는 것으로 파악 되었으며, 1년 이내의 정신 상담 경험이 있는 대상자가 없는 대상자보다 5.25배, 스트레스가 적은 대상자에 비해 많은 대상자가 14.92배, 일의 강도가 높은 대상자가 그렇지 않은 대상자에 비해 4.85배, 하루 중 앉아 있는 시간이 많은 대상자가 적은 대상자에 비해 3.76배 더 자살 시도를 한 것으로 나타났다. 따라서 이와 같은 대상자들을 자살시도의 고위험군으로 고려하여야 하며, 여성의 자살시도 예방을 위하여 일차적으로 정신 건강 상태와 일상생활의 활동 특성 변수를 고려한 선별 지침이 필요하겠다. 또한 사회적, 정책적으로 제공되는 자살 예방 프로그램의 개별적 접근이 필요할 것으로 사료 된다.

시멘트 제조에 사용되는 선별된 폐플라스틱 폐기물류 원료로서의 기초 특성 평가 (The Foundation Performance of Selected Waste Plastic Wastes Used in Cement Manufacturing)

  • 한종민;강봉희;박재용;이정욱;김남규
    • 자원리싸이클링
    • /
    • 제29권6호
    • /
    • pp.88-97
    • /
    • 2020
  • 본 연구는 시멘트 소성 공정에 사용되는 선별된 폐플라스틱 페기물류를 선별 및 파분쇄 공정을 거쳐 2종으로 분류하여 그에 따른 각각의 특성을 분석하고, 이를 기반으로 시멘트 소성 후의 강도에 대한 상관관계를 분석한 연구이다. 실험 변수로는 연질과 경질 폐플라스틱 폐기물로 분류하였으며 그에 따른 발열량, 염소, 수분 등의 상관관계를 분석하였다. 또한 각 폐기물 중 일부를 채택하여 용융시킨 후 조직 및 발열량을 분석하여 기초 특성을 평가하였다. 실험 결과 시멘트 소성에 사용되기 위해서는 연질 폐플라스틱 폐기물류 분리시키고 그 중 유사한 특성을 갖는 소재로 소성하는 것이 열원을 얻기에 적합한 것으로 평가되었다. 시멘트 소성 후의 강도별로 폐기물류에 대해 검토한 결과 경질 플라스틱류의 사용은 1일 및 28일 압축강도에 크게 기여하며, 연질 플라스틱류의 사용은 28일 압축강도에 기여하는 것으로 분석되었다. 그러나 이런 특성들은 폐기물을 일부만 채취하여 평가한 것으로 폐기물의 편차가 발생하기에 지속적인 관리가 필요하며 폐기물의 사용에 따른 환경적 문제에 대한 후속 연구가 요구된다.

소음성 난청 선별검사에 HHIE-S(Hearing Handicap Inventory for the Elderly-Screening version)의 적용 (Application of HHIE-S(Hearing Handicap Inventory for the Elderly-Screening version) to screening test of noise-induced hearing loss)

  • 이미영;서석권;이충원
    • Journal of Preventive Medicine and Public Health
    • /
    • 제29권3호
    • /
    • pp.539-553
    • /
    • 1996
  • 이 연구는 1994년도 5월부터 9월까지 동산병원 건강 관리과에서 소음특수건강진단을 받은 근로자 중 일부를 대상으로 하여 1차 선별 순음청력검사에 난청선별 설문지(HHIE-S)의 적용가능성을 점검해 보기 위하여 시행되었다. 대상자는 이 기간중의 특수검진 수진자들로서 총 6,700명 중 계통적 표본추출법에 의하여 매 5번째의 근로자가 추출되었다. 최종분석 대상은 자료가 미비한 14명을 제외한 1,019명으로 남자 488명, 여자 531명이었다. 소음성 난청의 1차 선별검사로 순음청력검사와 HHIE-S를 포함한 설문지검사를 실시하였다. 청력검사의 1차 선별기준은 양쪽 어느 귀의 청력손실이 4000Hz 에서 40dB이상인 자로 하였고 2차 정밀검사에서 난청의 기준은 3분법으로 계산하여 30dB 이상이면서 4000Hz에서 50dB 이상의 청력손실이 있는 자로 하였다. 설문지의 신뢰도는 0.84였다. 청력장애와 관련된 변수들의 단일변량분석에서 유의한 차이를 보인 항목은 남자에서 HHIE-S 총척도와 사회적/상황적 소척도에서 근무기간, 군복무력, 1000Hz 및 4000Hz에서의 청력역치였으며 여자에서 총척도와 소척도 모두에서 연령, 근무기간, 1000Hz 및 4000Hz에서의 청력역치였다. 다단계 다중회귀분적에서 남자에서 1000Hz및 4000Hz에서의 청력역치가 선택되었으며 여자에서는 총척도와 사회적/상황적 소척도에서 1000Hz 및 4000Hz에서의 청력 역치, 근무기간, 연령이 선택되었다. 2차 순음청력검사를 황금기준으로 하여 1차 선별청력검사와 HHIE-S점수를 기준으로 한 ROC곡선을 그린 결과, 최적의 타당도는 병행검사에서 HHIE-S점수 8을 기준으로 하였을 때였으며 민감도와 특이도가 각각 85%와 67%이었으며 위음성이 15%로 최소였다. 이러한 결과는 HHIE-S가 우리나라에서 신뢰도 및 타당도가 비교적 적절하며 소음성 난청 1차 선별검사에 순음청력검사와 함께 병행해서 사용하면 민감도를 높이고 위음성을 떨어뜨림으로써 순음청력검사의 병행검사로 적용가능성이 있음을 시사해 준다.

  • PDF

AMC 조건에 따른 유역 홍수유출 특성 (Basin flood Discharge Characteristic According to AMC Condition)

  • 유철상;이지호
    • 한국방재학회:학술대회논문집
    • /
    • 한국방재학회 2011년도 정기 학술발표대회
    • /
    • pp.207-207
    • /
    • 2011
  • 본 연구에서는 유역 특성의 판단에 적절한 호우사상을 선별하여 사용하는 것이 어느 정도 효과적인지를 평가하였다. 토양의 습윤 정도에 따른 유역의 특성을 반영하기 위해 AMC 조건을 고려하였으며, 유역의 집중시간 및 저류상수의 추정방법으로는 Nash 모형의 구조를 이용하는 방법을 적용하였다. 아울러 강우의 공간변동 정도를 파악하기 위해 변동계수를 이용하여 평가하였으며, 추정된 매개변수들의 대푯값 및 가능범위를 도시적으로 결정하였다. 이를 유역면적이 큰 충주댐 유역의 영춘 지점과 상대적으로 작은 평창강 방림 지점을 대상유역으로 선정하여, 다양한 호우사상에 대한 분석이 유역의 규모에 대비되어 수행될 수 있도록 하였다. 그 결과를 정리하면 다음과 같다. 강우의 공간변동 정도를 변동계수로 평가한 결과 AMC-III 조건에서 강우강도의 공간적 변동폭이 작음을 확인하였다. 따라서 AMC-III 조건에서 유도한 유출특성이 단위도의 이론에 부합하는 것으로 판단된다. 아울러 AMC 조건에 따라 추정된 집중시간과 저류상수는 AMC-I보다 AMC-III 경우에서 상대적으로 변동폭도 작았으며, 선형저수지의 특성 역시 일관됨을 확인하였다. 특히, AMC-I 조건의 경우는 선행강우가 없는 상태에서의 호우사상들로서 일단 그 크기가 작을 가능성이 크다는 문제점을 가지고 있다. 따라서 AMC-I 조건의 호우사상 보다는 AMC-III 조건의 호우사상을 이용하는 게 보다 홍수 유출 해석에 유리하다고 판단된다. 추정된 매개변수의 대푯값과 그의 가능범위 결정에 앞서, AMC-III 조건에서 추정된 매개변수들이 군집해 있는 구간을 설정한 후, 이를 벗어나는 매개변수를 제외하였다. 다음으로 매개변수의 무게중심 즉, 평균을 중점으로 하여 사분위수(25%, 50%, 75%)에 해당되는 매개변수 개수가 선택되도록 사변형을 작성하였다. 이 때 집중시간과 저류상수 사이의 상관성을 고려하기 위해 사변형은 선형저수지 개수의 선과 선형저수지의 저류상수의 선이 만나는 점을 연결하여 작성하였다. 영춘 지점의 경우, 집중시간의 대푯값은 20.6 hr, 저류상수의 대푯값은 18.4 hr, 방림 지점은 각각 7.5 hr, 8.2 hr이다. 매개변수의 대푯값 가능범위는 충주댐 영춘 지점의 경우 1사분에서 집중시간 18-25 hr, 저류 상수는 17-20 hr 정도, 방림 지점의 경우 집중시간은 5-10 hr, 저류상수는 7-11 hr 정도이다. 아울러 추정된 대푯값의 가능 범위를 이용하여 기존의 경험공식을 평가하였다. 그 결과 집중시간의 경우 Kraven 공식, 정성원 공식이, 저류상수의 경우 Sabol 공식, 정성원 공식, 윤태훈 공식이 대푯값의 범위에 속하는 것으로 분석되었다. 그러나 분석 지점의 부족으로 기존의 경험공식의 정량적 평가는 어렵다. 추후에 보다 많은 지점을 대상으로 분석한다면 보다 설득력이 있는 경험공식의 평가와 다양한 유역에 적합한 경험공식의 산정도 가능할 것이다.

  • PDF

균형 랜덤 포레스트를 이용한 이륜차 보험사기 적발 모형 개발 (Bike Insurance Fraud Detection Model Using Balanced Randomforest Algorithm)

  • 김승훈;이수일;김태호
    • 디지털융복합연구
    • /
    • 제20권2호
    • /
    • pp.241-250
    • /
    • 2022
  • COVID-19 여파로 인한 비대면 서비스와 가정 재정 불안정성의 증가로 이륜차 보험사기 발생이 예상되고 있다. 이와 함께 보험사기 수법도 갈수록 교묘해지고 있다. 하지만 비대면 배달 수요와 연관된 이륜차 교통사고와 보험사기 적발 모형 관련 연구는 매우 미흡한 실정이다. 이에 본 연구는 보험사기의 표본 편중문제를 해결하기 위해 균형 랜덤포레스트 알고리즘을 이용하고 보험사기 조사 전문가의 정성적인 판단 기준을 반영한 변수를 모델에 포함하여 적용성을 향상시키며 적발력 높은 이륜차 보험사기 모형을 개발하고자 한다. 보험사기 적발 모형 개발 결과, 기존의 비균형 랜덤 포레스트 모형에 비해 균형 랜덤 포레스트가 보험 사기혐의자를 분류하는 데 있어 통계적으로 우수한 점을 확인할 수 있었다. 특히, 총 26개의 변수를 토대로 탐색적 변수 조합을 적용한 모형의 예측 성능이 가장 높았지만 일부 변수만을 사용한 확인적 모형의 예측 성능도 크게 떨어지지 않은 와중에, 정성적인 보험사기 전문가가 선정한 변수만을 사용한 확인적 모형은 예측력이 떨어지는 것을 확인하였다. 또한, 총 26개의 변수 중 운전자 성별, 연령, 운전자 피보험자 일치 여부, 미수선 청구금액, 대인보험금 등이 중요한 변수로 확인되어 이를 활용해 이륜차 보험사기 혐의자 선별을 위한 적극적인 대처가 필요해 보인다.