• 제목/요약/키워드: decision tree

검색결과 1,626건 처리시간 0.029초

SVM을 이용한 VKOSPI 일 중 변화 예측과 실제 옵션 매매에의 적용 (VKOSPI Forecasting and Option Trading Application Using SVM)

  • 라윤선;최흥식;김선웅
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.177-192
    • /
    • 2016
  • 기계학습(Machine Learning)은 인공 지능의 한 분야로, 데이터를 이용하여 기계를 학습시켜 기계 스스로가 데이터 분석 및 예측을 하게 만드는 것과 관련한 컴퓨터 과학의 한 영역을 일컫는다. 그중에서 SVM(Support Vector Machines)은 주로 분류와 회귀 분석을 목적으로 사용되는 모델이다. 어느 두 집단에 속한 데이터들에 대한 정보를 얻었을 때, SVM 모델은 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 집단에 속할지를 판단해준다. 최근 들어서 많은 금융전문가는 기계학습과 막대한 데이터가 존재하는 금융 분야와의 접목 가능성을 보며 기계학습에 집중하고 있다. 그러면서 각 금융사는 고도화된 알고리즘과 빅데이터를 통해 여러 금융업무 수행이 가능한 로봇(Robot)과 투자전문가(Advisor)의 합성어인 로보어드바이저(Robo-Advisor) 서비스를 발 빠르게 제공하기 시작했다. 따라서 현재의 금융 동향을 고려하여 본 연구에서는 기계학습 방법의 하나인 SVM을 활용하여 매매성과를 올리는 방법에 대해 제안하고자 한다. SVM을 통한 예측대상은 한국형 변동성지수인 VKOSPI이다. VKOSPI는 금융파생상품의 한 종류인 옵션의 가격에 영향을 미친다. VKOSPI는 흔히 말하는 변동성과 같고 VKOSPI 값은 옵션의 종류와 관계없이 옵션 가격과 정비례하는 특성이 있다. 그러므로 VKOSPI의 정확한 예측은 옵션 매매에서의 수익을 낼 수 있는 중요한 요소 중 하나이다. 지금까지 기계학습을 기반으로 한 VKOSPI의 예측을 다룬 연구는 없었다. 본 연구에서는 SVM을 통해 일 중의 VKOSPI를 예측하였고, 예측 내용을 바탕으로 옵션 매매에 대한 적용 가능 여부를 실험하였으며 실제로 향상된 매매 성과가 나타남을 증명하였다.

S-MTS를 이용한 강판의 표면 결함 진단 (Steel Plate Faults Diagnosis with S-MTS)

  • 김준영;차재민;신중욱;염충섭
    • 지능정보연구
    • /
    • 제23권1호
    • /
    • pp.47-67
    • /
    • 2017
  • 강판 표면 결함은 강판의 품질과 가격을 결정하는 중요한 요인 중 하나로, 많은 철강 업체는 그동안 검사자의 육안으로 강판 표면 결함을 확인해왔다. 그러나 시각에 의존한 검사는 통상 30% 이상의 판단 오류가 발생함에 따라 검사 신뢰도가 낮은 문제점을 갖고 있다. 따라서 본 연구는 Simultaneous MTS (S-MTS) 알고리즘을 적용하여 보다 지능적이고 높은 정확도를 갖는 새로운 강판 표면 결함 진단 시스템을 제안하였다. S-MTS 알고리즘은 단일 클래스 분류에는 효과적이지만 다중 클래스 분류에서 정확도가 떨어지는 기존 마할라노비스 다구찌시스템 알고리즘(Mahalanobis Taguchi System; MTS)의 문제점을 해결한 새로운 알고리즘이다. 강판 표면 결함 진단은 대표적인 다중 클래스 분류 문제에 해당하므로, 강판 표면 결함 진단 시스템 구축을 위해 본 연구에서는 S-MTS 알고리즘을 채택하였다. 강판 표면 결함 진단 시스템 개발은 S-MTS 알고리즘에 따라 다음과 같이 진행하였다. 첫째, 각 강판 표면 결함 별로 개별적인 참조 그룹 마할라노비스 공간(Mahalanobis Space; MS)을 구축하였다. 둘째, 구축된 참조 그룹 MS를 기반으로 비교 그룹 마할라노비스 거리(Mahalanobis Distance; MD)를 계산한 후 최소 MD를 갖는 강판 표면 결함을 비교 그룹의 강판 표면 결함으로 판단하였다. 셋째, 강판 표면 결함을 분류하는 데 있어 결함 간의 차이점을 명확하게 해주는 예측 능력이 높은 변수를 파악하였다. 넷째, 예측 능력이 높은 변수만을 이용해 강판 표면 결함 분류를 재수행함으로써 최종적인 강판 표면 결함 진단 시스템을 구축한다. 이와 같은 과정을 통해 구축한 S-MTS 기반 강판 표면 결함 진단 시스템의 정확도는 90.79%로, 이는 기존 검사 방법에 비해 매우 높은 정확도를 갖는 유용한 방법임을 보여준다. 추후 연구에서는 본 연구를 통해 개발된 시스템을 현장 적용하여, 실제 효과성을 검증할 필요가 있다.

RFM 기반 SOM을 이용한 매장관리 전략 도출 (Strategy for Store Management Using SOM Based on RFM)

  • 정윤정;최일영;김재경;최주철
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.93-112
    • /
    • 2015
  • 소비자의 소비성향이 필요 품목을 중심으로 근거리에서 구매하는 근린형으로 변화함에 기존의 소매점은 식료품, 생활용품을 위주로 제공하는 슈퍼마켓, 하이퍼마켓 또는 편의점으로 진화하고 있다. 따라서 소매점이 한정된 공간에서 효율적으로 공간을 활용하고 매출을 증대하기 위해서는 소비자의 구매욕을 충족시킬 수 있는 상품배치와 적정한 재고수준을 유지하는 것이 매우 중요하다. 본 연구에서는 소매점의 판매 상품에 대하여 RFM 기반 SOM 군집화를 하여 효율적으로 매장을 관리할 수 있는 상품 배치전략 및 재고전략을 제안하였다. 실제 M마트의 판매데이터를 이용하여 RFM모델을 상품에 적용한 후, 기존 문헌 연구뿐만 아니라 해석 가능성, 응용 가능성 등을 고려하여 3X3 총 9개의 군집으로 분류하여 분석한 결과, 주요 군집으로 R값, F값, M값이 모두 높은 군집, R값, F값, M값 모두 낮은 군집, R값만 높은 군집, F값만 높은 군집이 도출되었다. 본 논문에서는 다른 군집과 비교시 R값, F값, M값이 차이를 보이는 주요 4개의 군집의 상품 배치 및 재고 전략을 제시하였다. R값, F값, M값이 모두 높은 군집의 상품은 소비자 동선을 늘림으로써 상품 노출을 확대시킬 수 있는 장소에 배치하여야 할 뿐만 아니라 높은 수준의 재고를 보유할 필요가 있다. 반면에 R값, F값, M값이 모두 낮은 군집의 상품은 가시성이 낮은 곳에 배치하고 최소한의 안전재고만 보유할 필요가 있다. 또한 R값이 높은 군집은 신상품으로 매장 입구에 배치하여 상품의 판매를 유도할 필요가 있다. 그리고 F값만 높은 군집의 경우, R값과 M값이 평균 값 보다 작은 상품들의 군집이므로 최근에는 판매가 저조하며 빈도 수에 비해 총 판매액이 낮다는 것을 유추할 수 있다. 따라서 현재보다 과거에 많이 판매된 저가의 상품군집으로 재고 수준을 점차 감소시킬 필요가 있다. 본 연구에서 제시한 방법은 POS 시스템의 보유한 소매점에서 상품배치 및 재고관리 방법으로 활용되어 매장의 수익성 증대에 기여할 수 있을 것으로 기대된다.

교통사고 데이터의 마이닝을 위한 연관규칙 학습기법과 서브그룹 발견기법의 비교 (Comparison of Association Rule Learning and Subgroup Discovery for Mining Traffic Accident Data)

  • 김정민;류광렬
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.1-16
    • /
    • 2015
  • 교통사고의 원인을 규명하고 미래의 사고를 방지하기 위한 노력의 일환으로 데이터 마이닝 기법을 이용한 교통 데이터 분석의 연구가 이루어지고 있다. 하지만 기존의 교통 데이터를 이용한 마이닝 연구들은 학습된 결과를 사람이 이해하기 어려워 분석에 많은 노력이 필요하다는 문제가 있었다. 본 논문에서는 많은 속성들로 표현된 교통사고 데이터로부터 유용한 패턴을 발견하기 위해 규칙 학습 기반의 데이터 마이닝 기법인 연관규칙 학습기법과 서브그룹 발견기법을 적용하였다. 연관규칙 학습기법은 비지도 학습 기법의 하나로 데이터 내에서 동시에 많이 등장하는 아이템(item)들을 찾아 규칙의 형태로 가공해 주며, 서브그룹 발견기법은 사용자가 지정한 대상 속성이 결론부에 나타나는 규칙을 학습하는 지도학습 기반 기법으로 일반성과 흥미도가 높은 규칙을 학습한다. 규칙 학습 시 사용자의 의도를 반영하기 위해서는 하나 이상의 관심 속성들을 조합한 합성 속성을 만들어 규칙을 학습할 수 있다. 규칙이 도출되고 나면 후처리 과정을 통해 중복된 규칙을 제거하고 유사한 규칙을 일반화하여 규칙들을 더 단순하고 이해하기 쉬운 형태로 가공한다. 교통사고 데이터를 대상으로 두 기법을 적용한 결과 대상 속성을 지정하지 않고 연관규칙 학습기법을 적용하는 경우 사용자가 쉽게 알기 어려운 속성 사이의 숨겨진 관계를 발견할 수 있었으며, 대상 속성을 지정하여 연관규칙 학습기법과 서브그룹 발견기법을 적용하는 경우 파라미터 조정에 많은 노력을 기울여야 하는 연관규칙 학습기법에 비해 서브그룹 발견기법이 흥미로운 규칙들을 더 쉽게 찾을 수 있음을 확인하였다.

산림의 CO2 흡수량 평가를 위한 통계 및 공간자료의 활용성 검토 - 안산시를 대상으로 - (A Study on the Availability of Spatial and Statistical Data for Assessing CO2 Absorption Rate in Forests - A Case Study on Ansan-si -)

  • 김성훈;김일권;전배석;권혁수
    • 환경영향평가
    • /
    • 제27권2호
    • /
    • pp.124-138
    • /
    • 2018
  • 본 연구는 안산시 산림을 대상으로 연간 $CO_2$ 흡수량 평가를 위한 통계 및 공간자료의 활용성을 검토하였다. 통계자료, 임상도(1:5,000), 산림수종 표준 탄소흡수량 자료들을 활용해 산림의 연간 $CO_2$ 흡수량을 산정하였다. 또한 세분류토지피복도를 이용한 연간 $CO_2$ 흡수량 분석 및 활용성을 검증하였다. 통계자료를 이용한 경우 2010년을 기준으로 연간 $CO_2$ 흡수량의 차이가 컸다. 이는 2010년부터 산림기본통계의 작성 방법이 고도화됨에 따라 임목축적이 급격히 증가한 결과이다. 향후 통계자료를 활용할 경우 최근의 산림기본통계를 이용한 보정이 필요하다. 임상도(1:5,000)와 산림기본통계(2015, 2010)의 시기 차이를 이용한 방법은 수종들의 생장량에 따른 $CO_2$ 흡수량이 반영되지 않았다. 산림수종 표준 탄소흡수량 자료와 임상도(1:5,000)를 이용한 결과 연간 42,369 ton을 흡수하였다. 세분류토지피복도와 산림수종 표준탄소흡수량 자료를 이용한 결과는 40,696 ton이었다. 임상도(1:5,000)를 이용하여 세분류토지피복도를 검증한 결과 p<0.01 수준에서 유의했고, 흡수량 차이는 1,673 ton이었다. 본 연구는 다양한 산림활동의 온실가스 감축 효과 평가에 있어 객관적 기준을 적용하는 일환으로서 의의를 지닌다. 나아가 탄소흡수원과 관련된 토지이용 및 관리 등의 의사결정 지원을 위한 기초자료로 활용이 가능할 것이다.

일본전문식당의 급식품질 개선을 위한 HACCP 시스템 적용 연구 (HACCP Model for Quality Control of Sushi Production in the Eine Japanese Restaurants in Korea)

  • 김혜경;이복희;김인호;조경동
    • 동아시아식생활학회지
    • /
    • 제13권1호
    • /
    • pp.25-38
    • /
    • 2003
  • 본 연구는 서울에 소재한 일식전문점을 대상으로 2001년 4월부터 6월까지 예비실험 및 본실험을 실시하였다. 주방과 조리종사자의 위생상태, 주방 배치도를 통한 위생상태를 조사하였고, 그곳에서 판매되는 7가지 생선초밥(광어, 도미, 숭어, 새우, 참치, 연어, 문어)의 생산 각 단계에서의 소요시간 및 온도상태, pH를 측정하고 각 초밥 생산 단계에서 채취한 초밥재료와 초밥 생산에 사용된 기구 및 용기, 작업자에 대한 미생물적 품질평가를 실시하였다. 이러한 실험 결과를 토대로 결정계통수를 활용하여 CCP를 결정하고 본 일본식식당의 생선초밥 생산에 대한 HACCP plan을 작성하였다. 본 연구의 결과를 요약한 내용은 아래와 같다. 1. 주방의 위생상태 평가결과, 시설 및 환경의 평균점수는 1.28, 용기 및 설비에 평균점수는 1.60이었으며 전체 평균점수는 1.44로 보통 수준이었다. 2. 조리 종사자의 위생습관 평가결과 개인 위생 1.33, 식품취급습관은 1.33으로 전반적인 위생습관은 보통 수준이었다. 그러나 조리 종사자에 대한 체계적이고 기본적인 위생 교육이 실시되지 않고 있었다. 3. 주방배치도를 통한 위생상태 평가결과 작업 동선은 복잡하지 않았으나 작업장별 구획구분이 없었고 도마 용도별 사용 구분이 명확하지 않았다. 4. 생선초밥 생산 소요시간은 3시간 36분~6시간으로 최장 4시간이내에 생산을 완료하여야 하는 기준시간을 초과하고 있었으며, 생산과정 중 시료 자체의 온도(10~23$^{\circ}C$)도 위험온도 범위대(5~6$0^{\circ}C$)에 있어 미생물적 위해 발생 요인을 제공하고 있었다. 또한 참치의 경우 실온에서 장시간 방치하여 해동함으로써 또 다른 위해 발생요인이 되고 있었다. 5. 생선초밥 재료에 대한 pH측정결과 3.65~7.03 범위에 있었는데 pH 4.6 이상인 경우에는 미생물의 증식우려가 있는 잠재적 위험 pH이므로 관리가 요구되었다. 6. 생선초밥의 미생물검사 결과는 양호하였는데 총균수는 4.5$\times$$10^2$~5.3$\times$$10^{5}$ CFU/g, 대장균군수는 3.5$\times$$10^1$~2.4$\times$$10^2$CFU/g으로 나타나 허용범위내에 있었다. Salmo nella와 Vibrio parahaemolyticus는 나타나지 않았고, Staphylococcus aureus는 초밥재료 중 밥에서만 101 CFU/g검출되었으나 역시 허용 범위내에 있었다. 그러나 포도상구균의 검출은 비위생적인 위생습관이 주요원인이므로 철저한 원인규명과 관리가 이루어져야 하겠다. 7. 기구, 용기 및 종사자의 손에 대한 미생물검사 결과를 보면 총균수는 8.0$\times$$10^2$~3.3$\times$$10^{6}$ CFU/g, 대장균군수는 1.0$\times$$10^1$~l.6$\times$$10^3$CFU/g으로 이는 즉각적인 조치를 강구할 만큼 매우 불량한 수준이었다. 8. 결정계통수를 활용하여 CCP(critical control point)fmf 결정한 결과, 참치초밥을 제외한 6개 초밥(광어, 도미, 숭어, 연어, 새우, 문어) 생산 시 CCP는 보관단계(holding step)이었고, 참치초밥의 CCP는 해동단계(thawing step)였다.

  • PDF

추천시스템관련 학술논문 분석 및 분류 (A Literature Review and Classification of Recommender Systems on Academic Journals)

  • 박득희;김혜경;최일영;김재경
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.139-152
    • /
    • 2011
  • 1990년대 중반에 협업 필터링의 출현으로 인하여 추천시스템에 관련된 연구가 늘어나게 되었다. 협업 필터링의 출현 이후 내용 기반 필터링, 협업 필터링과 내용 기반 필터링이 혼합된 하이브리드 필터링 등 새로운 기법들이 출현함으로써 2000년대에는 추천시스템의 연구가 눈에 띄게 증가하였다. 하지만 현재까지 추천시스템에 관련된 문헌들에 대한 리뷰와 분류가 체계적으로 되어있지 않다. 이와 같은 문제에 대한 해결방안으로써, 본 연구에서는 2001년부터 2010년도까지의 추천시스템에 관련된 문헌들 중 MIS Journal Ranking의 125개의 저널에서 추천시스템(Recommender system, Recommendation system), 협업 필터링(Collaborative Filtering), 내용 기반 필터링(Content based Filtering), 개인화 시스템(Personalized system) 등의 5가지 키워드로 제한하여 조사하였다. 총 37개의 저널에서 논문을 검색하였으며, 검색되어진 논문을 분석한 결과 추천시스템과 관련이 없는 논문을 제외한 총 187개의 논문을 선정하여 분석하였다. 이 연구에서는 그러나 컨퍼런스 논문, 석사, 박사학위 논문, 영어로 작성되지 않은 논문, 완성되지 않은 논문 등은 제외하였다. 본 연구에서는 187개의 논문을 분석하여 2001년부터 2010년까지의 각각의 년도 별 추천시스템의 연구에 대한 동향 분석, Journal별 추천시스템의 게재 분류, 추천시스템 어플리케이션의 사용 분야(책, 문서, 이미지, 영화, 음악, 쇼핑, TV 프로그램, 기타)별 분류 및 분석, 추천시스템에 사용된 데이터마이닝 기술(연관 규칙, 군집화, 의사 결정나무, 최근접 이웃 기법, 링크 분석 기법, 신경망, 회귀분석, 휴리스틱 기법)별 분류 및 분석을 수행하였다. 따라서 본 연구에서 제안한 각각의 분류 및 분석 결과들을 통하여 현재까지 추천시스템의 연구에 대한 연구 동향을 파악 할 수 있었으며, 분석결과를 통해 추천시스템에 관심이 있는 연구자와 전문가에게 미래의 추천시스템의 연구에 대한 가이드라인을 제시 할 수 있을 것이라고 기대한다.

구룡 해안마을 경관형성 기본계획 (Preliminary Landscape Improvement Plan for Gu-ryong Village)

  • 김연금;최정민
    • 한국조경학회지
    • /
    • 제40권6호
    • /
    • pp.23-34
    • /
    • 2012
  • 본 연구는 '2010년도 해안마을 경관형성 시범사업'의 일환으로 국토해양부가 주관하고 고흥군이 시행한 '구룡 해안마을 경관형성 기본계획'을 다룬다. 해안마을 경관은 정주, 경제, 문화 활동을 포함하고 있는 시스템이므로 해안마을 경관형성 기본계획은 관광자원화와 정주환경조성, 문화 활동 간의 균형이 필요하다고 보았다. 이에 '주민들의 생활이 이루어지고 있는 경관의 잠재성과 생활문화방식을 존중하면서 경관의 개선 및 증진'을 주요 목적으로 설정했다. 연구 진행에 있어서는 주민참여 프로그램을 운영해 주민들 스스로가 자신들의 경관 인식과 아이디어를 이야기할 수 있도록 했고 경관 추진위원회라는 소통 창구를 통해 경관형성 계획과 관련된 의사결정을 진행했다. 경관형성 계획은 먼저 시간에 따라 훼손된 자연경관을 복원하고 정비하였다. 구룡산은 배후산으로서 역할을 할 수 있도록 나대지를 복원하고 산마루 지형을 활용하여 전망공간을 조성했다. 해안과 관련해서는 돌을 사용한 계단식 스탠드와 노두길 조성으로 접근성을 높였다. 마을 길 체계는 해안도로, 마을 안길, 산자락길, 노두길 등을 대상으로 사라진 길은 복원하고, 끊긴 부분은 잇고 연결하면서 경관 주제에 맞도록 재구성하였다. 또한 주민들의 외부활동 편의성 증진과 방문객이 체계적인 경험을 할 수 있도록 기존의 거점 공간을 정비하거나 새롭게 조성했다. 이와 함께 가이드라인을 통해 사적영역에서의 경관 개선이 이루어지도록 했다. 가이드라인은 건축물의 지붕 벽체 담장과 가로에 놓이는 컨테이너 박스와 어구를 대상으로 했다. 본 연구는 주민참여 프로그램과 주민들과의 협의를 통해 주민들의 생활에 밀착한 해안마을 경관형성 기본계획을 수립했다는데 의의가 있다. 연구를 진행하면서 해안마을 경관 형성 사업의 한계점과 과제도 발견할 수 있었는데, 첫째는 주민들의 인식과 실천 사이의 간극이다. 주민들은 마을경관의 문제점을 알고 있었으나 실제 행동으로 옮기는데 있어서는 한계를 나타냈다. 둘째는 마을 경관형성사업에 대한 이해와 인식의 부족이다. 지방정부와 주민들은 마을 경관형성 사업을 신규 건축이나 도로 확장 같은 개발 사업으로 이해하는 경향이 있었다. 셋째는 경관이 그러하듯이, 이러한 계획은 단시간에 이루어지지 않으므로 일회적인 사업보다는 지속적인 관심과 지원이 필요하다는 것이다.

기록 생애주기 관점에서 본 기록관리 메타데이터 표준의 특징 분석 (Feature Analysis of Metadata Schemas for Records Management and Archives from the Viewpoint of Records Lifecycle)

  • 백재은;스기모토 시게오
    • 한국기록관리학회지
    • /
    • 제10권2호
    • /
    • pp.75-99
    • /
    • 2010
  • 인터넷과 컴퓨터의 발전으로 다양한 환경이 끊임없이 제공되고, 이로 인해 대량의 디지털 리소스가 축적, 발신되고 있다. 이는 다양한 문제를 가져왔고, 우리는 디지털 리소스를 미래에 이용가능하도록 지속하고 보존하기 위한 기본적인 문제에 직면하게 되었다. 디지털 리소스를 장기간 보존하기 위해서는 리소스에 적합한 보존 방침과 방법이 필요하고, 따라서 여러 스탠다드가 개발되고 사용되어지고 있다. 메타데이터는 디지털 리소스를 장기간 유지하기 위한 디지털 아카이브에서 가장 중요한 구성요소 중 하나 이다. 디지털 리소스의 아카이빙과 보존을 위해 사용되는 메타데이터는 많이 있다. 그러나 각각의 스탠다드 는 주된 어플리케이션에 따라 각각의 특징을 가지고 있다. 이는 각각의 스키마가 특정한 어플리케이션에 따라 적절하게 선택하고 맞춰지지 않으면 안 되는 것을 의미한다. 경우에 따라서는DCMI의 어플리케이션 프레임워크와 METS와 같이, 스키마는 거대한 프레임워크와 컨테이너 메타데이터로 결합되어 있다. 다양한 메타데이터가 있는 가운데, 본 논문에서는 아카이브를 행하기 위해 용이되어 있는 메타데이터 스키마로, 공문서 혹은 행정문서등의 아카이브를 위해 기술하고 있는 ISAD(G), 디지털 리소스를 위해 작성된 EAD, 보존한 디지털 리소스를 위해 메타데이터 프레임워크를 정의하고 있는 OAIS, 디지털 리소스의 보존을 위한 PREMIS, 그리고 리소스의 관리와 검색을 위해 작성된 AGLS Metadata를 사용하여, '보존해야 되는 리소스에 하나의 메타데이터만을 선택해서 이용한다면 어떠한 문제가 생기는 가'라고 하는 의문을 바탕으로 접근하였다. 본 논문은 기록 생애주기 모델을 기초로, 스탠다드의 특징분석을 통해서 알게 된 메타데이터 스탠다드의 특징을 보여주고 있다. 특징은 이들 스탠다드의 메타데이터 기술요소가 기록 생애주기에서의 작업(task)에 관련하는 것을 간단하게 단일의 프레임워크로 보여줬다. 메타데이터 기술요소의 상세한 분석을 통해서, 우리는 기술 생애주기의 단계와 기술요소 간의 관계의 관점에서부터 스탠다드의 특징을 확실하게 할 수 있었다. 메타데이터 스키마간의 매핑은 다른 스키마가 기록 생애주기에서 사용되기에 장기 보존과정에 있어 자주 요구된다. 따라서 이러한 스키마의 상호운용성을 향상시키기 위해서는 통일된 프레임워크를 구축하는 것이 중요하다. 이 연구에서는 디지털 아카이빙과 보존에 사용되는 다른 메타데이터 스키마의 상호운용성을 기초로 제시한다.

불균형 데이터 환경에서 변수가중치를 적용한 사례기반추론 기반의 고객반응 예측 (Response Modeling for the Marketing Promotion with Weighted Case Based Reasoning Under Imbalanced Data Distribution)

  • 김은미;홍태호
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.29-45
    • /
    • 2015
  • 고객반응 예측모형은 마케팅 프로모션을 제공할 목표고객을 효과적으로 선정할 수 있도록 하여 프로모션의 효과를 극대화 할 수 있도록 해준다. 오늘날과 같은 빅데이터 환경에서는 데이터 마이닝 기법을 적용하여 고객반응 예측모형을 구축하고 있으며 본 연구에서는 사례기반추론 기반의 고객반응 예측모형을 제시하였다. 일반적으로 사례기반추론 기반의 예측모형은 타 인공지능기법에 비해 성과가 낮다고 알려져 있으나 입력변수의 중요도에 따라 가중치를 상이하게 적용함으로써 예측성과를 향상시킬 수 있다. 본 연구에서는 프로모션에 대한 고객의 반응여부에 영향을 미치는 중요도에 따라 입력변수의 가중치를 산출하여 적용하였으며 동일한 가중치를 적용한 예측모형과의 성과를 비교하였다. 목욕세제 판매데이터를 사용하여 고객반응 예측모형을 개발하고 로짓모형의 계수를 적용하여 입력변수의 중요도에 따라 가중치를 산출하였다. 실증분석 결과 각 변수의 중요도에 기반하여 가중치를 적용한 예측모형이 동일한 가중치를 적용한 예측모형보다 높은 예측성과를 보여주었다. 또한 고객 반응예측 모형과 같이 실생활의 분류문제에서는 두 범주에 속하는 데이터의 수가 현격한 차이를 보이는 불균형 데이터가 대부분이다. 이러한 데이터의 불균형 문제는 기계학습 알고리즘의 성능을 저하시키는 요인으로 작용하며 본 연구에서 제안한 Weighted CBR이 불균형 환경에서도 안정적으로 적용할 수 있는지 검증하였다. 전체데이터에서 100개의 데이터를 무작위로 추출한 불균형 환경에서 100번 반복하여 예측성과를 비교해 본 결과 본 연구에서 제안한 Weighted CBR은 불균형 환경에서도 일관된 우수한 성과를 보여주었다.