• 제목/요약/키워드: neural network learning

검색결과 4,098건 처리시간 0.025초

R&D 기술 선정을 위한 시계열 특허 분석 기반 지능형 의사결정지원시스템 (An Intelligent Decision Support System for Selecting Promising Technologies for R&D based on Time-series Patent Analysis)

  • 이충석;이석주;최병구
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.79-96
    • /
    • 2012
  • 기술의 발전과 융합이 빠르게 이루어지고 있는 오늘날 유망기술을 어떻게 파악하여, 다양한 후보군들 중에서 최적의 R&D 대상을 어떻게 선정할 것인가에 대한 문제는 주요한 경영의사결정문제 중 하나로 부상하고 있다. 본 연구에서는 이러한 R&D 기술 선정 의사결정을 지원할 수 있는 새로운 지능형 의사결정지원시스템을 제안한다. 본 연구의 의사결정지원시스템은 크게 3가지 모듈로 구성되는데, 우선 첫 번째 모듈인 '기술가치 평가' 모듈에서는 기업이 관심을 갖고 있는 분야의 특허들을 분석하여 유망기술 파악에 요구되는 다양한 차원의 기술가치 평가지수 값들을 산출하는 작업이 이루어진다. 이를 통해, 현재 시점에서의 각 기술의 가치가 다양한 차원에서 평가가 이루어지고 나면, 두 번째 모듈인 '미래기술가치 예측' 모듈에서 이들의 시간 흐름에 따른 변화를 학습한 인공지능 모형을 토대로 각 후보기술들이 미래 시점에 어떤 가치지수값을 갖게 될 것인지 예측값을 산출하게 된다. 마지막 세 번째 모듈인 '최적 R&D 대상기술 선정 지원' 모듈에서는 앞서 두 번째 모듈에서 산출된 각 차원별 예상 가치지수값들을 적절히 가중합하여 기술의 종합적인 미래가치 예측값을 산출하여 의사결정자에게 제공하는 기능을 수행한다. 이를 통해 의사결정자가 자사에 적합한 최적의 R&D 대상기술을 선정할 수 있도록 하였다. 본 연구에서는 제안된 시스템의 적용 가능성을 검증하기 위해, 10년치 특허데이터에 인공신경망 기법을 적용하여 실제 기술가치 예측모형을 구축해 보고, 그 효과를 살펴본다.

불균형 데이터 집합의 분류를 위한 하이브리드 SVM 모델 (A Hybrid SVM Classifier for Imbalanced Data Sets)

  • 이재식;권종구
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.125-140
    • /
    • 2013
  • 어떤 클래스에 속한 레코드의 개수가 다른 클래스들에 속한 레코드의 개수보다 매우 많은 경우에, 이 데이터 집합을 '불균형 데이터 집합'이라고 한다. 데이터 분류에 사용되는 많은 기법들은 이러한 불균형 데이터에 대해서 저조한 성능을 보인다. 어떤 기법의 성능을 평가할 때에 적중률뿐만 아니라, 민감도와 특이도도 함께 측정하여야 한다. 고객의 이탈을 예측하는 문제에서 '유지' 레코드가 다수 클래스를 차지하고, '이탈' 레코드는 소수 클래스를 차지한다. 민감도는 실제로 '유지'인 레코드를 '유지'로 예측하는 비율이고, 특이도는 실제로 '이탈'인 레코드를 '이탈'로 예측하는 비율이다. 많은 데이터 마이닝 기법들이 불균형 데이터에 대해서 저조한 성능을 보이는 것은 바로 소수 클래스의 적중률인 특이도가 낮기 때문이다. 불균형 데이터 집합에 대처하는 과거 연구 중에는 소수 클래스를 Oversampling하여 균형 데이터 집합을 생성한 후에 데이터 마이닝 기법을 적용한 연구들이 있다. 이렇게 균형 데이터 집합을 생성하여 예측을 수행하면, 특이도는 다소 향상시킬 수 있으나 그 대신 민감도가 하락하게 된다. 본 연구에서는 민감도는 유지하면서 특이도를 향상시키는 모델을 개발하였다. 개발된 모델은 Support Vector Machine (SVM), 인공신경망(ANN) 그리고 의사결정나무 기법 등으로 구성된 하이브리드 모델로서, Hybrid SVM Model이라고 명명하였다. 구축과정 및 예측과정은 다음과 같다. 원래의 불균형 데이터 집합으로 SVM_I Model과 ANN_I Model을 구축한다. 불균형 데이터 집합으로부터 Oversampling을 하여 균형 데이터 집합을 생성하고, 이것으로 SVM_B Model을 구축한다. SVM_I Model은 민감도에서 우수하고, SVM_B Model은 특이도에서 우수하다. 입력 레코드에 대해서 SVM_I와 SVM_B가 동일한 예측치를 도출하면 그것을 최종 해로 결정한다. SVM_I와 SVM_B가 상이한 예측치를 도출한 레코드에 대해서는 ANN과 의사결정나무의 도움으로 판별 과정을 거쳐서 최종 해를 결정한다. 상이한 예측치를 도출한 레코드에 대해서는, ANN_I의 출력값을 입력속성으로, 실제 이탈 여부를 목표 속성으로 설정하여 의사결정나무 모델을 구축한다. 그 결과 다음과 같은 2개의 판별규칙을 얻었다. 'IF ANN_I output value < 0.285, THEN Final Solution = Retention' 그리고 'IF ANN_I output value ${\geq}0.285$, THEN Final Solution = Churn'이다. 제시되어 있는 규칙의 Threshold 값인 0.285는 본 연구에서 사용한 데이터에 최적화되어 도출된 값이다. 본 연구에서 제시하는 것은 Hybrid SVM Model의 구조이지 특정한 Threshold 값이 아니기 때문에 이 Threshold 값은 대상 데이터에 따라서 얼마든지 변할 수 있다. Hybrid SVM Model의 성능을 UCI Machine Learning Repository에서 제공하는 Churn 데이터 집합을 사용하여 평가하였다. Hybrid SVM Model의 적중률은 91.08%로서 SVM_I Model이나 SVM_B Model의 적중률보다 높았다. Hybrid SVM Model의 민감도는 95.02%이었고, 특이도는 69.24%이었다. SVM_I Model의 민감도는 94.65%이었고, SVM_B Model의 특이도는 67.00%이었다. 그러므로 본 연구에서 개발한 Hybrid SVM Model이 SVM_I Model의 민감도 수준은 유지하면서 SVM_B Model의 특이도보다는 향상된 성능을 보였다.

데이터 마이닝의 범죄수사 적용 가능성 (Usefulness of Data Mining in Criminal Investigation)

  • 김준우;손중권;이상한
    • 대한수사과학회지
    • /
    • 제1권2호
    • /
    • pp.5-19
    • /
    • 2006
  • 데이터 마이닝은 컴퓨터와 정보처리의 발전으로 각기 다른 차원에서 다량으로 수집되는 데이터 속에서 숨은 의미나 패턴을 발견하는 유용한 기법이다. 의사결정나무, 신경망 모형, 규칙 귀납, K-평균 군집화, 시각화 등의 데이터 마이닝 개별 기법들은 산재해 있는 데이터에서 연관성을 분석하고, 이를 분류함으로써 일반화된 개념을 정의하고, 새로운 지식을 추론함으로써 실제 생활에 적용 가능한 예측을 가능하게 한다. 따라서 현재 데이터 마이닝은 기업의 마케팅 분야, 금융기관의 고객 분석, 통신 회사의 고객 이탈 방지 등에서 유용하게 활용되고 있다. 우리가 접해야 하는 정보의 양이 늘어나는 것은 범죄 수사에 있어서도 마찬가지 현상이다. 범죄와 범죄자에 대한 데이터는 축적되어 가지만 정작 개별 사안에 있어서는 중요한 데이터가 접근조차 되지 않고 있으며, 많은 데이터 속에서 이것이 내포하고 있는 숨은 의미를 지나치게 되는 경우도 많다. 본 연구에서는 선행 연구와 사례 적용을 통해 데이터 마이닝의 범죄 수사 적용 가능성과 한계점을 살펴보고자 하였다. 미제 사건으로 남는 경우가 많은 절도나 사기 같은 습관적 상습 범죄의 경우 데이터 마이닝의 분류, 군집화 기능을 활용 한다면 향후 여죄 추적에 효율적으로 활용될 수 있음을 파악할 수 있었고, 특히 다양한 문제에 적용 가능하고, 잡음에 대한 견고성이 있음에도 예측의 정확성을 지니고 있는 신경망 모형의 경우 패턴 인식을 통하여 범죄자 프로파일링이나 화상 자료 대비 시스템 구축에 충분히 활용될 것으로 생각한다. 특히 보험 사기 사례 적용에서 살펴본 바와 같이 마약, 테러와 같은 조직적 범죄수사나 자금세탁과 같은 금융 추적 수사의 경우 해당 자료의 방대함과 모호성으로 인해 수사를 하는 데 많은 어려움이 있지만 이러한 데이터 마이닝 가시화 기법을 적절히 활용한다면 전체적인 윤곽을 파악하는 데 매우 유용하며, 효율적인 수사가 가능함을 확인할 수 있었다. 그러나 데이터 마이닝은 예측 모델이므로 오류를 내재하고 있다는 점에서 수사 기관의 데이터 마이닝 접근은 조심스러워야 하며, 정보 독점화 현상과 개인 사생활 보호라는 측면에서 각 수사기관은 해당 법률에 정한 범위 내에서 해당 사건별로 데이터를 수집하고 이를 통합, 재구성하여 활용하는 측면으로 적용되어야 할 것이다. 또한 각 수사기관별로는 자신의 보유하고 있는 데이터에 대해 다차원 처리가 가능하도록 데이터베이스 시스템을 구축하여 데이터 마이닝이 적용 가능한 환경을 구축하도록 하여야 할 것이다. 아직은 논의의 초기 단계이므로 효과가 크게 부각되지는 않았지만 지금까지 제시한 문제에 대한 연구가 계속 이루어진다면 인권중심, 증거중심의 수사 개념을 바탕으로 적법절차에 의한 수사 활동을 요구받는 시대에 새로운 대안으로 자리 잡을 것이며, 수사의 과학화에 기여할 것으로 전망한다.

  • PDF

CNN 기반 리뷰 유용성 점수 예측을 통한 개인화 추천 서비스 성능 향상에 관한 연구 (A Study on Enhancing Personalization Recommendation Service Performance with CNN-based Review Helpfulness Score Prediction)

  • 이청용;이병현;이흠철;김재경
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.29-56
    • /
    • 2021
  • 전자상거래 시장이 빠르게 성장하면서 다양한 유형의 제품이 출시되고 있으며, 이로 인해 사용자들은 구매 의사결정과정에 많은 시간이 소요되는 정보 과부하 문제에 직면하고 있다. 따라서 사용자에게 맞춤형 제품 및 서비스를 제공해줄 수 있는 개인화 추천 서비스의 중요성이 대두되고 있다. 대표적으로 Netflix, Amazon, Google 등 세계적 기업은 개인화 추천 서비스를 도입하여 사용자의 구매 의사결정을 지원하고 있다. 이에 따라 사용자의 정보탐색 비용이 감소하는 효과가 나타났고, 기업의 매출 상승에도 긍정적인 영향을 끼치고 있다. 기존 개인화 추천 서비스 관련 연구에서 주로 사용된 협업필터링(Collaborative Filtering, CF) 기법은 정량화된 정보를 활용하여 사용자의 선호도를 예측하였다. 그러나 정량화된 정보만을 활용하면 사용자의 구매 의도는 고려하지 못하므로 추천 성능이 저하될 수 있다는 문제점이 제기되고 있다. 이와 같은 기존 연구의 문제점을 개선하기 위해 최근에는 사용자가 작성한 리뷰를 활용한 개인화 추천 서비스 연구가 활발히 진행되고 있다. 그러나 리뷰에는 광고성 내용, 거짓 후기, 의미를 전혀 파악할 수 없거나 제품과 관련 없는 내용 등 구매의사결정을 저해하는 요소들이 포함되어 있다. 이러한 요소들이 포함된 리뷰를 활용하여 추천 서비스를 제공하게 되면, 추천 성능이 저하되는 문제가 발생할 수 있다. 따라서 본 연구에서는 이러한 문제점을 개선하기 위해 Convolutional Neural Network(CNN) 기반 리뷰 유용성 점수 예측을 통한 새로운 추천 방법론을 제안하였다. 본 연구에서 제안하는 유용한 리뷰를 포함하는 방법론과 기존 모든 선호도 평점을 고려하는 추천 방법론을 비교한 결과, 본 연구에서 제안한 방법론이 더 우수한 예측 성능을 나타내고 있음을 확인할 수 있었다. 또한 본 연구의 결과는 리뷰 유용성에 대한 정보를 개인화 추천 서비스에 반영하면 전통적인 CF의 성능을 향상할 수 있음을 시사한다.

미세먼지 예측 성능 개선을 위한 시공간 트랜스포머 모델의 적용 (Application of spatiotemporal transformer model to improve prediction performance of particulate matter concentration)

  • 김영광;김복주;안성만
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.329-352
    • /
    • 2022
  • 미세먼지는 폐나 혈관에 침투해 각종 심장 질환이나 폐암 등의 호흡기 질환을 일으키는 것으로 보고되고 있다. 지하철은 일 평균 천만 명이 이용하는 교통수단으로, 깨끗하고 쾌적한 환경조성이 중요하나 지하터널을 통과하는 지하철의 운행 특성과 터널에 갇힌 미세먼지가 열차 풍으로 인해 지하역사로 이동하는 등의 문제로 지하역사의 미세먼지 오염도는 높은 것으로 나타나고 있다. 환경부와 서울시는 지하역사 공기질 개선대책을 수립하여 다양한 미세먼지 저감 노력을 기울이고 있다. 스마트 공기질 관리 시스템은 공기질 데이터 수집 및 미세먼지 농도를 예측하여 공기질을 관리하는 시스템으로 미세먼지 농도 예측 모델이 중요한 구성 요소이다. 그동안 시계열 데이터 예측에 관한 다양한 연구가 진행되어왔지만, 지하철 역사의 미세먼지 농도 예측과 관련해서는 통계나 순환신경망 기반의 딥러닝 모델 연구에 국한되어 있다. 이에 본 연구에서는 시공간 트랜스포머를 포함한 4개의 트랜스포머 기반 모델을 제안한다. 서울시 지하철 역사의 대합실을 대상으로 한 시간 후의 미세먼지 농도 예측실험을 수행한 결과, 트랜스포머 기반 모델들의 성능이 기존의 ARIMA, LSTM, Seq2Seq 모델들에 비해 우수한 성능을 나타냄을 확인하였다. 트랜스포머 기반 모델 중에서는 시공간 트랜스포머의 성능이 가장 우수하였다. 데이터 기반의 예측을 통하여 운영되는 스마트 공기질 관리 시스템은 미세먼지 예측의 정확도가 향상될수록 더욱더 효과적이고 에너지 효율적으로 운영될 수 있다. 본 연구 결과는 스마트 공기질 관리 시스템의 효율적 운영에 기여할 수 있을 것으로 기대된다.

S-MTS를 이용한 강판의 표면 결함 진단 (Steel Plate Faults Diagnosis with S-MTS)

  • 김준영;차재민;신중욱;염충섭
    • 지능정보연구
    • /
    • 제23권1호
    • /
    • pp.47-67
    • /
    • 2017
  • 강판 표면 결함은 강판의 품질과 가격을 결정하는 중요한 요인 중 하나로, 많은 철강 업체는 그동안 검사자의 육안으로 강판 표면 결함을 확인해왔다. 그러나 시각에 의존한 검사는 통상 30% 이상의 판단 오류가 발생함에 따라 검사 신뢰도가 낮은 문제점을 갖고 있다. 따라서 본 연구는 Simultaneous MTS (S-MTS) 알고리즘을 적용하여 보다 지능적이고 높은 정확도를 갖는 새로운 강판 표면 결함 진단 시스템을 제안하였다. S-MTS 알고리즘은 단일 클래스 분류에는 효과적이지만 다중 클래스 분류에서 정확도가 떨어지는 기존 마할라노비스 다구찌시스템 알고리즘(Mahalanobis Taguchi System; MTS)의 문제점을 해결한 새로운 알고리즘이다. 강판 표면 결함 진단은 대표적인 다중 클래스 분류 문제에 해당하므로, 강판 표면 결함 진단 시스템 구축을 위해 본 연구에서는 S-MTS 알고리즘을 채택하였다. 강판 표면 결함 진단 시스템 개발은 S-MTS 알고리즘에 따라 다음과 같이 진행하였다. 첫째, 각 강판 표면 결함 별로 개별적인 참조 그룹 마할라노비스 공간(Mahalanobis Space; MS)을 구축하였다. 둘째, 구축된 참조 그룹 MS를 기반으로 비교 그룹 마할라노비스 거리(Mahalanobis Distance; MD)를 계산한 후 최소 MD를 갖는 강판 표면 결함을 비교 그룹의 강판 표면 결함으로 판단하였다. 셋째, 강판 표면 결함을 분류하는 데 있어 결함 간의 차이점을 명확하게 해주는 예측 능력이 높은 변수를 파악하였다. 넷째, 예측 능력이 높은 변수만을 이용해 강판 표면 결함 분류를 재수행함으로써 최종적인 강판 표면 결함 진단 시스템을 구축한다. 이와 같은 과정을 통해 구축한 S-MTS 기반 강판 표면 결함 진단 시스템의 정확도는 90.79%로, 이는 기존 검사 방법에 비해 매우 높은 정확도를 갖는 유용한 방법임을 보여준다. 추후 연구에서는 본 연구를 통해 개발된 시스템을 현장 적용하여, 실제 효과성을 검증할 필요가 있다.

RFM 기반 SOM을 이용한 매장관리 전략 도출 (Strategy for Store Management Using SOM Based on RFM)

  • 정윤정;최일영;김재경;최주철
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.93-112
    • /
    • 2015
  • 소비자의 소비성향이 필요 품목을 중심으로 근거리에서 구매하는 근린형으로 변화함에 기존의 소매점은 식료품, 생활용품을 위주로 제공하는 슈퍼마켓, 하이퍼마켓 또는 편의점으로 진화하고 있다. 따라서 소매점이 한정된 공간에서 효율적으로 공간을 활용하고 매출을 증대하기 위해서는 소비자의 구매욕을 충족시킬 수 있는 상품배치와 적정한 재고수준을 유지하는 것이 매우 중요하다. 본 연구에서는 소매점의 판매 상품에 대하여 RFM 기반 SOM 군집화를 하여 효율적으로 매장을 관리할 수 있는 상품 배치전략 및 재고전략을 제안하였다. 실제 M마트의 판매데이터를 이용하여 RFM모델을 상품에 적용한 후, 기존 문헌 연구뿐만 아니라 해석 가능성, 응용 가능성 등을 고려하여 3X3 총 9개의 군집으로 분류하여 분석한 결과, 주요 군집으로 R값, F값, M값이 모두 높은 군집, R값, F값, M값 모두 낮은 군집, R값만 높은 군집, F값만 높은 군집이 도출되었다. 본 논문에서는 다른 군집과 비교시 R값, F값, M값이 차이를 보이는 주요 4개의 군집의 상품 배치 및 재고 전략을 제시하였다. R값, F값, M값이 모두 높은 군집의 상품은 소비자 동선을 늘림으로써 상품 노출을 확대시킬 수 있는 장소에 배치하여야 할 뿐만 아니라 높은 수준의 재고를 보유할 필요가 있다. 반면에 R값, F값, M값이 모두 낮은 군집의 상품은 가시성이 낮은 곳에 배치하고 최소한의 안전재고만 보유할 필요가 있다. 또한 R값이 높은 군집은 신상품으로 매장 입구에 배치하여 상품의 판매를 유도할 필요가 있다. 그리고 F값만 높은 군집의 경우, R값과 M값이 평균 값 보다 작은 상품들의 군집이므로 최근에는 판매가 저조하며 빈도 수에 비해 총 판매액이 낮다는 것을 유추할 수 있다. 따라서 현재보다 과거에 많이 판매된 저가의 상품군집으로 재고 수준을 점차 감소시킬 필요가 있다. 본 연구에서 제시한 방법은 POS 시스템의 보유한 소매점에서 상품배치 및 재고관리 방법으로 활용되어 매장의 수익성 증대에 기여할 수 있을 것으로 기대된다.

텍스트 마이닝을 이용한 감정 유발 요인 'Emotion Trigger'에 관한 연구 (A Study of 'Emotion Trigger' by Text Mining Techniques)

  • 안주영;배정환;한남기;송민
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.69-92
    • /
    • 2015
  • 최근 소셜 미디어의 사용이 폭발적으로 증가함에 따라 이용자가 직접 생성하는 방대한 데이터를 분석하기 위한 다양한 텍스트 마이닝(text mining) 기법들에 대한 연구가 활발히 이루어지고 있다. 이에 따라 텍스트 분석을 위한 알고리듬(algorithm)의 정확도와 수준 역시 높아지고 있으나, 특히 감성 분석(sentimental analysis)의 영역에서 언어의 문법적 요소만을 적용하는데 그쳐 화용론적 의미론적 요소를 고려하지 못한다는 한계를 지닌다. 본 연구는 이러한 한계를 보완하기 위해 기존의 알고리듬 보다 의미 자질을 폭 넓게 고려할 수 있는 Word2Vec 기법을 적용하였다. 또한 한국어 품사 중 형용사를 감정을 표현하는 '감정어휘'로 분류하고, Word2Vec 모델을 통해 추출된 감정어휘의 연관어 중 명사를 해당 감정을 유발하는 요인이라고 정의하여 이 전체 과정을 'Emotion Trigger'라 명명하였다. 본 연구는 사례 연구(case study)로 사회적 이슈가 된 세 직업군(교수, 검사, 의사)의 특정 사건들을 연구 대상으로 선정하고, 이 사건들에 대한 대중들의 인식에 대해 분석하고자 한다. 특정 사건들에 대한 일반 여론과 직접적으로 표출된 개인 의견 모두를 고려하기 위하여 뉴스(news), 블로그(blog), 트위터(twitter)를 데이터 수집 대상으로 선정하였고, 수집된 데이터는 유의미한 연구 결과를 보여줄 수 있을 정도로 그 규모가 크며, 추후 다양한 연구가 가능한 시계열(time series) 데이터이다. 본 연구의 의의는 키워드(keyword)간의 관계를 밝힘에 있어, 기존 감성 분석의 한계를 극복하기 위해 Word2Vec 기법을 적용하여 의미론적 요소를 결합했다는 점이다. 그 과정에서 감정을 유발하는 Emotion Trigger를 찾아낼 수 있었으며, 이는 사회적 이슈에 대한 일반 대중의 반응을 파악하고, 그 원인을 찾아 사회적 문제를 해결하는데 도움이 될 수 있을 것이다.