• 제목/요약/키워드: decision tree

검색결과 1,615건 처리시간 0.037초

이질성 학습을 통한 문서 분류의 정확성 향상 기법 (Improving the Accuracy of Document Classification by Learning Heterogeneity)

  • 윌리엄;현윤진;김남규
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.21-44
    • /
    • 2018
  • 최근 인터넷 기술의 발전과 함께 스마트 기기가 대중화됨에 따라 방대한 양의 텍스트 데이터가 쏟아져 나오고 있으며, 이러한 텍스트 데이터는 뉴스, 블로그, 소셜미디어 등 다양한 미디어 매체를 통해 생산 및 유통되고 있다. 이처럼 손쉽게 방대한 양의 정보를 획득할 수 있게 됨에 따라 보다 효율적으로 문서를 관리하기 위한 문서 분류의 필요성이 급증하였다. 문서 분류는 텍스트 문서를 둘 이상의 카테고리 혹은 클래스로 정의하여 분류하는 것을 의미하며, K-근접 이웃(K-Nearest Neighbor), 나이브 베이지안 알고리즘(Naïve Bayes Algorithm), SVM(Support Vector Machine), 의사결정나무(Decision Tree), 인공신경망(Artificial Neural Network) 등 다양한 기술들이 문서 분류에 활용되고 있다. 특히, 문서 분류는 문맥에 사용된 단어 및 문서 분류를 위해 추출된 형질에 따라 분류 모델의 성능이 달라질 뿐만 아니라, 문서 분류기 구축에 사용된 학습데이터의 질에 따라 문서 분류의 성능이 크게 좌우된다. 하지만 현실세계에서 사용되는 대부분의 데이터는 많은 노이즈(Noise)를 포함하고 있으며, 이러한 데이터의 학습을 통해 생성된 분류 모형은 노이즈의 정도에 따라 정확도 측면의 성능이 영향을 받게 된다. 이에 본 연구에서는 노이즈를 인위적으로 삽입하여 문서 분류기의 견고성을 강화하고 이를 통해 분류의 정확도를 향상시킬 수 있는 방안을 제안하고자 한다. 즉, 분류의 대상이 되는 원 문서와 전혀 다른 특징을 갖는 이질적인 데이터소스로부터 추출한 형질을 원 문서에 일종의 노이즈의 형태로 삽입하여 이질성 학습을 수행하고, 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식의 규칙 선별 기반의 앙상블 준지도학습을 제안함으로써 문서 분류의 성능을 향상시키고자 한다.

호텔 산업의 서비스 품질 향상을 위한 토픽 마이닝 기반 분석 방법 (An Analytical Approach Using Topic Mining for Improving the Service Quality of Hotels)

  • 문현실;성다윗;김재경
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.21-41
    • /
    • 2019
  • 정보 기술의 발전으로 온라인에서 활용 가능한 데이터의 양이 급속히 증대되고 있다. 이러한 빅데이터 시대에 많은 연구들이 통찰력을 발견하고 데이터의 효과를 입증하기 위해 노력하고 있다. 특히 관광 산업의 경우 정보에 민감한 사업으로 소셜 미디어의 영향력이 높고 소셜 미디어의 상품 후기에 소비자들이 영향을 많이 받아 많은 기업과 연구자들이 소셜 미디어를 분석하여 새로운 서비스 및 통찰력을 얻고자 시도하였다. 하지만 소셜 미디어의 후기는 텍스트로 이루어진 대표적인 비정형 데이터로 적절한 처리를 하지 않으면 분석에 활용할 수 없다. 또한 후기 데이터의 양이 방대함에 따라 사람이 직접 분석하기도 어려운 실정이다. 따라서, 본 연구에서는 이러한 소셜미디어 상의 온라인 후기로부터 직접 호텔의 서비스 품질 향상을 위한 통찰력을 추출할 수 있는 분석 방법을 제시하고자 한다. 이를 위해 본 연구에서는 먼저 후기 데이터에 포함되어 있는 주제어를 추출하는 토픽 마이닝 기법을 적용하였다. 토픽 마이닝은 대용량의 문서 집합으로부터 문서를 대표하는 단어 집합을 추출하는 기법을 의미하며 본 연구에서는 다양한 연구에서 활용되고 있는 LDA모형을 사용하여 토픽 마이닝을 수행하였다. 하지만, 토픽 마이닝 자체만으로는 주제어와 평점 사이의 관계를 도출할 수 없어 서비스 품질 향상을 위한 통찰력을 발견하기 어렵다. 그에 따라 본 연구에서는 토픽 마이닝의 결과값을 기반으로 의사결정나무 모형을 사용하여 주제어와 평점 사이의 관계를 도출하였다. 이러한 방법론의 유용성을 평가하기 위해 홍콩에 있는 4개 호텔의 온라인 후기를 수집하고 제안한 방법론의 분석 결과를 해석하는 실험을 진행하였다. 실험 결과 긍정 후기를 통해 각 호텔이 유지해야할 서비스 영역을 발견할 수 있었으며 부정 후기를 통해 개선해야할 서비스 영역을 도출할 수 있었다. 따라서, 본 연구에서 제안한 방법론을 사용하여 방대한 양의 후기 데이터로부터 서비스 개선 및 유지 영역을 발견할 수 있으리라 기대된다.

고객유지를 위한 접촉스케줄링시스템의 설계 (Design of Contact Scheduling System(CSS) for Customer Retention)

  • 이재식;조유정
    • 지능정보연구
    • /
    • 제11권3호
    • /
    • pp.83-101
    • /
    • 2005
  • 고객유지는 갈수록 경쟁이 심화되고 있는 생명보험산업에서 핵심이슈 중에 하나이다. 생명보험사들은 고객을 유지하기 위해서 많은 활동들을 한다. 그 가운데 대표적인 것이 바로 지속적으로 고객과 접촉하는 것이다. 본 연구는 접촉스케줄링시스템(CSS: Contact Scheduling System)의 설계에 대한 것으로 해촉된 모집설계사의 고객을 관리해야만 하는 지원설계사의 고객관리를 돕는 것을 목표로 한다 지원설계사는 모집설계사의 고객관리 경험과 지식을 공유할 수 없다. 이런 지원설계사의 고객접촉을 지원하기 위해서, 본 연구에서는 CSS를 설계한다. CSS설계는 두 단계로 이루어지고, CART(Classification And Regression Tree)와 SPM(Sequential Pattern Mining)의 데이터 마이닝 기법을 활용한다. 단계 1에서는 CART 기법을 이용하여 고객을 8개의 고객군으로 분류한다. 단계 2에서는 각 분류고객군에 적합한 접촉내용, 접촉간격 그리고 접촉방법 등의 접촉스케줄링 정보를 생성한다. 접촉내용은 스케줄 접촉내용, 이벤트접촉내용 그리고 비즈니스규칙에 의한 접촉내용의 결합으로 결정되는데 스케줄접촉내용은 SPM 모델의 결과를 통해 생성된다. 또한 본 연구에서 설계한 CSS가 실제상황에서 어떻게 작동하는지를 제시함으로써 CSS가 효율적이고 효과적인 고객접촉에 실용적임을 보인다.

  • PDF

Germination and Growth Performance of A Native Threatened Tree Species Quercus gomeziana A. Camus in Nursery Stage: Case of Bangladesh

  • Nandi, Rajasree;Dey, Soma;Hossain, Mohammed Kamal
    • Journal of Forest and Environmental Science
    • /
    • 제36권1호
    • /
    • pp.1-6
    • /
    • 2020
  • This study was conducted to investigate the effect of different pre-sowing treatments of seeds on germination and growth performance of native threatened tree species Quercus gomeziana A. Camus at the nursery of Chittagong University, Bangladesh. Furthermore, seedling growth attributes under different doses of fertilizer (urea) was also experimented to find the best dose of fertilizer on this tree species at the nursery stage for better field level growth. Seeds were placed to six pre-sowing treatments e.g. control (PT0), treated with sand paper rubbing (PT1), nicking (PT2), seeds immersed in cold water for 48 hours (PT3), seeds immersed in cold water for 7 days (PT4) and seeds sown at propagator house with increased temperature (PT5). It was found from the study that germination was started earlier (at 31 days) in treatments sand paper rubbing (PT1) and nicking (PT2). The highest germination percentage (93%) was in PT1 followed by 86% in seeds immersed in cold water for 7 days (PT4) and 80% in PT0 (control). Germination percentage was observed least (63%) in PT2 even though germination started earlier. For fertilizer dose experiment to seedlings at the nursery level, treatment FT1: 100 kg/ha (0.33679 g urea/pot/seedling) comparing with other treatments FT0: 0 kg/ha (Control), FT2: 200 kg/ha (0.67358 g urea/pot/seedling), FT3: 300 kg/ha (1.01037 g urea/pot/seedling) showed better performance in case of collar diameter (6.74 mm), number of leaves, shoot dry weight (19.74), total dry weight (28.16 g), total fresh weight (67.96 g), volume index (3904.82), sturdiness (127.69). Finally, it can be concluded that Quercus gomeziana seedlings revealed better performances under the treatment FT1 in growth and biomass production. Findings of this study will be helpful to take decision on organic fertilizer dose application to seedlings of Q. gomeziana for large scale plantation and conservation of this species.

의사결정나무 분류와 인공신경망을 이용한 토양수분 산정모형 개발 (Development of a Soil Moisture Estimation Model Using Artificial Neural Networks and Classification and Regression Tree(CART))

  • 김광섭;박정아
    • 대한토목학회논문집
    • /
    • 제31권2B호
    • /
    • pp.155-163
    • /
    • 2011
  • 본 연구에서는 의사결정나무(CART)기법, 인공신경망모형, 인공위성 원격탐사자료와 지형자료 및 지상 기상관측망자료를 이용하여 토양수분을 산정하는 모형을 개발하였다. 본 모형의 검증을 위하여 사용된 토양수분 관측자료는 용담댐 유역에서 관측된 5개 지점의 토양수분자료를 사용하였다. 가용자료에 대해 CART기법을 적용하여 자료를 분류한 다음 분류된 각 자료집단에 대하여 인공신경망(Artificial Neural Networks)모형을 적용하여 토양수분 분포를 예측하였다. 모형의 학습에 사용된 주천, 부귀, 상전, 안천 지점의 토양수분 산정치는 관측치와 약 0.92-0.96의 상관계수, 약 1.00-1.88%의 평균제곱근오차와 약 0.75-1.45%의 평균절대오차를 보여주었다. 토양수분 추정모형을 검증하기 위해 천천2의 지점에 적용한 결과 약 0.91의 상관계수, 약 3.19%의 평균제곱근오차, 약 2.72%의 평균절대오차를 보여 CART기법과 인공신경망모형을 연계한 토양수분 산정모형이 토양수분 분포제시 활용에 적절한 것으로 판단된다.

격납용기 성능해석을 위한 영향도에 관한 연구 (A Study on the Influence Diagrams for the Application to Containment Performance Analysis)

  • Park, Joon-Won;Jae, Moon-Sung;Chun, Moon-Hyun
    • Nuclear Engineering and Technology
    • /
    • 제28권2호
    • /
    • pp.129-136
    • /
    • 1996
  • 영향도를 이용하여 영광 3, 4호기의 격납용기 성능해석을 수행하였다. 기존의 사상수목기법을 응용한 격납용기 성능해석은 사건들 사이의 의존 관계를 명확히 나타내기 어렵고, 사고진행사상수목(APET) 에서 알 수 있듯이, 격납용기와 같은 복잡한 계통에 적용할 경우 그 의존 관계를 그림으로조차 나타낼 수가 없으며, 또한, 의사결정문제를 다루는 데에도 많은 한계점을 지니고 있다. 이러한 문제점들을 해결하기 위하여 새로이 개발된 방법론인 영향도를 영광 3, 4호기 격납용기 성능해석과 사고관리방안을 평가하는 데에 적용하여 보았다. 본 연구에서 얻은 계산 결과와 기존의 사상수목 기법을 이용하여 계산한 결과와 비교한 결과, 거의 일치하는 계산 결과를 얻을 수 있으면서도 전체 격납용기 계통을 한 눈에 알기 쉽게 그림으로 나타낼 수 있었다. 또한, 향도가 의사결정문제를 일반적으로 다룰 수 있음을 보이기 위하여 본 방법론을 사고관리방안을 평가하는 데에 이용하여, 원자로 냉각계통 감압과 원자로공동 범람 방안, 두 가지 사고관리방안을 평가하여 보았다. 모두 초기 격납용기 파손에는 나쁜 영향을 주는 것으로 나 타났으나, 후기 격납용기 파손이나 중기발생기 세관파손에는 원자로공동범람과 일차계통 감압이 각각 어느 정도 긍정적인 영향을 미치는 것으로 나타났다. 본 연구를 통하여, 영향도를 이용한 격납응기 성능 해석은 사상수목기법을 이용한 분석에 비해, 진행되는 사건들 사이의 의존관계를 보다 명확히 나타낼 수 있고, 또한 영향도는 운전자의 의사결정을 잘 나타낼 수 있으므로 사고관리기법을 평가하는 데에도 쉽게 적용할 수 있음을 알 수 있다. 결론적으로, 본 연구에서는 영향도가 사상수목기법이 지니고 있는 여러 한계점들을 쉽게 극복하며 격납용기 성능해석에 적용할 수 있음을 보였다.

  • PDF

잣나무 임분의 개체목 거리독립생장모델을 이용한 간벌효과 분석모델 개발 (Development of Thinning Effect Analysis Model (TEAM) Using Individual-Tree Distance-Independent Growth Model of Pinus koraiensis Stands)

  • 권순덕;김선영;정주상;김형호
    • 한국산림과학회지
    • /
    • 제96권6호
    • /
    • pp.742-749
    • /
    • 2007
  • 본 연구의 목적은 거리독립생장모델을 이용한 잣나무 임분의 간벌효과 분석모델을 개발하는데 있다. 이 모델은 간벌시업계획의 주요 인자로 간벌의 횟수와 시기, 강도 그리고 간벌방법을 고려할 수 있도록 설계되었다. 개발된 모델의 적용성 검토를 위해 간벌시업계획에 따른 7개의 시나리오를 작성하여 임분생장 효과를 분석하였다. 연구결과, 개발된 모델을 이용하여 간벌시업 형태에 따른 개체목의 직경급별 본수, 수고, 재적과 임분의 평균흉고직경, 평균수고, ha당 본수 및 재적변화에 관한 생장을 예측할 수 있었다. 1개소의 잣나무 현실임분을 대상으로한 모델의 적용성 검토에 있어서, 간벌시나리오별 임분생장량을 비교한 결과, 간벌시업에 의한 임분밀도조절로 주벌시점의 재적량 증가효과를 기대할 수는 없는 것으로 나타났다. 그러나 간벌량과 주벌량을 포함하는 총수확량은 무간벌의 경우보다 간벌시업을 한 경우에 ha당 약 $40{\sim}75m^3$의 증가효과를, 그리고 임분의 평균흉고직경에서는 5 cm이내, 평균 수고에서는 1 m이내의 증가효과를 보였다. 본 연구를 통해 개발된 모델은 현실임분의 구성여건에 따라 간별의 실시 여부 및 간벌시업체계의 선택문제를 결정하는 의사결정지원도구로서 활용가능 할 것이다.

적응시스템 접근법을 이용한 조선소 가공공장 분석 (Forming Shop Analysis with Adaptive Systems Approach)

  • 신동헌;우종훈;이장현;신종계
    • 대한조선학회논문집
    • /
    • 제39권3호
    • /
    • pp.75-80
    • /
    • 2002
  • 오늘날 세계는 글로벌, 디지털 시대를 향해 눈부신 변화를 거듭하고 있으며 제조업 기반의 기업은 이러한 변화에 대응하기 위하여 새로운 경영기법과 생산시스템을 도입하고자 노력하고 있다. 그러나 기업이 빠른 변화에 대응하기 위해 제조시스템에 대한 명확한 분석도 없이 새로운 기술만 적용한다면 실패는 필연적으로 존재하게 된다. 그러므로 기업은 제조 시스템에 대한 명확한 분석이 필요하고, 공정개선에 대한 위험성을 줄이는 새로운 방법이 필요하게 된다. 따라서 본 논문은 공장 시스템의 공정개선에 대한 새로운 접근 방법인 시스템 접근 방법을 시스템 분석, 시스템 진단, 시스템 검증으로 체계화하여 제시하고자 한다. 시스템 분석은 객체지향 분석법인 UML로 시스템의 제품(Product), 자원(Resource)과, 공정(Process)관점에서 시스템을 분석한다. 시스템 진단은 제약이론(Theory of constraints)으로 시스템 향상을 위한 핵심요인을 확인한다. 시스템 검증은 가상 생산 기술(Virtual Manufacturing Technique)을 적용하여 핵심 제약요인에 대한 해결 방안을 제시한다. 위와 같은 방법론을 조선소 가공공장에 적용하여 생산성 향상을 위한 새로운 대안들을 제공한다. 가공공장에서 UML 모델은 가공공장에 대한 명확한 분석방법과 외부환경에 쉽게 적응하기 위한 재사용성을 나타내고, 제약이론의 논리나무(logical tree)는 가공공장을 최적하기위한 논리적 도구를 제공하며. 이산 사건 시뮬레이터-QUEST는 최적화된 가공공장을 검증하는 의사결정 도구를 제공한다.

선박 엔진의 상태감시 기반 고장진단 기술 개발에 관한 연구 (A Study for the Development of Fault Diagnosis Technology Based on Condition Monitoring of Marine Engine)

  • 박재철;장화섭;조연화
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2019년도 춘계학술대회
    • /
    • pp.230-231
    • /
    • 2019
  • 본 연구에서는 미래의 자율운항선박의 핵심기술인 상태기반 예지보전(Condition Based Maintenance, CBM) 기술에 관한 연구로써 고장진단을 위한 실 운항선박을 대상으로 상태 모니터링 시스템의 설계/탑재 및 데이터 취득/처리/분석 기술 개발을 수행하고 있다. 본 연구의 목적은 데이터 확보, 유효데이터 식별/검증을 통해 최종적인 고장진단 알고리즘 개발을 위함이며 이를 위해서는 대상 기기의 고장 메커니즘에 관한 이해가 필요하다. 따라서 선박 엔진의 FEMA 분석과 Fault Tree Analysis 과정이 수반되어야 하며 엔진의 주요 계통분류, 대상기기 식별, 고장유형, 고장원인과 현상에 대한 분석을 포함하여야 한다. 최종적으로 도출되는 CBM 시스템의 솔루션 S/W는 엔지니어링 지식기반의 실선 운항데이터에 대한 통합적인 데이터 분석을 통해 선박 엔진의 고장예측 및 진단이 가능하다. 본 연구를 통해 운항중인 실선의주 기관을 대상으로 기존 모니터링 항목 이외의 핵심 영향인자를 측정하고, 취득된 데이터에 대한 빅 데이터 분석기법을 통해 적절한 유지보수 방법과 해당 시점을 예측함으로써 향후 선박 엔진의 이상 징후에 대한 사전적 대처와 효율적인 관리가 가능하며 결과적으로 항해 중 해양사고 및 선박운항 손실을 미연에 방지할 수 있을 것으로 기대한다.

  • PDF

머신러닝 기법을 활용한 주요 침엽수종의 수관급 분류와 간벌목 선정 연구 (A Study on Classification of Crown Classes and Selection of Thinned Trees for Major Conifers Using Machine Learning Techniques)

  • 이용규;이정수;박진우
    • 한국산림과학회지
    • /
    • 제111권2호
    • /
    • pp.302-310
    • /
    • 2022
  • 본 연구는 효율적인 산림시업계획 수립을 위하여 입목의 측정정보와 머신러닝 알고리즘을 이용하여 주요 침엽수종(소나무, 잣나무, 낙엽송)의 수관급 분류를 목적으로 하였다. 입목의 측정정보는 9년간 수집된 국유림 모니터링 정보를 활용하였으며, 머신러닝 알고리즘은 Random Forest (RF), XGBoost (XGB), Light GBM (LGBM)을 사용하였다. 알고리즘의 정확도, 정밀도, 재현율, F1 score를 이용한 성능평가를 통하여 알고리즘의 정확도를 비교·평가하였다. 분석결과, 소나무림, 잣나무림, 낙엽송 모두 RF 알고리즘이 성능평가 점수가 가장 높았으며, 수종별로는 소나무가 정확도 약 65%, 정밀도 약 72%, 재현율 약 60%, F1 score 약 66%로 성능평가 점수가 가장 높았다. 수관급은 우세목의 정확도가 약 80%이상으로 높았으나, 준우세목과 중간목, 피압목의 분류 정확도는 낮게 평가되었다. 본 연구결과는 산림시업의 간벌목 선정에 있어 의사결정을 위한 참조자료로 활용이 가능할 것으로 판단된다.