• 제목/요약/키워드: 베이지안 망

검색결과 70건 처리시간 0.02초

MOnCa2: 지능형 스마트폰 어플리케이션을 위한 사용자 이동 행위 인지와 경로 예측 기반의 고수준 콘텍스트 추론 프레임워크 (MOnCa2: High-Level Context Reasoning Framework based on User Travel Behavior Recognition and Route Prediction for Intelligent Smartphone Applications)

  • 김제민;박영택
    • 정보과학회 논문지
    • /
    • 제42권3호
    • /
    • pp.295-306
    • /
    • 2015
  • MOnCa2는 스마트폰에 장착된 센서와 온톨로지 추론 기반의 지능형 스마트폰 어플리케이션 구축을 위한 프레임워크다. 기존에 연구되었던 MOnCa는 온톨로지 인스턴스로 등록된 센서 값에 대한 정보를 바탕으로 사용자의 현재 상황을 판단 및 추론하였다. 이러한 방식은 사용자의 공간 정보나 주변에 존재하는 객체가 무엇인지 판단하는 것은 가능하나 사용자의 물리적인 콘텍스트(이동 행위, 이동할 목적지 등등) 판단하는 것은 불가능했다. 본 논문에서 설명하는 MOnCa2는 사용자 개개인의 물리적인 콘텍스트를 판단 및 추론하기 위해 스마트폰의 장착된 센서를 바탕으로 행위 및 이동 상황에 대응하는 인지 모델을 구축하고, 구축된 모델을 기반으로 사용자의 실시간 행위 및 이동 상황에 대해 1차적인 추론을 수행하며, 추론된 1차적인 콘텍스트에 대해 온톨로지 기반의 2차 추론을 통해 지능형 어플리케이션에 필요한 고수준 사용자 콘텍스트를 생산한다. 따라서 본 논문은 스마트폰의 가속도 센서를 기반으로 사용자의 이동에 필요한 행위를 인지하는 기법, 스마트폰의 GPS 신호를 바탕으로 이동 목적지와 경로를 예측하는 기법, 온톨로지 실체화를 적용하여 고수준 콘텍스트를 추론하는 과정에 초점을 맞추어 설명을 한다.

데이터마이닝 모형을 활용한 호흡기질환의 주요인 선별 (Identification of major risk factors association with respiratory diseases by data mining)

  • 이제영;김현지
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권2호
    • /
    • pp.373-384
    • /
    • 2014
  • 데이터 마이닝이란 대량의 데이터나 복잡한 구조의 데이터들을 정교한 통계분석과 모델링 테크닉을 이용하여 정확히 식별되지 않는 패턴이나 자료간의 상관관계를 밝혀내어 여러 가지 결과를 예측해 내는 통계적 기법이다. 이러한 데이터 마이닝 기법은 금융, 통신, 유통, 의학 등 다양한 분야에 활용되는데, 본 연구에서는 의학 분야에 적용하여 호흡기질환에 영향을 끼치는 요인을 선별하였다. 분석은 2012년도 경상북도 지역사회건강조사에 참여한 사람 중 의사에게서 폐결핵, 천식, 알레르기성 비염을 진단받은 경험이 있는 호흡기질환군과 건강군으로 정리한 자료를 대상으로 하였다. 호흡기질환이 영향을 끼치는 주요인을 선별하기 위해 인공신경망, 로지스틱 회귀모형, 베이지안 네트워크, C5.0, CART 기법을 이용하였다. 공정한 모형 평가를 위해 전체 데이터를 훈련용 데이터와 검증용 데이터로 나누었고, 훈련용 데이터에서 설정된 모형을 검증용 데이터에 적용하여 정확도를 비교하였다. 그 결과 CART가 최적 모형으로 선정되었으며 CART의 의사결정나무를 통하여 우울감 인지 여부, 현재 흡연여부, 스트레스 인지 여부 순으로 호흡기질환에 영향을 주는 것으로 나타났다. 그리고 호흡기질환의 주요인들에 대한 오즈비를 구하여 개별적인 영향력에 대해서도 밝혔다.

Support Vector Machine 기법을 이용한 고객의 구매의도 예측 (Forecasting of Customer's Purchasing Intention Using Support Vector Machine)

  • 김진화;남기찬;이상종
    • 경영정보학연구
    • /
    • 제10권2호
    • /
    • pp.137-158
    • /
    • 2008
  • 기업 경쟁력 강화의 중요한 이슈인 대량 개별화(mass-customization)의 실행을 위하여 통합 고객관계 관리 프로세스로서의 CRM(customer relationship management)에 대한 관심과 활용에 대한 필요성은 점점 더 높아지고 있다. 특히, 기존 고객들의 구매 정보를 기반으로 고객의 구매 패턴을 파악하고 의도를 예측하는 것은 오늘날 실질적인 판매 전략을 수립하는 마케팅 분야에서 상당히 큰 비중을 차지하고 있다. 고객의 구매의도 예측에는 대량의 데이터로부터 과거에 인지하지 못했던 의미 있고, 근거 있는 정보를 추출하는 데이터마이닝(datamining)이 주로 사용되고 있다. 기존의 구매의도 예측에 사용된 데이터마이닝 기법들은 주로 신경망(neural networks)과 로지스틱 회귀분석(logistic regression analysis)이었는데, 예측 정확성 및 모형 구축의 어려움으로 인한 다양한 문제점들이 제기되고 있는 실정이다. 따라서, 본 논문에서는 기존의 기법들이 가지고 있는 단점들을 개선하기 위하여 신경망과 로지스틱 회귀분석 외에 연관규칙(association rule), 연관성 매트릭스(association matrix), 의사결정 나무(decision tree), 베이지안 망(bayesian network), SVM(support vector machine) 기법들을 추가로 제안하였다. 본 연구의 목적은 고객의 특정 상품에 대한 구매의도 예측을 위하여 새로운 알고리즘을 제시하기보다는 기존의 다양한 데이터마이닝 기법들을 적용시켜 봄으로써, 가장 우수한 예측성과를 나타내는 기법을 발견하는 것이다. 연구에 사용된 자료는 기존의 연구에서는 적용되지 않았던 편의점의 영수증 데이터이다. 예측 목표상품은 카테고리화 된 '우유'와 '냉동식품'이며, 제안된 기법들의 신뢰성을 위하여 전체 데이터를 10개의 training과 test 셋으로 중복되지 않게 구분함과 동시에 10번의 교차 검증(cross validation)을 실시하였다. 실험 결과 SVM이 영수증 데이터를 이용한 고객의 특정 상품에 대한 구매의도 예측에서 가장 우수한 성과를 나타내는 것을 확인하였다.

지표변화와 지리공간정보의 연관성 분석을 통한 공주지역 지표환경 변화 분석 (Change Detection of land-surface Environment in Gongju Areas Using Spatial Relationships between Land-surface Change and Geo-spatial Information)

  • 장동호
    • 대한지리학회지
    • /
    • 제40권3호
    • /
    • pp.296-309
    • /
    • 2005
  • 본 연구는 공주지역의 지표변화를 분석하기 위해 우도비 기반의 베이지안 예측모델을 이용하여 지리공간 정보와 지표변화와의 연관성 및 미래의 지표변화를 탐지하였다. 지표변화 지역은 위성사진을 토지피복분류 한 후 선분류 후비교법을 이용하여 변화지역을 추출하였다. 지표변화와 관련이 있는 지리공간 정보는 GIS 환경에서 구축하였으며, 우도비를 이용하여 지표변화 예측도를 작성하였다. 분석결과, 도시지역 및 농업지역 지표변화에 가장 큰 영향을 미치는 주제도는 고도, 하계망, 인구밀도, 도로, 인구이동, 총사업체수, 지가 등이다. 또한 산림지역 지표변화에 영향을 미치는 주제도는 고도, 경사도, 인구밀도, 인구이동, 지가 등이다. 지표변화 분석결과, 도시지역은 금강을 중심으로 구도심과 신도심지역의 도시 확산이 이루어지고, 인터체인지 및 국도를 따라 시가화 지역이 확산 될 것으로 예측되었다. 농업지역은 금강의 소지류 및 인접지역과 연결되는 국도주변 지역이 변화가 일어날 확률이 높다. 산림지역은 대부분 남동쪽에 위치하고 있는데, 그 원인은 밤나무 재배단지가 본 지역에 넓게 나타나면서 산림훼손이 일어날 확률이 높은 것으로 예측되었다. 예측비율 곡선을 이용하여 검증한 결과, 지표변화가 일어날 확률이 가장 높은 상위 $10\%$지역에서 도시지역은 $80\%$, 농업지역은 $55\%$, 산림지역은 $40\%$정도의 예측능력을 보였다. 따라서, 본 통합 모델은 산림지역 예측에는 부적합한 것으로 볼 수 있어서, 향후 새로운 주제도 선정 및 예측모델 등이 필요하다. 결론적으로 본 방법은 향후 토지피복 변화 연구를 위한 효과적인 방법 중의 하나로 적용될 수 있을 것으로 기대된다.

CRM의 기능 분류를 위한 통계적 학습에 관한 연구 (A Study of Statistical Learning as a CRM s Classifier Functions)

  • 장근;이정배;이병수
    • 정보처리학회논문지B
    • /
    • 제11B권1호
    • /
    • pp.71-76
    • /
    • 2004
  • 현재 ERP와 CRM은 대부분 전통적인 기능적 수행에만 초점이 맞추어져 있다. 그러나 최근의 경영환경은 인터넷(Internet)과 이를 기반으로 하는 전자상거래의 비약적 발전에 기인하여 시장의 변화를 가져왔으며, 이는 대부분 e-비즈니스화 되어 가고 있으며, 이를 추진하면서 제휴기관과의 관계증진, 고객관계의 혁신적 개선은 물론 조직내부의 업무프로세스의 획기적 개선을 통한 경쟁력 강화를 적극적으로 전개하고 있다. CRM(Customer Relationship Management)은 기업이 획득한 고객을 지속적으로 유지하고, 기업에 대한 고객의 가치를 증진시키기 위해 기업과 고객간의 상호 이익적 관계를 형성 유지 강화하려는 기업의 일련의 마케팅과정으로 다양하고도 수많은 고객들의 정보를 기반으로 수행되기 때문에 고객 정보를 파악할 수 있는 시스템 기반을 필요로 하며, 생산과 상품의 전달경로, 마케팅, 그리고 의사결정 등의 경영 카테고리와 연관되어 있다. 한편 ERP는 SCM과 CRM 및 SEM(Strategic Enterprise Management)등으로 기능을 확대해감에 따라 21세기의 ERP는 e-비즈니스의 전략적 도구로 발전해 갈 것이다. 본 논문에서는 이를 위한 중재 도구를 제시함으로써 고객에게 더욱 더 효율적이고 고 부가가치 있는 의미 있는 데이터들의 통계적 기계 학습법을 통해 CRM의 기능들을 효율적으로 분류할 수 있도록 한다. 또한 시스템 특징으로는 기존에 수작업으로 이루어지던 파일의 분류 작업을 기계 학습법을 통한 에이전트가 자동으로 수행함으로써 사용자가 좀 더 효율적으로 작업을 수행 할 수 있도록 한 것이다.

데이터마이닝 알고리즘의 분류 및 분석 (Classification and Analysis of Data Mining Algorithms)

  • 이정원;김호숙;최지영;김현희;용환승;이상호;박승수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권3호
    • /
    • pp.279-300
    • /
    • 2001
  • 지식탐사 프로세스의 핵심적인 역할을 담당하는 데이터마이닝 단계에서는 여러 가지 목적에 따라 알고리즘을 선택하여 사용한다. 최근 통계, 비즈니스, 전자 상거래, 의학, 생물학 등의 분야에서 데이터마이닝 기술아 적극적으로 활용되고 있으며, 이를 위해 다양한 알고리즘들이 계속해서 연구.개발되고 있다. 그러나 시간이 지나면 이들 중 각 분야 별로 우수한 응용성을 보이는 알고리즘이나 방대한 양의 데이터를 다루는데 있어 좋은 성능을 보이는 몇몇 알고리즘만이 남게 될 것이며 또한 앞으로는 이러한 알고리즘들만을 선별하여 집중 연구할 필요가 있다. 따라서 본 논문에서는 데이터마이닝에 널리 사용되고 활발한 연구가 진행중인 알고리즘들 중에서 연관규칙(association rule), 클러스터링(clustering), 신경망(neural network), 결정트리(decision tree), 유전자 알고리즘(genetic algorithm), 베이지안 네트워크(bayesian network), 메모리 기반 추론(memory-based reasoning)등 7가지 카테고리에 속하는 알고리즘들을 선정하여 분류.분석하였다. 우선 각 알고리즘의 계통과 특성들을 분석하였고 이를 토대로 비교.분석을 위한 14가지의 분류 기준을 제시하였다. 이러한 분류 기준에 근거하여 세부 알고리즘들을 분석해 보고 비교 가능한 일부 알고리즘은 여러 특징과 성능을 중심으로 각각 최상의 알고리즘을 도출해 보았다. 본 연구 결과는 데이터마이닝 분야의 흔재된 알고리즘들을 분류.분석함으로써 마이닝 기술 적용시 사용자에게 알고리즘 선택의 지표를 제시할 수 있을 것이다.

  • PDF

속성선택방법과 워드임베딩 및 BOW (Bag-of-Words)를 결합한 오피니언 마이닝 성과에 관한 연구 (Investigating Opinion Mining Performance by Combining Feature Selection Methods with Word Embedding and BOW (Bag-of-Words))

  • 어균선;이건창
    • 디지털융복합연구
    • /
    • 제17권2호
    • /
    • pp.163-170
    • /
    • 2019
  • 과거 10년은 웹의 발달로 인한 데이터가 폭발적으로 생성되었다. 데이터마이닝에서는 대용량의 데이터에서 무의미한 데이터를 구분하고 가치 있는 데이터를 추출하는 단계가 중요한 부분을 차지한다. 본 연구는 감성분석을 위한 재표현 방법과 속성선택 방법을 적용한 오피니언 마이닝 모델을 제안한다. 본 연구에서 사용한 재표현 방법은 백 오즈 워즈(Bag-of-words)와 Word embedding to vector(Word2vec)이다. 속성선택(Feature selection) 방법은 상관관계 기반 속성선택(Correlation based feature selection), 정보획득 속성선택(Information gain)을 사용했다. 본 연구에서 사용한 분류기는 로지스틱 회귀분석(Logistic regression), 인공신경망(Neural network), 나이브 베이지안 네트워크(naive Bayesian network), 랜덤포레스트(Random forest), 랜덤서브스페이스(Random subspace), 스태킹(Stacking)이다. 실증분석 결과, electronics, kitchen 데이터 셋에서는 백 오즈 워즈의 정보획득 속성선택의 로지스틱 회귀분석과 스태킹이 높은 성능을 나타냄을 확인했다. laptop, restaurant 데이터 셋은 Word2vec의 정보획득 속성선택을 적용한 랜덤포레스트가 가장 높은 성능을 나타내는 조합이라는 것을 확인했다. 다음과 같은 결과는 오피니언 마이닝 모델 구축에 있어서 모델의 성능을 향상시킬 수 있음을 나타낸다.

유용성과 노출 위험성 지표를 이용한 재현자료 기법 비교 연구 (A comparison of synthetic data approaches using utility and disclosure risk measures)

  • 안성빈;트랑 도안;이주희;김지우;김용재;김윤지;윤창원;정성규;김동하;권성훈;김항준;안정연;박철우
    • 응용통계연구
    • /
    • 제36권2호
    • /
    • pp.141-166
    • /
    • 2023
  • 재현자료를 생성하여 배포하는 것은 데이터 공개에 따른 정보 유출의 위험을 방지하는 대표적인 방법이다. 최근 산업에서 데이터의 활용이 중요해진 만큼 한국을 포함한 많은 국가 및 기관에서 재현자료에 관한 연구가 활발히 진행되고 있다. 본 논문에서는 대표적인 재현자료 생성 기법들과 평가 지표들을 소개한다. 전통적인 재현자료 생성 방법인 다중대체와 최근 제시된 인공신경망 기반의 재현자료 생성 방법 등을 활용하여 재현자료를 생성하는 과정을 기술함에 따라 재현자료 생성 방법에 대한 전반적인 이해를 돕는다. 이에 더해 다양한 재현자료 평가 지표를 바탕으로 생성된 재현자료들을 분석 및 비교함에 따라 앞으로의 연구에 대한 방향을 제시하고 그에 대한 토대를 마련하고자 한다.

점진적 기계학습 기반의 레이더 위협체 역추정 모델 생성 및 갱신 (Managing the Reverse Extrapolation Model of Radar Threats Based Upon an Incremental Machine Learning Technique)

  • 김철표;노상욱
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권4호
    • /
    • pp.29-39
    • /
    • 2017
  • 다양한 전자전 상황에서 단위 위협체에 대하여 전자전 모델링과 시뮬레이션을 수행할 수 있는 통합 전자전 시뮬레이터의 개발 필요성이 대두되고 있다. 본 논문에서는 전자전 상황에서 전자정보 수집신호의 변수를 기반으로 전자파 신호를 발산하는 레이더 위협을 역추정하기 위한 시뮬레이션 시스템의 구성요소를 분석하고, 역추정 모델을 점진적으로 유지할 수 있는 방법을 제안한다. 또한, 실험을 통하여 점진적 역추정 모델 갱신 기법의 유효성 및 개별 역추정 결과의 통합 기법을 평가한다. 개별 역추정 모델의 생성을 위하여 의사결정트리, 베이지안 분류기, 인공신경망 및 유클리디안 거리 측정방식과 코사인 유사도 측정방식을 활용하는 군집화 알고리즘을 이용하였다. 첫 번째 실험에서 레이더 위협체에 대한 역추정 모델을 구축하기 위한 위협 예제의 크기를 점진적으로 증가시키면 역추정 모델의 정확도는 향상되었으며, 이러한 과정이 반복되면 역추정 모델에 대한 정확도는 일정한 값으로 수렴하였다. 두 번째 실험에서는 개별 역추정 모델의 결과를 통합하기 위하여 투표, 가중투표 및 뎀스터-쉐이퍼 알고리즘을 이용하였으며, 역추정 모델의 통합 결과는 뎀스터-쉐이퍼 알고리즘에 의한 역추정 정확도가 가장 좋은 성능을 보였다.

이질성 학습을 통한 문서 분류의 정확성 향상 기법 (Improving the Accuracy of Document Classification by Learning Heterogeneity)

  • 윌리엄;현윤진;김남규
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.21-44
    • /
    • 2018
  • 최근 인터넷 기술의 발전과 함께 스마트 기기가 대중화됨에 따라 방대한 양의 텍스트 데이터가 쏟아져 나오고 있으며, 이러한 텍스트 데이터는 뉴스, 블로그, 소셜미디어 등 다양한 미디어 매체를 통해 생산 및 유통되고 있다. 이처럼 손쉽게 방대한 양의 정보를 획득할 수 있게 됨에 따라 보다 효율적으로 문서를 관리하기 위한 문서 분류의 필요성이 급증하였다. 문서 분류는 텍스트 문서를 둘 이상의 카테고리 혹은 클래스로 정의하여 분류하는 것을 의미하며, K-근접 이웃(K-Nearest Neighbor), 나이브 베이지안 알고리즘(Naïve Bayes Algorithm), SVM(Support Vector Machine), 의사결정나무(Decision Tree), 인공신경망(Artificial Neural Network) 등 다양한 기술들이 문서 분류에 활용되고 있다. 특히, 문서 분류는 문맥에 사용된 단어 및 문서 분류를 위해 추출된 형질에 따라 분류 모델의 성능이 달라질 뿐만 아니라, 문서 분류기 구축에 사용된 학습데이터의 질에 따라 문서 분류의 성능이 크게 좌우된다. 하지만 현실세계에서 사용되는 대부분의 데이터는 많은 노이즈(Noise)를 포함하고 있으며, 이러한 데이터의 학습을 통해 생성된 분류 모형은 노이즈의 정도에 따라 정확도 측면의 성능이 영향을 받게 된다. 이에 본 연구에서는 노이즈를 인위적으로 삽입하여 문서 분류기의 견고성을 강화하고 이를 통해 분류의 정확도를 향상시킬 수 있는 방안을 제안하고자 한다. 즉, 분류의 대상이 되는 원 문서와 전혀 다른 특징을 갖는 이질적인 데이터소스로부터 추출한 형질을 원 문서에 일종의 노이즈의 형태로 삽입하여 이질성 학습을 수행하고, 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식의 규칙 선별 기반의 앙상블 준지도학습을 제안함으로써 문서 분류의 성능을 향상시키고자 한다.