• 제목/요약/키워드: 확률적 데이터 연관

검색결과 57건 처리시간 0.021초

확률적 흥미도를 이용한 유사성 측도의 연관성 평가 기준 (Exploration of PIM based similarity measures as association rule thresholds)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권6호
    • /
    • pp.1127-1135
    • /
    • 2012
  • 연관성 규칙 기법은 대용량데이터베이스에 있는 항목들 간의 관련성을 수치화 하는 것으로 데이터 마이닝 기법 중에서는 가장 많이 활용되고 있다. 연관성 규칙을 탐사하기 위한 연관성 규칙 평가 기준에는 지지도, 신뢰도, 향상도 등이 있다. 이들 중에서 가장 중심이 되는 신뢰도는 비대칭적 측도일 뿐만 아니라 항상 양의 값만을 취하고 있어서 항목 간에 연관성 규칙을 생성하는 데 여러가지 문제가 존재한다. 이러한 문제를 해결하기 위해 본 논문에서는 확률적 흥미도 측도 기반, 특히 주변 비율을 고려하지 않은 유사성 측도를 연관성 평가 기준으로 적용하는 방안에 대해 연구하였다. 예제에 의한 비교를 통하여 Yule과 Michael의 유사성 계수와 Pearson의 파이 계수는 신뢰도와 동일하게 연관성의 정도를 파악할 수 있는 동시에 부호를 포함하고 있어서 연관성의 방향도 알 수 있었으나, 카이 제곱 통계량 기반 측도들은 항상 양의 값만 나타날 뿐만 아니라 신뢰도와는 변화하는 양상이 다르다는 것을 확인할 수 있었다.

인과적 확인 측도에 의한 연관성 규칙 탐색 (Proposition of causally confirmed measures in association rule mining)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권4호
    • /
    • pp.857-868
    • /
    • 2014
  • 대량의 데이터로부터 과거에 알려지지 않았던 유용한 정보를 발견하는 기술인 데이터 마이닝 기법은 오늘날 빅 데이터 시대에 가장 대표적인 분석 기법이라고 할 수 있다. 이들 중에서도 연관성 규칙은 지지도, 신뢰도, 향상도 등의 여러 가지 흥미도 측도를 기반으로 하여 항목들 간의 관련성을 찾아내는 것이다. 그러나 기본적인 연관성 평가 기준만으로는 두 항목 간의 인과관계를 설명할 수 없을 뿐만 아니라 연관성의 방향도 파악할 수 없다. 본 논문에서는 이러한 문제를 해결하기 위해 인과적 확인 연관성 평가 기준을 제안하는 동시에, 제안한 평가 기준들이 흥미도 측도의 조건을 충족하는지의 여부를 점검하였다. 본 논문에서 제안한 인과적 확인 향상도는 세 가지 조건 모두를 만족하는 것으로 입증되었다. 인과적 확인 지지도와 인과적 확인 신뢰도는 동시 발생 확률의 값에 따라 단조 증가하는 조건과 각 항목의 주변 확률의 값에 따라 단조 감소하는 조건은 만족하였다. 또한 예제를 통해 기본적인 연관성 평가 기준과 인과적 연관성 평가 기준, 그리고 인과적 확인 연관성 평가 기준을 비교해 본 결과, 본 논문에서 제안하는 인과적 확인 측도들이 다른 평가 기준에 비해 가장 바람직한 측도라는 사실을 파악하였다.

협동 표적 추적을 위한 확률적 데이터 연관 기반 레이더 및 ESM 센서 측정치 융합 기법의 실험적 연구 (Experimental Research on Radar and ESM Measurement Fusion Technique Using Probabilistic Data Association for Cooperative Target Tracking)

  • 이새움;김은찬;정효영;김기성;김기선
    • 한국통신학회논문지
    • /
    • 제37권5C호
    • /
    • pp.355-364
    • /
    • 2012
  • 협동교전능력을 위한 표적정보 수집, 실시간 정보융합, 공동 상황인식 기능 구현을 위하여 표적 처리기법 연구는 중요하다. 이러한 표적 처리 연구 중, 표적의 추적의 문제는 센서로부터 얻어진 측정값을 사용하여 표적의 상태를 예측하는 것으로부터 시작한다. 그러나 상태 예측에 사용되는 센서의 측정값들은 불확실성을 갖고 있기 때문에 측정된 정보에 어느 정도의 신뢰성을 부여할 수 있느냐가 중요한 문제가 된다. 따라서 이를 위해 다중 센서를 이용한 기법이 요구되고, 보편적으로 사용되는 확률적 데이터연관 기법으로부터 다중 센서를 이용한 표적 추적을 위해서는 이종 센서로부터 제공된 측정값들을 처리하기 위한 정보융합 기법이 필요하다. 본 논문에서는 레이더 및 ESM 센서에서 측정된 측정값 정보융합을 통하여 확률데이터연관 필터를 이용한 표적의 트랙 추정 성능을 향상시키기 위한 방법을 구체적으로 분석하여 정보를 결합하기 위한 새로운 실시간측정값 융합 기법을 제안하고 확률데이터연관을 통해 추적할 표적의 트랙을 추정하는 방법을 분석하였다. 모의실험을 통해 제안된 기법들이 선형 혹은 회전 운동하는 모델들에 대해 향상된 추정 결과를 보여준다.

보안 감시를 위한 심층학습 기반 다채널 영상 분석 (Multi-channel Video Analysis Based on Deep Learning for Video Surveillance)

  • 박장식;마르셀 위라네가라;손금영
    • 한국전자통신학회논문지
    • /
    • 제13권6호
    • /
    • pp.1263-1268
    • /
    • 2018
  • 본 논문에서는 영상 보안 감시를 위한 심층학습 객체 검출과 다중 객체 추적을 위한 확률적 데이터연관 필터를 연계한 영상분석 기법을 제안하고, GPU를 이용하여 구현하는 방안을 제시한다. 제안하는 영상분석 기법은 객체 검출과 추적으로 순차적으로 수행한다. 객체 검출을 위한 심층학습은 ResNet을 이용하고, 다중 객체 추적을 위하여 확률적 데이터 연관 필터를 적용한다. 제안하는 영상분석 기법은 임의의 영역으로 불법으로 침입하는 사람을 검출하거나 특정 공간에 출입하는 사람을 계수하는데 응용할 수 있다. 시뮬레이션을 통하여 약 25fps의 속도로 48채널의 영상을 분석할 수 있음을 보이고, RTSP 프로토콜을 통하여 실시간 영상분석이 가능함을 보인다.

모든 주변 비율을 고려한 확률적 흥미도 측도 기반 유사성 측도의 연관성 평가 기준 활용 방안 (Utilization of similarity measures by PIM with AMP as association rule thresholds)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권1호
    • /
    • pp.117-124
    • /
    • 2013
  • 연관성 규칙 탐사는 상당한 양의 데이터베이스에 내재되어 있는 항목들 간의 관련성을 파악하는 것으로 쇼핑몰, 보건 및 의료, 교육분야 등의 현장에서 많이 적용되고 있다. 이러한 연관성 규칙을 생성하기 위해 연관성 규칙 평가 기준인 지지도, 신뢰도, 향상도 등이 활용되고 있다. 이들 중에서 신뢰도가 연관성 평가 기준으로 가장 많이 활용되고는 있으나 항상 양의 값을 취하는 비대칭적 측도이기 때문에 항목 간에 연관성 규칙을 생성하는 데 어려움이 존재하게 된다. 이러한 문제를 해결하기 위해 본 논문에서는 주변 비율 전부를 포함한 확률적 흥미도 기반 유사성 측도를 연관성 평가 기준으로 활용하는 방안을 고려하였다. 이 측도들은 주변비율 전부와 교차표의 모든 항을 고려하여 연관성의 강도를 측정하는 측도이므로 나타나는 모든 정보를 충실히 반영해주는 측도라고 할 수 있다. 모의실험을 통해 확인한 결과, 모든 주변 비율을 고려한 확률적 흥미도 기반 유사성 측도 대부분이 기존의 연관성 평가 기준과 마찬가지로 연관성의 정도를 파악할 수 있는 동시에 부호를 포함하고 있어서 연관성의 방향도 알 수 있었다.

인과적 연관성 규칙 평가 기준의 제안 (Proposition of causal association rule thresholds)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권6호
    • /
    • pp.1189-1197
    • /
    • 2013
  • 연관성 규칙 마이닝은 지지도, 신뢰도, 향상도 등의 흥미도 측도를 기반으로 하여 대용량 데이터베이스를 구성하고 있는 항목들 간의 관련성을 찾아내는 기법이다. 이 기법은 기업의 의사결정 문제, 유통업에서의 교차판매, 고객관리 등 현업에서 많이 활용되고는 있으나, 이러한 기본적인 연관성 평가기준만으로는 두 항목 간의 인과관계를 설명할 수 없다. 본 논문에서는 이러한 문제를 해결하기 위해 인과적 연관성 규칙을 제안하는 동시에, 고려하는 평가 기준들이 흥미도 측도의 조건을 충족하는지의 여부를 점검하였다. 본 논문에서 제안한 인과적 향상도는 세 가지 조건 모두를 만족하는 것으로 입증되었다. 인과적 지지도와 인과적 신뢰도는 동시 발생 확률의 값에 따라 단조 증가하는 조건과 각 항목의 주변 확률의 값에 따라 단조 감소하는 조건은 만족하였다. 반면에 두 항목이 독립이면 연관성 평가기준의 값이 1이 되는 조건에 대해서는 기존의 지지도와 신뢰도와 같이 이 조건이 충족되지 않았다. 또한 예제를 통해 기존의 연관성 평가 기준과 인과적 연관성 평가 기준을 비교해 본 결과, 기존의 평가측도인 지지도와 신뢰도를 기준으로 연관성 규칙 생성 여부를 판단했을 때 탈락되는 규칙도 인과적 평가 기준인 인과적 지지도와 인과적 신뢰도를 이용하여 판단하게 되면 연관성 규칙으로 채택할 수 있다는 사실을 발견하였다.

조건부 확률증분비를 이용한 연관성 순위 결정 함수 (Association rule ranking function using conditional probability increment ratio)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권4호
    • /
    • pp.709-717
    • /
    • 2010
  • 연관성 규칙 마이닝은 각 항목들 간의 관련성을 찾아내는 데 활용되며, 지지도, 신뢰도, 향상도 등의 연관성 측도를 기반으로 두 항목간의 관계를 수치화함으로써 의미 있는 규칙을 찾아낸다. 본 논문에서는 조건부 확률 증분비를 이용한 연관성 순위 결정 함수를 제안하고자 한다. 특히 항목 집합간의 고유한 연관성 정도를 제대로 반영하기 위해 조건부 확률 증분비를 이용하여 연관성 순위 결정 함수를 제안하여 3개의 연관기준값들 중 어느 하나라도 기준 이상이 되는 규칙의 순위를 매겨 필요한 연관성 규칙만을 생성할 수 있도록 한다. 모의실험을 해본 결과, 본 논문에서 제안한 함수는 기존의 함수와는 달리 특정 연관 기준값의 영향을 받지 않으며, 최저 연관성 기준값들의 범위와는 관계없이 항상 -1과 1 사이의 값을 가진다는 사실을 확인할 수 있었다. 또한 조건부 확률 증분비를 이용한 연관순위결정 함수는 대체적으로 연관성 측도들과 최저 연관기준값들간의 차이를 잘 반영하고 있는 것으로 나타났다.

디지털 포렌식에서 텍스트 마이닝 기반 침입 흔적 로그 추천 (A Text Mining-based Intrusion Log Recommendation in Digital Forensics)

  • 고수정
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제2권6호
    • /
    • pp.279-290
    • /
    • 2013
  • 디지털 포렌식에서의 로그 데이터는 사용자의 과거 행적에 대한 추적을 목적으로 대용량의 형태로 저장된다는 특성을 가지고 있다. 이러한 대용량의 로그 데이터를 단서가 없이 수동으로 분석하는 절차는 조사관들에게는 어려운 일이다. 본 논문에서는 포렌식 분석을 하는 조사관들에게 믿을 만한 증거를 추천하기 위하여 대용량의 로그 집합으로부터 해킹 흔적을 추출하는 텍스트 마이닝 기술을 제안한다. 학습 단계에서는 훈련 로그 집합을 대상으로 전처리를 한 후, Apriori 알고리즘을 이용하여 침입 흔적 연관 단어를 추출하고, 신뢰도와 지지도를 병합하여 각 연관단어의 침입 흔적 확률을 계산한다. 또한, 침입 흔적 확률의 정확도를 높이기 위하여 스팸 메일의 여과에 사용된 Robinson의 신뢰도 계산 방법을 이용하여 확률에 가중치를 추가하며, 최종적으로 침입 흔적 연관 단어 지식 베이스를 구축한다. 테스트 단계에서는 연관 단어 지식 베이스를 기반으로 테스트 로그 집합에 대해 피셔(Fisher)의 역 카이제곱 분류 알고리즘을 적용하여 침입 흔적 로그일 확률과 정상 로그일 확률을 계산하고, 이를 병합하여 침입 흔적 로그를 추출한다. 추출된 로그를 조사관에게 침입 흔적이 있는 로그로서 추천한다. 제안한 방법은 비구조화된 대용량의 로그 데이터를 대상으로 데이터의 의미를 명확하게 분석할 수 있는 학습 방법을 사용함으로써 데이터의 모호성으로 인해 발생하는 정확도 저하 문제를 보완할 수 있으며, 피셔의 역 카이제곱 분류 알고리즘을 이용하여 추천함으로써 오분류율(false positive)을 감소시키고 수동으로 증거를 추출하는 번거로움을 줄일 수 있다는 장점을 갖는다.

초기 투자성과와 연계된 창업기업의 내부 결정요인 분석

  • 구인혁;김용덕;조재민
    • 한국벤처창업학회:학술대회논문집
    • /
    • 한국벤처창업학회 2022년도 추계학술대회
    • /
    • pp.195-199
    • /
    • 2022
  • 본 연구는 스타트업 투자성과와 연계된 창업가 역량, 재무정보 등 정량데이터를 기반으로 스타트업 투자자들의 투자결정요인을 분석하였다. 주요 실증결과는 다음과 같다. 첫째, 창업 초기 종업원 수가 많고, 최고경영자의 지분비율이 높을수록 투자승인 확률이 높게 나타났다. 둘째, 재무적 특성에서는 기업의 매출액 규모가 작을수록 투자승인 확률이 높게 나타났다. 이러한 결과는 스타트업의 경우, 기업의 단기성과보다는 투자 결정에 있어 미래가치 혹은 다른 정성적인 요인이 더 고려된다는 점을 보여준다. 셋째, 창업가 특성에서는 CEO 교육수준(학력)이 높을수록 투자승인 확률이 높게 나타났다. 즉, 창업자의 학력은 성공적인 투자 여부에 핵심적인 변수이고 이것은 선행연구의 결과와 다르지 않았다. 또한, 학력과 투자유치의 연관성은 창업 3년 미만 스타트업에서 상대적으로 강하게 나타났다. 선행연구에서 투자정보공개, 관련 데이터 확보의 어려움으로 스타트업 투자에 관한 정량적 실증연구가 거의 진행되지 못한 점을 고려한다면, 본 연구는 설문조사 방식을 뛰어넘어 국내 초기 창업기업만을 대상으로 성공적인 투자유치와 연계된 스타트업의 평가요인을 정량적으로 분석했다는 점에서 중요한 의의를 갖는다.

  • PDF

실시간 CRM을 위한 분류 기법과 연관성 규칙의 통합적 활용;신용카드 고객 이탈 예측에 활용

  • 이지영;김종우
    • 한국경영정보학회:학술대회논문집
    • /
    • 한국경영정보학회 2007년도 International Conference
    • /
    • pp.135-140
    • /
    • 2007
  • 이탈 고객 예측은 데이터 마이닝에서 다루는 주요한 문제 중에 하나이다. 이탈 고객 예측은 일종의 분류(classification) 문제로 의사결정나무추론, 로지스틱 회귀분석, 인공신경망 등의 기법이 많이 활용되어왔다. 일반적으로 이탈 고객 예측을 위한 모델은 고객의 인구통계학적 정보와 계약이나 거래 정보를 입력변수로 하여 이탈 여부를 목표변수로 보는 형태로 분류 모델을 생성하게 된다. 본 연구에서는 고객과의 지속적인 접촉으로 발생되는 추가적인 사건 정보를 활용하여 연관성 규칙을 생성하고 이 결과를 기존의 방식으로 생성된 분류 모델과 결합하는 이탈 고객 예측 방법을 제시한다. 제시한 방법의 유용성을 확인하기 위해서 특정 국내 신용카드사의 실제 데이터를 활용하여 실험을 수행하였다. 실험 결과 제시된 방법이 기존의 전통적인 분류 모델에 비해서 향상된 성능을 보이는 것을 확인할 수 있었다. 제시된 예측 방법의 장점은 기존의 이탈 예측을 위한 입력 변수들 이외에 고객과 회사간의 접촉을 통해서 생성된 동적 정보들을 통합적으로 활용하여 예측 정확도를 높이고 실시간으로 이탈 확률을 갱신할 수 있다는 점이다.

  • PDF