Journal of the Korean Data and Information Science Society
/
제25권1호
/
pp.97-106
/
2014
빅 데이터 기술의 발전은 다변화된 현대 사회를 보다 정확하게 예측하고 효율적으로 작동하도록 정보를 제공하는 동시에 과거에는 불가능 했던 기술을 가능케 하였다. 이러한 빅 데이터 분석 기법은 국가 차원에서의 사회, 경제, 정치, 문화, 과학 기술 등 여러 분야에 활용될 수 있다. 빅 데이터 분석을 위해서는 먼저 데이터 마이닝 기술로 방대한 양의 데이터 속에서 가치 있는 정보를 찾는 것이 선행 되어야 하는데, 빅 데이터와 관련된 데이터 마이닝 기법으로는 텍스트 마이닝, 평판 분석, 군집 분석, 연관성 규칙 등이 있다. 본 논문에서는 데이터 마이닝 기법 중에서 많이 활용되고 있는 연관성 규칙의 평가 기준으로 코사인 순수 신뢰도를 제안한 후, Piatetsky-Shapiro가 제안한 흥미도 측도의 기준에 대한 충족여부를 점검하는 동시에 여러 가지 특성을 살펴보았다. 또한 예제를 통하여 고찰한 결과, 기존의 신뢰도와 코사인 유사성 측도는 모두 양의 값을 가지므로 연관성의 방향을 알 수 없어서 그 값만으로는 양의 연관성이 있는지 아니면 음의 연관성이 있는지를 알 수 없었다. 그러나 본 논문에서 제안한 코사인 순수 신뢰도는 그 부호에 의해 연관성 규칙의 방향을 알 수 있으므로 신뢰도와 코사인 유사성 측도가 가지고 있는 약점을 보완할 수 있는 측도라는 사실을 확인하였다.
인터넷의 활용으로 기업활동의 많은 영역이 온라인을 통해 이루어지고 있다. 온라인 쇼핑몰에서는 고객이 웹사이트 방문 후에 어떤 활동을 하는지를 파악하고 이를 경영활동의 성과로 연계하기 위해 웹 로그를 분석하고 있다. 온라인 뉴스 사이트에서도 방문자의 활동을 파악하고 어떤 기사에 관심이 많은지, 어떤 분야의 기사를 많이 보는지 등을 파악하여 독자에게 서비스하는 것이 필요하다. 그러나 언론사의 웹사이트 로그를 분석하는 연구는 충분히 이루어지지 않고 있다. 본 연구에서는 온라인 뉴스 웹사이트에서 수집된 로그를 이용하여 방문자의 웹사이트 내에서의 활동을 파악하고 뉴스 기사간 연관규칙을 도출한다. 연구는 크게 방문자의 세션(session)을 파악하는 첫 번째 단계와 방문자가 읽은 뉴스 기사간의 연관규칙을 살펴보는 두 번째 단계로 이루어져 있으며 두 차례에 걸쳐 수집된 웹사이트 로그를 이용하여 분석하였다. 최종적으로 도출된 규칙의 의미와 온라인 뉴스 사이트에서 고려해야 하는 함의를 제시하였다.
Journal of the Korean Data and Information Science Society
/
제22권3호
/
pp.495-503
/
2011
데이터 마이닝에서의 연관성 규칙은 방대한 양의 데이터베이스에 내재되어 있는 항목들 간의 관련성을 수치화 하는 방법이다. 의미 있는 연관성 규칙을 탐사하기 위한 가장 기본적인 연관성 규칙 평가 기준에는 지지도, 신뢰도, 향상도 등이 있다. 이들 중에서 향상도는 그 값에 의해 양의 연관성이 있는지 아니면 음의 연관성이 있는지, 즉 연관성의 방향을 알 수 있는 반면에 지지도와 신뢰도는 그 방향을 알 수가 없다. 이를 위해 순수 신뢰도와 기여 순수 신뢰도가 제안되었으나 이들 또한 단점을 안고 있다. 본 논문에서는 기존의 여러 형태의 신뢰도가 가지고 있는 문제점을 해결하기 위해 군집분석이나 다차원 분석에서 활용되고 있는 이분형 예측 유사성 측도 중에서 -1과 1 사이의 값을 가지는 Yule의 Y 및 Q 측도를 연관성 평가 기준으로 제안하였다. 또한 기존의 순수 신뢰도 및 기여 순수 신뢰도의 문제점을 파악한 후, 예제를 통하여 이분형 예측 유사성 측도의 유용성에 관해 알아보았다. 그 결과, 본 논문에서 고려한 유사성 측도들은 기존의 측도들이 가지고 있는 문제점을 해결할 수 있어서 본 논문에서 제안한 이분형 예측 유사성 측도가 연관성 평가 기준으로 활용할 수 있다는 사실을 확인하였다.
네트워크에 대한 활용 범위가 방대해 지면서, 신뢰성 및 효율성을 가지는 네트워크 관리가 필요하게 되었다. 특히 네트워크 관리에 데이터 마이닝을 이용해 네트워크의 운용 상태에 대한 유용한 정보를 추출하기 위한 기법들이 연구되고 있다. 본 논문에서는 네트워크의 최적화를 위한 하나의 방법으로, 특정 노드의 트래픽 집중 현상을 줄이기 위한 방법을 제안한다. 제안된 방법은 먼저 노드별 트래픽 정보를 표현하고, 수집된 정보들간의 연관성을 가지는 규칙들을 찾으며, 이들 규칙들 중 중복되거나 유용하지 않은 규칙들을 제거하고, 마지막으로 네트워크의 구성 정보를 반영하여 트래픽의 분산에 도움이 되지 않는 정보를 담고 있는 규칙들을 제거한다. 이러한 과정으로 얻어진 규칙들은 새로운 라우팅 정책에 반영하여 병목 현상을 제거하는데 효과적으로 활용할 수 있다.
본 논문에서는 데이터의 전처리과정으로 SNMP MIB 데이터에 대한 속성 부분집합의 선택 방법(attribute subset selection)을 사용하여 특징선택 및 축소(feature selection & reduction)를 실시하였다. 또한 데이터 마이닝의 대표적인 해석학적 분석 모델인 연관관계규칙기법(association rule mining)을 이용하여 트래픽 폭주 공격 및 공격유형별 SNMP MIB 데이터에 내재되어 있는 특징들을 규칙의 형태로 추출하여 분석하는 의미론적 심층해석을 실시하였다. 공격유형에 대한 패턴 규칙의 추출 및 분석은 공격이 발생한 프로토콜에 대해서만 서비스를 제한하고 관리할 수 있는 정책적 근거를 제공함으로써 보다 안정적인 네트워크 환경과 원활한 자원관리를 지원할 수 있다. 본 논문에서 제시한 트래픽 폭주 공격 및 공격유형별 데이터로부터의 자동적 특징의 규칙 추출 및 의미론적 해석방법은 침입탐지 시스템을 위한 새로운 방법론에 모멘텀을 제시할 수 있다는 긍정적인 가능성과 함께 침입탐지 및 대응시스템의 정책 수립을 지원할 수 있을 것으로 기대된다.
건설업은 전체 산업 중에서 가장 많은 재해자를 발생시키는 산업 분야이다. 각 재해에서 발견되는 반복되는 요인들로 인해 재해가 발생하기 때문에 기존의 기술통계 분석 및 통계적 검정으로 업무상 재해 유형을 분석하는 데 한계가 있다. 이에 본 연구는 건설현장에서 발생하는 재해 유형 중 낙하물에 기인한 안전사고에 대하여 사망과 부상 사고로 구분하여 사고 원인들을 도출한다. 또한, 기계학습 기법 중 연관 규칙 분석 방법을 통하여 낙하물에 기인한 안전사고의 규칙을 발견하고, 낙하물의 요인들을 군집하여 중점 재해요인을 도출한다. 본 연구에서 제안한 낙하물에 기인한 사망과 부상 사고에 대한 규칙을 감안하여 낙하물에 기인한 안전사고에 대한 대처방안을 모색하면 보다 정확한 사고예방이 가능할 것으로 판단된다.
교통사고의 원인을 규명하고 미래의 사고를 방지하기 위한 노력의 일환으로 데이터 마이닝 기법을 이용한 교통 데이터 분석의 연구가 이루어지고 있다. 하지만 기존의 교통 데이터를 이용한 마이닝 연구들은 학습된 결과를 사람이 이해하기 어려워 분석에 많은 노력이 필요하다는 문제가 있었다. 본 논문에서는 많은 속성들로 표현된 교통사고 데이터로부터 유용한 패턴을 발견하기 위해 규칙 학습 기반의 데이터 마이닝 기법인 연관규칙 학습기법과 서브그룹 발견기법을 적용하였다. 연관규칙 학습기법은 비지도 학습 기법의 하나로 데이터 내에서 동시에 많이 등장하는 아이템(item)들을 찾아 규칙의 형태로 가공해 주며, 서브그룹 발견기법은 사용자가 지정한 대상 속성이 결론부에 나타나는 규칙을 학습하는 지도학습 기반 기법으로 일반성과 흥미도가 높은 규칙을 학습한다. 규칙 학습 시 사용자의 의도를 반영하기 위해서는 하나 이상의 관심 속성들을 조합한 합성 속성을 만들어 규칙을 학습할 수 있다. 규칙이 도출되고 나면 후처리 과정을 통해 중복된 규칙을 제거하고 유사한 규칙을 일반화하여 규칙들을 더 단순하고 이해하기 쉬운 형태로 가공한다. 교통사고 데이터를 대상으로 두 기법을 적용한 결과 대상 속성을 지정하지 않고 연관규칙 학습기법을 적용하는 경우 사용자가 쉽게 알기 어려운 속성 사이의 숨겨진 관계를 발견할 수 있었으며, 대상 속성을 지정하여 연관규칙 학습기법과 서브그룹 발견기법을 적용하는 경우 파라미터 조정에 많은 노력을 기울여야 하는 연관규칙 학습기법에 비해 서브그룹 발견기법이 흥미로운 규칙들을 더 쉽게 찾을 수 있음을 확인하였다.
네트워크의 광역화와 새로운 공격 유형의 발생으로 침입 탐지 시스템에서 새로운 시퀀스의 추가나 침입탐지 모델 구축의 수동적인 접근부분이 문제가 되고 있다. 특히 기존의 침입탐지 시스템들은 대량의 네트워크 하부구조를 가진 네트워크 정보를 수집 및 분석하는데 있어 각각 전담 시스템들이 담당하고 있다. 따라서 침입탐지 시스템에서 증가하는 많은 양의 감사데이터를 분석하여 다양한 공격 유형들에 대해서 능동적으로 대처할 수 있도록 하는 것이 필요하다. 최근, 침입 탐지 시스템에 데이터 마이닝 기법을 적용하여 능동적인 침입탐지시스템을 구축하고자 하는 연구들이 활발히 이루어지고 있다. 이 논문에서는 대량의 감사 데이터를 정확하고 효율적으로 분석하기 위한 마이닝 시스템을 설계하고 구현한다. 감사데이터는 트랜잭션데이터베이스와는 다른 특성을 가지는 데이터이므로 이를 고려한 마이닝 시스템을 설계하였다. 구현된 마이닝 시스템은 연관규칙 기법을 이용하여 감사데이터 속성간의 연관성을 탐사하고, 빈발 에피소드 기법을 적용하여 주어진 시간 내에서 상호 연관성 있게 발생한 이벤트들을 모음으로써 연속적인 시간간격 내에서 빈번하게 발생하는 사건들의 발견과 알려진 사건에서 시퀀스의 행동을 예측하거나 기술할 수 있는 규칙을 생성한 수 있다. 감사데이터의 마이닝 결과 생성된 규칙들은 능동적인 보안정책을 구축하는데 활용필 수 있다. 또한 데이터양의 감소로 침입 탐지시간을 최소화하는데도 기여한 것이다.
최근 정보기술이 발달하면서 수많은 자료들이 체계화된 데이터베이스에 저장이 되고, 기업의 데이터베이스의 규모는 폭발적으로 증가되고 있다. 데이터 마이닝(Data Mining)은 이런 방대한 자료의 분석을 통해, 그 속에 숨어있는 의미를 찾는 과정이라고 볼 수 있다. 본 논문에서는 자동차 마케팅에서 이용 가능한 데이터를 데이터 마이닝 분석 기법중의 하나인 연관규칙(association rule)에 따라 분석하였다. 본 논문에서 제시하고자 하는 바는 기존 고객에 대한 분류 및 고객 속성파악, 고객 분류 및 분석에 따른 고객의 연관규칙을 수행하여 해당 기업의 전략적 마케팅 수립을 통해 경영 과학적으로 접근할 수 있는 데이터 마이닝 분석에 관한 사례 연구이다. 본 논문의 분석 사례를 통하여 자동차 분야의 특성에 따라 효과적인 분석 및 의사결정과 더 나아가 CRM마케팅, 동향분석 및 예측 등에 유용한 정보를 분석할 수 있는 사례로 활용될 수 있다.
이탈 고객 예측은 데이터 마이닝에서 다루는 주요한 문제 중에 하나이다. 이탈 고객 예측은 일종의 분류(classification) 문제로 의사결정나무추론, 로지스틱 회귀분석, 인공신경망 등의 기법이 많이 활용되어왔다. 일반적으로 이탈 고객 예측을 위한 모델은 고객의 인구통계학적 정보와 계약이나 거래 정보를 입력변수로 하여 이탈 여부를 목표변수로 보는 형태로 분류 모델을 생성하게 된다. 본 연구에서는 고객과의 지속적인 접촉으로 발생되는 추가적인 사건 정보를 활용하여 연관성 규칙을 생성하고 이 결과를 기존의 방식으로 생성된 분류 모델과 결합하는 이탈 고객 예측 방법을 제시한다. 제시한 방법의 유용성을 확인하기 위해서 특정 국내 신용카드사의 실제 데이터를 활용하여 실험을 수행하였다. 실험 결과 제시된 방법이 기존의 전통적인 분류 모델에 비해서 향상된 성능을 보이는 것을 확인할 수 있었다. 제시된 예측 방법의 장점은 기존의 이탈 예측을 위한 입력 변수들 이외에 고객과 회사간의 접촉을 통해서 생성된 동적 정보들을 통합적으로 활용하여 예측 정확도를 높이고 실시간으로 이탈 확률을 갱신할 수 있다는 점이다.
본 웹사이트에 게시된 이메일 주소가 전자우편 수집 프로그램이나
그 밖의 기술적 장치를 이용하여 무단으로 수집되는 것을 거부하며,
이를 위반시 정보통신망법에 의해 형사 처벌됨을 유념하시기 바랍니다.
[게시일 2004년 10월 1일]
이용약관
제 1 장 총칙
제 1 조 (목적)
이 이용약관은 KoreaScience 홈페이지(이하 “당 사이트”)에서 제공하는 인터넷 서비스(이하 '서비스')의 가입조건 및 이용에 관한 제반 사항과 기타 필요한 사항을 구체적으로 규정함을 목적으로 합니다.
제 2 조 (용어의 정의)
① "이용자"라 함은 당 사이트에 접속하여 이 약관에 따라 당 사이트가 제공하는 서비스를 받는 회원 및 비회원을
말합니다.
② "회원"이라 함은 서비스를 이용하기 위하여 당 사이트에 개인정보를 제공하여 아이디(ID)와 비밀번호를 부여
받은 자를 말합니다.
③ "회원 아이디(ID)"라 함은 회원의 식별 및 서비스 이용을 위하여 자신이 선정한 문자 및 숫자의 조합을
말합니다.
④ "비밀번호(패스워드)"라 함은 회원이 자신의 비밀보호를 위하여 선정한 문자 및 숫자의 조합을 말합니다.
제 3 조 (이용약관의 효력 및 변경)
① 이 약관은 당 사이트에 게시하거나 기타의 방법으로 회원에게 공지함으로써 효력이 발생합니다.
② 당 사이트는 이 약관을 개정할 경우에 적용일자 및 개정사유를 명시하여 현행 약관과 함께 당 사이트의
초기화면에 그 적용일자 7일 이전부터 적용일자 전일까지 공지합니다. 다만, 회원에게 불리하게 약관내용을
변경하는 경우에는 최소한 30일 이상의 사전 유예기간을 두고 공지합니다. 이 경우 당 사이트는 개정 전
내용과 개정 후 내용을 명확하게 비교하여 이용자가 알기 쉽도록 표시합니다.
제 4 조(약관 외 준칙)
① 이 약관은 당 사이트가 제공하는 서비스에 관한 이용안내와 함께 적용됩니다.
② 이 약관에 명시되지 아니한 사항은 관계법령의 규정이 적용됩니다.
제 2 장 이용계약의 체결
제 5 조 (이용계약의 성립 등)
① 이용계약은 이용고객이 당 사이트가 정한 약관에 「동의합니다」를 선택하고, 당 사이트가 정한
온라인신청양식을 작성하여 서비스 이용을 신청한 후, 당 사이트가 이를 승낙함으로써 성립합니다.
② 제1항의 승낙은 당 사이트가 제공하는 과학기술정보검색, 맞춤정보, 서지정보 등 다른 서비스의 이용승낙을
포함합니다.
제 6 조 (회원가입)
서비스를 이용하고자 하는 고객은 당 사이트에서 정한 회원가입양식에 개인정보를 기재하여 가입을 하여야 합니다.
제 7 조 (개인정보의 보호 및 사용)
당 사이트는 관계법령이 정하는 바에 따라 회원 등록정보를 포함한 회원의 개인정보를 보호하기 위해 노력합니다. 회원 개인정보의 보호 및 사용에 대해서는 관련법령 및 당 사이트의 개인정보 보호정책이 적용됩니다.
제 8 조 (이용 신청의 승낙과 제한)
① 당 사이트는 제6조의 규정에 의한 이용신청고객에 대하여 서비스 이용을 승낙합니다.
② 당 사이트는 아래사항에 해당하는 경우에 대해서 승낙하지 아니 합니다.
- 이용계약 신청서의 내용을 허위로 기재한 경우
- 기타 규정한 제반사항을 위반하며 신청하는 경우
제 9 조 (회원 ID 부여 및 변경 등)
① 당 사이트는 이용고객에 대하여 약관에 정하는 바에 따라 자신이 선정한 회원 ID를 부여합니다.
② 회원 ID는 원칙적으로 변경이 불가하며 부득이한 사유로 인하여 변경 하고자 하는 경우에는 해당 ID를
해지하고 재가입해야 합니다.
③ 기타 회원 개인정보 관리 및 변경 등에 관한 사항은 서비스별 안내에 정하는 바에 의합니다.
제 3 장 계약 당사자의 의무
제 10 조 (KISTI의 의무)
① 당 사이트는 이용고객이 희망한 서비스 제공 개시일에 특별한 사정이 없는 한 서비스를 이용할 수 있도록
하여야 합니다.
② 당 사이트는 개인정보 보호를 위해 보안시스템을 구축하며 개인정보 보호정책을 공시하고 준수합니다.
③ 당 사이트는 회원으로부터 제기되는 의견이나 불만이 정당하다고 객관적으로 인정될 경우에는 적절한 절차를
거쳐 즉시 처리하여야 합니다. 다만, 즉시 처리가 곤란한 경우는 회원에게 그 사유와 처리일정을 통보하여야
합니다.
제 11 조 (회원의 의무)
① 이용자는 회원가입 신청 또는 회원정보 변경 시 실명으로 모든 사항을 사실에 근거하여 작성하여야 하며,
허위 또는 타인의 정보를 등록할 경우 일체의 권리를 주장할 수 없습니다.
② 당 사이트가 관계법령 및 개인정보 보호정책에 의거하여 그 책임을 지는 경우를 제외하고 회원에게 부여된
ID의 비밀번호 관리소홀, 부정사용에 의하여 발생하는 모든 결과에 대한 책임은 회원에게 있습니다.
③ 회원은 당 사이트 및 제 3자의 지적 재산권을 침해해서는 안 됩니다.
제 4 장 서비스의 이용
제 12 조 (서비스 이용 시간)
① 서비스 이용은 당 사이트의 업무상 또는 기술상 특별한 지장이 없는 한 연중무휴, 1일 24시간 운영을
원칙으로 합니다. 단, 당 사이트는 시스템 정기점검, 증설 및 교체를 위해 당 사이트가 정한 날이나 시간에
서비스를 일시 중단할 수 있으며, 예정되어 있는 작업으로 인한 서비스 일시중단은 당 사이트 홈페이지를
통해 사전에 공지합니다.
② 당 사이트는 서비스를 특정범위로 분할하여 각 범위별로 이용가능시간을 별도로 지정할 수 있습니다. 다만
이 경우 그 내용을 공지합니다.
제 13 조 (홈페이지 저작권)
① NDSL에서 제공하는 모든 저작물의 저작권은 원저작자에게 있으며, KISTI는 복제/배포/전송권을 확보하고
있습니다.
② NDSL에서 제공하는 콘텐츠를 상업적 및 기타 영리목적으로 복제/배포/전송할 경우 사전에 KISTI의 허락을
받아야 합니다.
③ NDSL에서 제공하는 콘텐츠를 보도, 비평, 교육, 연구 등을 위하여 정당한 범위 안에서 공정한 관행에
합치되게 인용할 수 있습니다.
④ NDSL에서 제공하는 콘텐츠를 무단 복제, 전송, 배포 기타 저작권법에 위반되는 방법으로 이용할 경우
저작권법 제136조에 따라 5년 이하의 징역 또는 5천만 원 이하의 벌금에 처해질 수 있습니다.
제 14 조 (유료서비스)
① 당 사이트 및 협력기관이 정한 유료서비스(원문복사 등)는 별도로 정해진 바에 따르며, 변경사항은 시행 전에
당 사이트 홈페이지를 통하여 회원에게 공지합니다.
② 유료서비스를 이용하려는 회원은 정해진 요금체계에 따라 요금을 납부해야 합니다.
제 5 장 계약 해지 및 이용 제한
제 15 조 (계약 해지)
회원이 이용계약을 해지하고자 하는 때에는 [가입해지] 메뉴를 이용해 직접 해지해야 합니다.
제 16 조 (서비스 이용제한)
① 당 사이트는 회원이 서비스 이용내용에 있어서 본 약관 제 11조 내용을 위반하거나, 다음 각 호에 해당하는
경우 서비스 이용을 제한할 수 있습니다.
- 2년 이상 서비스를 이용한 적이 없는 경우
- 기타 정상적인 서비스 운영에 방해가 될 경우
② 상기 이용제한 규정에 따라 서비스를 이용하는 회원에게 서비스 이용에 대하여 별도 공지 없이 서비스 이용의
일시정지, 이용계약 해지 할 수 있습니다.
제 17 조 (전자우편주소 수집 금지)
회원은 전자우편주소 추출기 등을 이용하여 전자우편주소를 수집 또는 제3자에게 제공할 수 없습니다.
제 6 장 손해배상 및 기타사항
제 18 조 (손해배상)
당 사이트는 무료로 제공되는 서비스와 관련하여 회원에게 어떠한 손해가 발생하더라도 당 사이트가 고의 또는 과실로 인한 손해발생을 제외하고는 이에 대하여 책임을 부담하지 아니합니다.
제 19 조 (관할 법원)
서비스 이용으로 발생한 분쟁에 대해 소송이 제기되는 경우 민사 소송법상의 관할 법원에 제기합니다.
[부 칙]
1. (시행일) 이 약관은 2016년 9월 5일부터 적용되며, 종전 약관은 본 약관으로 대체되며, 개정된 약관의 적용일 이전 가입자도 개정된 약관의 적용을 받습니다.