• 제목/요약/키워드: 트리 마이닝

검색결과 129건 처리시간 0.025초

데이타 마이닝을 사용한 방학 중 학습방법과 학업성취도의 관계 분석 (Effective Studying Methods during a School Vacation: A Data Mining Approach)

  • 김혜숙;문양세;김진호;노웅기
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권1호
    • /
    • pp.40-51
    • /
    • 2007
  • 학업성취도 향상을 위해 정규 수업 이외에도 과외, 학원수강, 교육방송 시청 등 다양한 교육이 이루어지고 있다. 본 논문에서는 방학 중 학습방법과 생활습관이 학업성취도 변화에 미치는 영향을 분석하기 위한 데이타 마이닝 접근법을 제안한다. 우선, 학업성취도에 영향을 미치는 방학중의 학습방법과 생활습관에 대한 다양한 요소를 도출한다. 다음으로, 마이닝 기법 중 의사결정트리와 연관 규칙을 사용하기 위한 데이타 변환 및 분석 방법을 제안한다. 마지막으로, 설문조사를 통해 수집한 현실의 구체적 데이터에서 의사결정트리를 생성하고 연관 규칙을 추출하는 방법을 제안한다. 중학생들에 대한 설문조사를 분석한 결과, 의사결정트리의 경우 네 가지 의미있는 결과를 도출하였다. 첫째, 상위권 학생들의 경우 학원수강이 성적을 향상시키는 것으로 나타났다. 둘째, 대부분 학생들의 경우 인터넷 학습사이트 이용은 성적을 하락시키는 것으로 나타났다. 셋째, 성적 변화에 큰 영향을 미칠 것으로 예상했던 과외는 실제로 큰 영향을 미치지 못하는 것으로 나타났다. 넷째, 다양한 학습방법의 병행은 오히려 성적 하락의 요인이 되는 것으로 파악되었다. 다음으로, 연관 규칙 추출 결과, 방학 중 활동 사이에는 특이한 규칙이 없는 것으로 나타났다. 본 논문에서 제시한 데이타 마이닝 접근법 및 결과는 학생들의 방학 중 생활 지도나 학습 계획 수립에 많은 도움이 될 수 있다고 사료된다.

트리밍 방식 수정을 통한 연관규칙 마이닝 개선 (Improved Association Rule Mining by Modified Trimming)

  • 황원태;김동승
    • 전자공학회논문지CI
    • /
    • 제45권3호
    • /
    • pp.15-21
    • /
    • 2008
  • 본 논문은 2단 샘플링을 통해 정확도는 줄지만 신속하게 연관규칙을 추출하는 새로운 마이닝 알고리즘을 제안한다. 직전 연구인 FAST(Finding Association by Sampling Technique) 기법은 빈발1항목만 최적샘플 형성과정에 적용하여 빈발2항목 및 그이상의 빈발항목을 샘플 추출에 반영하지 못하였다. 이 논문은 그러한 약점을 보완하여 트리밍 과정에서 손실항목과 오류항목의 비중을 동시에 고려하여 다수 빈발항목에 대한 마이닝의 정확성을 높였다. 대표적인 데이터 세트를 써서 실험한 결과 이전연구와 비교해서 동일한 품질하에서 새 알고리즘의 정확도가 향상됨을 확인하였다.

스마트 홈 환경에서 데이터 마이닝 기법을 이용한 지능형 서비스 추론 모델 (Intelligent Service Reasoning Model Using Data Mining In Smart Home Environments)

  • 강명석;김학배
    • 한국통신학회논문지
    • /
    • 제32권12B호
    • /
    • pp.767-778
    • /
    • 2007
  • 본 논문에서는 스마트 홈 환경에서 데이터 마이닝 기법을 이용하여 사용자에게 상황에 적합한 서비스를 추론하는 모델을 제안한다. 의사결정트리 알고리즘들 중에 하나인 C4.5 알고리즘을 기반으로 서비스 추론에 쓰이는 서비스 트리를 생성하고, 정량적 특성 규칙과 정량적 판별 규칙을 이용하는 정량적 가중치 산정 알고리즘을 통해 사용자에게 제공될 서비스를 추론한다. 또한 시뮬레이션을 통해 그 성능을 검증하였다.

데이터 마이닝을 위한 대용량 고차원 데이터의 셀-기반 분류방법 (Cell-based Classification of High-dimensional Large data for Data Mining Application)

  • 진두석;장재우
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.192-194
    • /
    • 2000
  • 최근 데이터 마이닝에서 대용량 데이터를 처리하는 응용이 많아짐에 따라, 클러스터링(Clustering) 및 분류(Classification)방법이 중요한 분야가 되고 있다. 특히 분류방법에 관한 기존 연구들은 단지 메모리 상주(memory-resident) 데이터에 대해 한정되며 고차원 데이터를 효율적으로 처리할 수 없다. 따라서 본 논문에서는 대용량 고차원 데이터를 효과적으로 처리할 수 있는 새로운 분류 알고리즘을 제안한다. 이는 데이터들을 차원 공간상의 셀(cell)로 표현함으로써 수치(numerical) 애트리뷰트와 범주(categorical) 애트리뷰트 모두 처리할 수 있는 알고리즘을 제안한다. 아울러, 실험결과를 통해 제안한 알고리즘이 데이터의 양,차원 그리고 속성에 관계없이 분류를 효과적으로 수행함을 보인다.

  • PDF

상황정보와 공간 데이터 마이닝 기법을 이용한 추천 시스템 (Recommender System using Context Information and Spatial Data Mining)

  • 이배희;조근식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.667-669
    • /
    • 2005
  • 유비쿼터스 시대를 향하여 나아가는 현대 사회에서 사람들을 위한 추천시스템은 필수 불가결한 요소 중의 하나이다. 추천 시스템 중에서 사용자의 성별, 나이, 직업 등의 인구 통계적 요소를 고려한 시스템이 주를 이루고 있지만 이러한 시스템에는 어느 정도의 한계가 있다. 추천에 있어서 사용자의 기분, 날씨, 온도 등 주변 환경의 상황이 반영되지 않고 있고 학습을 위한 데이터에 대한 신뢰도 또한 문제가 된다. 이러한 문제점을 해결하기 위해 본 논문에서는 상황정보(Context Information)와 공간 데이터 마이닝(Spatial Data Mining) 기법을 이용한 향상된 추천 시스템을 제안한다. 제안하는 시스템에서는 보다 정확한 추천을 위해 첫째, 날씨, 온도, 사용자의 기분 등의 상황정보를 고려하였다. 그리고 사용자의 유사도 측정을 통해 학습 데이터의 신뢰도를 향상시켰으며, 셋째, 의사결정 트리(Decision Tree) 기법을 이용하여 추천의 정확도를 높였다. 실험을 통하여 측정한 결과 제안하는 추천시스템이 기존의 인구 통계적 요소만을 고려한 시스템이나 의사결정 트리만을 이용한 시스템보다 향상된 성능을 보였다.

  • PDF

최대 빈발 패턴을 이용한 온라인 쇼핑객의 구매규칙에 대한 효율적인 마이닝 (Efficient Mining E-Shopper's Purchase Behavior Based on Maximal Frequent Patterns)

  • 조재현;;정병수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.1357-1360
    • /
    • 2012
  • 온라인 쇼핑객의 구매 규칙을 예견하기 위해 기업은 데이터 마이닝 기법을 사용하는데, 최대 빈발 패턴은 특정한 고객의 구매 원칙을 드러내기 때문에, 최대 빈발 패턴에 대한 마이닝은 최근 시장 분석에서 핵심적 이슈가 되고 있다. 본 논문에서 우리는 오리지널 데이터세트로부터 널 트랜잭션(Null Transaction)을 제거한 후, 최대 빈발 패턴을 발생시키기 위한 BRE-트리(Bottom-up Row Enumeration Tree)를 적용시켰다. 다음으로 온라인 거래 데이터베이스에서 고객 구매 규칙의 마이닝을 위한 항목들 간의 거리를 계산하기 위해, SCL(Sequence Close Level)의 변형된 버전을 사용하였다. 실험결과는 합리적인 시간 내에 고객의 구매 규칙을 더 정확하게 예견할 수 있음을 보여준다.

HTML특성을 고려한 트리 편집 거리 측정 알고리즘의 개선 (Improvement of an algorithm for tree-editing distance measure regarding the features of HTML)

  • 김연정;박제현;최중민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.718-720
    • /
    • 2005
  • 웹 문서를 대상으로 하는 정보 추출이나 웹 마이닝에 관한 연구가 활발히 진행되면서 특히, 웹에서 나타나는 구조적 패턴을 이용해 정보를 추출하는 방법에 대한 연구가 이루어 지고 있다. 기존의 연구는 HTML을 단순 문자열로 취급하였으나 연구가 거듭됨에 따라 트리로 접근하는 방안에 대해 논의가 되었으며 성능 또한 우수한 것으로 평가되고 있다. 하지만, 기존의 트리 편집 거리의 기법은 모든 노드가 동일한 값을 가진다는 가정하에 진행되는 것으로 HTML의 특성과는 맞지 않다. HTMI은 브라우저에 정보를 보여주기 위한 도구이며 실제 브라우저에 보여지는 내용의 비율이 트리에서의 노드의 비율과 항상 같은 것은 아니기 때문이다. 이 논문에서는 위와 같은 HTML의 특성을 이용하여 노드가 가진 정보의 크기에 따라 서로 다른 비율의 기여도를 부여하고, 이를 고려한 개선된 트리 편집 거리 측정 알고리즘을 이용하여 좀더 나은 패턴 추출 방법을 제안하고자 한다.

  • PDF

대용량 웹 로그 마이닝 및 공격탐지를 위한 B-트리 인덱스 벡터 기반 고속 검색 기법 (High-Speed Search Mechanism based on B-Tree Index Vector for Huge Web Log Mining and Web Attack Detection)

  • 이형우;김태수
    • 한국멀티미디어학회논문지
    • /
    • 제11권11호
    • /
    • pp.1601-1614
    • /
    • 2008
  • 최근 대부분의 인터넷 환경이 쳅 기반 시스템으로 발전하면서 웹 서비스 사용자 수는 꾸준히 증가하고 있다. 따라서 일반 사용자가 대형 포털 사이트 웹 서버 접속시 생성되는 로그 정보를 분석하여 웹 서버에 대한 공격을 탐지하거나 웹 마이닝 기술과 접목하기 위해서는 대용량의 웹 로그 정보에 대한 효율적인 분석 기법이 필요하다. 기존 웹 로그 전처리 기법은 로그 문자열의 순차적인 탐색을 수행하므로 대용량의 웹 로그 고속화 처리에 적합하지 않다. 본 연구에서는 대용량 웹 로그 정보에 대해 B-트리 인덱싱 벡터 구조를 이용하여 필드별 분류 및 고속 검색 알고리즘을 개발하였다 이를 통해 효율적으로 대용량 로고로부터 효율적인 세션 분석 기능과 개선된 검색 성능을 제공할 수 있었으며 웹 서버에 대한 공격 탐지에도 활용할 수 있었다.

  • PDF

전위 트리를 이용한 사용자 프로파일 기반의 문서 패턴 검색 기법 (Text Pattern Search Based on User Profile using Prefix Tree)

  • 우호진;이원석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.533-536
    • /
    • 2005
  • 기하급수적으로 증가하는 데이터 중에서 개개인 사용자에게 적합한 정보를 추출하여 제공해야 할 필요성이 증대되고 있다. 본 논문에서는 대용량의 문서 집합으로부터 사용자가 원하는 특정 주제의 정보를 정확하게 추출해 낼 수 있는 문서 패턴 검색 방법을 제시한다. 사용자 선호도를 정확하게 반영할 수 있도록 전위 트리를 기반으로 사용자의 키워드 마이닝 프로파일을 생성하고, 이를 이용하여 문서 집합에서 매치된 패턴을 찾아내는 방법을 제안하였다. 생성된 프로파일을 이용한 검색 기법의 효용성을 실험을 통해 검증하였다.

  • PDF

RHadoop 플랫폼기반 CAWFP-Tree를 이용한 적응 빈발 패턴 알고리즘 (Adaptive Frequent Pattern Algorithm using CAWFP-Tree based on RHadoop Platform)

  • 박인규
    • 디지털융복합연구
    • /
    • 제15권6호
    • /
    • pp.229-236
    • /
    • 2017
  • 효율적인 빈발 패턴 알고리즘은 연관 규칙 마이닝이나 융복합을 위한 마이닝 과정에서 필수적인 요소이며 많은 활용성을 가지고 있다. 패턴 마이닝을 위한 많은 모델들이 빈발 패턴에 관한 정보를 추출하여 FP-트리를 이용하여 저장하고 있다. 본 논문에서는 항목들의 무게중심을 이용한 새로운 빈발 패턴 알고리즘(CAWFP-Growth)을 제안하여 항목들이 가지는 가중치와 빈도수를 같이 고려하여 항목간의 중심을 계산하여 기존의 FP-Growth 알고리즘의 효율성을 향상시킨다. 제안한 방법은 하향 폐쇄의 성질을 유지하기 위한 기존의 전역적 최대치 가중치 지지도를 필요로 하지 않기 때문에 자연히 빈발 패턴의 탐색시간이 줄어들고 정보의 손실을 줄일 수 있다. 실험결과를 통하여 제안된 알고리즘이 기존의 동적가중치를 이용하는 다른 방법과 비교해볼 때, 항목들의 무게중심이 빈발패턴의 정확한 정보를 유지하고 FP-트리의 처리시간을 줄여주기 때문에 제안한 방법의 중요성을 보이고 있다 또한 가상 분산모드에서 맵리듀스 프레임을 기반으로 빅데이터를 모델링하고 향후 완전분산 모드에서 제안한 알고리즘의 모델링이 필요하다.