• 제목/요약/키워드: 정량적 연관규칙

검색결과 17건 처리시간 0.05초

퍼지 일반화 계층을 이용한 일반화된 퍼지 정량 연관규칙 마이닝 (Mining Generalized Fuzzy Quantitative Association Rules with Fuzzy Generalization Hierarchies)

  • 한상훈;손봉기;이건명
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2001년도 춘계학술대회 학술발표 논문집
    • /
    • pp.8-11
    • /
    • 2001
  • 연관규칙 마이닝은 트랜잭션 데이터를 이루고 있는 항목간의 잠재적인 의존관계를 발견하는 데이터 마이닝의 한 분야이다. 정량 연관규칙이란 부류적 속성과 정량적 속성을 모두 포함한 연관규칙이다. 정량 연관규칙 마아닝을 위한 퍼지 기술의 응용, 정량 연관규칙 마이닝을 위한 일반화된 연관규칙 마이닝, 사용자의 관심도를 반영한 중요도 가중치가 있는 연관규칙 마이닝 등에 대한 연구가 이루어져 왔다. 이 논문에서는 중요도 가중치가 있는 일반화된 퍼지 정량 연관규칙 마이닝의 새로운 방법을 제안한다. 이 방법은 부류적 속성의 퍼지 개념 계층과 정량적 속성의 퍼지 언어항 일반화 계층을 일반화된 추출하기 위해 이용한다. 이것은 속성들의 수준별 일반화 계층과 속성의 중요도 가중치를 이용함으로써 사용자가 보다 융통성 있는 연관규칙을 마이닝할 수 있게 해준다.

  • PDF

퍼지 연관규칙과 연관규칙의 성능 평가 (Performance Estimation of Fuzzr Quantitative Association Rules and Crisp Quantitative Association Rules)

  • 손영경;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.235-237
    • /
    • 2002
  • 연관규칙(association rule)이란 데이터 베이스에 존재하는 속성들 사이에 유사성 또는 패턴을 기술하는 것으로, 사용자에게 데이터에 관한 유용한 조보를 줄 수 있다. 그러나, 지금가지의 연관규칙은 이진 (boolean) 데이터 베이스에 존재하는 연관규칙의 발견에 대해서 주로 연구되어 왔으며, 정량적(수치적, quantitative) 속성을 갖는 데이터에 대한 연관규칙의 연구는 미비하였다. 그 이유는 정량적 속성을 갖는 데이터를 기호적(nominal) 속성값으로 바꾼 후 연관규칙 보다 성능이 우수함을 보이고 있다. 또한 본 논문에서는 퍼지 연관규칙에서 소속함수(항목, 아이템, 속성값)의 모양과 개수를 데이터 분포에 대한 통계적 특성을 나타내는 히스토그램을 이용하여 소속함수를 자동 생성하는 효율적인 연관규칙 추출방법을 제안한다

  • PDF

상용 데이타 마이닝 도구를 사용한 정량적 연관규칙 마이닝 (Mining Quantitative Association Rules using Commercial Data Mining Tools)

  • 강공미;문양세;최훈영;김진호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권2호
    • /
    • pp.97-111
    • /
    • 2008
  • 상용 데이타 마이닝 도구에서는 기본적으로 이진 속성에 대한 연관규칙 마이닝만을 지원한다. 그러나, 일반적인 트랜잭션 데이타베이스는 이진 속성 뿐 아니라 정량적 속성을 포함한다. 이에 따라, 본 논문에서는 상용 데이타 마이닝 도구를 사용하여 정량적 연관규칙을 마이닝하는 체계적인 접근법을 제안한다. 이를 위해, 우선 상용 데이타 마이닝 도구를 사용하여 정량적 연관규칙을 찾아내기 위한 전체적인 프레임워크를 제안한다. 제안한 프레임워크는 정량적 속성을 이진 속성으로 변환하는 전처리 과정과 마이닝된 이진 연관규칙을 다시 정량적 연관규칙으로 변환하는 후처리 과정으로 구성된다. 다음으로, 전처리 과정을 위한 구간 분할의 개념을 제시하고, 기존의 평균 및 중앙치 기반 양분할 기법과 동일 너비 및 동일 깊이 기반 다분할 기법을 구간 분할의 개념으로 정형적으로 재정의한다. 그런데, 이들 기존 분할 기법은 속성 값의 분포를 고려하지 않은 문제점이 있다. 본 논문에서는 이를 해결하기 위하여 표준편차 최소화 기법을 제안한다. 표준편차 최소화 기법은 이웃한 속성 값의 표준편차 변화가 작다면 동일한 구간에 포함시키고, 표준편차 변화가 크다면 다른 구간으로 분할하는 매우 직관적인 분할 기법이다. 또한, 후처리 과정으로는 이진 연관규칙들을 통합하고 이를 다시 정량적 연관규칙으로 변환하는 방법을 제안한다. 마지막으로, 다양한 실험을 통하여 제안한 프레임워크가 바르게 동작함을 보이고, 표준편차 최소화 기법이 다른 기법에 비하여 우수함을 입증한다. 이 같은 결과를 볼 때, 제안한 프레임워크는 일반 사용자가 상용 데이타 마아닝 도구를 사용하여 정량적 연간규칙을 쉽게 마이닝 할 수 있는 매우 실용적인 접근법이라 생각한다.

퍼지 연관규칙을 이용한 지능적 질의해석 (Intelligent Query Analysis using Fuzzy Association Rule)

  • 김미혜
    • 한국산학기술학회논문지
    • /
    • 제11권6호
    • /
    • pp.2214-2218
    • /
    • 2010
  • 대용량 데이터에서 의미있고 유용한 지식을 추출하는 기법 중의 하나인 연관규칙은 데이터베이스에 존재하는 속성들 사이에 유사성 또는 패턴을 기술하여 사용자에게 데이터에 관한 유용한 정보를 줄 수 있다. 기존에 연구되어 온 연관규칙은 이진(boolean) 데이터베이스에 존재하는 유무에 대한 규칙으로 발견하는 것에 대해서 주로 연구되어왔다. 본 논문에서는 정량적 속성의 데이터를 기호적 속성 값으로 바꾼 후 연관규칙을 추출함으로써, 퍼지개념을 사용한 퍼지 연관규칙을 이용한 지능적 질의 처리 시스템을 제안하고자 한다.

데이터 마이닝을 위한 연관규칙의 다중 값 속성 처리방법 (Processing Multi-Valued Attributes in Association Rules for Data Mining)

  • 김산성;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.340-342
    • /
    • 2002
  • 다중 값이란 속성 값이 집합인 것을 말한다. 즉, 관계형 데이터베이스에서 자료 유형이 집합인 속성을 의미한다. 이러한 다중 값 속성 처리는 기존 데이터마이닝 기술 자체로는 처리한 수 없으며 후처리나 선처리 과정을 이용하여 처리하고 있다. 전처리나 후처리 과정을 통해 처리할 경우 수행과장에 있어 많은 시간이 소요되고 혹은 타당하지 않은 규칙이 생성되는 문제점을 가지고 있다. 특히 연관화 기법 특성상 분석하고자 할 항목이 증가할수록 연관성의 수가 지수(exponential)단위이기 때문에 이를 해결하는데는 상당한 어려움이 따르게 된다. 본 논문에서는 관계형 데이터베이스 테이블 구조에서 데이터 마이닝의 수행을 위한 전처리나 후처리의 과정을 고려하지 않음으로 위에서 언급된 문제점들을 해결하고자 한다. 특히 데이터 변환 작업 없이 정량적(Quantitative)연관 규칙과 연관 규칙(Market Basket Analysis)의 혼합 형태의 규칙을 생성할 수 있게끔 알고리즘을 확장하여 보다 효율적인 규칙이 생성될 수 있도록 한다. 마지막으로 Each Movie 데이터를 사용하여 확장한 알고리즘의 다중 값 속성 처리 방법의 효율성과 타탕성을 검증한다.

  • PDF

데이터마이닝 기법을 활용한 건설 중대 재해요인 간 연관성 분석 (Affinity Analysis Between Factors of Fatal Occupational Accidents in Construction Using Data Mining Techniques)

  • 임지선;한상욱;강영철;강상혁
    • 한국건설관리학회논문집
    • /
    • 제22권5호
    • /
    • pp.29-38
    • /
    • 2021
  • 정부와 기업이 건설업의 산업재해를 줄이기 위해 지속적으로 노력하고 있지만, 재해는 크게 줄어들지 않고 있다. 본 연구는 건설 재해에 영향을 미치는 요인들 간의 연관성을 정량적으로 규명하고자 하였다. 산업안전공단에서 공개한 중대재해 사례 1,197건을 대상으로, 데이터마이닝 기법 중 하나인 연관성 분석을 이용하여 연구를 수행하였다. 산업안전공단에서 제공하는 데이터와 외부 변수를 포함하여 재해 발생 형태, 건설업종, 작업내용, 기인물, 체감온도, 사고 시간대, 추락높이의 변수로 아이템을 구성하여 분석하였으며, 떨어짐 재해와 그 외의 재해로 구분하여 연관규칙을 도출하였다. 떨어짐 재해의 경우 향상도가 1.38 이상인 64개의 연관규칙을 도출하였으며, 떨어짐을 제외한 재해의 경우 향상도가 1.54 이상인 59개의 연관규칙을 도출하였다. 도출된 연관규칙을 재해요인 간의 연관성에 초점을 두고 해석한 후, 고찰에서 연구의 한계와 건설재해 요인 간의 관련성을 파악할 때 연관성 분석 기법을 적용함에 있어 유의사항을 제시하였다. 본 연구는 건설 재해에 영향을 미치는 요인들 간의 연관성을 정량적인 수치로 제시하여 추후 근로자들과 현장관리자가 건설현장에서 적절한 안전대책을 마련하는 기초자료를 제공하였다는 점에서 의미를 찾을 수 있다.

구조화된 연관맵을 이용한 연구개발 전략 수립 (A R&D strategies for development using structured association map)

  • 송원호;이준석;박상성
    • 한국지능시스템학회논문지
    • /
    • 제26권3호
    • /
    • pp.190-195
    • /
    • 2016
  • 급변하는 글로벌 시장 환경에서 기술은 계속해서 급속히 발전하고 있다. 이러한 급변하고 있는 환경을 반영한 연구개발은 기업에 있어서 필수가 되었다. 즉, 기업의 경쟁력 향상을 위해서는 자사가 보유한 기술에 대한 체계적인 분석이 필요하다. 최근에는 객관적이며 정량화된 기술분류를 위하여 특허문서의 IPC 코드를 이용하여 기술분류를 수행하고 있다. 국제특허분류인 IPC 코드는 국제적으로 규격화된 기술분류 코드이기 때문에, 이를 활용하면 객관적이고 정량화된 기술분석 수행이 가능하다. 본 논문에서는 C사의(社) 특허에 대하여 전수조사를 실시하고, IPC 코드기반 분석 Matrix를 구축한 후 해당특허들을 신뢰도 기반의 연관규칙 마이닝을 실시하며 구조화된 연관맵을 생성한다. 연관맵을 이용하면 해당회사의 특허 현황 파악에 유용하게 활용된다. 또한, 구조화된 연관맵을 이용하면 상호 연관있는 기술에 대하여 군집화를 가능하게 하기 때문에, 본 논문에서 제시한 C사(社)의 기술을 파악할 수 있으며 이를 기반으로 기술 흐름과 향후 기술 전략 수립을 가능하게 한다.

국민청원글의 토픽 모델링을 통한 교육이슈 분석 (Analysis of Educational Issues through Topic Modeling of National Petitions Text)

  • 심재권
    • 정보교육학회논문지
    • /
    • 제25권4호
    • /
    • pp.633-640
    • /
    • 2021
  • 교육과 관련된 이슈는 다양한 집단과 상황이 서로 복잡하게 연계된 사회문제로 교육과 관련된 현상을 분석하여 이슈와 문제를 구체적으로 발견하는 것은 쉽지 않은 일이다. 한국어 기반 텍스트 분석은 정량적인 형태로 분석이 가능하고, 텍스트 분석기법의 발전에 따라 연구적인 성과를 내고 있어 교육과 관련된 이슈를 한국어 텍스트로 된 데이터에서 도출하는데 충분히 활용할 수 있다. 본 연구는 청와대 국민청원 홈페이지 게시판의 육아/교육 분야의 청원글을 수집하고 텍스트 분석방법을 활용하여 교육계의 이슈와 문제를 도출하고자 하였다. 분석은 토픽 모델링 기법 중 잠재 디리클레 할당(LDA)을 통해 6개 토픽을 도출하였고, 주요 키워드의 연관규칙을 분석하여 그래프로 시각화하였다. 기존의 설문을 통한 교육의 이슈를 도출하는 방법 이외에 추가로 텍스트 기반의 분석방법을 통해 이슈를 충분히 발견할 수 있다는 점에서 향후 연구의 방향과 정책에 시사점을 제공할 수 있다.

가중연관규칙 탐사를 이용한 재활훈련운동과 근육 활성의 연관성 분석 (Analysis on Relation between Rehabilitation Training Movement and Muscle Activation using Weighted Association Rule Discovery)

  • 이아름;박용군;권대규;김정자
    • 전자공학회논문지CI
    • /
    • 제46권6호
    • /
    • pp.7-17
    • /
    • 2009
  • 효과적인 재활 시스템을 구상하는데 있어서 훈련 데이터의 정교한 분석은 다음 단계 훈련을 위한 피드백 자료로서 매우 중요하다. 현재 다양한 생체 역학적 실험을 통해 인간의 운동 능력을 평가하고 이로부터 생성된 데이터의 분석을 위한 객관적이고 신뢰성 있는 연구결과들이 발표되고 있다. 그러나 대부분의 기존 연구들은 기초 통계적인 방법에 근거한 정량분석만을 수행함으로써, 획득된 정보를 임상에 적용 하는데 있어서는 충분한 신뢰성을 보장할 수 없다. 데이터마이닝은 대용량 데이터에 들어있는 숨겨진 규칙과 패턴을 탐사함으로써 임상 데이터에 숨어있는 의미 있는 정보추출에 성공적으로 사용되고 있으며, 특히 임상 연구 분야에서는 훌륭한 의사 결정 지원 시스템으로서 점점 그 사용이 증가되고 있다. 본 연구에서는 신뢰성 있는 자세 제어 능력(Postural control ability) 평가를 위해서 측정된 훈련 데이터에 가중연관규칙 탐사를 적용하여 자세 훈련 유형에 따른 근육 활성 패턴과의 연관성을 분석, 효율적인 재활 훈련 규칙을 탐사하였다. 탐사된 규칙은 재활 및 임상 전문가의 의사결정에 더욱 정성적이고 유용한 선험적 지식으로 사용 될 수 있으며, 이를 근거로 환자 맞춤형 최적의 재활 훈련 모델을 구상하기 위한 지표로서 사용될 수 있다.

의미정보모델 구축을 위한 색채정보의 수집과 정량적 분석 (Collecting and Analyzing Color Information for Constructing Semantic Information Model)

  • 류기곤;선동언;김현철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.232-235
    • /
    • 2011
  • 지식표현은 일반적으로 논리, 규칙, 프레임 또는 의미망 형태로 표현되며, 최근에는 의미망을 이용한 온톨로지 형태로 표현되고 있다. 이러한 지식표현 방법은 개념을 설명하는 문맥적인 정보나 개념들 간의 구조적인 정보를 이용하여 개념에 대한 지식을 논리적으로 표현하는데 중점을 두었다. 하지만, 지식표현에 사용되는 의미정보는 사람에 의해 수집되고 정제되기 때문에 많은 시간, 비용 및 인력이 필요하다는 한계가 있고, 새로운 의미를 추가하거나 기존의 의미를 수정하는 것이 매우 어렵다는 한계가 있다. 색채는 특정 대상이나 개념에 대한 의미, 연상, 상징 등 객관적인 특징 뿐 아니라 시대, 나라, 문화와 같은 사회적 배경을 반영하기 때문에, 정보를 제공하고 감성을 전달하는 효과적인 수단으로 사용되고 있다. 이에 본 논문은, 색채를 이용한 의미정보모델 구축을 위해, 색채정보를 수집하고 정량적으로 분석하는 방법을 제안한다. 긍정/부정/불안/중립으로 구성된 감성어휘 273개를 이용하여 이미지를 수집한 결과 총 130,944개의 이미지를 수집하였다. 이미지에는 여러 가지 사물, 행동, 배경, 색채 등 다양한 정보가 혼재되어 있어 감성어휘와 연관된 색채를 구별하기 어렵기 때문에 이미지를 직관적으로 설명할 수 있는 사용자 태그를 별도로 수집하였다. 태그는 총 2,836,395개를 수집하였고 각 이미지와 그룹에서의 가중치를 구하였다. 태그의 가중치를 통해 이미지가 그룹 내에서 갖는 중요도를 판별하였고, 각 그룹 별로 상위 30%의 이미지를 추출하여 대표 색채를 분석하였다.