• 제목/요약/키워드: 연관 규칙 확장

검색결과 61건 처리시간 0.03초

XOnto-Apriori: 확장된 온톨로지 추론 기반의 연관 규칙 마이닝 알고리즘 (XOnto-Apriori: An eXtended Ontology Reasoning-based Association Rule Mining Algorithm)

  • 이종현;김장원;정동원;이석훈;백두권
    • 정보처리학회논문지D
    • /
    • 제18D권6호
    • /
    • pp.423-432
    • /
    • 2011
  • 이 논문에서는 연관 규칙 마이닝 알고리즘의 정확도를 향상시키기 위하여 기존 Onto-Apriori 알고리즘을 확장한 XOnto-Apriori 알고리즘을 제안한다. 기존 알고리즘은 트랜잭션 항목의 식별자만을 비교하여 지지도를 계산하기 때문에 유사한 속성을 가진 항목들간의 관계를 분석하지 못하는 문제점을 지닌다. 이러한 문제점을 해결하기 위해 제안 알고리즘은 온톨로지 추론 기반의 속성 비교를 통해 같은 식별자를 지니지 않는 항목들간의 관계성도 지지도 계산에 반영할 수 있도록 한다. 제안 알고리즘의 규칙 생성 과정을 명확히 서술하기 위해 스마트폰 어플리케이션 추천 시스템을 설계하였으며 이 시스템은 기존 알고리즘 기반의 시스템에 비해 보다 나은 속도와 정확도를 보였다.

다크웹 아동 음란물 추적을 위한 연관규칙 기반 키워드 수집체계 (Keyword Collection System based on Association Rules to Track Pornography of Children on Dark Webs)

  • 김진경;김지연;김창훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.207-208
    • /
    • 2023
  • 다크웹을 통한 마약, 금융거래, 해킹 등 사이버 범죄가 증가하면서 다크웹 상의 범죄 추적을 위한 사이버 수사 필요성이 증대되고 있다. Tor와 같은 다크웹 접속 브라우저는 강력한 익명성을 제공하기 때문에 주로 다크웹 운영상의 취약점 분석, 악성코드를 활용한 함정수사 기법이 실효성 높은 다크웹 수사 기술로 간주된다. 그러나 사이트 개설 및 폐쇄가 빈번하게 발생하는 다크웹의 특성상 최신 범죄 정보를 수집하기 위해서는 방대한 다크웹 정보를 실시간 수집하고, 능동적으로 검색 키워드를 확장할 수 있는 고도화된 크롤러 기술 개발이 필요하다. 본 논문은 다양한 다크웹 사이트 중, 아동 음란물 사이트를 크롤링을 통해 수집하고, 수집된 텍스트의 연관 분석을 통해 검색 키워드를 확장하는 수집 체계를 제안한다.

  • PDF

단백질 서열 연관 규칙 마이닝을 위한 효율적인 알고리즘 설계 (Efficient Sequence Association Rule Mining for Discovering Protein Relations)

  • 김현민;김지혜
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (하)
    • /
    • pp.1183-1186
    • /
    • 2002
  • DNA 의 염기서열 탐색을 위한 유전체학의 다음 세대인 구조유전체학은 유전체 사업으로 인한 인간 게놈지도의 완성과 축적된 생물정보를 이용한 생물정보학의 발달과 함께 급속한 성장을 계속하고 있다. 포스트 게놈 시대를 맞이하여 생명현상에 대한 궁극적인 이해를 위한 노력으로 단백질의 구조와 기능에 대한 연구가 주목을 받게 되었다. 다양한 구조 규명을 위한 도구들과 단백질 정보를 관리하기 위한 데이터베이스 구축에 따른 관련 기술의 발전은, 앞으로 다가올 생물정보의 방대함을 감안할 때, 가치 있는 지식정보를 얻기 위한 데이터 마이닝 기법들을 통해서만 가능하다. 본 논문은 데이터 마이닝의 근간 기술인 연관규칙 마이닝을 응용한 효율적인 서열 연관 규칙 알고리즘을 제안하며, 단백질 구조의 예측을 위한 단백질 서열 및 DNA 서열간의 패턴 비교 및 연관성을 목적으로 한다. 또한, 공간적 시간적 복잡성을 CMS-tree 라는 자료구조를 통해 알고리즘의 확장성 및 병렬화의 기본 알고리즘으로 사용하도록 개발하였다.

  • PDF

캘린더 패턴 기반의 시간 연관적 분류 기법 (Temporal Associative Classification based on Calendar Patterns)

  • 이헌규;노기용;서성보;류근호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권6호
    • /
    • pp.567-584
    • /
    • 2005
  • 시간 데이타마이닝은 기존 데이타마이닝에 시간 개념을 추가하여 시간 속성을 가진 데이타로부터 이전에 잘 알려지지는 않았지만 묵시적이고 잠재적으로 유용한 시간 지식을 탐사하는 기술이다. 대표적 데이타마이닝 기법인 연관규칙과 분류기법은 실세계의 여러 응용분야에서 사용된다. 그러나 대부분의 데이타가 시간 속성을 포함함에도 불구하고 기존의 기법들은 시간 속성을 고려하지 않고 주로 정적인 데이타에 대한 지식 탐사만이 진행되었다. 그리고 시간 데이타에 대한 데이타마이닝 연구들은 데이타의 발생시점과 시간 제약조건을 추가한 지식 탐사에 중점을 두고 있어 데이타가 포함한 시간 의미나 시간 관계를 탐사하는데 부족하였다. 이 논문에서는 시간 클래스 연관규칙에 기반한 시간 연관적 분류기법을 제안한다. 이 기법은 분류규칙 생성을 위해서 연관적 분류에 시간 차원을 포함하여 확장한 시간 클래스 연관규칙에 의해 탐사된 규칙들을 적용하는 것이다. 그러므로 이 기법은 기존의 분류 기법들에 비해 더 유용한 지식탐사가 가능하다.

데이터의 의미적 정보를 공정하게 반영한 인터트랜잭션들에 대한 연관규칙 탐사 (Association rule mining for intertransactions with considering fairly data semantics)

  • 정희택
    • 한국전자통신학회논문지
    • /
    • 제9권3호
    • /
    • pp.359-368
    • /
    • 2014
  • 최근에는 트랜잭션들 사이의 문맥을 반영하기 위해, 단위 트랜잭션들 사이의 관계를 반영한 확장 트랜잭션을 생성하고 이를 대상으로 인터트랜잭션들에 대한 연관 규칙 탐사방안이 연구되었다. 본 연구에서는 기존 인터트랜잭션들에 대한 연관규칙 탐사 기법에 존재하는 두 가지 문제를 제시하였고 이를 해결하기 위한 방안을 제안하였다. 첫째, 인접한 트랜잭션들 상에 존재하는 데이터의 의미적 변화 정보를 반영하기 위한 방안을 제안했다. 둘째, 트랜잭션을 인터트랜잭션으로 변환하는 과정에서 발생하는 불공정 고려를 해결하기 위한 방안을 제안했다. 이를 통해 기존 연구보다 의미 있는 규칙을 생성할 수 있다. 이를 해양 환경 데이터를 기반으로 실험하여 제시한다.

의료 정보 추출을 위한 TF-IDF 기반의 연관규칙 분석 시스템 (TF-IDF Based Association Rule Analysis System for Medical Data)

  • 박호식;이민수;황성진;오상윤
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권3호
    • /
    • pp.145-154
    • /
    • 2016
  • u-Health에 대한 관심과 IT 기술의 발전에 따라 의료 정보를 적극적으로 활용하고자 하는 요구가 커지고 있으며, 이에 대해 텍스트 형태의 의료 정보 데이터에 연관규칙 기법을 적용하여 질병과 증상과의 관계를 추론하는 시스템에 대한 연구들이 이루어지고 있다. 그러나 일반적인 연관규칙 기법을 의료 정보 데이터에 그대로 적용할 경우, 이전에는 새로운 연관규칙들보다 일반적이며 의미없는 연관규칙들이 많이 생성되는 문제가 발생한다. 또한 필터링으로 인해 빈번하게 함께 발생하지는 않지만 의학적으로 의미있는 항목들의 연관 규칙을 발견할 수 없다는 한계점을 가지게 된다. 본 논문에서는 의료데이터 특성을 고려하여 빈번한 항목과 빈번하지 않지만 의학적으로 의미 있는 항목들을 대상으로 연관규칙을 구성하여 의료 전문가의 의사 결정에 도움을 주기 위한 시스템을 제안한다. 제안 시스템은 의료 기록 데이터에서 용어들을 TF-IDF기반으로 가중치를 부여하고 기존 FP-Growth 알고리즘을 확장하여 TF-IDF 가중치를 고려한 빈번하게 발생하거나 빈번하지 않지만 의미 있는 연관규칙을 구성한다. 특정 질의 데이터가 입력되면 해당 데이터에 나타난 연관 규칙들의 유사도를 의학분야 온톨로지를 이용하여 평가하여 해당 데이터의 내용과 관련된 후보 질병들을 추론한다. 추론된 후보 질병명은 의료 전문가에게 의사 결정의 참고 자료로 제공된다. 실제 임상 진료 및 처방 기록 데이터에 대해 제안 시스템을 적용해 본 결과, 본 제안 시스템을 통해 도출한 연관 규칙이 기존 FP-Growth 알고리즘을 적용했을 때 보다 더 구체적인 질병과 증상과의 관계들을 포함함을 확인할 수 있었다. 또한 본 제안 시스템은 자유형식의 의료 및 병리데이터를 마이닝하고 후보 질병들을 가중치 기반으로 보여주므로, 의료 기록 정보로부터 질병 관련 새로운 정보를 획득하고 의료진의 의사 결정에 도움을 주는 시스템으로 활용될 수 있다.

대용량 주기억장치 시스템에서 효율적인 연관 규칙 탐사 알고리즘 (An Efficient Algorithm For Mining Association Rules In Main Memory Systems)

  • 이재문
    • 정보처리학회논문지D
    • /
    • 제9D권4호
    • /
    • pp.579-586
    • /
    • 2002
  • 본 논문은 대용량 주기억장치를 가진 시스템에 적합한 연관 규칙 탐사 알고리즘에 관한 연구이다. 이를 위하여 먼저 기존의 잘 알려진 알고리즘인 DHP, Partition 방법을 대용량 주기억장치를 가진 시스템에서 효율적으로 동작하도록 확장하였고, 다음 Partition 방법에 대해서 해쉬 테이블과 비트맵 기법을 적용하여 Partition 방법을 개선하는 방법을 제안하였다. 제안된 알고리즘은 실험적 환경에서 DHP와 성능이 비교되었으며, 제안하는 알고리즘이 확장된 DHP보다 최대 65%까지 성능 개선 효과가 있음을 보인다.

수량 연관규칙 생성을 위한 데이터의 지역성을 고려한 효과적인 알고리즘 제안 (An Efficient Algorithm Using the locality of Data for Mining Quantitative Association Rules)

  • 이혜정;박원환;박두순
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 춘계학술발표대회논문집
    • /
    • pp.126-129
    • /
    • 2003
  • 최근 대용량의 데이터베이스로부터 연관규칙을 발견하여 이를 활용하는 단계에서 이러한 연관규칙을 수량항목에도 적용할 수 있도록 확장하는 연구가 소개되고 있다. 본 논문에서는 수량 항목을 이진항목으로 변환하기 위하여 빈발구간 항목집합(Large Interval Itemsets)을 생성할 때 수량 항목이 특정 영역에 집중하여 발생하거나 골고루 분포되어 있지 않은 경우, 이러한 지역성(locality)을 고려하여 빈발구간 항목집합을 생성하는 방법을 제안한다. 이 방법은 기존의 방법보다 많은 수의 세밀한 빈발구간 항목들을 생성할 수 있을 뿐만 아니라 의미 있는 구간을 중심으로 빈발구간 항목들이 순서대로 생성되기 때문에 세밀도를 판단하여 활용할 수 있으며, 원 데이터가 가지고 있는 특성의 손실을 최소화할 수 있는 특징이 있다 또한 인구센서스등 실 데이터를 사용한 성능평가를 통하여 기존의 방법보다 우수함을 보였다.

  • PDF

연관성 규칙 수의 추정을 위한 일반적인 비선형 회귀모형에서의 표준화 향상도 활용 방안 (Generally non-linear regression model containing standardized lift for association number estimation)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권3호
    • /
    • pp.629-638
    • /
    • 2016
  • 최근에 많이 활용되고 있는 데이터 분석을 위한 연관성 규칙 마이닝은 대용량 데이터베이스에 많이 활용되고 있는 서 두 항목간의 관계를 측도화 함으로써 두 개 이상의 항목간의 관련성을 표시하여 주는 기법이다. 연관성 규칙의 여부를 판단하기 위한 연관성 평가 기준에는 지지도, 신뢰도, 그리고 향상도 등이 있으며, 이들 세 가지 기준을 이용하여 연관성 규칙 생성 여부를 판단하게 된다. 이에 대한 기존의 연구 결과는 결정함수를 이용하는 방법과 회귀모형을 이용하는 방법으로 분류할 수 있다. 회귀모형을 이용하여 수행한 연구에는 지지도와 신뢰도에 의한 모형, 세 가지 평가 기준의 쌍에 의한 모형, 표준화 향상도를 포함한 세 가지 평가 기준의 쌍에 의한 모형, 그리고 세 가지 평가 기준 전부를 고려한 모형 등이 있다. 본 논문에서는 기존의 연구를 확장하는 의미에서 표준화 향상도를 포함한 세가지 평가 기준 전부를 고려한 비선형 회귀모형을 이용하여 연관성 규칙의 수를 추정하는 방안에 대해 강구하고자 한다. 또한 분산분석에서의 F 통계량과 수정 결정계수를 이용하여 각 모형의 유의한 정도를 비교하는 동시에 분산팽창계수에 의한 공선성 문제를 진단함으로써 가장 유용한 회귀 모형을 탐색하고자 한다.

정보검색에서 사용자 검색 패턴을 이용한 질의 확장 (Query Expansion Using User Search Pattern in Information Retrieval)

  • 천우관;김영도;정인정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 춘계학술발표논문집 (하)
    • /
    • pp.771-774
    • /
    • 2001
  • 정보검색에서 가장 많이 사용되는 불리언(Boolean)검색에서는 키워드 일치에 의해서만 검색하는 단점을 가지고 있다. 이를 보완하기 위해 다양한 정보원에서 추출한 관련 용어들을 원질의어에 첨가하여 검색의 효율을 높이기 위한 질의 확장 방법들이 모색되어 왔다. 본 논문에서는 질의 확장을 위하여 사용자가 검색에 사용하였던 질의어들의 연속성을 찾아내어 첨가할 용어를 선택하고 질의 확장을 하는 방법을 제시한다. 사용자가 입력한 질의어의 연속성을 찾아내는 방법으로는 데이터 마이닝 기법중 연관 규칙 탐사 방법을 이용한다. 실험은 현재 구축된 정보통신 기술기준 정도시스템에서 사용자들이 검색한 키워드 정보를 이용하였으며 사용자 검색 패턴(USP) 정보를 이용함으로써 사용자가 검색하고자 하는 질의어와 좀더 연관성 있는 용어로 확장하여 사용자 중심적 결과를 얻을 수 있다.

  • PDF