• 제목/요약/키워드: 가짜 연관성

검색결과 8건 처리시간 0.027초

환자-대조군 연구에서 인구집단 층화가 일배체형 경향성 검정에 미치는 영향 (Study on Effects of Population Stratification on Haplotype Trend Test in Case-Control Studies)

  • 김진흠;강대룡;임현선;남정모
    • 응용통계연구
    • /
    • 제22권5호
    • /
    • pp.1085-1096
    • /
    • 2009
  • 환자-대조군 연관성 연구에서 후보 유전자와 질병이 연관되어 있지 않더라도 인구집단 층화로 인해 가짜 연관성이 발생할 수도 있다. 본 연구에서는 일배체형에 기초한 환자-대조군 연관성 연구에서 인구집단 층화로 인한 가짜 연관성을 해결하기 위한 방법으로, Zaykin 등 (2002)이 제안한 일배체형 경향성 모형에 인구집단 층화에 대한 정보를 추가하고자 한다. Zaykin 등 (2002)의 모형과 제안한 모형에 기초한 일배체형의 유의성 검정에서 인구집단 층화와 인구집단에 대한 관측 오차가 제1종 오류율에 미치는 영향을 모의실험을 통해 살펴보았다. 인구집단이 층화되어 있지만 각 개체가 속한 인구집단을 정확히 알 수 있을 때, Zaykin 등 (2002)의 모형에 기초한 검정은 제1종 오류율을 잘 조절하지 못했지만 본 연구에서 제안한 모형에 기초한 검정은 제1종 오류율을 잘 조절하는 것으로 나타났다. 그러나 인구집단이 층화되어 있고 관측 오차가 존재하면 제안한 모형에 기초한 검정도 제1종 오류율을 조절하지 못하고 명목 유의수준보다 큰 값을 갖는 것으로 나타났다. 따라서 단일염기다형성에 기초한 환자-대조군 연관성 연구와 마찬가지로 일배체형에 기초한 환자-대조군 연관성 연구에서도 인구집단 층화에 대한 정보를 갖고 있다할지라도 그 속에 관측 오차가 존재하면 위양성을 피하기 어렵다는 것을 알 수 있었다.

HTML 문서의 테이블 식별 (Detecting Tables in HTML Documents)

  • 김연석;이경호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.163-165
    • /
    • 2004
  • HTML의 <TABLE> 태그는 연관된 정보를 기술하기 위한 테이블은 물론이고 웹 문서의 레이아웃을 표현하기 위하여 사용된다 본 논문에서는 웹으로부터 유용한 정보를 추출하기 위한 목적의 일환으로 HTML 문서로부터 테이블을 식별하는 효율적인 방법을 제안한다. 제안된 방법은 전처리와 속성-값 연관관계에 추출의 두 단계로 구성된다. 전처리 단계에서는 진짜 테이블 또는 레이아웃용으로 사용된 <TABLE> 태그의 일반적인 특징을 반영한 규칙을 적용하여 진짜 또는 가짜로 명확히 식별이 가능한 <TABLE> 태그를 추출한다. 속성-값 연관관계 추출 단계에서는 테이블 영역을 속성 및 값 영역으로 구분한 후. 값 영역에 대하여 구문적 일관성 검사를 수행한다 또한 값 영역의 크기가 작아서 구문적 일관성 검사를 수행할 수 없는 경우, 속성-칸 영역의 의미적 일관성을 검사한다. 제안된 방법의 성능을 명가하기 위하여 1,393개의 HTML 문서로부터 추출한 11,477개의 <TABLE> 태그를 대상으로 실험한 결과. 평균적으로 97.54%의 정확률과 99.22%의 재현률을 보여 기존 연구보다 우수하였다.

  • PDF

데이터웨어하우스 환경에서의 설명기반 데이터마이닝 (Explanation-Based Data Mining in Data Warehouse)

  • 김현수;이창호
    • 지능정보연구
    • /
    • 제5권2호
    • /
    • pp.15-27
    • /
    • 1999
  • 산업계 전반에 걸친 오랜 정보시스템 운용의 결과로 대용량의 데이터들이 축적되고 있다. 이러한 데이터로부터 유용한 지식을 추출하기 위해 여러 가지 데이터마이닝 기법들이 연구되어 왔다. 특히 데이터웨어하우스의 등장은 이러한 데이터마이닝에 있어 필요한 데이터 제공 환경을 주고 있다. 그러나 전문가의 적절한 판단과 해석을 거치지 않은 데이터마이닝의 결과는 당연한 사실이거나, 사실과 다른 가짜이거나 또한 관련성 없는(Trivial, Spurious and Irrelevant) 내용만 무수히 쏟아낼 수 있다. 그러므로 데이터마이닝의 결과가 비록 통계적 유의성을 가진다 하더라고 그 정당성과 유용성에 대한 검증과정과 방법론의 정립이 필요하다. 데이터마이닝의 가장 어려운 점은 귀납적 오류를 없애기 위해 사람이 직접 그 결과를 해석하고 판단하며 아울러 새로운 탐색 방향을 제시해야 한다는 것이다. 본 논문의 목적인 이러한 데이터마이닝에서 추출된 결과를 검증하고 아울러 새로운 지식 탐색 방향을 제시하는 방법론을 정립하는데 있다. 본 논문에서는 데이터마이닝 기법 중 연관규칙탐사(Associations)로 얻어진 결과를 설명가능성 여부의 판단을 통해 검증하는 기법을 제안하였고, 이를 위해 도메인 지식(Domain Knowledge)과 연관규칙탐사를 통해 얻어진 결과를 표현하기 위한 지식표현방법으로 관계형 술어논리(RPL : Relational Predicate Logic)를 개발하였다. 연관규칙탐사로 얻어진 결과를 설명하기 위한 방법으로는 연관규칙탐사로 얻어진 연관규칙에 대한 RPL로 표현된 도메인 지식으로서 설명됨을 보이게 한다. 또한 이러한 설명(Explanation)을 토대로 검증된 지식을 일반화하여 새로운 가설을 연역적으로 생성하고 이를 연관규칙탐사를 통해 검증한 후 새로운 지식을 얻는 설명기반 데이터마이닝 구조(Explanation-based Data Mining Architecture)를 제시하였다.

  • PDF

데이타 웨어하우스 환경에서의 설명기반 데이타 마이닝 (Explanation-based Data Mining in Data Warehouse)

  • 김현수;이창호
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 1999년도 춘계공동학술대회: 지식경영과 지식공학
    • /
    • pp.115-123
    • /
    • 1999
  • 산업계 전반에 걸친 오랜 정보시스템 운용의 결과로 대용량의 데이타들이 축적되고 있다. 이러한 데이타로부터 유용한 지식을 추출하기 위해 여러 가지 데이타 마이닝 기법들이 연구되어왔다. 특히 데이타 웨어하우스의 등장은 이러한 데이타 마이닝에 있어 필요한 데이타 제공 환경을 제공해 주고 있다. 그러나 전문가의 적절한 판단과 해석을 거치지 않은 데이타 마이닝의 결과는 당연한 사실이거나, 사실과 다른 가짜이거나 또는 관련성이 없는(trivial, spurious and irrelevant) 내용만 무수히 쏟아낼 수 있다. 그러므로 데이타 마이닝의 결과가 비록 통계적 유의성을 가진다 하더라고 그 정당성과 유용성에 대한 검증과정과 방법론의 정립이 필요하다. 데이타 마이닝의 가장 어려운 점은 귀납적 오류를 없애기 위해 사람이 직접 그 결과를 해석하고 판단하며 아울러 새로운 탐색 방향을 제시해야 한다는 것이다. 본 논문의 목적은 이러한 데이타 마이닝에서 추출된 결과를 검증하고 아울러 새로운 지식 탐색 방향을 제시하는 방법론을 정립하는데 있다. 본 논문에서는 데이타 마이닝 기법 중 연관규칙탐사로 얻어진 결과를 설명가능성 여부의 판단을 통해 검증하는 기법을 제안하며, 이를 통해 얻어진 검증된 지식을 토대로 일반화를 통한 새로운 가설을 생성하여 데이타 웨어하우스로부터 연관규칙을 검증하는 일련의 아키텍쳐(architecture)를 제시하고자 한다. 먼저 데이타 마이닝 결과에 대한 설명의 필요성을 제시하고, 데이타 웨어하우스와 데이타 마이닝 기법들에 대한 간략한 설명과 연관규칙탐사에 대한 정의 및 방법을 보이고, 대상 영역에 대한 데이타 웨어하우스의 스키마를 보였다. 다음으로 도메인 지식(domain knowledge)과 연관규칙탐사를 통해 얻어진 결과를 표현하기 위한 지식표현 방법으로 Relational predicate Logic을 제안하였다. 연관규칙탐사로 얻어진 결과를 설명하기 위한 방법으로는 연관규칙탐사로 얻어진 연관규칙에 대해 Relational Predicate Logic으로 표현된 도메인 지식으로서 설명됨을 보이게 한다. 또한 이러한 설명(explanation)을 토대로 검증된 지식을 일반화하여 새로운 가설을 연역적으로 생성하고 이를 연관규칙탐사론 통해 검증한 후 새로운 지식을 얻는 반복적인 Explanation-based Data Mining Architecture를 제시하였다. 본 연구의 의의로는 데이타 마이닝을 통한 귀납적 지식생성에 있어 귀납적 오류의 발생을 고메인 지식을 통해 설명가능 함을 보임으로 검증하고 아울러 이러한 설명을 통해 연역적으로 새로운 가설지식을 생성시켜 이를 가설검증방식으로 검증함으로써 귀납적 접근과 연역적 접근의 통합 데이타 마이닝 접근을 제시하였다는데 있다.

  • PDF

데이터 웨어하우스 환경에서의 설명기반 데이터 마이닝 (Explanation-based Data Mining in Data Warehouse)

  • 김현수;이창호
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 1999년도 춘계공동학술대회-지식경영과 지식공학
    • /
    • pp.115-123
    • /
    • 1999
  • 산업계 전반에 걸친 오랜 정보시스템 운용의 결과로 대용량의 데이터들이 축적되고 있다. 이러한 데이터로부터 유용한 지식을 추출하기 위해 여러 가지 데이터 마이닝 기법들이 연구되어왔다. 특히 데이터 웨어하우스의 등장은 이러한 데이터 마이닝에 있어 필요한 데이터 제공 환경을 제공해 주고 있다. 그러나 전문가의 적절한 판단과 해석을 거치지 않은 데이터 마이닝의 결과는 당연한 사실이거나, 사실과 다른 가짜이거나 또는 관련성 없는(trivial, spurious and irrelevant)내용만 무수히 쏟아낼 수 있다. 그러므로 데이터 마이닝의 결과가 비록 통계적 유의성을 가진다 하더라도 그 정당성과 유용성에 대한 검증과정과 방법론의 정립이 필요하다. 데이터 마이닝의 가장 어려운 점은 귀납적 오류를 없애기 위해 사람이 직접 그 결과를 해석하고 판단하며 아울러 새로운 탐색 방향을 제시해야 한다는 것이다. 본 논문에서는 데이터 마이닝 기법 중 연관규칙탐사로 얻어진 결과를 설명가능성 여부의 판단을 통해 검증하는 기법을 제안하며, 이를 통해 얻어진 검증된 지식을 토대로 일반화를 통한 새로운 가설을 생성하여 데이터 웨어하우스로부터 연관규칙을 검증하는 일련의 아텍쳐(architecture)를 제시하고다 한다. 먼저 데이터 마이닝 결과에 대한 설명의 필요성을 제시하고, 데이터 웨어하우스와 데이터 마이닝 기법들에 대한 간략한 설명과 연관규칙탐사에 대한 정의 및 방법을 보이고, 대상 영역에 대한 데이터 웨어하우스으 스키마를 보였다. 다음으로 도메인 지식(domain knowledge)과 연관규칙탐사를 통해 얻어진 결과를 표현하기위한 지식표현 방법으로 Relational Predicate Logic을 제안하였다. 연관규칙탐사로 얻어진 결과를 설명하기 위한 방법으로는 연관규칙탐사로 얻어진 연관규칙에 대해 Relational Predicate Logic으로 표현된 도메인 지식으로서 설명됨을 보이게 한다. 또한 이러한 설명(explanation)을 토대로 검증된 지식을 일반화하여 새로운 가설을 연역적으로 생성하고 이를 연관규칙탐사를 통해 검증한 후 새로운 지식을 얻는 반복적인 Explanation-based Data Mining Architecture를 제시하였다. 본 연구의 의의로는 데이터 마이닝을 통한 귀납적 지식생성에 있어 귀납적 오류의 발생을 도메인 지식을 통해 설명가능 함을 보임으로 검증하고 아울러 이러한 설명을 통해 연역적으로 새로운 가설지식을 생성시켜 이를 가설검증방식으로 검증함으로써 귀납적 접근과 연역적 접근의 통합 데이터 마이닝 접근을 제시하였다는데 있다.

  • PDF

HTML 문서의 테이블 식별을 위한 효율적인 알고리즘 (An Efficient Algorithm for Detecting Tables in HTML Documents)

  • 김연석;이경호
    • 한국멀티미디어학회논문지
    • /
    • 제7권10호
    • /
    • pp.1339-1353
    • /
    • 2004
  • HTML의 table 태그는 연관된 정보를 기술하기 위한 테이블은 물론이고 웹 문서의 레이아웃을 표현하기 위하여 사용된다. 본 논문에서 는 웹으로부터 유용한 정보를 추출하기 위한 목적의 일환으로 HTML 문서로부터 테이블을 식별하는 효율적인 방법을 제안한다. 제안된 방법은 전처리와 속성-값 연관관계 추출의 두 단계로 구성된다. 전처리 단계에서는 진짜 테이블 또는 레이아웃용으로 사용된 table 태그의 일반적인 특징을 반영한 규칙을 적용하여 진짜 또는 가짜로 명확히 식별이 가능한 table태그를 추출한다. 속성-값 연관관계 추출 단계에서는 테이블 영역을 속성 및 값 영역으로 구분한 후, 값 영역에 대하여 구문적 일관성 검사를 수행한다. 또한 값 영역의 크기가 작아서 구문적 일관성 검사를 수행할 수 없는 경우, 속성-값 영역의 의미적 일관성을 검사한다. 제안된 방법의 성능을 평가하기 위하여 1,393개의 HTML문서로부터 추출한 11,477개의 table 태그를 대상으로 실험한 결과, 평균적으로 97.54%의 정확률과 99.22%의 재현률을 보여 기존 연구보다 우수하였다.

  • PDF

형제 및 자매의 유전자형 자료에 기초한 전달불균형 검정법에 관한 연구 (Transmission and Disequilibrium Tests Based on Sibship Data)

  • 김진흠;장양수
    • 응용통계연구
    • /
    • 제21권1호
    • /
    • pp.81-94
    • /
    • 2008
  • 전달불균형 검정법(transmission and disequilibrium test)과 같은 가계중심(family-based) 검정법들은 질병 관련 유전자를 찾는 데 매우 유용한 방법으로 알려져 있다. 사례-대조군 연구와 달리 가계중심 검정법들은 집단혼합(population admixture)으로 인한 영향을 받지 않기 때문에 질병 관련 유전자와 표지자(marker) 사이의 집단 혼합으로 인한 가짜 연관성(spurious association)에 노출될 위험이 없다. 가계중심 검정법들은 대체로 표지자에 대한 부모의 유전자형(genotype) 정보를 필요로 한다. 그러나 고령층에서 발병하는 질병의 경우에는 발단자(proband) 부모의 유전자형을 구할 수 없는 상황에 종종 마주치게 된다. 본 논문에서는 이런 어려움을 극복하기 위해 부모의 유전자형 대신 질병에 노출되지 않은 발단자 형제나 자매의 유전자형을 이용한 검정법을 제안하고자 한다. 이를 위해 먼저 가능한 모든 일배체형(haplotype)에 대해 Mantel-Haenszel 형태의 통계량을 정의하고 그것에 기초한두 가지 검정통계량을 제안하였다. 모의실험 결과, 제안한 검정법은 집단 혼합으로부터 로버스트하고 유전 양식(mode of inheritance)에 관계 없이 상대위험(relative risk)이 증가함에 따라 단조적으로 증가하는 검정력을 갖는 것으로 나타났다. 제안한 검정법을 연세대학교 심혈관계질환 유전체연구센터로부터 수집한 자료에 적용하고 그 결과를 고찰하였다.

음향 인텐시티 기법을 이용한 복잡한 진동-음향계의 방사 음장에 대한 음원 탐색에 관하여 (On the Source Identification by Using the Sound Intensity Technique in the Radiated Acoustic Field from Complicated Vibro-acoustic Sources)

  • 강승천;이정권
    • 한국음향학회지
    • /
    • 제21권8호
    • /
    • pp.708-718
    • /
    • 2002
  • 본 연구에서는 진동-음향계에서 방사되어 생성된 일반 근접장에서 음향 인텐시티 기법을 이용해 소음원을 파악하는 방법의 문제점에 관하여 논한다. 이를 위해 자동차나중장비의 엔진실을 모사하는 3차원 구조물 모델을 고려한다. 실제 상황과 유사하도록 모델에는 음원들이 복잡한 형상의 표면에 상호 연관성이 있는 또는 없는 형태로 분포한다. 즉, 음원들은 음향학적으로 단단한 상자들에 의해 형성된 좁은 공간으로 연결되어 있다. 따라서 반사가 심한 음장에 면한 표면에 배치되어 있으며, 전체 구조의 바닥 부분은 하부의 바닥과 작은 틈새만큼 떨어져 있다. 음향 경계요소법을 이용하여 근접 음장과 내부 음장의 인텐시티를 계산한다. 주어진 음원들간의 상대적 위상, 주파수, 위치에 따른 효과를 조사하였고, 그 결과를 등인텐시티선도, 벡터도 및 에너지 유선으로 표현하였다. 현장에서 종종 행해지는 바와 같이, 예를들어 엔진룸 상부에서 인텐시티를 측정하여 음원을 조사하는 것과 같은, 반사장이 강한 음장에서 음향 인텐시티 기법을 적용하여 음원탐색을 시도할 경우 가짜 음원이 검색될 수 있음을 보였다. 이와 같은 음장에서 정확한 결과를 얻기 위해서는, 음원탐색 수행 전에 음장의 리액티비티에 대한 조사가 먼저 필요하며, 측정을 시행하기 전에 음장의 리액티비티를 없애거나 대폭적으로 줄이는 작업이 선행되어야 할 것이다.