• 제목/요약/키워드: 집합론

검색결과 279건 처리시간 0.026초

클래스 구분력이 없는 특징 소거법 (Removing non-informative features weakening of class separability)

  • 이재성;김대원
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2007년도 추계학술대회 학술발표 논문집
    • /
    • pp.59-62
    • /
    • 2007
  • 본 논문에서는 불균형 및 Under-sampling된 바이오 데이터에 대하여 클래스 구분력이 없는 특징의 소거를 통해 이후 이어질 FLDA 둥 다양한 방법론올 적용할 수 있는 방법을 제안하고자 한다. 제안하는 알고리즘은 평균과 분산을 통해 클래스의 형태를 결정하는 기존 방법론의 문제점을 회피할 수 있는 방법을 제공하며, 클래스 구분력에 중점을 두어 특정을 선별하였을 경우 선별된 특정들의 상관 계수가 높은 문제를 극복할 수 있도록 한다. 이에 따라 알고리즘이 선택한 특정집합은 서로의 특징에 대해 상관계수가 낮으며, 클래스의 구분력이 높은 특정을 갖게 된다.

  • PDF

데이터 웨어하우스의 개념적 설계를 위한 스타 스키마에서 ER 도형으로의 변환 기법 (Translation of Star Schema into Entity-Relationship Diagrams for Data Warehouse Conceptual Design)

  • 최은하;김진호;옥수호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.142-144
    • /
    • 2002
  • 데이터 웨어하우스는 기업의 의사 결정을 지원하기 위해 기업의 운영 데이터베이스로부터 추출한 데이터의 집합으로써 OLAP 분석에 이용된다. OLAP은 이들 데이터를 다양하게 분석할 수 있도록 다차원 데이터로 표현하고 이를 활용하여 복잡한 분석 질의 처리 및 다차원 데이터 분석에 활용한다. 이러한 OLAP의 다차원 데이터를 관계형 데이터베이스에서 표현하기 위해 스타 스키마가 널리 사용된다. 또한 다차원 데이터와 데이터 웨어하우스는 방대한 분량를 갖는 전체 기업의 데이터를 표현하고 있어 이를 설계하는 것이 매우 복잡하고 많은 노력이 소요된다. 따라서 이를 설계하기 위한 체계적인 설계 방법론이 필요하다. 데이터 웨어하우스의 원천 데이터가 되는 운영 데이터베이스는 현재 ER 도형을 이용하여 개념적인 방법으로 널리 설계되고 있다. 따라서 이 논문에서는 ER 도형으로 설계된 운영 데이터베이스로부터 데이터 웨어하우스를 설계하는 개념적인 방법론을 제시한다. 이에 따라 OLAP 분석을 위해 사용할 수 있는 다양한 유형의 스타 스키마에 대해 ER 도형으로 표현/변환하는 방법을 제시한다. 이를 통해 자신이 원하는 다차원 데이터를 얻기 위해 유지해야 할 데이터 웨어하우스를 ER 도형을 이용하여 개념적으로 편리하게 설계하는 방법/지침을 제공하며, 나아가 해당 유형의 스타 스키마가 갖는 의미를 개념적으로 쉽게 전달할 수 있도록 하였다.

  • PDF

퍼지 언어적 관련도에 근거한 시소러스 모델 (Thesaurus Model based on Fuzzy Linguistic Relation Degree)

  • 최명복;김민구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.72-74
    • /
    • 1998
  • 정보검색 시스템에서 시소러스는 정보항목에 대한 용어들간의 관계를 계층적 구조로 나타낸다. 따라서 정보검색 시스템에서 시소러스의 사용은 이용자의 질의에 있는 탐색어와 관련된 정보항목들을 검색할 수 있기 때문에 정보검색 시스템의 검색효율을 크게 증가시킬 수 있다. 그러나 기존의 시소러스 모델들은 용어들간의 관련 정도를 무시하거나 정량적인 수치값으로 부여하기 때문에 인간의 주관성과 부정확성을 다루는데 적합하지 않다. 용어들간 의미의 밀접한 정도(Degree of Closeness)는 모호하고 부정확한 판단에 근거하는 인간의 정성적인 측정 단위이다. 그러므로 관련정도를 정량적으로 표현하는 것은 정성적 개념을 정확한 숫자 값으로 변환하는 것이기 때문에 인간의 정성적 측정 단위를 정확하고 용이하게 정량적으로 측도하여 반영한다는 것은 어렵다. 따라서 본 논문에서는 용어들간의 관련도를 정성적으로 부여한 시소러스 모델을 제안한다. 이 시소러스 모델에서는 색인어간의 관련도를 정성적으로 표현하기 위해 퍼지 집합 이론에 근거한 언어적 설명자들을 정의한다. 언어적 설명자들은 존재론적 문제가 고려되고 다분히 인식론적인 표현에 근거한다.

  • PDF

EPEM방법론을 이용한 분산 정보 통합 시스템의 비즈니스 프로세스 모델링 (Business Process Modeling for A Distributed Information Integration System using the EPEM Methodology)

  • 김종환;박혜숙;백두권
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.370-372
    • /
    • 2002
  • 분산 정보 통합 시스템(DIIS) 프로젝트는 기업집합환경 하에서 운영되고 있는 분산된 이기종의 비즈니스 정보 시스템들을 물리적 통합이 아닌 논리적으로 통합함으로써 사용자 의사 결정을 지원하는데 필요한 통합정보를 웹 기반으로 제고하는데 목표를 두고 있다. 이 프로젝트는 하나의 중앙 집중적인 데이터베이스를 구축하는 것이 아니기 때문에 , 분산된 이기종의 각 시스템의 데이터 모델이나 데이터베이스 스키마 구조를 전혀 변경할 필요가 없다. 우리는 소프트웨어 시스템을 개발할 때 하나의 비즈니스 표준인 UML을 확장한 방법론인 EPEM을 DIIS에 적용함으로써, DIIS의 핵심 관리자인 Query Mediation Manager 프로세스와Query Processing Manager 프로세스에 대해 비즈니스 프로세스 모델링하였고, 또한 디자인된 프로세스와 추출된 패키지 사이에 상호작용을 전체적으로 표현하기 위해 어셈블리 라인 다이어그램을 모델링하였다.

  • PDF

Fuzzy C-Means클러스터링을 이용한 웹 로그 분석기법 (Web Log Analysis Technique using Fuzzy C-Means Clustering)

  • 김미라;곽미라;조동섭
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.550-552
    • /
    • 2002
  • 플러스터링이란 주어진 데이터 집합의 패턴들을 비슷한 성실을 가지는 그룹으로 나누어 패턴 상호간의 관계를 정립하기 위한 방법론으로, 지금가지 이를 위한 많은 알고리즘들이 개발되어 왔으며, 패턴인식, 영상 처리 등의 여러 공학 분야에 널리 적용되고 있다. FCM(Fuzzy C-Means) 알고리즘은 최소자승 기준함수(least square criterion function)에 퍼지이론을 적용만 목적함수의 반복최적화(iterative optimization)에 기반을 둔 방식으로, 하드 분할에 의한 기존의 클러스터링 방법이 승자(winner take all) 형태의 방법론을 취하는데 비하여, 각 패턴이 특정 클러스터에 속하는 소속정도를 줌으로써 보다 정확한 정보를 형성하도록 도와준다. 본 논문에서는 FCM 기법을 이용한 웹로그 분석을 하고자 한다.

  • PDF

"왜" 질문의 논리적 구조

  • 선우환
    • 논리연구
    • /
    • 제6권2호
    • /
    • pp.23-48
    • /
    • 2003
  • "왜"로 시작하는 질문들의 성격은 워낙 다양해서, 우리는 "왜" 질문들 모두에 공통적으로 적용되는 흥미로운 이야기를 할 수 있으리라는 것에 대해 회의적이 되기가 쉽다. 이 논문에서 필자는 그런 우려에 맞서, "왜" 질문들이 공동적으로 가진 화용론적, 의미론적 성격들이 존재한다고 주장하면서 그것들이 무엇인지를 논의한다. 필자는 한 의문문의 의미는 그것에 대한 적합한 서술문 대답들의 진리 조건들의 집합이라는 일반적 이론에 입각해서 "왜" 의문문에 대한 적합한 대답들이 갖추어야 할 조건들이 무엇인지 그리고 그 적합한 대답들이 가진 진리 조건이 무엇인지에 대한 이론을 제시한다. 이와 같은 이론을 발전시키는 과정에서 필자는, 어떤 "왜" 의문문이 특정 맥락에서 보다 더 자연스럽게 제기되는 이유가 무엇인가 다양한 종류의 것들 이유, 원이, 근거 등-을 질문한다고 여겨지는 "왜" 의문문들이 어떻게 이 이론에서 통합적인 방식으로 이해될 수 있는가 등의 여러 문제들에 대한 대답을 시도한다.

  • PDF

SGML 문서의 효율적인 검색을 위한 색인 및 질의 언어의 설계 및 구현 (Design and Implementation of Indexing and Query Languages for an Efficient Retrieval of SGML Documents)

  • 이봉신;이경호;고승규;최윤철
    • 한국정보처리학회논문지
    • /
    • 제6권11호
    • /
    • pp.2911-2921
    • /
    • 1999
  • 본 논문에서는 SGML 문서의 효율적인 검색을 위한 방법론을 제안한다. 이를 위하여 메타 데이터, 색인 범위, 엘리먼트 이롬의 재정의, 그리고 데이터베이스 생성에 관한 정보를 기술할 수 있는 언어로 IDDL을 정의한다. 또한 메타 데이터와 구조에 대한 복합 질의를 효과적으로 표현할 수 있는 질의 언어인 IDQL을 제안한다. 본 논문에서는 제안된 방법론의 유효성을 입증하기 위하여 IDDL과 IDQL에 기반한 검색시스템을 개발하였으며 이를 상이한 구조의 대용량의 문서 집합에 실험하였다. 그 결과, 제안된 방법론은 데이터베이스를 동적으로 구성하며 사용자에게 편리한 검색 환경을 제공하였다.

  • PDF

연관관계규칙을 이용한 트래픽 폭주 공격 탐지의 심층 분석 (An In-depth Analysis on Traffic Flooding Attacks Detection using Association Rule Mining)

  • 유재학;강봉수;이한성;박준상;김명섭;박대희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.1563-1566
    • /
    • 2008
  • 본 논문에서는 데이터의 전처리과정으로 SNMP MIB 데이터에 대한 속성 부분집합의 선택 방법(attribute subset selection)을 사용하여 특징선택 및 축소(feature selection & reduction)를 실시하였다. 또한 데이터 마이닝의 대표적인 해석학적 분석 모델인 연관관계규칙기법(association rule mining)을 이용하여 트래픽 폭주 공격 및 공격유형별 SNMP MIB 데이터에 내재되어 있는 특징들을 규칙의 형태로 추출하여 분석하는 의미론적 심층해석을 실시하였다. 공격유형에 대한 패턴 규칙의 추출 및 분석은 공격이 발생한 프로토콜에 대해서만 서비스를 제한하고 관리할 수 있는 정책적 근거를 제공함으로써 보다 안정적인 네트워크 환경과 원활한 자원관리를 지원할 수 있다. 본 논문에서 제시한 트래픽 폭주 공격 및 공격유형별 데이터로부터의 자동적 특징의 규칙 추출 및 의미론적 해석방법은 침입탐지 시스템을 위한 새로운 방법론에 모멘텀을 제시할 수 있다는 긍정적인 가능성과 함께 침입탐지 및 대응시스템의 정책 수립을 지원할 수 있을 것으로 기대된다.

단일표본관측을 이용한 직교진폭변조 신호의 치운 변조분류 성능 (Performance of an ML Modulation Classification of QAM Signals with Single-Sample Observation)

  • 강석근
    • 정보처리학회논문지C
    • /
    • 제12C권1호
    • /
    • pp.63-68
    • /
    • 2005
  • 본 논문에서는 다중레벨 직교진폭변조 신호론 위한 최우 변조분류기법의 성능을 분석한다. 기존의 연구와는 달리 여기서는 가용 변조방식에 대한 상대적인 분규성능과 단일표본관측을 적용할 경우 최우 분류기의 성능한계 둥을 제시하였다. 이를 위하여 본 논문에서는 가용 성상도에서 심볼간 최소 유클리드 거리론 동일하게 하여 심볼의 수가 자은 성상도가 보다 큰 성상도의 부분집합이 되도록 하였다 그리고 다중가설시험을 위한 표본의 수는 하나로 정하였다. 그 결과 모든 실험에서 신호대잡음비의 증가에 따라 분류성능이 향상됨을 될 수 있다. 특히, 참인 성상도가 4진 직교진폭변조인 경우 추가적인 정보나 관측표본 없이도 송신기에서 사용된 변조방식을 거의 완벽하게 분류함을 확인할 수 있다. 또한 16진과 64진 신호의 경우 그 부분집합이 되는 성상도에 의하여 공유된 심볼들의 영향으로 오분류 가능성이 상존하지만 단일표본관측만으로도 약 $80{\%}$의 정분류 성능을 얻을 수 있다.

Temporal 데이터의 최적의 클러스터 수 결정에 관한 연구 (A Study for Determining the Best Number of Clusters on Temporal Data)

  • 조영희;이계성;전진호
    • 한국콘텐츠학회논문지
    • /
    • 제6권1호
    • /
    • pp.23-30
    • /
    • 2006
  • Temporal 데이터의 클러스터링 방법론 중의 하나로 모델기반 방법론이 있다. 이는 각 클러스터에 대하여 오토마타기반의 모델을 가정하는 것이다. 개별 모델을 추출하기 위해서는 먼저 전체 데이터에 대한 적합한 모델을 찾는 것이 필요하다. 전체에 대한 모델은 데이터집합에 대한 최적의 클러스터의 수를 결정함으로 개별 모델 구축의 준비를 완료한다. 본 연구에서는 클러스터 수를 결정하기 위한 기준인 베이지안 정보기준(BIC : Bayesian Information Criterion) 근사법의 활용도를 검증하고 데이터 크기와 BIC 값의 상관관계를 파악함으로 탐색 효율을 높이는 방안을 제안한다. 실험에서는 인위적 모델을 통하여 생성된 인공적인 여러 형태의 데이터집합을 활용하여 BIC근사 측도의 활용성에 대해 살펴보았다. 실험결과에서 보여주는 것처럼 BIC 근사 측도는 데이터의 크기가 비교적 클 경우에 올바른 파티션의 사이즈를 추정함을 확인하였다.

  • PDF