• Title/Summary/Keyword: 집합론

Search Result 279, Processing Time 0.026 seconds

Removing non-informative features weakening of class separability (클래스 구분력이 없는 특징 소거법)

  • Lee, Jae-Seong;Kim, Dae-Won
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2007.11a
    • /
    • pp.59-62
    • /
    • 2007
  • 본 논문에서는 불균형 및 Under-sampling된 바이오 데이터에 대하여 클래스 구분력이 없는 특징의 소거를 통해 이후 이어질 FLDA 둥 다양한 방법론올 적용할 수 있는 방법을 제안하고자 한다. 제안하는 알고리즘은 평균과 분산을 통해 클래스의 형태를 결정하는 기존 방법론의 문제점을 회피할 수 있는 방법을 제공하며, 클래스 구분력에 중점을 두어 특정을 선별하였을 경우 선별된 특정들의 상관 계수가 높은 문제를 극복할 수 있도록 한다. 이에 따라 알고리즘이 선택한 특정집합은 서로의 특징에 대해 상관계수가 낮으며, 클래스의 구분력이 높은 특정을 갖게 된다.

  • PDF

Translation of Star Schema into Entity-Relationship Diagrams for Data Warehouse Conceptual Design (데이터 웨어하우스의 개념적 설계를 위한 스타 스키마에서 ER 도형으로의 변환 기법)

  • 최은하;김진호;옥수호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.142-144
    • /
    • 2002
  • 데이터 웨어하우스는 기업의 의사 결정을 지원하기 위해 기업의 운영 데이터베이스로부터 추출한 데이터의 집합으로써 OLAP 분석에 이용된다. OLAP은 이들 데이터를 다양하게 분석할 수 있도록 다차원 데이터로 표현하고 이를 활용하여 복잡한 분석 질의 처리 및 다차원 데이터 분석에 활용한다. 이러한 OLAP의 다차원 데이터를 관계형 데이터베이스에서 표현하기 위해 스타 스키마가 널리 사용된다. 또한 다차원 데이터와 데이터 웨어하우스는 방대한 분량를 갖는 전체 기업의 데이터를 표현하고 있어 이를 설계하는 것이 매우 복잡하고 많은 노력이 소요된다. 따라서 이를 설계하기 위한 체계적인 설계 방법론이 필요하다. 데이터 웨어하우스의 원천 데이터가 되는 운영 데이터베이스는 현재 ER 도형을 이용하여 개념적인 방법으로 널리 설계되고 있다. 따라서 이 논문에서는 ER 도형으로 설계된 운영 데이터베이스로부터 데이터 웨어하우스를 설계하는 개념적인 방법론을 제시한다. 이에 따라 OLAP 분석을 위해 사용할 수 있는 다양한 유형의 스타 스키마에 대해 ER 도형으로 표현/변환하는 방법을 제시한다. 이를 통해 자신이 원하는 다차원 데이터를 얻기 위해 유지해야 할 데이터 웨어하우스를 ER 도형을 이용하여 개념적으로 편리하게 설계하는 방법/지침을 제공하며, 나아가 해당 유형의 스타 스키마가 갖는 의미를 개념적으로 쉽게 전달할 수 있도록 하였다.

  • PDF

Thesaurus Model based on Fuzzy Linguistic Relation Degree (퍼지 언어적 관련도에 근거한 시소러스 모델)

  • 최명복;김민구
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.72-74
    • /
    • 1998
  • 정보검색 시스템에서 시소러스는 정보항목에 대한 용어들간의 관계를 계층적 구조로 나타낸다. 따라서 정보검색 시스템에서 시소러스의 사용은 이용자의 질의에 있는 탐색어와 관련된 정보항목들을 검색할 수 있기 때문에 정보검색 시스템의 검색효율을 크게 증가시킬 수 있다. 그러나 기존의 시소러스 모델들은 용어들간의 관련 정도를 무시하거나 정량적인 수치값으로 부여하기 때문에 인간의 주관성과 부정확성을 다루는데 적합하지 않다. 용어들간 의미의 밀접한 정도(Degree of Closeness)는 모호하고 부정확한 판단에 근거하는 인간의 정성적인 측정 단위이다. 그러므로 관련정도를 정량적으로 표현하는 것은 정성적 개념을 정확한 숫자 값으로 변환하는 것이기 때문에 인간의 정성적 측정 단위를 정확하고 용이하게 정량적으로 측도하여 반영한다는 것은 어렵다. 따라서 본 논문에서는 용어들간의 관련도를 정성적으로 부여한 시소러스 모델을 제안한다. 이 시소러스 모델에서는 색인어간의 관련도를 정성적으로 표현하기 위해 퍼지 집합 이론에 근거한 언어적 설명자들을 정의한다. 언어적 설명자들은 존재론적 문제가 고려되고 다분히 인식론적인 표현에 근거한다.

  • PDF

Business Process Modeling for A Distributed Information Integration System using the EPEM Methodology (EPEM방법론을 이용한 분산 정보 통합 시스템의 비즈니스 프로세스 모델링)

  • 김종환;박혜숙;백두권
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.370-372
    • /
    • 2002
  • 분산 정보 통합 시스템(DIIS) 프로젝트는 기업집합환경 하에서 운영되고 있는 분산된 이기종의 비즈니스 정보 시스템들을 물리적 통합이 아닌 논리적으로 통합함으로써 사용자 의사 결정을 지원하는데 필요한 통합정보를 웹 기반으로 제고하는데 목표를 두고 있다. 이 프로젝트는 하나의 중앙 집중적인 데이터베이스를 구축하는 것이 아니기 때문에 , 분산된 이기종의 각 시스템의 데이터 모델이나 데이터베이스 스키마 구조를 전혀 변경할 필요가 없다. 우리는 소프트웨어 시스템을 개발할 때 하나의 비즈니스 표준인 UML을 확장한 방법론인 EPEM을 DIIS에 적용함으로써, DIIS의 핵심 관리자인 Query Mediation Manager 프로세스와Query Processing Manager 프로세스에 대해 비즈니스 프로세스 모델링하였고, 또한 디자인된 프로세스와 추출된 패키지 사이에 상호작용을 전체적으로 표현하기 위해 어셈블리 라인 다이어그램을 모델링하였다.

  • PDF

Web Log Analysis Technique using Fuzzy C-Means Clustering (Fuzzy C-Means클러스터링을 이용한 웹 로그 분석기법)

  • 김미라;곽미라;조동섭
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.550-552
    • /
    • 2002
  • 플러스터링이란 주어진 데이터 집합의 패턴들을 비슷한 성실을 가지는 그룹으로 나누어 패턴 상호간의 관계를 정립하기 위한 방법론으로, 지금가지 이를 위한 많은 알고리즘들이 개발되어 왔으며, 패턴인식, 영상 처리 등의 여러 공학 분야에 널리 적용되고 있다. FCM(Fuzzy C-Means) 알고리즘은 최소자승 기준함수(least square criterion function)에 퍼지이론을 적용만 목적함수의 반복최적화(iterative optimization)에 기반을 둔 방식으로, 하드 분할에 의한 기존의 클러스터링 방법이 승자(winner take all) 형태의 방법론을 취하는데 비하여, 각 패턴이 특정 클러스터에 속하는 소속정도를 줌으로써 보다 정확한 정보를 형성하도록 도와준다. 본 논문에서는 FCM 기법을 이용한 웹로그 분석을 하고자 한다.

  • PDF

"왜" 질문의 논리적 구조

  • Seon, Woo-Hwan
    • Korean Journal of Logic
    • /
    • v.6 no.2
    • /
    • pp.23-48
    • /
    • 2003
  • "왜"로 시작하는 질문들의 성격은 워낙 다양해서, 우리는 "왜" 질문들 모두에 공통적으로 적용되는 흥미로운 이야기를 할 수 있으리라는 것에 대해 회의적이 되기가 쉽다. 이 논문에서 필자는 그런 우려에 맞서, "왜" 질문들이 공동적으로 가진 화용론적, 의미론적 성격들이 존재한다고 주장하면서 그것들이 무엇인지를 논의한다. 필자는 한 의문문의 의미는 그것에 대한 적합한 서술문 대답들의 진리 조건들의 집합이라는 일반적 이론에 입각해서 "왜" 의문문에 대한 적합한 대답들이 갖추어야 할 조건들이 무엇인지 그리고 그 적합한 대답들이 가진 진리 조건이 무엇인지에 대한 이론을 제시한다. 이와 같은 이론을 발전시키는 과정에서 필자는, 어떤 "왜" 의문문이 특정 맥락에서 보다 더 자연스럽게 제기되는 이유가 무엇인가 다양한 종류의 것들 이유, 원이, 근거 등-을 질문한다고 여겨지는 "왜" 의문문들이 어떻게 이 이론에서 통합적인 방식으로 이해될 수 있는가 등의 여러 문제들에 대한 대답을 시도한다.

  • PDF

Design and Implementation of Indexing and Query Languages for an Efficient Retrieval of SGML Documents (SGML 문서의 효율적인 검색을 위한 색인 및 질의 언어의 설계 및 구현)

  • Lee, Bong-Sin;Lee, Gyeong-Ho;Go, Seung-Gyu;Choe, Yun-Cheol
    • The Transactions of the Korea Information Processing Society
    • /
    • v.6 no.11
    • /
    • pp.2911-2921
    • /
    • 1999
  • We present new methods for an efficient retrieval of SGML documents. We define IDDL (index database description language) which is able to describe various information such as meta data, an indexing range, and the creation and manipulation of a database. In addition, we design IDQL (index database query language) that can deal with querying meta data as well as logical structure. Especially, the retrieval system based on IDDL and IDQL has been developed and implemented, and has been experimented on large number of documents. Experimental result shows that the proposed method provides the dynamic creation of an index database and a convenient retrieval environment.

  • PDF

An In-depth Analysis on Traffic Flooding Attacks Detection using Association Rule Mining (연관관계규칙을 이용한 트래픽 폭주 공격 탐지의 심층 분석)

  • Jaehak Yu;Bongsu Kang;Hansung Lee;Jun-Sang Park;Myung-Sup Kim;Daihee Park
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.1563-1566
    • /
    • 2008
  • 본 논문에서는 데이터의 전처리과정으로 SNMP MIB 데이터에 대한 속성 부분집합의 선택 방법(attribute subset selection)을 사용하여 특징선택 및 축소(feature selection & reduction)를 실시하였다. 또한 데이터 마이닝의 대표적인 해석학적 분석 모델인 연관관계규칙기법(association rule mining)을 이용하여 트래픽 폭주 공격 및 공격유형별 SNMP MIB 데이터에 내재되어 있는 특징들을 규칙의 형태로 추출하여 분석하는 의미론적 심층해석을 실시하였다. 공격유형에 대한 패턴 규칙의 추출 및 분석은 공격이 발생한 프로토콜에 대해서만 서비스를 제한하고 관리할 수 있는 정책적 근거를 제공함으로써 보다 안정적인 네트워크 환경과 원활한 자원관리를 지원할 수 있다. 본 논문에서 제시한 트래픽 폭주 공격 및 공격유형별 데이터로부터의 자동적 특징의 규칙 추출 및 의미론적 해석방법은 침입탐지 시스템을 위한 새로운 방법론에 모멘텀을 제시할 수 있다는 긍정적인 가능성과 함께 침입탐지 및 대응시스템의 정책 수립을 지원할 수 있을 것으로 기대된다.

Performance of an ML Modulation Classification of QAM Signals with Single-Sample Observation (단일표본관측을 이용한 직교진폭변조 신호의 치운 변조분류 성능)

  • Kang Seog Geun
    • The KIPS Transactions:PartC
    • /
    • v.12C no.1 s.97
    • /
    • pp.63-68
    • /
    • 2005
  • In this paper, performance of a maximum-likelihood modulation classification for quadrature amplitude modulation (QAM) is studied. Unlike previous works, the relative classification performance with respect to the available modulations and performance limit with single-sample observation are presented. For those purposes, all constellations are set to have the same minimum Euclidean distance between symbols so that a smaller constellation is a subset of the larger ones. And only one sample of received waveform is used for multiple hypothesis test. As a result, classification performance is improved with increase in signal-to-noise ratio in all the experiments. Especially, when the true modulation format used in the transmitter is 4 QAM, almost perfect classification can be achieved without any additional information or observation samples. Though the possibility of false classification due to the symbols shared by subset constellations always exists, correct classification ratio of $80{\%}$ can be obtained with the single-sample observation when the true modulation formats are 16 and 64 QAM.

A Study for Determining the Best Number of Clusters on Temporal Data (Temporal 데이터의 최적의 클러스터 수 결정에 관한 연구)

  • Cho Young-Hee;Lee Gye-Sung;Jeon Jin-Ho
    • The Journal of the Korea Contents Association
    • /
    • v.6 no.1
    • /
    • pp.23-30
    • /
    • 2006
  • A clustering method for temporal data takes a model-based approach. This uses automata based model for each cluster. It is necessary to construct global models for a set of data in order to elicit individual models for the cluster. The preparation for building individual models is completed by determining the number of clusters inherent in the data set. In this paper, BIC(Bayesian Information Criterion) approximation is used to determine the number clusters and confirmed its applicability. A search technique to improve efficiency is also suggested by analyzing the relationship between data size and BIC values. A number of experiments have been performed to check its validity using artificially generated data sets. BIC approximation measure has been confirmed that it suggests best number of clusters through experiments provided that the number of data is relatively large.

  • PDF