• Title/Summary/Keyword: 데이타 분류

Search Result 305, Processing Time 0.024 seconds

Schema Integration Analysis for GIS Databases (GIS 데이타베이스를 위한 스키마 통합 분석)

  • Moon, Sang-Ho;Baik, Min-Eui;Hong, Bong-Hee
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 1999.06a
    • /
    • pp.231-246
    • /
    • 1999
  • 일반적으로 스키마 통합이란 각 응용들의 관점에 따라 다르게 표현된 스키마들을 하나의 스키마로 통합하는 것을 말한다. GIS 데이타베이스는 일반 데이타베이스와는 달리 개체에 대한 속성 정보 뿐만 아니라 기하 등과 같은 공간 정보를 가지고 있다. 특히, GIS 응용에서 정의된 개체들의 공간 표현은 관점에 따라 다양한 기하 서브스키마들로 표현된다. 따라서 GIS 데이타베이스를 위한 스키마 통합에서 서로 다른 기하 서브스키마들을 통합하는 것이 무엇보다 중요하다. 본 논문에서는 GIS 데이타베이스의 스키마통합을 위해서 기하 서브스키마들의 통합 문제를 중점적으로 다룬다 먼저 기하 서브스키마들의 통합에서 발생하는 충돌들을 개체의 기하를 중심으로 동일 개체간의 기하 충돌과 다른 개체간의 기하 충돌로 분류하여 정의한다. 그리고 이 충돌들을 해결하기 위한 충돌 해결 방법으로 각 충돌들의 특성을 고려하여 상위 레벨의 기하 서브스키마 선택, 기하의 다중 표현, 구성 요소의 공유, 개체들 간의 상세화 등을 제시한다. 또한, 통합된 스키마에 대하여 가상 스키마를 표현하는 방법을 제시하여, 통합되기 전의 스키마들을 통합된 스키마로부터 유도될 수 있음을 보인다. 본 논문에서는 GIS 데이타베이스 스키마를 기술하기 위하여 ISO/TC211의 개념적 스키마 언어인 EXPRESS-G를 이용한다.

  • PDF

Update Propagation of Replicated Data in a Peer-to-Peer Environment (Peer-to-Peer 환경에서 중복된 데이타의 갱신 전파 기법)

  • Choi, Min-Young;Cho, Haeng-Rae
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.13-15
    • /
    • 2005
  • P2P(Peer-to-Peer) 시스템은 대용량의 데이타를 공유하는데 유용하며, 네트워크 구조에 따라 중앙 집중형, 구조적 분산형, 그리고 비구조적 분산형으로 분류된다. 이 중 Gnutella와 같은 비구조적 분산형 P2P 시스템은 확장성과 신뢰성 측면에서 장점을 갖지만, 참여하는 노드의 수가 증가함에 따라 원하는 자원을 액세스하는 비용도 증가하는 문제를 가진다. 데이터 중복을 이용해 이러한 문제를 해결할 경우 중복된 데이타들의 일관성 유지를 위한 기법이 필요하다. 본 논문에서는 특정 노드가 갱신한 데이타를 중복된 사본을 저장하고 있는 다른 노드에 전파하기 위한 하이브리드 push/pull 기반의 갱신 전파 기법을 제안한다.

  • PDF

Data Mining Algorithm Based on Fuzzy Decision Tree for Pattern Classification (퍼지 결정트리를 이용한 패턴분류를 위한 데이터 마이닝 알고리즘)

  • Lee, Jung-Geun;Kim, Myeong-Won
    • Journal of KIISE:Software and Applications
    • /
    • v.26 no.11
    • /
    • pp.1314-1323
    • /
    • 1999
  • 컴퓨터의 사용이 일반화됨에 따라 데이타를 생성하고 수집하는 것이 용이해졌다. 이에 따라 데이타로부터 자동적으로 유용한 지식을 얻는 기술이 필요하게 되었다. 데이타 마이닝에서 얻어진 지식은 정확성과 이해성을 충족해야 한다. 본 논문에서는 데이타 마이닝을 위하여 퍼지 결정트리에 기반한 효율적인 퍼지 규칙을 생성하는 알고리즘을 제안한다. 퍼지 결정트리는 ID3와 C4.5의 이해성과 퍼지이론의 추론과 표현력을 결합한 방법이다. 특히, 퍼지 규칙은 속성 축에 평행하게 판단 경계선을 결정하는 방법으로는 어려운 속성 축에 평행하지 않는 경계선을 갖는 패턴을 효율적으로 분류한다. 제안된 알고리즘은 첫째, 각 속성 데이타의 히스토그램 분석을 통해 적절한 소속함수를 생성한다. 둘째, 주어진 소속함수를 바탕으로 ID3와 C4.5와 유사한 방법으로 퍼지 결정트리를 생성한다. 또한, 유전자 알고리즘을 이용하여 소속함수를 조율한다. IRIS 데이타, Wisconsin breast cancer 데이타, credit screening 데이타 등 벤치마크 데이타들에 대한 실험 결과 제안된 방법이 C4.5 방법을 포함한 다른 방법보다 성능과 규칙의 이해성에서 보다 효율적임을 보인다.Abstract With an extended use of computers, we can easily generate and collect data. There is a need to acquire useful knowledge from data automatically. In data mining the acquired knowledge needs to be both accurate and comprehensible. In this paper, we propose an efficient fuzzy rule generation algorithm based on fuzzy decision tree for data mining. We combine the comprehensibility of rules generated based on decision tree such as ID3 and C4.5 and the expressive power of fuzzy sets. Particularly, fuzzy rules allow us to effectively classify patterns of non-axis-parallel decision boundaries, which are difficult to do using attribute-based classification methods.In our algorithm we first determine an appropriate set of membership functions for each attribute of data using histogram analysis. Given a set of membership functions then we construct a fuzzy decision tree in a similar way to that of ID3 and C4.5. We also apply genetic algorithm to tune the initial set of membership functions. We have experimented our algorithm with several benchmark data sets including the IRIS data, the Wisconsin breast cancer data, and the credit screening data. The experiment results show that our method is more efficient in performance and comprehensibility of rules compared with other methods including C4.5.

Logic Expression for Information Retrieval of Natural Language (자연언어 정보 검색을 위한 논리적 표현)

  • 김길준
    • Proceedings of the Korea Database Society Conference
    • /
    • 2000.11a
    • /
    • pp.261-268
    • /
    • 2000
  • 고대 아시리아의 도서관에서는 점토판에 새겨진 계행 문자로 된 문서가 항아리에 주제별로 분류되어 담겨져 있었다고 한다. 수없이 쏟아져 나오는 문서 정보를 관리하기 위하여 이와 같은 분류기술이 발달 된 것이라고 추측된다. (중략)

  • PDF

An Access Control Model for Privacy Protection using Purpose Classification (사용목적 분류를 통한 프라이버시 보호를 위한 접근제어 모델)

  • Na Seok-Hyun;Park Seog
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.16 no.3
    • /
    • pp.39-52
    • /
    • 2006
  • Recently purpose is used by an crucial part to security management when collecting data about privacy. The W3C(World Wide Web Consortium) describes a standard spec to control personal data that is provided by data providers who visit the web site. But they don't say anymore about security management about personal data in transit after data collection. Recently several researches, such as Hippocratic Databases, Purpose Based Access Control and Hippocratic in Databases, are dealing with security management using purpose concept and access control mechanism after data collection a W3C's standard spec about data collection mechanism but they couldn't suggest an efficient mechanism for privacy protection about personal data because they couldn't represent purpose expression and management of purposes sufficiently. In this paper we suggest a mechanism to improve the purpose expression. And then we suggest an accesscontrol mechanism that is under least privilege principle using the purpose classification for privacy protection. We classify purpose into Along purpose structure, Inheritance purpose structure and Stream purpose structure. We suggest different mechanisms to deal with then We use the role hierarchy structure of RBAC(Role-Based Access Control) for flexibility about access control and suggest mechanisms that provide the least privilege for processing the task in case that is satisfying using several features of purpose to get least privilege of a task that is a nit of business process.

A Weighted Fuzzy Min-Max Neural Network for Pattern Classification (패턴 분류 문제에서 가중치를 고려한 퍼지 최대-최소 신경망)

  • Kim Ho-Joon;Park Hyun-Jung
    • Journal of KIISE:Software and Applications
    • /
    • v.33 no.8
    • /
    • pp.692-702
    • /
    • 2006
  • In this study, a weighted fuzzy min-max (WFMM) neural network model for pattern classification is proposed. The model has a modified structure of FMM neural network in which the weight concept is added to represent the frequency factor of feature values in a learning data set. First we present in this paper a new activation function of the network which is defined as a hyperbox membership function. Then we introduce a new learning algorithm for the model that consists of three kinds of processes: hyperbox creation/expansion, hyperbox overlap test, and hyperbox contraction. A weight adaptation rule considering the frequency factors is defined for the learning process. Finally we describe a feature analysis technique using the proposed model. Four kinds of relevance factors among feature values, feature types, hyperboxes and patterns classes are proposed to analyze relative importance of each feature in a given problem. Two types of practical applications, Fisher's Iris data and Cleveland medical data, have been used for the experiments. Through the experimental results, the effectiveness of the proposed method is discussed.

Improvement of Classification Rate of Handwritten Digits by Combining Multiple Dynamic Topology-Preserving Self-Organizing Maps (다중 동적 위상보존 자기구성 지도의 결합을 통한 필기숫자 데이타의 분류율 향상)

  • Kim, Hyun-Don;Cho, Sung-Bae
    • Journal of KIISE:Software and Applications
    • /
    • v.28 no.12
    • /
    • pp.875-884
    • /
    • 2001
  • Although the self organizing map (SOM) is widely utilized in such fields of data visualization and topology preserving mapping, since it should have the topology fixed before trained, it has some shortcomings that it is difficult to apply it to practical problems, and classification capability is quite low despite better clustering performance. To overcome these points this paper proposes the dynamic topology preserving self-organizing map(DTSOM) that dynamically splits the output nodes on the map and trains them, and attempts to improve the classification capability by combining multiple DTSOMs K-Winner method has been applied to combine DTSOMs which produces K outputs with winner node selection method. This produces even better performance than the conventional combining methods such as majority voting weighting, BKS Bayesian, Borda, Condorect and reliability sum. DTSOM remedies the shortcoming of determining the topology in advance, and the classification rate increases significantly by combing multiple maps trained with different features. Experimental results with handwritten digit recognition indicate that the proposed method works out to problems of conventional SOM effectively so to improve the classification rate to 98.1%.

  • PDF

Efficient Cache Management Scheme in Database based on Block Classification (블록 분류에 기반한 데이타베이스의 효율적 캐쉬 관리 기법)

  • Sin, Il-Hoon;Koh, Kern
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.29 no.7
    • /
    • pp.369-376
    • /
    • 2002
  • Although LRU is not adequate for database that has non-uniform reference pattern, it has been adopted in most database systems due to the absence of the proper alternative. We analyze database block reference pattern with the realistic database trace. Based on this analysis, we propose a new cache replacement policy. Trace analysis shows that extremely non-popular blocks take up about 70 % of the entire blocks. The influence of recency on blocks' re-reference likelihood is at first strong due to temporal locality, however, it rapidly decreases and eventually becomes negligible as stack distance increases. Based on this observation, RCB(Reference Characteristic Based) cache replacement policy, which we propose in this paper, classifies the entire blocks into four block groups by blocks' recency and re-reference likelihood, and operates different priority evaluation methods for each block group. RCB policy evicts non-popular blocks more quickly than the others and evaluates the priority of the block by frequency that has not been referenced for a long time. In a trace-driven simulation, RCB delivers a better performance than the existing polices(LRU, 2Q, LRU-K, LRFU). Especially compared to LRU. It reduces miss count by 5~l2.7%. Time complexity of RCB is O(1), which is the same with LRU and 2Q and superior to LRU-K(O(log$_2$N)) and LRFU(O(l) ~ O(log$_2$N)).

Efficiency Algorithm of Multispectral Image Compression in Wavelet Domain (웨이브릿 영역에서 다분광 화상 데이터의 효율적인 압축 알고리듬)

  • Park, Gyeong Nam;Kim, Yeong Chun;Jang, Jong Guk;Lee, Geon Il
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.38 no.4
    • /
    • pp.38-38
    • /
    • 2001
  • 본 논문에서는 웨이브릿 영역에서의 영역 분류와 대역간 예측 및 선택적 벡터 양자화를 이용한 다분광 화상테이타 압축 기법을 제안하였다. 이 방법에서는 각 대역을 웨이브릿 변환 후, 각 대역의 기저밴드의 대역별 특성을 이용하여 영역 분류를 행하였다. 그리고, 다른 대역과 해상도가 동일하고 공간적 분산이 작으며 분광적 상관성이 큰 기준대역 (reference channel)을 결정한 뒤, 이를 영역별 스칼라 및 분류별 가변 벡터 양자화를 행하여 부호화 하였다. 또한 기준대역과의 대역간 상관성이 큰 대역들에 대해서는 영역별 대역간 예측을 행한 후, 활동도가 높은 블록에 대해서만 선택적 벡터 양자화로 부호화를 행하였다. 이때, 활동도가 높은 블록들의 위치정보는 기준대역으로부터 얻어지는 임계치 지도 (threshold map; THMAP)를 이용하였다. 즉, 제안한 방법에서는 각 대역에 대해 웨이브릿 영역에서의 영역 분류 후 영역별 대역간 예측을 행함으로써 다분광 화상데이타에 존재하는 대역간 중복성을 제거하고 선택적 벡터 양자화를 행함으로써 대역내 중복성을 효과적으로 제거하여 압축효율을 향상시킨다. 실제 원격 센싱된 인공위성 화상데이타에 대한 실험을 통하여 제안한 기법의 부호화 효율이 기존의 기법에 비하여 우수함을 확인하였다.