• Title/Summary/Keyword: 데이터 구조 유사도

Search Result 545, Processing Time 0.025 seconds

The study of integration techniques for storing XML documents efficiently based on structures and semantics (구조 및 의미적 유사성에 기반한 XML 문서들의 효율적인 저장을 위한 통합 기법)

  • 김연희;김병곤;이재호;임해철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.590-592
    • /
    • 2003
  • 최근 XML이 웹 상의 데이터의 표현, 교환, 중재의 표준으로 각광받으면서 이러한 XML 문서를 효과적으로 저장, 접근 및 검색하기 위한 기법에 대한 연구가 많았으나, 기존의 연구들은 하나의 XML 문서를 저장 및 검색의 대상으로 하는 경우가 대부분이였다. 그러나 XML 문서를 데이터의 표현과 교환의 표준으로 이용하는 애플리케이션의 개발이 점차 활성화됨에 따라 저장해야하는 XML 문서의 수가 크게 증가하면서 의미나 구조적으로 많은 유사성을 지니는 XML 문서들을 함께 효율적으로 저장하고 검색하기 위한 기법의 연구가 요구된다. 따라서 본 논문에서는 의미 및 구조적으로 유사성을 가지는 여러 XML 문서들을 통합하는 기법을 제안한다. 제안된 통합 기법은 같은 DTD나 XML Schema를 가지는 경우와 다른 DTD나 XML Schema를 가지는 경우를 모두 고려한다. 또한 특별한 구조적 정보를 가지지 않는 XML 문서의 경우도 다른 DTD나 XML Schema를 가지는 경우와 마찬가지로 처리함으로써 다양한 XML 문서들에 대한 통합이 가능하도록 한다. 이러한 통합 기법은 중복되는 엘리먼트나 애트리뷰트에 대한 저장 공간의 낭비를 최소화한다. 또한 의미적으로 또는 구조적으로 관련성있는 여러 XML 문서의 부분들을 디스크 상의 페이지내에 서로 가까이 저장할 수 있기 때문에 사용자의 일반적인 질의에 대해 효율적이고 빠른 검색 결과를 유도할 수 있고, I/O 횟수를 줄임으로써 그에 따른 오버헤드를 줄일 수 있는 장점이 있다.

  • PDF

Staged Damage Detection of a RC Mock-up Structure by Artificial Neural Network (인공신경망을 이용한 RC Mock-up 구조물의 단계별 손상탐지)

  • Kwon, Hung-Joo;Kim, Ji-Young;Yu, Eun-Jong
    • Proceedings of the Computational Structural Engineering Institute Conference
    • /
    • 2011.04a
    • /
    • pp.676-679
    • /
    • 2011
  • 인공신경망(Artificial Neural Network)을 이용하여 RC Mock-up 구조물의 손상위치 및 손상정도를 단계적으로 추정하였다. 대상 구조물은 가진실험을 통하여 구조물의 응답을 취득하고 구조물식별기법(Structural System Identification)을 통하여 구조물의 동특성을 찾았다. 유한요소해석프로그램을 사용하여 동특성이 계측치와 가장 유사한 기본해석모델을 만든 후 이 기본해석모델을 이용하여 학습데이터를 생성하였다. 기존 인공신경망을 이용한 손상탐지를 개선하고자 본 연구에서는 인공신경망 학습데이터를 분석하였고 효과적인 손상탐지를 위하여 학습데이터를 가공하였다. 가공된 학습데이터를 사용하여 단계별 손상탐지를 실시하였고 기존 손상탐지 방법보다 좋은 결과를 유도하였다.

  • PDF

Video Story Segmentation using Nearest Neighbor Clustering Method (Nearest Neighbor 클러스터링 방법을 이용한 비디오 스토리 분할)

  • 이해만;최영우;정규식
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.101-104
    • /
    • 2000
  • 비디오 데이터의 효율적인 검색, 요약 등에 활용하기 위해서 대용량의 비디오 데이터를 프레임(Frame), 샷(Shot),스토리(Story)의 계층적인 구조로 표현하는 방법들이 요구되고 있으며, 이에 따라 비디오를 샷, 스토리 단위로 분할하는 연구들이 수행되고 있다. 본 논문은 비디오가 샷 단위로 분할되어 있다고 가정한 후, 인접한 샷들을 결합하여 의미 있는 최소 단위인 스토리를 분할하는 방법을 제안한다. 제안하는 방법은 각 샷에서 추출된 대표 프레임들을 비교하기 위한 CCV(Color Coherence Vector) 영상 특징을 추출한다. CCV 특징의 시각적인 유사도의 초기임계값과 일정한 시간 안에 반복되는 프레임들을 찾기 위한 시간적인 유사도의 시간 임계값을 설정하여NN(Nearest Neighbor) 클러스터링 방법을 이용하여 클러스터링을 한다. 클러스터링된 정보와 같은 장면이 한번이상 반복되는 스토리의 특성을 이용해 비디오를 스토리로 분할한다. 영화 비디오 데이터를 이용한 실험을 통해 제안하는 방법의 유효성을 검증하였다.

  • PDF

Sequence Data Indexing Method based on Minimum DTW Distance (최소 DTW 거리 기반의 데이터 시퀀스 색인 기법)

  • Khil, Ki-Jeong;Song, Seok-Il;Song, Chai-Jong;Lee, Seok-Pil;Jang, Sei-Jin;Lee, Jong-Seol
    • The Journal of the Korea Contents Association
    • /
    • v.11 no.12
    • /
    • pp.52-59
    • /
    • 2011
  • In this paper, we propose an indexing method to support efficient similarity search for sequence databases. We present a new distance measurement called minimum DTW distance to enhance the filtering effects. The minimum DTW distance is to measure the minimum distance between a sequence data and the group of similar sequences. It enables similarity search through hierarchical index structure by filtering sequence databases. Finally, we show the superiority of our method through some experiments.

Purchase Transaction Similarity Measure Considering Product Taxonomy (상품 분류 체계를 고려한 구매이력 유사도 측정 기법)

  • Yang, Yu-Jeong;Lee, Ki Yong
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.8 no.9
    • /
    • pp.363-372
    • /
    • 2019
  • A sequence refers to data in which the order exists on the two items, and purchase transaction data in which the products purchased by one customer are listed is one of the representative sequence data. In general, all goods have a product taxonomy, such as category/ sub-category/ sub-sub category, and if they are similar to each other, they are classified into the same category according to their characteristics. Therefore, in this paper, we not only consider the purchase order of products to compare two purchase transaction sequences, but also calculate their similarity by giving a higher score if they are in the same category in spite of their difference. Especially, in order to choose the best similarity measure that directly affects the calculation performance of the purchase transaction sequences, we have compared the performance of three representative similarity measures, the Levenshtein distance, dynamic time warping distance, and the Needleman-Wunsch similarity. We have extended the existing methods to take into account the product taxonomy. For conventional similarity measures, the comparison of goods in two sequences is calculated by simply assigning a value of 0 or 1 according to whether or not the product is matched. However, the proposed method is subdivided to have a value between 0 and 1 using the product taxonomy tree to give a different degree of relevance between the two products, even if they are different products. Through experiments, we have confirmed that the proposed method was measured the similarity more accurately than the previous method. Furthermore, we have confirmed that dynamic time warping distance was the most suitable measure because it considered the degree of association of the product in the sequence and showed good performance for two sequences with different lengths.

A Study on the Relationship between Class Similarity and the Performance of Hierarchical Classification Method in a Text Document Classification Problem (텍스트 문서 분류에서 범주간 유사도와 계층적 분류 방법의 성과 관계 연구)

  • Jang, Soojung;Min, Daiki
    • The Journal of Society for e-Business Studies
    • /
    • v.25 no.3
    • /
    • pp.77-93
    • /
    • 2020
  • The literature has reported that hierarchical classification methods generally outperform the flat classification methods for a multi-class document classification problem. Unlike the literature that has constructed a class hierarchy, this paper evaluates the performance of hierarchical and flat classification methods under a situation where the class hierarchy is predefined. We conducted numerical evaluations for two data sets; research papers on climate change adaptation technologies in water sector and 20NewsGroup open data set. The evaluation results show that the hierarchical classification method outperforms the flat classification methods under a certain condition, which differs from the literature. The performance of hierarchical classification method over flat classification method depends on class similarities at levels in the class structure. More importantly, the hierarchical classification method works better when the upper level similarity is less that the lower level similarity.

Design of a Retrieval System for Digital Music Information (디지털 음악정보 검색 시스템의 설계)

  • 지정규;오해석
    • Proceedings of the Korea Database Society Conference
    • /
    • 1997.10a
    • /
    • pp.425-437
    • /
    • 1997
  • 본 논문은 디지털 도서관에서 임의의 음악정보를 효율적으로 검색하기 위한 시스템을 제안한다. 종래의 전형적인 음악정보 검색 항목인 제목이나 작곡자 또는 주제를 입력하는 것이 아니라, 사용자가 음악 데이터베이스로부터 검색하고자 하는 음악의 일부를 마이크를 통해서 노래한다. 그러면 입력된 선율에 대한 음 신호를 처리하여 음표정보를 인식하고, 이를 바탕으로 음정곡선을 생성하여 이를 탐색 패턴으로 사용한다. 동요를 대상으로 하여 음악 데이터베이스를 생성할 때는 각각의 곡에서 추출한 음정곡선을 이용하여 색인과 메타 데이터를 생성하는데, 색인은 유사 탐색을 용이하게 하기 위해서 Trie 구조를 사용한다. 탐색패턴을 이용해서 메타 데이터를 탐색할 때는 동적 프로그래밍 방법을 이용하여 유사 탐색을 함으로써 노래의 어느 마리를 부르더라도 쉽게 후보곡을 검색할 수 있도록 한다. 통상음악의 첫째 동기를 부르는 경우가 많기 때문에 첫째 악절로 구성한 색인을 먼저 탐색토록하고, 색인에서 탐색을 실패한 경우(음악의 첫째 동기 이후를 부른 경우)에 메타 데이터를 이용한 유사 음표열 탐색을 하도록 하여 효율적인 검색이 되도록 하였다.

  • PDF

The implementation of efficient pattern classification system using the gene algorithm (유전자 알고리즘을 이용한 효율적인 패턴 분류 시스템 구현)

  • 이호현;최용호;서원택;조범준
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2002.11b
    • /
    • pp.792-795
    • /
    • 2002
  • 현재 많은 관심의 대상이 되고 있는 데이터 마이닝은 대용량의 데이터베이스로부터 일정한 패턴을 분류하여 지식의 형태로 추출하는 작업이다. 데이터 마이닝의 대표적인 기법인 군집화는 군집내의 유사성을 최대화하고 군집들간의 유사성을 최소화 시키도록 데이터 집합을 분할하는 것이다. 데이터 마이닝에서 군집화는 대용량 데이터를 다루기 때문에 원시 데이터에 대한 접근 횟수를 줄이고 알고리즘이 다루어야 할 데이터 구조의 크기를 줄이는 군집화 기법이 활발하게 사용된다. 그런데 기존의 군집화 알고리즘은 잡음에 매우 민감하고, local minima에 반응한다. 또한 사전에 군집의 개수를 미리 결정해야 하고, initialization 값에 따라 군집의 성능이 좌우되는 문제점이 있다. 본 연구에서는 유전자 알고리즘을 이용하여 자동으로 군집의 개수를 결정하는 LONGEPRO 알고리즘을 제안하고, 여기서 제시하는 적합도 함수의 최적화된 군집을 찾아내여 조금더 효율적인 알고리즘을 만들어 대용량 데이터를 다루는 데이터 마이닝에 적용해 보려 한다.

  • PDF

Application of Gene Algorithm for the development of efficient clustering system (효율적인 군집화 시스템의 개발을 위해 유전자 알고리즘의 적용)

  • Hong, Gil-Dong;Kim, Cheol-Soo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.277-280
    • /
    • 2003
  • 현재 많은 관심의 대상이 되고 있는 데이터 마이닝은 대용량의 데이터베이스로부터 일정한 패턴을 분류하여 지식의 형태로 추출하는 작업이다. 데이터 마이닝의 대표적인 기법인 군집화는 군집내의 유사성을 최대화하고 군집들간의 유사성을 최소화시키도록 데이터 집합을 분할하는 것이다. 데이터 마이닝에서 군집화는 대용량 데이터를 다루기 때문에 원시 데이터에 대한 접근횟수를 줄이고 알고리즘이 다루어야 할 데이터 구조의 크기를 줄이는 군집화 기법이 활발하게 사용된다. 그런데 기존의 군집화 알고리즘은 잡음에 매우 민감하고, local minima에 반응한다. 또한 사전에 군집의 개수를 미리 결정해야 하고, initialization 값에 다라 군집의 성능이 좌우되는 문제점이 있다. 본 연구에서는 유전자 알고리즘을 이용하여 자동으로 군집의 개수를 결정하는 군집화 알고리즘을 제안하고, 여기서 제시하는 적합도 함수의 최적화된 군집을 찾아내어 조금더 효율적인 알고리즘을 만들어 대용량 데이터를 다루는 데이터 마이닝에 적용해 보려한다.

  • PDF

XML Document Clustering Based on Sequential Pattern (순차패턴에 기반한 XML 문서 클러스터링)

  • Hwang, Jeong-Hee;Ryu, Keun-Ho
    • The KIPS Transactions:PartD
    • /
    • v.10D no.7
    • /
    • pp.1093-1102
    • /
    • 2003
  • As the use of internet is growing, the amount of information is increasing rapidly and XML that is a standard of the web data has the property of flexibility of data representation. Therefore electronic document systems based on web, such as EDMS (Electronic Document Management System), ebXML (e-business extensible Markup Language), have been adopting XML as the method for exchange and standard of documents. So research on the method which can manage and search structural XML documents in an effective wav is required. In this paper we propose the clustering method based on structural similarity among the many XML documents, using typical structures extracted from each document by sequential pattern mining in pre-clustering process. The proposed algorithm improves the accuracy of clustering by computing cost considering cluster cohesion and inter-cluster similarity.