• Title/Summary/Keyword: 데이터유사성

Search Result 1,573, Processing Time 0.031 seconds

Time-Series Data Prediction using Hidden Markov Model and Similarity Search for CRM (CRM을 위한 은닉 마코프 모델과 유사도 검색을 사용한 시계열 데이터 예측)

  • Cho, Young-Hee;Jeon, Jin-Ho;Lee, Gye-Sung
    • Journal of the Korea Society of Computer and Information
    • /
    • v.14 no.5
    • /
    • pp.19-28
    • /
    • 2009
  • Prediction problem of the time-series data has been a research issue for a long time among many researchers and a number of methods have been proposed in the literatures. In this paper, a method is proposed that similarities among time-series data are examined by use of Hidden Markov Model and Likelihood and future direction of the data movement is determined. Query sequence is modeled by Hidden Markov Modeling and then the model is examined over the pre-recorded time-series to find the subsequence which has the greatest similarity between the model and the extracted subsequence. The similarity is evaluated by likelihood. When the best subsequence is chosen, the next portion of the subsequence is used to predict the next phase of the data movement. A number of experiments with different parameters have been conducted to confirm the validity of the method. We used KOSPI to verify suggested method.

A study on the ordering of PIM family similarity measures without marginal probability (주변 확률을 고려하지 않는 확률적 흥미도 측도 계열 유사성 측도의 서열화)

  • Park, Hee Chang
    • Journal of the Korean Data and Information Science Society
    • /
    • v.26 no.2
    • /
    • pp.367-376
    • /
    • 2015
  • Today, big data has become a hot keyword in that big data may be defined as collection of data sets so huge and complex that it becomes difficult to process by traditional methods. Clustering method is to identify the information in a big database by assigning a set of objects into the clusters so that the objects in the same cluster are more similar to each other clusters. The similarity measures being used in the cluster analysis may be classified into various types depending on the nature of the data. In this paper, we computed upper and lower limits for probability interestingness measure based similarity measures without marginal probability such as Yule I and II, Michael, Digby, Baulieu, and Dispersion measure. And we compared these measures by real data and simulated experiment. By Warrens (2008), Coefficients with the same quantities in the numerator and denominator, that are bounded, and are close to each other in the ordering, are likely to be more similar. Thus, results on bounds provide means of classifying various measures. Also, knowing which coefficients are similar provides insight into the stability of a given algorithm.

네트워크 분석을 통한 정부 R&D 사업 유사연구영역 분석

  • Jeong, Jae-Ung;Han, Yu-Ri;Gang, In-Je;Choe, San;Jeong, Jae-Yeon;Park, Hyeon-U;Jeon, Seung-Pyo
    • Proceedings of the Korea Technology Innovation Society Conference
    • /
    • 2017.05a
    • /
    • pp.559-570
    • /
    • 2017
  • 우리나라는 과거부터 현재까지 미래 성장동력 육성을 목표로 정부주도하에 국가 R&D 투자를 점진적으로 늘려왔다. 그 결과, 최근에는 GDP 대비 연구개발비 비중이 세계 최고 수준에 이르렀다. 이렇게 연구개발 예산의 양적인 확대와 함께 연구개발 예산의 효율적 활용은 더욱 중요한 과학기술 분야의 정책적 이슈로 부각되고 있다. 연구개발 예산의 효율적인 집행을 위해서는 R&D 사업의 유사 중복성의 검토가 필수적이지만, 대부분의 유사 중복성 검토는 전문가의 직관적인 판단에 근거하여 이루어져왔다. 하지만, 전문가의 직관에만 의지한 판단은 때로는 불명확하거나 잘못된 결과를 가져올 수도 있다. 따라서, 본 연구에서는 네트워크 분석을 통해 정부 R&D 사업의 유사 중복성을 체계적으로 검토하기 위한 데이터기반의 방법론을 제안하여 전문가의 직관에 의한 유사 중복성 검토를 보완할 수 있는 가능성을 모색하고자 한다. 먼저, 본 연구에서는 정부 R&D사업 유사영역의 전체적인 구조 및 형태와 국가과학기술연구회 소속 25개 정부출연연구기관 R&D사업의 유사영역의 전반적인 형태를 시각화하여 유사영역을 파악하고 직관적인 판단과 선택을 할 수 있는 의사결정 정보를 제공하는데 초점을 두었다. 이를 위해, NTIS의 2015년 데이터를 사용하여 과제 키워드 기반으로 동시단어출현 분석을 수행하였다. 본 분석을 통해 25개 기관의 세부적인 유사연구영역 형태를 제시하였으며, 국내의 과학기술정책적 또는 과학기술학적인 현상들을 시각화하였다. 그 결과, 국내 출연연 R&D사업이 기관별 고유영역이 확고히 보이는 Mode 1적인 형태와 사회경제적인 맥락과 필요 및 유망성을 따르고, 다학제적, 적용중심적이며 과제별로 다양한 과제수행기관들이 과제들을 동시에 수행하는 Mode 2적인 형태가 출연연의 R&D사업 내에 공존하고 있음을 확인하였다.

  • PDF

Design and Implementation of XML Document Generator with Similar Structure (유사 구조를 갖는 XML 문서 생성기의 설계 및 구현)

  • 이범석;이재민;황병연
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.163-165
    • /
    • 2004
  • 여러 장점을 가지고 점차 그 사용이 증가하고 있는 XML은 내용뿐만 아니라 그 구조적 정보까지 포함하고 있는 특징을 가지고 있는데, 이러한 XML 문서를 효율적으로 검색하기 위해 구조 유사성을 기반으로 하는 검색 기법이 개발되고 있다. 새롭게 개발되는 유사한 구조의 XML 문서를 검색하는 시스템의 성능 평가를 위해서는 구조적으로 유사한 다량의 XML 데이터가 필요하다. 본 논문에서는 지금까지 개발되었던 유사 구조 문서 생성기를 바탕으로 사용자가 원하는 데이터 구조를 생성하는데 보다 효과적인, 유사 구조를 갖는 XML 문서 생성기인 xTrans를 설계 및 구현한다. xTrans는 원본 XML 문서에 삽입, 삭제, 치환의 세 가지 연산을 이용하여 사용자가 원하는 일정한 비율만큼의 구조적 변화를 일으키는데, 그러한 연산은 불규칙한 위치에서 생성되므로, 같은 비율의 변화가 일어난 여러 개의 유사 구조 문서를 생성할 수 있다. 사용자는 각 연산의 변형 비율을 지정해주어 원하는 만큼 변형시킨 문서를 생성하고, 이 문서들을 이용하여 새롭게 개발되는 유사 구조 문서 검색 시스템의 성능평가에 활용할 수 있다.

  • PDF

The application for predictive similarity measures of binary data in association rule mining (이분형 예측 유사성 측도의 연관성 평가 기준 적용 방안)

  • Park, Hee-Chang
    • Journal of the Korean Data and Information Science Society
    • /
    • v.22 no.3
    • /
    • pp.495-503
    • /
    • 2011
  • The most widely used data mining technique is to find association rules. Association rule mining is the method to quantify the relationship between each set of items in very huge database based on the association thresholds. There are some basic association thresholds to explore meaningful association rules ; support, confidence, lift, etc. Among them, confidence is the most frequently used, but it has the drawback that it can not determine the direction of the association. The net confidence and the attributably pure confidence were developed to compensate for this drawback, but they have other drawbacks.In this paper we consider some predictive similarity measures for binary data in cluster analysis and multi-dimensional analysis as association threshold to compensate for these drawbacks. The comparative studies with net confidence, attributably pure confidence, and some predictive similarity measures are shown by numerical example.

Similarity Determination of Conversational Utterances Using Field Dataset and Deep Learning Technology (현장 데이터셋과 딥러닝 기술을 이용한 대화 utterance 유사성 판별)

  • Kim, Juhee;Lee, Eunseo;Nam, Jeehee;Koh, Nakyeong;Bae, Sanghwan;Shim, Junho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.568-570
    • /
    • 2022
  • 객체 유사도를 판별하는 기술은 정보 처리의 여러 분야에서 응용되고 있다. 본 연구에서는 현장 자연어 텍스트 데이터셋과 딥러닝 모델을 이용하여 챗봇 등에서 응용되는 데이터 유사성을 판별하고, 해당 모델의 성능을 측정해보았다.

Bounds of PIM-based similarity measures with partially marginal proportion (부분적 주변 비율에 의한 확률적 흥미도 측도 기반 유사성 측도의 상한 및 하한의 설정)

  • Park, Hee Chang
    • Journal of the Korean Data and Information Science Society
    • /
    • v.26 no.4
    • /
    • pp.857-864
    • /
    • 2015
  • By Wikipedia, data mining is the computational process of discovering patterns in huge data sets involving methods at the intersection of association rule, decision tree, clustering, artificial intelligence, machine learning. Clustering or cluster analysis is the task of grouping a set of objects in such a way that objects in the same group are more similar to each other than to those in other groups. The similarity measures being used in the clustering may be classified into various types depending on the characteristics of data. In this paper, we computed bounds for similarity measures based on the probabilistic interestingness measure with partially marginal probability such as Peirce I, Peirce II, Cole I, Cole II, Loevinger, Park I, and Park II measure. We confirmed the absolute value of Loevinger measure wasthe upper limit of the absolute value of any other existing measures. Ordering of other measures is determined by the size of concurrence proportion, non-simultaneous occurrence proportion, and mismatch proportion.

Follower classification system based on the similarity of Twitter node information (트위터 사용자정보의 유사성을 기반으로 한 팔로어 분류시스템)

  • Kye, Yong-Sun;Yoon, Youngmi
    • Journal of the Korea Society of Computer and Information
    • /
    • v.19 no.1
    • /
    • pp.111-118
    • /
    • 2014
  • Current friend recommendation system on Twitter primarily recommends the most influential twitter. However, this way of recommendation has drawbacks where it does not recommend the users of which attributes of interests are similar to theirs. Since users want other users of which attributes are similar, this study implements follower recommendation system based on the similarity of twitter node informations. The data in this study is from SNAP(Stanford Network Analysis Platform), and it consists of twitter node information of which number of followers is over 10,000 and twitter link information. We used the SNAP data as a training data, and generated a classifier which recommends and predicts the relation between followers. We evaluated the classifier by 10-Fold Cross validation. Once two twitter node informations are given, our model can recommend the relationship of the two twitters as one of following such as: FoFo(Follower Follower), FoFr(Follower Friend), NC(Not Connected).

Natural Disaster Alarming using Data Mining (데이터 마이닝을 이용한 자연재난 경고)

  • Joon-Suk Ryu;Won-Gil Choi;Ung-Mo Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.367-370
    • /
    • 2008
  • 지구 온난화와 도시화 등으로 인해 자연 재난은 매년 그 강도는 증가하고 있고 그 결과 재난으로 인한 피해도 증가하고 있다. 우리나라 역시 매년 자연재난으로 많은 피해를 입고 있다. 이러한 재난을 지역의 특성을 이용하여 분류한 후 특성이 유사한 지역을 모아 패턴을 찾게 되며 패턴은 데이터 마이닝을 이용해 찾게 된다. 데이터 마이닝이란 여러 가지 데이터 안에 의미 있는 패턴을 찾아내는 기술이며 여기서 찾게 되는 패턴은 지금까지 발생한 재난의 발생 직전까지의 패턴이 된다. 이렇게 찾아낸 패턴은 현재 연속적으로 변하는 환경의 패턴 비교되며 패턴이 유사할 경우 경고하여 재난이 발생하기 전 먼저 예측하고 대비하는 방법을 제시한다.

Study of the Simulation of VoIP Traffic Generation with Considering Self-Similiarity (자기유사성을 고려한 VoIP 트래픽 생성 시뮬레이션 방법 의 연구)

  • 김윤배;이계신;김재범
    • Proceedings of the Korea Society for Simulation Conference
    • /
    • 2004.05a
    • /
    • pp.25-29
    • /
    • 2004
  • VoIP는 인터넷 프로토콜(IP)를 이용하여 음성을 데이터 packet처럼 전송하는 것을 의미한다. 최근 VoIP 기술의 도입으로 기존 망 성능 관리에 대한 관심이 높아지고 있다. 보다 원활한 기술 구현을 위해서는 VoIP 트래픽에 대한 체계적인 분석과 위험성 검증을 할 수 있는 도구가 필요하다. 또한 기존의 트래픽 시뮬레이션 기법에서 실제 망에서의 자기유사성을 적용한 사례가 적다는 것 또한 본 연구가 행하여진 동기이다. 본 연구에서는 자기유사성을 반영하여 소량의 샘플을 갖고 전체 VoIP 망 트래픽을 생성할 수 있는 방법론을 개발하고자 시도하였다.

  • PDF