• 제목/요약/키워드: 데이터유사성

검색결과 1,578건 처리시간 0.026초

범주형 속성 기반 군집화를 위한 새로운 유사 측도 (A New Similarity Measure for Categorical Attribute-Based Clustering)

  • 김민;전주혁;우경구;김명호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권2호
    • /
    • pp.71-81
    • /
    • 2010
  • 데이터의 군집을 찾아내는 문제는 패턴 인식, 이미지 처리, 시장 조사 등 많은 응용 분야에서 널리 사용되고 있다. 군집의 질을 결정하는 핵심 요소로는 유사 측도, 차원의 개수 등이 있다. 유사 측도는 데이터의 특성을 반영하여 다르게 정의되어야 하는데, 대부분 기존의 연구들은 데이터를 특징 지어주는 속성이 수치형으로 주어진 경우에 국한되어 있었다. 속성이 범주형으로 주어진 경우도 실생활에 많이 존재하지만, 범주형 변수에 대한 속성값의 유사성은 값의 순서가 고유하게 정해지지 않아서 정의하기 어렵다. 이에 더하여, 고차원 데이터에 대해서는 데이터 점들이 희박하게 위치하여 가까운 점과 먼 점간의 차이가 거의 없고, 군집화 결과가 좋지 않을 수 있다. 이 문제를 해결하기 위해 부분 차원 군집화 방법이 제안되어 왔다. 부분 차원 군집화 방법은 각 군집을 발견하기에 적합한 부분 차원을 선택하면서 군집화를 수행하는 방법이다. 본 논문에서는 범주형 속성으로 특징지어진 고차원 데이터를 부분 차원 군집화하기 위한 새로운 유사 측도를 제안한다. 유사 측도는 각 군집은 다른 군집과 구별되는 특정 정보를 잘 표현할 수 있어야 한다는 기본적인 가정 하에 속성들 사이의 상관성을 반영하여 정의되었다. 이들 모두를 반영한 유사측도는 기존에 존재하지 않았다는 점에서 본 연구는 의미가 있다. 실제 데이터 집합을 군집화하는 실험을 통해 제안하는 방법이 다른 군집화 방법보다 저차원 데이터와 고차원 데이터 모두에 대해 좀 더 정확한 군집 결과를 얻을 수 있음을 보였다.

CRM을 위한 은닉 마코프 모델과 유사도 검색을 사용한 시계열 데이터 예측 (Time-Series Data Prediction using Hidden Markov Model and Similarity Search for CRM)

  • 조영희;전진호;이계성
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권5호
    • /
    • pp.19-28
    • /
    • 2009
  • 시계열의 예측에 대한 문제는 오랫동안 많은 연구자들의 연구의 대상이었으며 예측을 위한 많은 방법이 제안되었다. 본 논문에서는 은닉 마코프 모델(Hidden Markov Model)과 우도(likelihood)를 사용한 유사도 검색을 통하여 향후 시계열 데이터의 운행 방향을 예측하는 방법을 제안한다. 이전에 기록된 시계열 데이터에서 질의 시퀸스(sequence)와 유사한 부분을 검색하고 유사 부분의 서브 시퀸스를 사용하여 시계열을 예측하는 방법이다. 먼저 주어진 질의 시퀸스에 대한 은닉 마코프 모델을 작성한다. 그리고 시계열 데이터에서 순차적으로 일정 길이의 서브 시퀸스를 추출하고 추출된 서브 시퀸스와 작성된 은닉 마코프 모델과의 우도를 계산한다. 시계열 데이터로부터 추출된 서브 시퀸스 중에서 우도가 가장 높은 시퀸스를 유사 시퀸스로 결정하고 결정된 부분 이후의 값을 추출하여 질의 시퀸스 이후의 예측 값을 추정한다. 실험 결과 예측 값과 실제 값이 상당한 유사성을 나타내었다. 제안된 방법의 유효성은 코스피(KOSPI) 종합주가지수를 대상으로 실험하여 검증한다.

주변 확률을 고려하지 않는 확률적 흥미도 측도 계열 유사성 측도의 서열화 (A study on the ordering of PIM family similarity measures without marginal probability)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권2호
    • /
    • pp.367-376
    • /
    • 2015
  • 데이터마이닝 기법 중의 하나인 군집분석은 다양한 특성을 지닌 관찰대상에 대해 유사성을 바탕으로 동질적인 군집으로 묶은 후, 동일 군집에 속해 있는 공통된 특성을 조사하는데 이용되는 기법이다. 본 논문에서는 주변 확률을 고려하지 않는 확률적 흥미도 측도 기반 유사성 측도인 Yule I과 II, Michael, Digby, Baulieu, 그리고 Dispersion 측도에 대해 상한 및 하한을 설정함으로써 이들의 대소관계를 규명하였다. 그 결과, 세 가지 유형의 대소 관계가 성립한다는 사실을 수식의 증명뿐만 아니라 실제 데이터 및 모의실험 데이터에 의해서도 확인할 수 있었다. 이들 측도들은 각 경계에 있는 측도와는 더욱 더 유사한 값을 가지므로 각 측도의 상한 및 하한은 여러 가지 측도들을 분류하는 도구가 되며, 실제 값의 관점에서 각 측도들의 관계를 알게 되면 주어진 알고리즘의 안정화에 도움이 될 수 있을 것이다.

네트워크 분석을 통한 정부 R&D 사업 유사연구영역 분석

  • 정재웅;한유리;강인제;최산;정재연;박현우;전승표
    • 한국기술혁신학회:학술대회논문집
    • /
    • 한국기술혁신학회 2017년도 춘계학술대회 논문집
    • /
    • pp.559-570
    • /
    • 2017
  • 우리나라는 과거부터 현재까지 미래 성장동력 육성을 목표로 정부주도하에 국가 R&D 투자를 점진적으로 늘려왔다. 그 결과, 최근에는 GDP 대비 연구개발비 비중이 세계 최고 수준에 이르렀다. 이렇게 연구개발 예산의 양적인 확대와 함께 연구개발 예산의 효율적 활용은 더욱 중요한 과학기술 분야의 정책적 이슈로 부각되고 있다. 연구개발 예산의 효율적인 집행을 위해서는 R&D 사업의 유사 중복성의 검토가 필수적이지만, 대부분의 유사 중복성 검토는 전문가의 직관적인 판단에 근거하여 이루어져왔다. 하지만, 전문가의 직관에만 의지한 판단은 때로는 불명확하거나 잘못된 결과를 가져올 수도 있다. 따라서, 본 연구에서는 네트워크 분석을 통해 정부 R&D 사업의 유사 중복성을 체계적으로 검토하기 위한 데이터기반의 방법론을 제안하여 전문가의 직관에 의한 유사 중복성 검토를 보완할 수 있는 가능성을 모색하고자 한다. 먼저, 본 연구에서는 정부 R&D사업 유사영역의 전체적인 구조 및 형태와 국가과학기술연구회 소속 25개 정부출연연구기관 R&D사업의 유사영역의 전반적인 형태를 시각화하여 유사영역을 파악하고 직관적인 판단과 선택을 할 수 있는 의사결정 정보를 제공하는데 초점을 두었다. 이를 위해, NTIS의 2015년 데이터를 사용하여 과제 키워드 기반으로 동시단어출현 분석을 수행하였다. 본 분석을 통해 25개 기관의 세부적인 유사연구영역 형태를 제시하였으며, 국내의 과학기술정책적 또는 과학기술학적인 현상들을 시각화하였다. 그 결과, 국내 출연연 R&D사업이 기관별 고유영역이 확고히 보이는 Mode 1적인 형태와 사회경제적인 맥락과 필요 및 유망성을 따르고, 다학제적, 적용중심적이며 과제별로 다양한 과제수행기관들이 과제들을 동시에 수행하는 Mode 2적인 형태가 출연연의 R&D사업 내에 공존하고 있음을 확인하였다.

  • PDF

유사 구조를 갖는 XML 문서 생성기의 설계 및 구현 (Design and Implementation of XML Document Generator with Similar Structure)

  • 이범석;이재민;황병연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.163-165
    • /
    • 2004
  • 여러 장점을 가지고 점차 그 사용이 증가하고 있는 XML은 내용뿐만 아니라 그 구조적 정보까지 포함하고 있는 특징을 가지고 있는데, 이러한 XML 문서를 효율적으로 검색하기 위해 구조 유사성을 기반으로 하는 검색 기법이 개발되고 있다. 새롭게 개발되는 유사한 구조의 XML 문서를 검색하는 시스템의 성능 평가를 위해서는 구조적으로 유사한 다량의 XML 데이터가 필요하다. 본 논문에서는 지금까지 개발되었던 유사 구조 문서 생성기를 바탕으로 사용자가 원하는 데이터 구조를 생성하는데 보다 효과적인, 유사 구조를 갖는 XML 문서 생성기인 xTrans를 설계 및 구현한다. xTrans는 원본 XML 문서에 삽입, 삭제, 치환의 세 가지 연산을 이용하여 사용자가 원하는 일정한 비율만큼의 구조적 변화를 일으키는데, 그러한 연산은 불규칙한 위치에서 생성되므로, 같은 비율의 변화가 일어난 여러 개의 유사 구조 문서를 생성할 수 있다. 사용자는 각 연산의 변형 비율을 지정해주어 원하는 만큼 변형시킨 문서를 생성하고, 이 문서들을 이용하여 새롭게 개발되는 유사 구조 문서 검색 시스템의 성능평가에 활용할 수 있다.

  • PDF

이분형 예측 유사성 측도의 연관성 평가 기준 적용 방안 (The application for predictive similarity measures of binary data in association rule mining)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권3호
    • /
    • pp.495-503
    • /
    • 2011
  • 데이터 마이닝에서의 연관성 규칙은 방대한 양의 데이터베이스에 내재되어 있는 항목들 간의 관련성을 수치화 하는 방법이다. 의미 있는 연관성 규칙을 탐사하기 위한 가장 기본적인 연관성 규칙 평가 기준에는 지지도, 신뢰도, 향상도 등이 있다. 이들 중에서 향상도는 그 값에 의해 양의 연관성이 있는지 아니면 음의 연관성이 있는지, 즉 연관성의 방향을 알 수 있는 반면에 지지도와 신뢰도는 그 방향을 알 수가 없다. 이를 위해 순수 신뢰도와 기여 순수 신뢰도가 제안되었으나 이들 또한 단점을 안고 있다. 본 논문에서는 기존의 여러 형태의 신뢰도가 가지고 있는 문제점을 해결하기 위해 군집분석이나 다차원 분석에서 활용되고 있는 이분형 예측 유사성 측도 중에서 -1과 1 사이의 값을 가지는 Yule의 Y 및 Q 측도를 연관성 평가 기준으로 제안하였다. 또한 기존의 순수 신뢰도 및 기여 순수 신뢰도의 문제점을 파악한 후, 예제를 통하여 이분형 예측 유사성 측도의 유용성에 관해 알아보았다. 그 결과, 본 논문에서 고려한 유사성 측도들은 기존의 측도들이 가지고 있는 문제점을 해결할 수 있어서 본 논문에서 제안한 이분형 예측 유사성 측도가 연관성 평가 기준으로 활용할 수 있다는 사실을 확인하였다.

현장 데이터셋과 딥러닝 기술을 이용한 대화 utterance 유사성 판별 (Similarity Determination of Conversational Utterances Using Field Dataset and Deep Learning Technology)

  • 김주희;이은서;남지희;고나경;배상환;심준호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.568-570
    • /
    • 2022
  • 객체 유사도를 판별하는 기술은 정보 처리의 여러 분야에서 응용되고 있다. 본 연구에서는 현장 자연어 텍스트 데이터셋과 딥러닝 모델을 이용하여 챗봇 등에서 응용되는 데이터 유사성을 판별하고, 해당 모델의 성능을 측정해보았다.

부분적 주변 비율에 의한 확률적 흥미도 측도 기반 유사성 측도의 상한 및 하한의 설정 (Bounds of PIM-based similarity measures with partially marginal proportion)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권4호
    • /
    • pp.857-864
    • /
    • 2015
  • 데이터 마이닝은 다양한 형태의 방대한 데이터 집합으로부터 보이지 않는 지식이나 새로운 법칙을 발견한 후, 이를 바탕으로 의사결정 등을 위한 정보로 활용하고자 하는 것이다. 데이터 마이닝 기법중의 하나인 군집 분석은 거리 또는 유사성 측도를 이용하여 집단을 분류하고, 구분된 각 집단의 특성을 파악하기 위한 기법이다. 본 논문에서는 주변 확률이 일부 포함된 확률적 흥미도 측도 기반의 유사성 측도들인 Peirce I, Peirce II, Cole I, Cole II, 그리고 이들을 응용한 Park I 및 Park II에 대한 대소 관계를 수식의 증명뿐만 아니라 예제 데이터에 의해서도 규명하였다. 그 결과, Cole I과 Cole II의 측도를 동시에 고려한 Loevinger 측도가 기존의 측도들 중에서는 상한이 되나 Park I 및 Park II를 함께 고려했을 경우에는 동시발생비율, 동시 비발생비율, 그리고 두 가지 형태의 불일치비율의 크기에 따라 변한다는 사실을 확인하였다.

트위터 사용자정보의 유사성을 기반으로 한 팔로어 분류시스템 (Follower classification system based on the similarity of Twitter node information)

  • 계용선;윤영미
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권1호
    • /
    • pp.111-118
    • /
    • 2014
  • 현재 트위터에서 제공되는 친구추천 시스템은 영향력이 높은 사용자를 우선적으로 추천해준다. 하지만 사용자정보의 유사성이 높은 다른 사용자는 추천되지 않는 단점을 가지고 있다. 사용자들은 정보의 유사성이 높은 사용자 추천을 원하기 때문에 이러한 단점을 극복하기 위하여 본 논문에서는 사용자정보의 유사성을 기반으로 팔로어 추천 시스템을 구현하였다. 본 논문에서 사용된 데이터는 SNAP(Stanford Network Analysis Platform)에서 제공하는 데이터로, 팔로어의 수가 10,000명이상인 트위터의 사용자정보와 노드간 연결 데이터로 구성된다. 이 데이터를 트레이닝 데이터로 활용하여 팔로어간의 관계를 분류해줄 수 있는 분류자를 생성하고, 10-Fold Cross Validation을 활용하여, 분류자의 정확도를 판단한다. 두 트위터의 정보가 주어지면 그들 사이에 친구 관계, 팔로우 관계, 비연결 관계를 추천한다.

데이터 마이닝을 이용한 자연재난 경고 (Natural Disaster Alarming using Data Mining)

  • 유준석;최원길;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.367-370
    • /
    • 2008
  • 지구 온난화와 도시화 등으로 인해 자연 재난은 매년 그 강도는 증가하고 있고 그 결과 재난으로 인한 피해도 증가하고 있다. 우리나라 역시 매년 자연재난으로 많은 피해를 입고 있다. 이러한 재난을 지역의 특성을 이용하여 분류한 후 특성이 유사한 지역을 모아 패턴을 찾게 되며 패턴은 데이터 마이닝을 이용해 찾게 된다. 데이터 마이닝이란 여러 가지 데이터 안에 의미 있는 패턴을 찾아내는 기술이며 여기서 찾게 되는 패턴은 지금까지 발생한 재난의 발생 직전까지의 패턴이 된다. 이렇게 찾아낸 패턴은 현재 연속적으로 변하는 환경의 패턴 비교되며 패턴이 유사할 경우 경고하여 재난이 발생하기 전 먼저 예측하고 대비하는 방법을 제시한다.