• 제목/요약/키워드: 데이터매칭

검색결과 682건 처리시간 0.028초

자동 윈도우 크기 결정 기법을 적용한 Minimum Entropy Clustering과 Iterative Over-Segmentation 기반 Semantic Segmentation (Semantic Segmentation using Iterative Over-Segmentation and Minimum Entropy Clustering with Automatic Window Size)

  • 최형욱;송현승;손홍규;전문구
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.826-829
    • /
    • 2014
  • 본 연구에서는 야외 지형 영상 및 항공 영상 등에 대하여 각각의 영역들의 속성을 분할 및 인식 하기 위해 minimum entropy clustering 기반의 군집화 기법과 over-segmentation을 반복 적용하여 군집화 하는 두 방법을 융합한 기법을 제안하였다. 이 기법들을 기반으로 각 군집의 대표 영역을 추출한 후에 학습 데이터를 기반으로 만들어진 텍스톤 사전과 학습 데이터 각각의 텍스톤 모델을 이용하여 텍스톤 히스토그램 매칭을 통해 매칭 포인트를 얻어내고 얻어낸 매칭 포인트를 기반으로 영역의 카테고리를 결정한다. 본 논문에서는 인터넷에서 얻은 일반 야외 영상들로부터 자체적으로 제작한 지형 데이터 셋을 통해 제안한 기법의 우수성을 검증하였으며, 본 실험에서는 영역을 토양, 수풀 그리고 물 지형으로 하여 영상내의 영역을 분류 및 인식하였다.

u-Health care 를 위한 publish/subscribe 시스템에서의 효율적인 매칭 메커니즘 (An Efficient Matching Mechanism in Publish/Subscribe System for U-Health care)

  • 석보현;이필우;허의남
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.801-804
    • /
    • 2007
  • 실 시간적인 데이터의 수집과 더불어 수집한 데이터의 실 시간적인 전송을 기반으로 정보를 보다 폭넓게 활용할 수 있는 환경을 제공하기 위해 시스템에서 자동적으로 정보를 배포해주는 Publish/Subscribe 시스템에 대한 요구가 증대되고 있다. 이러한 pub/sub 시스템은 사용자의 요구사항을 미리 저장, 이를 이용하여 수집되는 정보와 사용자의 요구와 사용자를 찾아 배포해주는 방법을 사용하는데, 이때, 일치 여부를 확인하는 매칭 과정에서의 많은 자원과 시간의 소모가 문제점으로 대두되고 있다. 따라서, 논문에서는 보다 효율적으로 데이터와 범위를 이용하여 나타내는 사용자의 요구를 매칭하는 방법을 제공하는 CGIM 알고리즘을 제안하였다.

  • PDF

형상유사도 기반의 면 객체 매칭을 통한 갱신 객체 탐지 (Automatic Detection of the Updating Object by Areal Feature Matching Based on Shape Similarity)

  • 김지영;유기윤
    • 한국측량학회지
    • /
    • 제30권1호
    • /
    • pp.59-65
    • /
    • 2012
  • 본 연구에서는 축척과 갱신 주기가 상이한 공간 데이터 셋에서 기하정보를 이용한 형상유사도 기반 면 객체 매칭을 통하여 갱신 객체를 탐지하는 방법을 제안하였다. 이를 위하여, 먼저 축척이 상이한 공간 데이터 셋의 매칭 관계를 분석하여 갱신 객체를 정의하였다. 다음으로 시멘틱 매칭을 통하여 추출된 기준점을 이용한 아핀변환을 수행하여 축척이 상이한 데이터간의 계통오차를 제거하고, 중첩 분석을 통하여 다수 면 객체를 단일 객체화 하였다. 각각의 단일 객체를 대상으로 형상유사도 기반의 면 객체 매칭을 적용하여 갱신 객체를 탐지하게 된다. 제안된 갱신 객체 탐지 방법을 우리나라의 수치지도 2.0과 도로명주소 전자지도에 적용한 결과 F-측정값이 0.958로 나타났으며, 시각적 평가에서 유의미한 갱신 객체가 탐지되는 것을 알 수 있었다.

성향 점수를 이용한 퍼지 매칭 방법: IBM SPSS 22 Ver. (FUZZY matching using propensity score: IBM SPSS 22 Ver.)

  • 김소연;백종일
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권1호
    • /
    • pp.91-100
    • /
    • 2016
  • 성향점수 매칭이란 선택편의가 존재 할 수 있는 두 집단의 데이터를 성향 점수로 매칭하여 비슷한 성향을 갖는 데이터를 추출하는 방법이다. 본 논문은 그 중 하나인 퍼지 매칭 방법을 제시하였다. 성향 점수를 만들기 위해 통제변수를 선정하는 방법과 로지스틱 회귀분석을 통하여 성향 점수를 구하는 방법을 제시하였으며, 이 점수로 퍼지 매칭을 통해 성향이 비슷한 실험 집단과 통제 집단을 추출할 수 있었다. 본 논문에서는 허용오차 범위를 달리하여 분포도와 표준화 차이를 통해 두 집단이 동일한 집단임을 증명했으며, 허용오차 범위 점수가 작아질수록 선택되어 지는 케이스 수도 작아지는 것을 확인 할 수 있었다.

워드 임베딩 기반 근사 Top-k 레이블 서브그래프 매칭 기법 (Approximate Top-k Labeled Subgraph Matching Scheme Based on Word Embedding)

  • 최도진;오영호;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제22권8호
    • /
    • pp.33-43
    • /
    • 2022
  • 지식 그래프 및 단백질 상호 작용과 같은 실제 데이터에서 개체들과 개체들의 관계 및 구조를 나타내기 위해 레이블 그래프를 사용한다. IT의 급속한 발전과 데이터의 폭발적인 증가로 사용자에게 관심 있는 정보를 제공하기 위한 서브 그래프 매칭 기술이 필요하다. 본 논문은 레이블의 의미적 유사성과 그래프 구조 차이를 고려한 근사 Top-k 서브 그래프 매칭 기법을 제안한다. 제안하는 기법은 레이블 의미적 유사도를 고려하기 위하여 FastText을 활용한 학습 모델을 이용한다. 레이블 간 의미적 유사도를 미리 계산한 LSG(Label Similarity Graph)를 통해 처리 속도의 효율을 높인다. LSG를 통해 레이블이 정확하게 일치해야 확장이 가능한 기존 연구의 한계를 해결한다. 2-hop까지 탐색을 수행함으로써 질의 그래프에 대한 구조적 유사성을 지원한다. 매칭된 서브 그래프는 유사도 값 기반으로 Top-k 결과를 제공한다. 제안하는 기법의 우수성을 보이기 위하여 다양한 성능평가를 수행한다.

인메모리 관계형 데이터베이스 시스템을 이용한 대용량 텍스트 로그 데이터의 패턴 매칭 방법 (A Pattern Matching Method of Large-Size Text Log Data using In-Memory Relational Database System)

  • 한혁;최재용;진성일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.837-840
    • /
    • 2017
  • 각종 사이버 범죄가 증가함에 따라 실시간 모니터링을 통한 사전 탐지 기술뿐만 아니라, 사후 원인 분석을 통한 사고 재발 방지 기술의 중요성이 증가하고 있다. 사후 분석은 시스템에서 생산된 다양한 유형의 대용량 로그를 기반으로 분석가가 보안 위협 과정을 규명하는 것으로 이를 지원하는 다양한 상용 및 오픈 소스 SW 존재하나, 대부분 단일 분석가 PC에서 운용되는 파일 기반 SW로 대용량 데이터에 대한 분석 성능 저하, 다수 분석가 간의 데이터 공유 불가, 통계 연관 분석 한계 및 대화형 점진적 내용 분석 불가 등의 문제점을 해결하지 못하고 있다. 이러한 문제점을 해결하기 위하여 고성능 인메모리 관계형 데이터베이스 시스템을 로그 스토리지로 활용하는 대용량 로그 분석 SW 개발하였다. 특히, 기 확보된 공격자 프로파일을 활용하여 공격의 유무를 확인하는 텍스트 패턴 매칭 연산은 전통적인 관계형 데이터베이스 시스템의 FTS(Full-Text Search) 기능 활용이 가능하나, 대용량 전용 색인 생성에 따른 비현실적인 DB 구축 소요 시간과 최소 3배 이상의 DB 용량 증가로 인한 시스템 리소스 추가 요구 등의 단점이 있다. 본 논문에서는 인메모리 관계형 데이터베이스 시스템 기반 효율적인 텍스트 패턴 매칭 연산을 위하여, 고성능의 대용량 로그 DB 적재 방법과 새로운 유형의 패턴 매칭 방법을 제안하였다.

데이터 매칭을 이용한 비정규직의 임금격차 분석 (Wage Differentials between Regular and Irregular Workers)

  • 김선애;김진영
    • 노동경제논집
    • /
    • 제34권2호
    • /
    • pp.53-77
    • /
    • 2011
  • 최근 정규직과 비정규직 간의 고용형태 차이에 관한 연구, 특히 임금격차에 관한 연구가 활발하게 이루어지고 있다. 본 논문은 기존 연구에서 고용형태별 임금격차를 추정하기 위해 선형회귀 방법 등을 활용할 때 발생할 수 있는 추정의 문제점을 해결하기 위한 대안으로 데이터 매칭(matching)이라는 새로운 방법을 제시하고자 한다. 비정규직 근로자와 동일한 특성을 지닌 것으로 보이는 정규직 근로자를 매치하여 양자의 임금격차를 분석한 결과, 정규직과 비정규직의 임금 차이는 거의 존재하지 않음을 알 수 있다.

  • PDF

대용량 그래프 스트림 환경에서 데이터 재사용을 고려한 근사 Top-k 서브 그래프 매칭 기법 (Approximate Top-k Subgraph Matching Scheme Considering Data Reuse in Large Graph Stream Environments)

  • 최도진;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제20권8호
    • /
    • pp.42-53
    • /
    • 2020
  • 소셜 네트워크 서비스의 발전과 함께 다양한 응용에서 객체 간의 관계를 표현하기 위한 그래프 자료구조가 자주 활용되고 있다. 최근에는 실시간 그래프 스트림에서 서브 그래프 매칭의 요구가 늘어나고 있다. 따라서 실시간 그래프 스트림에서 높은 응답성을 위한 효율적인 근사 Top-k 매칭 기술이 필요하다. 본 논문에서는 그래프 스트림 환경에서 데이터 재사용을 고려한 근사 Top-k 서브 그래프 매칭 기법을 제안한다. 제안하는 기법은 대용량 스트림을 효율적으로 처리하기 위해서 기존 분산 스트림 처리 플랫폼인 스톰을 활용하고 스트림 처리 비용을 감소시키기 위한 기존 데이터 재사용 방법을 활용한다. Top-k 결과 생성을 위해서 거리 기반의 요약 색인 기법을 제안한다. 제안하는 요약 색인은 사전에 선택된 정점 간의 거리 값만을 저장하기 때문에 색인의 부하가 적다. 제안하는 요약 색인에서의 근사 Top-k를 수행하여 사용자에게 근사한 k개의 결과를 제공한다. 제안하는 기법의 우수성을 입증하기 위해 다양한 실세계 그래프 데이터 집합에서의 성능 평가를 수행한다.

시계열 데이터 기반의 대칭-불변 윤곽선 이미지 매칭 (Symmetric-Invariant Boundary Image Matching Based on Time-Series Data)

  • 이상훈;방준상;문성우;문양세
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권10호
    • /
    • pp.431-438
    • /
    • 2015
  • 본 논문에서는 대칭 변환을 지원하는 윤곽선 이미지 매칭 문제를 다룬다. 이미지 매칭에서 이미지의 대칭 변환을 지원하는 것은 직관적이고 정확한 매칭을 위한 매우 중요한 요소이다. 그러나 기존 이미지 매칭에서는 이미지의 회전 변환만 고려하였을 뿐 대칭 변환은 고려하지 않았다. 본 논문에서는 기존 회전-불변 윤곽선 이미지 매칭에 대칭 변환까지 지원하는 대칭-불변 윤곽선 이미지 매칭을 제안한다. 이를 위해, 먼저 이미지 대칭의 개념을 정의하고, 어떠한 대칭각을 사용하더라도 회전-불변 매칭의 결과는 동일함을 정형적으로 증명한다. 또한, 대칭 변환을 위해 이미지 윤곽선으로부터 대칭 시계열을 효율적으로 추출하는 방법을 제안한다. 그런 다음, 이미지를 대칭하여 생성한 대칭 시계열과 원본 이미지 시계열을 직접 대칭하여 생성한 대칭 시계열을 사용한 회전-불변 매칭 결과가 동일함을 정형적으로 증명한다. 실험 결과, 제안하는 대칭-불변 윤곽선 이미지 매칭은 회전 변환만을 지원하는 기존 이미지 매칭에 비해 보다 정확하고 직관적인 결과를 도출하는 것으로 나타났다. 이같은 결과는 대칭-불변 윤곽선 이미지 매칭이 이미지의 대칭 변환 문제를 시계열 도메인에서 해결한 우수한 해결책임을 의미한다.

토픽 분할에 의한 토픽맵 매칭 및 통합 기법 (Topic maps Matching and Merging Techniques based on Partitioning of Topics)

  • 김정민;정현숙
    • 정보처리학회논문지D
    • /
    • 제14D권7호
    • /
    • pp.819-828
    • /
    • 2007
  • 본 논문에서는 토픽맵의 모델 특성을 고려한 토픽맵 매칭 및 통합 기법을 제안한다. 이전까지의 대부분의 스키마 매칭 연구들은 계산 시간의 효율성을 고려하지 않고 매칭 기법의 범용성 및 정확성을 높이기 위한 목적으로 개발되어 왔다. 그러나 현재 표준적인 온톨로지 언어로 RDF/OWL과 토픽맵이 사용되고 있으며 앞으로 많은 온톨로지들이 이들 언어로 구현될 것이다. 따라서 본 논문에서는 토픽맵 데이터 모델의 구조적 특성 및 제약조건을 고려하여 토픽 분할, 토픽명기반 매칭연산, 속성기반 매칭연산, 계층구조기반 매칭연산, 연관관계기반 매칭연산 및 통합 알고리즘을 개발함으로써 효과적이면서 효율적인 토픽맵 매칭 및 통합이 가능함을 보인다.