• 제목/요약/키워드: 데이터매칭

검색결과 682건 처리시간 0.032초

면 객체 매칭을 위한 판별모델의 성능 평가 (Evaluation of Classifiers Performance for Areal Features Matching)

  • 김지영;김정옥;유기윤;허용
    • 한국측량학회지
    • /
    • 제31권1호
    • /
    • pp.49-55
    • /
    • 2013
  • 데이터마이닝과 바이오인식 분야의 판별모델의 성능평가 방법을 이종의 공간 데이터 셋의 매칭에 적용함으로써 좋은 매칭결과를 보이는 판별모델을 도출하고자 한다. 이를 위하여 매칭 기준별 매칭 후보객체 쌍의 거리 값을 구하고, 이들 거리 값을 Min-Max 방법과 Tanh 방법으로 정규화하여 유사도를 산출한다. 산출된 유사도를 CRITIC 방법, Matcher Weighting 방법 그리고 Simple Sum 방법으로 결합하여 형상유사도를 도출하는 판별모델을 적용하였다. 각 판별모델을 PR곡선과 AUC-PR로 평가한 결과, Tanh 정규화와 Simple Sum 방법을 적용한 판별모델의 AUC-PR이 0.893으로 가장 높게 나타났다. 따라서 이종의 공간 데이터 셋의 매칭을 위해서는 Tanh 정규화를 이용하여 각 매칭기준별 유사도를 산출하고 Simple Sum 방법으로 형상유사도를 구하는 판별모델이 적합한 것으로 사료된다.

딥러닝 알고리즘을 이용한 유사 판례 매칭 데이터셋 구축 방안 연구 (A Study on the building Dataset of Similar Case Matching in Legal Domain using Deep Learning Algorithm)

  • 강예지;강혜린;박서윤;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.72-76
    • /
    • 2021
  • 판례는 일반인 또는 법률 전문가가 사건에 참조하기 위해 가장 먼저 참고할 수 있는 재판의 선례이다. 하지만 이러한 판례의 유용성에도 불구하고 현 대법원 판례 검색 시스템은 판례 검색에 용이하지 않다. 왜냐하면 법률 전문 지식이 없는 일반인은 검색 의도에 부합하는 검색 결과를 정확히 도출하는 데 어려움이 있으며, 법률 전문가는 검색에 많은 시간과 비용이 들게 되기 때문이다. 이미 해외에서는 유사 케이스 매칭 데이터셋을 구축하여 일반인과 전문가로 하여금 유사 판례 검색을 용이하게 할 뿐만 아니라 여러 자연어 처리 태스크에도 활용하고 있다. 하지만 국내에는 법률 AI와 관련하여 오직 법률과 관련한 세부 태스크 수행에 초점을 맞춘 연구가 많으며, 리소스로서의 유사 케이스 매칭 데이터셋은 구축되어 있지 않다. 이에 본 논문에서는 리소스로서의 판례 데이터셋을 위해 딥러닝 알고리즘 중 문서의 의미를 반영할 수 있는 Doc2Vec 임베딩 모델과 SBERT 임베딩 모델을 적용하여 판례 문서 간 유사도를 측정·비교하였다. 그 결과 SBERT 모델을 통해 도출된 유사 판례가 문서 간 내용적 유사성이 높게 나타났으며, 이를 통해 SBERT 모델을 이용하여 유사 판례 매칭 기초 데이터셋을 구축하였다.

  • PDF

룰 기반 CRM 시스템에서 시간요소를 고려한 룰 모델 제안 (A Time Component-Aware Rule Model For Rule-Based Customer Relationship Management Systems)

  • 황혜수;이태희;이상구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.283-285
    • /
    • 2001
  • 최근 고객에게 개인화된 서비스를 제공하기 위한 방법의 하나인 CRM 시스템에 대한 연구가 활발히 이루어지고 있다. 본 논문에서는 룰 기반 CRM에서의 효율적인 룰 매칭을 목적으로 하는 시간요소를 고려한 룰 모델을 제안하고자 한다. 룰 매칭 시점관련조건을 고객관련조건과 구분함으로써 룰의 의미를 구조적으로 명백히 파악할 수 있고 룰 매칭 시에 룰 매칭 시점관련조건을 고객관련조건보다 먼저 수행할 수 있으므로 현재 시점에 룰 매칭을 해야 하는 룰들만을 대상으로 전체 고객 데이터를 검색할 수 있다. 이 때 룰 매칭 시간요소조건을 분류하기 위하여 필요한 카데고리 정보를 저장하고 계산 로직의 반복 수행을 막기 위한 목적으로 어휘를 정의하여 사용하는 방법에 대해서 설명한다.

  • PDF

스케일링-불변 윤곽선 이미지 매칭의 시각화 도구 (Visualization Tool for Scaling-Invariant Boundary Image Matching)

  • 문성우;이상훈;김범수;문양세
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.683-686
    • /
    • 2015
  • 본 논문에서는 스케일링-불변 윤곽선 이미지 매칭의 시각화 도구를 제안한다. 윤곽선 이미지를 시계열로 나타낼 경우, 시계열 매칭 기술을 활용하여 대용량 윤곽선 이미지 매칭을 보다 빠르게 수행할 수 있다. 이러한 윤곽선 이미지 매칭에서, 스케일링 불변의 지원은 스케일된 유사 이미지를 검색하기 위한 중요한 요소이다. 본 논문에서는 스케일링-불변 윤곽선 이미지 매칭 시스템을 클라이언트-서버 모델을 기반으로 구현한다. 먼저, 클라이언트는 질의 이미지를 시계열로 변환하고, 스케일링 팩터 구간 및 허용치와 함께 서버에 전달하고, 매칭 결과로 반환된 이미지를 차트 형태로 시각화한다. 다음으로 서버는 다차원 인덱스를 활용하여 대용량 윤곽선 시계열 데이터에 대한 빠른 시계열 매칭을 수행한다. 구현 결과, 제안하는 윤곽선 이미지 매칭 시각화 도구는 질의 이미지와 스케일링-불변 결과 이미지를 세 가지의 차트를 통해 직관적으로 비교 및 분석 가능하게 하였다.

국가 건물에너지통합관리시스템의 데이터 품질 분석 및 개선방안 연구 (A Study on the Analysis and Methods to Improve the Management System for Building Energy Database)

  • 김성민;윤종돈;권오인;신성은
    • 에너지공학
    • /
    • 제25권1호
    • /
    • pp.131-144
    • /
    • 2016
  • 최근 기후변화로 인해 전 세계적인 지구온난화 피해가 심각해지면서 주요원인인 온실가스에 대한 배출 규제가 확대되고 있다. 그 중 온실가스 배출량의 약 25%를 차지하는 건물분야에 대해 정부에서는 2020년까지 BAU 대비 26.9%까지 감축하겠다는 목표를 발표하였다. 이를 달성하기 위해 건물부문의 에너지 수요를 원천적으로 저감하는 녹색건축물 활성화 방안을 추진하고 있다. 하지만 녹색건축물 활성화의 상세 이행계획 수립 및 관리, 그리고 시행에 따른 효과를 분석하기 위해서는 건물 에너지 사용량에 대한 데이터 및 관련 통계 자료가 필수적이다. 이를 위해 정부는 전국 680만동의 건물에서 사용되는 에너지 정보를 통합 관리할 수 있는 국가 건물에너지 통합관리시스템을 구축하였다. 하지만 현재 구축된 국가 건물에너지 통합관리시스템의 Database는 건축물대장 정보와 공급기관의 에너지정보를 매칭해서 사용하기 때문에 수동으로 작업이 이루어지고 있으며, 이로 인해 많은 문제들이 발생한다. 따라서 Database의 신뢰성을 확보하기 위해서는 지속적인 고도화 작업이 이루어져야 한다. 본 과제는 현재 가동 중인 국가 건물에너지 통합관리시스템의 Database를 분석하여, 시스템의 한계 및 개선방안 도출하고, 이를 통해 데이터의 신뢰성 확보 및 활용성을 증대 시키고자 하였다. 구축된 Database 분석 결과 건축물 정보와 에너지정보가 매칭된 유효데이터는 평균 85.6%이고, 미매칭된 데이터는 평균 14.4%로 나타났다. 미매칭된 데이터는 다시 건물 특성에 따른 미매칭 유형을 분석하였으며, 그 결과 건축물 정보가 없는 경우가 전체의 58.2%에 달했다. 따라서 향후 신규 구축 data의 매칭 작업 용이성 및 현재 Database에 대한 정확성 확보하기 위해서는 건축물 정보와 에너지정보 간의 주소 표준화 및 속성정보 체계를 마련할 필요가 있다. 또한 비도시지역 및 영세한 주거지역에서 사용비중이 높은 석유류 에너지원 및 향후 발전 가능성 및 활용 가능성이 높은 신재생 에너지와 같이 다른 에너지원에 대한 정보를 포함시킬 수 있도록 시스템 구축이 필요할 것으로 사료된다.

유출유 이동 가시화 및 입자 매칭 알고리즘 (Oil Spill Visualization and Particle Matching Algorithm)

  • 이현창;김용혁
    • 한국융합학회논문지
    • /
    • 제11권3호
    • /
    • pp.53-59
    • /
    • 2020
  • 허베이 스피리트호 기름유출사고와 같은 해양 유류유출사고에서 잘못된 초기대응은 경제 손실뿐만 아니라 생태계에 큰 피해를 입힌다. 하지만 다양한 변수가 존재하는 해양에서 유출유의 움직임을 예측하는 것은 매우 힘든일이다. 이를 해결하기 위해서 뜰개 데이터를 활용해서 바다위의 부유물의 이동을 연구하는 기존 연구인 입자예측을 확장하여 면단위로 예측을 하는 유출유 예측 가시화를 진행하였다. 해양 데이터 포맷인 HDF5에서 특정 위치의 해류, 풍속 데이터를 양선형 보간법을 이용해 추출한 뒤, 수많은 점들의 이동을 입자예측하여 그 결과를 폴리곤 및 히트맵을 이용해 가시화 하였다. 또한 뜰개데이터의 문제점인 데이터 부족과 유출유와 움직임이 다른 점을 해결 하기 위해 유출유로부터 입자 데이터를 얻어낼 수 있는 유출유 입자 매칭 알고리즘을 제안한다. 유출유 입자 매칭 알고리즘은 면단위 유출유의 모습을 입자화 하여 입자의 움직임을 추적하는 알고리즘이다. 주성분 분석을 이용하여 문제를 분할하고, 유출유의 이동 거리의 분산이 최소화 되는 지점으로 유전알고리즘을 이용해 매칭하였다. 유출유 가시화 결과 데이터로 검증한 결과 주성분 분석과 유전알고리즘을 이용한 입자매칭 알고리즘이 가장 성능이 뛰어난 것을 확인할 수 있었으며, 평균 데이터 오차는 3.2%로 의미있는 연구임을 확인하였다.

오디오 피크 검출을 적용한 TV 방송 프로그램 내 배경음악 식별 알고리즘 (Background Music Identification in TV Broadcasting Program Algorithm using Audio Peak Detection)

  • 류상현;김형국
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2013년도 하계학술대회
    • /
    • pp.34-35
    • /
    • 2013
  • 본 논문에서는 오디오 피크 검출을 적용한 TV 방송 프로그램내 배경음악 식별 알고리즘을 제안한다. 제안한 알고리즘은 음악 핑거프린트 추출 및 전송부, 음악구간 검출부, 음악 핑거프린트는 고속 매칭 및 정보전송부 세 부분으로 구성되어 있다. 음악 핑거프린트 추출 및 전송부에서는 음악 원음 오디오 데이터를 퓨리에 변환하여 스펙트럼 계수를 추출한다. 추출된 스펙트럼의 성분 중에서 일정한 문턱값 이상의 에너지를 가지는 값을 피크로 검출하고 검출된 피크를 이용하이 핑거프린트를 생성하고 데이터 베이스화한다. 음악구간 검출부에서는 입력된 방송 프로그램 오디오 데이터에 GMM(Gaussian Mixture Model)을 적용하여 음악과 음악 외 오디오 데이터를 분류한다. 음악 핑거프린트 고속 매칭 및 정보전송부에서는 음악구간이라고 인식된 쿼리 오디오 데이터를 음악 핑거프린트 추출 및 전송부와 동일한 과정을 통해 핑거프린트를 생성하고 데이터 베이스화된 음악 원음의 핑거프린트들과 비교하여 가장 유사한 음원의 정보를 TV의 화면에 자막으로 보여준다.

  • PDF

실시간 센서 데이터 배포를 위한 효율적 매칭 (An efficient matching mechanism for real-time sensor data dissemination)

  • 석보현;이필우;허의남
    • 인터넷정보학회논문지
    • /
    • 제9권1호
    • /
    • pp.79-90
    • /
    • 2008
  • 실시간적인 데이터의 수집과 더불어 수집한 데이터의 실시간적인 전송을 기반으로 사용자가 센서데이터를 보다 폭넓게 활용할 수 있는 환경을 제공하기 위해 시스템에서 자동적으로 정보를 배포해주는 정보배포 시스템의 필요성이 증대되고 있다. 이러한 요구에 맞추어 본 논문에서는 그리드 환경을 기반으로 센서네트워크에서 유입되는 방대한 양의 데이터를 처리 및 공유하기 위한 정보배포 시스템과 보다 효율적으로 데이터와 사용자의 요구를 매칭하는 방법을 제공하는 CGIM알고리즘을 제안하였다.

  • PDF

CEP를 위한 데이터 마이닝 기법 연구 (A Study of Data Mining Techniques for CEP)

  • 강동현;황부현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.1116-1117
    • /
    • 2012
  • 최근에 이슈가 되고 있는 빅 데이터 처리 방법중의 하나로 CEP가 있다. 그러나 CEP는 사전에 정의된 질의에 해당되는 이벤트만을 선별하여 패턴 매칭 등의 기능을 수행하므로, 새로이 발견되는 이벤트를 찾는데 제약이 있다. 또한 실시간으로 생산되는 빅 데이터에 기초한 다양한 패턴 탐사에 한계를 노출하고 있다. 이 논문에서는, CEP 환경에서 빅 데이터 사이에 존재하는 다양한 이벤트와 패턴 탐사를 위한 실시간 데이터 마이닝 기법을 제안한다. 제안 방법은 CEP 엔진을 위한 고급의 패턴 매칭을 개발하고, CEP를 위한 실시간 데이터 마이닝 기법을 개발한다. 마지막으로, 기존의 CQL을 확장하여 개발한다. 이라한 방법을 통하여 기존의 CEP의 기능적인 한계를 극복할 수 있다.

거리 기반 반려견 긴급 수혈 매칭 알고리즘 및 어플리케이션 개발 (Distance-Based Emergency Canine Blood Transfusion Matching Algorithm and Application)

  • 조유라;김은수;김주연;김예진;한채원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.892-893
    • /
    • 2023
  • 본 어플리케이션은 반려견의 건강 데이터와 한국헌혈견협회에서 제공하는 수혈 기준을 기반으로 수혈 가능 여부를 분류한 뒤, 거리를 기반으로 긴급 수혈을 매칭하는 알고리즘을 구현한다. 또한 긴급 수혈의 긴급성을 고려하여, 실시간 게시판 운영 및 협회 지정 병원의 혈액 잔여량을 시각화한다.