• 제목/요약/키워드: 데이터유사성

검색결과 1,570건 처리시간 0.042초

메타데이터 기반 정보시스템간 의미 유사도 측정 방법 (A Methodology for Semantic Similarity Measurement among Metadata based Information System)

  • 임정은;최오훈;나홍석;백두권
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (C)
    • /
    • pp.85-87
    • /
    • 2006
  • 특정 도메인의 정보시스템간에 정보를 공유하기 위해서, 정보 시스템들은 도메인별로 사용되는 메타데이터를 각기 정의하여 사용하기 때문에 각각의 정보 시스템간의 정보 공유시 메타데이터의 이질성 문제가 발생되지 않는다. 그러나, 메타데이터의 불일치 문제는 이기종 도메인간에 정보를 공유할때 발생된다. 본 논문에서는 메타데이터를 이용하여 구축된 정보시스템 간의 상호운용성을 증진하기 위하여 메타데이터의 의미적 유사성 측정 방법을 제안한다. 이를 위하여 메타데이터 레지스트리(MDR)에 정의되어 있는 메타데이터에 대한 개념 모델을 정의하고. 개념모델의 인스턴스간에 의미유사성을 측정하는 방법을 제안한다. 제안한 방법을 사용한 결과 도메인이 다른 정보시스템간에 점보공유를 위한 의미적으로 유사한 최적의 메타데이터를 선택할 수 있다.

  • PDF

의미 정보를 이용한 다차원 데이터 시퀀스의 유사성 척도 연구 (A Study of Similarity Measures on Multidimensional Data Sequences Using Semantic Information)

  • 이석룡;이주홍;전석주
    • 정보처리학회논문지D
    • /
    • 제10D권2호
    • /
    • pp.283-292
    • /
    • 2003
  • 연속된 일차원 실수로 이루어진 시계열 데이터는 데이터 마이닝이나 데이터 웨어하우징과 같은 다양한 데이터베이스 응용 분야에서 연구되어져 왔다. 그러나 최근의 복잡한 비즈니스 환경에서, 다차원 데이터 시퀀스(multidimensional data sequence : MDS)는 일차원 시계열 데이터와 더불어 그 중요성이 더해가고 있다. 다차원 데이터 시퀀스의 예로써, 비디오 스트림은 색상과 질감 등의 속성들로 이루어진 다차원 공간상에서 MDS로 나타낼 수 있다. 본 논문에서는 패턴 유사성 검색에서 사용되는 효과적인 유사성 척도를 제시한다. 하나의 MDS는 여러 개의 세그먼트(segment)로 나누어지며, 각 세그먼트는 다양한 의미적인 특징들로 표현된다. 유사성 척도는 이러한 세그먼트에 대해서 정의되는데 이 척도를 사용하여 어떤 주어진 질의 시퀀스에 대하여 무관한 세그먼트들은 검색 대상에서 일차적으로 제외된다. 데이터 시퀀스와 질의 시퀀스 모두 세그먼트 단위로 분할되며, 질의 처리는 전체 시퀀스의 모든 데이터를 검색하지 않고 데이터 세그먼트와 질의 세그먼트의 특징을 비교하는 것을 기초로 하여 수행된다.

자기 학습 방법을 이용한 음성 대화 시스템의 슬롯 교정 (Self-learning Method Based Slot Correction for Spoken Dialog System)

  • 최태균;김민경;이인재;이지은;박규연;김경덕;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.353-360
    • /
    • 2021
  • 음성 대화 시스템에서는 사용자가 잘못된 슬롯명을 말하거나 음성인식 오류가 발생해 사용자의 의도에 맞지 않는 응답을 하는 경우가 있다. 이러한 문제를 해결하고자 말뭉치나 사전 데이터를 활용한 질의 교정 방법들이 제안되지만, 이는 지속적으로 사람이 개입하여 데이터를 주입해야하는 한계가 있다. 본 논문에서는 축적된 로그 데이터를 활용하여 사람의 개입 없이 음악 재생에 필요한 슬롯을 교정하는 자기 학습(Self-learning) 기반의 모델을 제안한다. 이 모델은 사용자가 특정 음악을 재생하고자 유사한 질의를 반복하는 상황을 이용하여 비지도 학습 기반으로 학습하고 음악 재생에 실패한 슬롯을 교정한다. 그리고, 학습한 모델 결과의 정확도에 대한 불확실성을 해소하기 위해 질의 슬롯 관계 유사도 모델을 이용하여 교정 결과에 대한 검증을 하고 슬롯 교정 결과에 대한 안정성을 보장한다. 모델 학습을 위한 데이터셋은 사용자가 연속으로 질의한 세션 데이터로부터 추출하며, 음악 재생 슬롯 세션 데이터와 질의 슬롯 관계 유사도 데이터를 각각 구축하여 슬롯 교정 모델과 질의 슬롯 관계 유사도 모델을 학습한다. 교정된 슬롯을 분석한 결과 발음 정보가 유사한 슬롯 뿐만 아니라 의미적인 관계가 있는 슬롯으로도 교정하여 사전 기반 방식보다 다양한 유형의 교정이 가능한 것을 보였다. 3 개월 간 수집된 로그 데이터로 학습한 음악 재생 슬롯 교정 모델은 일주일 동안 반복한 고유 질의 기준, 음악 재생 실패의 12%를 개선하는 성능을 보였다.

  • PDF

3G 이동통신시스템에서 데이터 트래픽의 버스트성과 지연특성을 고려한 큐잉성능 분석 (An Performance Analysis of Queueing for Data Traffic Considering the Burstiness and Delay Characteristics in 3G Mobile Comm. Systems)

  • 김창호;이명훈;이종규;최영민;임석구
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 I
    • /
    • pp.469-472
    • /
    • 2003
  • 음성 중심의 기존 2G CDMA/PCS의 성능 및 용량을 분석하기 위한 트래픽 모델링에서는 시간당 평균 호 발생률, 발생 간격의 분포, 호 유지시간(Holding Time), 그리고 최번시(Busy Hour)를 결정하는 것이 주요 과제였으며, 이를 이용한 트래픽 엔지니어링은 음성호의 Blocking 확률과 지연시간을 최소화 하기위한 충분한 호 자원 확보에 중심을 두었던 것이 사실이다. 그러나 CDMA2000 1X 및 1xEV-DO/DV와 같은 3G 고속 데이터 이동통신 시스템에서의 패킷 데이터 트래픽의 특성은 자기 유사성(Self-similarity)이라는 성질을 가진다는 것은 잘 알려진 사실이다. 이와같은 고속 데이터 이동통신 시스템에서 요구되는 효율적인 망의 설계 및 디멘져닝을 위해서는 무엇보다도 데이터 트래픽의 주요 특성인 버스트함과 자기유사성이 반영된 모델 분석이 요구된다. 이러한 관점에서 본 논문에서는 데이터 트래픽의 자기유사성 및 큐잉 지연을 고려한 유효대역폭 산출식을 유도하여 시뮬레이션 결과와 비교 분석하였다.

  • PDF

불균형 데이터의 이진 분류를 위한 앙상블 구성 방법 (Ensemble Composition Methods for Binary Classification of Imbalanced Data)

  • 김영훈;이주홍
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.689-691
    • /
    • 2023
  • 불균형 데이터의 분류의 성능을 향상시키기 위한 앙상블 구성 방법에 관하여 연구한다. 앙상블의 성능은 앙상블을 구성한 기계학습 모델 간의 상호 다양성에 큰 영향을 받는다. 기존 방법에서는 앙상블에 속할 모델 간의 상호 다양성을 높이기 위해 Feature Engineering 을 사용하여 다양한 모델을 만들어 사용하였다. 그럼에도 생성된 모델 가운데 유사한 모델들이 존재하며 이는 상호 다양성을 낮추고 앙상블 성능을 저하시키는 문제를 가지고 있다. 불균형 데이터의 경우에는 유사 모델 판별을 위한 기존 다양성 지표가 다수 클래스에 편향된 수치를 산출하기 때문에 적합하지 않다. 본 논문에서는 기존 다양성 지표를 개선하고 가지치기 방안을 결합하여 유사 모델을 판별하고 상호 다양성이 높은 후보 모델들을 앙상블에 포함시키는 방법을 제안한다. 실험 결과로써 제안한 방법으로 구성된 앙상블이 불균형이 심한 데이터의 분류 성능을 향상시킴을 확인하였다.

도로 네트워크 기반 이동 객체의 궤적 데이터 생성 (Generating Trajectory of Road Network-Based Moving Objects)

  • 김보련;이상현;이기준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.75-78
    • /
    • 2005
  • 텔레매틱스 서비스를 위한 많은 어플리케이션들이 개발 됨에 인해 테스트를 위한 도로 네트워크 기반의 이동객체 궤적데이터의 필요성이 증대되고 있다. 본 논문에서는 도로 네트워크 상의 이동객체들의 실 궤적 데이터와 유사한 합성 궤적 데이터를 구축하기 위한 방법론을 제안한다. 그리고 실제 구현 결과와 실 데이터와의 속도 패턴을 비교하여 실 데이터와의 유사성을 보인다.

  • PDF

딥러닝 알고리즘을 이용한 유사 판례 매칭 데이터셋 구축 방안 연구 (A Study on the building Dataset of Similar Case Matching in Legal Domain using Deep Learning Algorithm)

  • 강예지;강혜린;박서윤;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.72-76
    • /
    • 2021
  • 판례는 일반인 또는 법률 전문가가 사건에 참조하기 위해 가장 먼저 참고할 수 있는 재판의 선례이다. 하지만 이러한 판례의 유용성에도 불구하고 현 대법원 판례 검색 시스템은 판례 검색에 용이하지 않다. 왜냐하면 법률 전문 지식이 없는 일반인은 검색 의도에 부합하는 검색 결과를 정확히 도출하는 데 어려움이 있으며, 법률 전문가는 검색에 많은 시간과 비용이 들게 되기 때문이다. 이미 해외에서는 유사 케이스 매칭 데이터셋을 구축하여 일반인과 전문가로 하여금 유사 판례 검색을 용이하게 할 뿐만 아니라 여러 자연어 처리 태스크에도 활용하고 있다. 하지만 국내에는 법률 AI와 관련하여 오직 법률과 관련한 세부 태스크 수행에 초점을 맞춘 연구가 많으며, 리소스로서의 유사 케이스 매칭 데이터셋은 구축되어 있지 않다. 이에 본 논문에서는 리소스로서의 판례 데이터셋을 위해 딥러닝 알고리즘 중 문서의 의미를 반영할 수 있는 Doc2Vec 임베딩 모델과 SBERT 임베딩 모델을 적용하여 판례 문서 간 유사도를 측정·비교하였다. 그 결과 SBERT 모델을 통해 도출된 유사 판례가 문서 간 내용적 유사성이 높게 나타났으며, 이를 통해 SBERT 모델을 이용하여 유사 판례 매칭 기초 데이터셋을 구축하였다.

  • PDF

지연시간과 손실율을 고려한 데이터 트래픽 분석 (An Analysis of Data Traffic Considering the Delay and Cell Loss Probability)

  • 임석구
    • 디지털콘텐츠학회 논문지
    • /
    • 제5권1호
    • /
    • pp.7-11
    • /
    • 2004
  • 차세대 고속 통신망을 구축하기 위해서는 해결해야 할 많은 문제들이 있는데, 이 중에서 기본적으로 고려해야 할 사항은 바로 망에 흐르는 트래픽의 특성 분석이다. 현재 제공되는 많은 인터넷 서비스들의 동작 특성은 자기 유사성(Self-similar)이라는 기존에 고려되던 트래픽 특성과는 완전히 다른 장기간 의존성의 성질들을 가진다는 것이 증명되었다 이러한 장기간 의존성 성질을 표현하기 위한 모델로는 자기유사 모델이 있는데, 이것은 단기간 의존성을 표현하는 기존의 모델인 포아송 모델과는 상반되는 개념이다. 따라서 차세대 통신망의 설계 및 디멘져닝을 위해서는 무엇보다도 데이터 트래픽의 주요 특성인 버스트성(Burstiness)과 자기유사성이 반영된 트래픽 모델이 요구된다. 여기서 자기유사성은 허스트 파라미터(Hurst Parameter)로 특성화 될 수 있다. 본 논문에서는 데이터 트래픽의 자기유사성 및 큐잉지연을 고려한 유효대역폭 산출식을 유도하여 시뮬레이션 결과와 비교 분석하였다.

  • PDF

비디오의 의미검색과 유사성검색을 위한 통합비디오정보시스템 (Hybrid Video Information System Supporting Content-based Retrieval and Similarity Retrieval)

  • 윤미희;윤용익;김교정
    • 한국정보처리학회논문지
    • /
    • 제6권8호
    • /
    • pp.2031-2041
    • /
    • 1999
  • 본 논문에서는 비정형, 대용량의 비디오데이터의 특징기반 검색과 주석기반 검색을 통합하여 다양한 사용자의 의미검색을 지원하고, 유사성 질의를 지원하는 통합비디오정보시스템(Hybrid Video Information System : HVIS)을 제안한다. HVIS는 메타데이터 모델링을 위해 한편의 비디오를 비디오 다큐먼트, 시퀸스, 장면, 객체로 나누고 물리적인 비디오스트림을 위한 원시데이터계층(raw_data layer)과 주석기반 검색, 특징기반 검색, 유사성 검색을 지원하기 위한 메타데이터계층(meta_data layer)의 두 개의 계층을 가진 통합 계층지향 메타데이터모델(Two layered Hybrid Object-oriented Metadata Model : THOMM)과 이 모델을 기반으로 주석기반 질의, 특징기반 질의, 유사질의가 가능한 비디오질의언어 (Video Query Language)와 질의를 처리하기 위한 비디오질의처리기 (Video Query Processor : VQP)와 질의처리알고리즘을 제안한다. 특히 유사한 장면, 객체를 찾는 유사질의시 사용자의 관심을 고려한 유사성 정도를 나타내는 식을 제시한다. 제안된 시스템은 Visual C++, ActiveX와 ORACLE를 이용하여 구현되었다.

  • PDF

키워드 유사성 검색에 관한 연구 (A Study on Keyword Proximity Search)

  • 이윤기;윤지현;정형수;염헌영;양영규;황순욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.209-210
    • /
    • 2007
  • 키워드 유사성 검색은 입력받은 키워드에 관련된 의미 있는 데이터를 검색하는 것을 말한다. 데이터들은 매우 다양한 형태로 표현 될 수 있고, 각각의 형태에 대한 키워드 유사성 검색에 대한 많은 연구가 이루어졌다. 이 논문에서는 다양한 키워드 유사성 검색에 대한 연구들의 개관을 살펴보고 그것들을 비교해 볼 것이다. 이 연구들을 비교 분석하는 것은 키워드 유사성 검색을 일반화 하는데 도움이 될 것으로 기대한다.

  • PDF