• Title/Summary/Keyword: 데이터유사성

Search Result 1,573, Processing Time 0.038 seconds

A Methodology for Semantic Similarity Measurement among Metadata based Information System (메타데이터 기반 정보시스템간 의미 유사도 측정 방법)

  • Lim Jung-Eun;Choi O-Hoon;Na Hong-Seok;Baik Doo-Kwon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06c
    • /
    • pp.85-87
    • /
    • 2006
  • 특정 도메인의 정보시스템간에 정보를 공유하기 위해서, 정보 시스템들은 도메인별로 사용되는 메타데이터를 각기 정의하여 사용하기 때문에 각각의 정보 시스템간의 정보 공유시 메타데이터의 이질성 문제가 발생되지 않는다. 그러나, 메타데이터의 불일치 문제는 이기종 도메인간에 정보를 공유할때 발생된다. 본 논문에서는 메타데이터를 이용하여 구축된 정보시스템 간의 상호운용성을 증진하기 위하여 메타데이터의 의미적 유사성 측정 방법을 제안한다. 이를 위하여 메타데이터 레지스트리(MDR)에 정의되어 있는 메타데이터에 대한 개념 모델을 정의하고. 개념모델의 인스턴스간에 의미유사성을 측정하는 방법을 제안한다. 제안한 방법을 사용한 결과 도메인이 다른 정보시스템간에 점보공유를 위한 의미적으로 유사한 최적의 메타데이터를 선택할 수 있다.

  • PDF

A Study of Similarity Measures on Multidimensional Data Sequences Using Semantic Information (의미 정보를 이용한 다차원 데이터 시퀀스의 유사성 척도 연구)

  • Lee, Seok-Lyong;Lee, Ju-Hong;Chun, Seok-Ju
    • The KIPS Transactions:PartD
    • /
    • v.10D no.2
    • /
    • pp.283-292
    • /
    • 2003
  • One-dimensional time-series data have been studied in various database applications such as data mining and data warehousing. However, in the current complex business environment, multidimensional data sequences (MDS') become increasingly important in addition to one-dimensional time-series data. For example, a video stream can be modeled as an MDS in the multidimensional space with respect to color and texture attributes. In this paper, we propose the effective similarity measures on which the similar pattern retrieval is based. An MDS is partitioned into segments, each of which is represented by various geometric and semantic features. The similarity measures are defined on the basis of these segments. Using the measures, irrelevant segments are pruned from a database with respect to a given query. Both data sequences and query sequences are partitioned into segments, and the query processing is based upon the comparison of the features between data and query segments, instead of scanning all data elements of entire sequences.

Self-learning Method Based Slot Correction for Spoken Dialog System (자기 학습 방법을 이용한 음성 대화 시스템의 슬롯 교정)

  • Choi, Taekyoon;Kim, Minkyoung;Lee, Injae;Lee, Jieun;Park, Kyuyon;Kim, Kyungduk;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.353-360
    • /
    • 2021
  • 음성 대화 시스템에서는 사용자가 잘못된 슬롯명을 말하거나 음성인식 오류가 발생해 사용자의 의도에 맞지 않는 응답을 하는 경우가 있다. 이러한 문제를 해결하고자 말뭉치나 사전 데이터를 활용한 질의 교정 방법들이 제안되지만, 이는 지속적으로 사람이 개입하여 데이터를 주입해야하는 한계가 있다. 본 논문에서는 축적된 로그 데이터를 활용하여 사람의 개입 없이 음악 재생에 필요한 슬롯을 교정하는 자기 학습(Self-learning) 기반의 모델을 제안한다. 이 모델은 사용자가 특정 음악을 재생하고자 유사한 질의를 반복하는 상황을 이용하여 비지도 학습 기반으로 학습하고 음악 재생에 실패한 슬롯을 교정한다. 그리고, 학습한 모델 결과의 정확도에 대한 불확실성을 해소하기 위해 질의 슬롯 관계 유사도 모델을 이용하여 교정 결과에 대한 검증을 하고 슬롯 교정 결과에 대한 안정성을 보장한다. 모델 학습을 위한 데이터셋은 사용자가 연속으로 질의한 세션 데이터로부터 추출하며, 음악 재생 슬롯 세션 데이터와 질의 슬롯 관계 유사도 데이터를 각각 구축하여 슬롯 교정 모델과 질의 슬롯 관계 유사도 모델을 학습한다. 교정된 슬롯을 분석한 결과 발음 정보가 유사한 슬롯 뿐만 아니라 의미적인 관계가 있는 슬롯으로도 교정하여 사전 기반 방식보다 다양한 유형의 교정이 가능한 것을 보였다. 3 개월 간 수집된 로그 데이터로 학습한 음악 재생 슬롯 교정 모델은 일주일 동안 반복한 고유 질의 기준, 음악 재생 실패의 12%를 개선하는 성능을 보였다.

  • PDF

An Performance Analysis of Queueing for Data Traffic Considering the Burstiness and Delay Characteristics in 3G Mobile Comm. Systems (3G 이동통신시스템에서 데이터 트래픽의 버스트성과 지연특성을 고려한 큐잉성능 분석)

  • 김창호;이명훈;이종규;최영민;임석구
    • Proceedings of the IEEK Conference
    • /
    • 2003.07a
    • /
    • pp.469-472
    • /
    • 2003
  • 음성 중심의 기존 2G CDMA/PCS의 성능 및 용량을 분석하기 위한 트래픽 모델링에서는 시간당 평균 호 발생률, 발생 간격의 분포, 호 유지시간(Holding Time), 그리고 최번시(Busy Hour)를 결정하는 것이 주요 과제였으며, 이를 이용한 트래픽 엔지니어링은 음성호의 Blocking 확률과 지연시간을 최소화 하기위한 충분한 호 자원 확보에 중심을 두었던 것이 사실이다. 그러나 CDMA2000 1X 및 1xEV-DO/DV와 같은 3G 고속 데이터 이동통신 시스템에서의 패킷 데이터 트래픽의 특성은 자기 유사성(Self-similarity)이라는 성질을 가진다는 것은 잘 알려진 사실이다. 이와같은 고속 데이터 이동통신 시스템에서 요구되는 효율적인 망의 설계 및 디멘져닝을 위해서는 무엇보다도 데이터 트래픽의 주요 특성인 버스트함과 자기유사성이 반영된 모델 분석이 요구된다. 이러한 관점에서 본 논문에서는 데이터 트래픽의 자기유사성 및 큐잉 지연을 고려한 유효대역폭 산출식을 유도하여 시뮬레이션 결과와 비교 분석하였다.

  • PDF

Ensemble Composition Methods for Binary Classification of Imbalanced Data (불균형 데이터의 이진 분류를 위한 앙상블 구성 방법)

  • Yeong-Hun Kim;Ju-Hing Lee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.689-691
    • /
    • 2023
  • 불균형 데이터의 분류의 성능을 향상시키기 위한 앙상블 구성 방법에 관하여 연구한다. 앙상블의 성능은 앙상블을 구성한 기계학습 모델 간의 상호 다양성에 큰 영향을 받는다. 기존 방법에서는 앙상블에 속할 모델 간의 상호 다양성을 높이기 위해 Feature Engineering 을 사용하여 다양한 모델을 만들어 사용하였다. 그럼에도 생성된 모델 가운데 유사한 모델들이 존재하며 이는 상호 다양성을 낮추고 앙상블 성능을 저하시키는 문제를 가지고 있다. 불균형 데이터의 경우에는 유사 모델 판별을 위한 기존 다양성 지표가 다수 클래스에 편향된 수치를 산출하기 때문에 적합하지 않다. 본 논문에서는 기존 다양성 지표를 개선하고 가지치기 방안을 결합하여 유사 모델을 판별하고 상호 다양성이 높은 후보 모델들을 앙상블에 포함시키는 방법을 제안한다. 실험 결과로써 제안한 방법으로 구성된 앙상블이 불균형이 심한 데이터의 분류 성능을 향상시킴을 확인하였다.

Generating Trajectory of Road Network-Based Moving Objects (도로 네트워크 기반 이동 객체의 궤적 데이터 생성)

  • Kim, Bo-Ryun;Lee, Sang-Hyun;Li, Ki-Joune
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.75-78
    • /
    • 2005
  • 텔레매틱스 서비스를 위한 많은 어플리케이션들이 개발 됨에 인해 테스트를 위한 도로 네트워크 기반의 이동객체 궤적데이터의 필요성이 증대되고 있다. 본 논문에서는 도로 네트워크 상의 이동객체들의 실 궤적 데이터와 유사한 합성 궤적 데이터를 구축하기 위한 방법론을 제안한다. 그리고 실제 구현 결과와 실 데이터와의 속도 패턴을 비교하여 실 데이터와의 유사성을 보인다.

  • PDF

A Study on the building Dataset of Similar Case Matching in Legal Domain using Deep Learning Algorithm (딥러닝 알고리즘을 이용한 유사 판례 매칭 데이터셋 구축 방안 연구)

  • Kang, Ye-Jee;Kang, Hye-Rin;Park, Seo-Yoon;Jang, Yeon-Ji;Kim, Han-Saem
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.72-76
    • /
    • 2021
  • 판례는 일반인 또는 법률 전문가가 사건에 참조하기 위해 가장 먼저 참고할 수 있는 재판의 선례이다. 하지만 이러한 판례의 유용성에도 불구하고 현 대법원 판례 검색 시스템은 판례 검색에 용이하지 않다. 왜냐하면 법률 전문 지식이 없는 일반인은 검색 의도에 부합하는 검색 결과를 정확히 도출하는 데 어려움이 있으며, 법률 전문가는 검색에 많은 시간과 비용이 들게 되기 때문이다. 이미 해외에서는 유사 케이스 매칭 데이터셋을 구축하여 일반인과 전문가로 하여금 유사 판례 검색을 용이하게 할 뿐만 아니라 여러 자연어 처리 태스크에도 활용하고 있다. 하지만 국내에는 법률 AI와 관련하여 오직 법률과 관련한 세부 태스크 수행에 초점을 맞춘 연구가 많으며, 리소스로서의 유사 케이스 매칭 데이터셋은 구축되어 있지 않다. 이에 본 논문에서는 리소스로서의 판례 데이터셋을 위해 딥러닝 알고리즘 중 문서의 의미를 반영할 수 있는 Doc2Vec 임베딩 모델과 SBERT 임베딩 모델을 적용하여 판례 문서 간 유사도를 측정·비교하였다. 그 결과 SBERT 모델을 통해 도출된 유사 판례가 문서 간 내용적 유사성이 높게 나타났으며, 이를 통해 SBERT 모델을 이용하여 유사 판례 매칭 기초 데이터셋을 구축하였다.

  • PDF

An Analysis of Data Traffic Considering the Delay and Cell Loss Probability (지연시간과 손실율을 고려한 데이터 트래픽 분석)

  • Lim Seog -Ku
    • Journal of Digital Contents Society
    • /
    • v.5 no.1
    • /
    • pp.7-11
    • /
    • 2004
  • There are many problems that must solve to construct next generation high-speed communication network. Among these, item that must consider basically is characteristics analysis of traffic that nows to network Traffic characteristics of many Internet services that is offered present have shown that network traffic exhibits at a wide range of scals-self-similarity. Self-similarity is expressed by long term dependency, this is contradictory concept with Poisson model that have relativity short term dependency. Therefore, first of all, for design and dimensioning of next generation communication network, traffic model that are reflected burstiness and self-similarity is required. Here self-similarity can be characterized by Hurst parameter. In this paper, the calculation equation is derived considering queueing delay and self-similarity of data traffic art compared with simulation results.

  • PDF

Hybrid Video Information System Supporting Content-based Retrieval and Similarity Retrieval (비디오의 의미검색과 유사성검색을 위한 통합비디오정보시스템)

  • Yun, Mi-Hui;Yun, Yong-Ik;Kim, Gyo-Jeong
    • The Transactions of the Korea Information Processing Society
    • /
    • v.6 no.8
    • /
    • pp.2031-2041
    • /
    • 1999
  • In this paper, we present the HVIS (Hybrid Video Information System) which bolsters up meaning retrieval of all the various users by integrating feature-based retrieval and annotation-based retrieval of unformatted formed and massive video data. HVIS divides a set of video into video document, sequence, scene and object to model the metadata and suggests the Two layered Hybrid Object-oriented Metadata Model(THOMM) which is composed of raw-data layer for physical video stream, metadata layer to support annotation-based retrieval, content-based retrieval, and similarity retrieval. Grounded on this model, we presents the video query language which make the annotation-based query, content-based query and similar query possible and Video Query Processor to process the query and query processing algorithm. Specially, We present the similarity expression to appear degree of similarity which considers interesting of user. The proposed system is implemented with Visual C++, ActiveX and ORACLE.

  • PDF

A Study on Keyword Proximity Search (키워드 유사성 검색에 관한 연구)

  • Lee, Yoon Ki;Yoon, Ji Hyun;Jung, Hyungsoo;Yeom, Heon Young;Yang, Young Kyu;Hwang, Soon Wook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.209-210
    • /
    • 2007
  • 키워드 유사성 검색은 입력받은 키워드에 관련된 의미 있는 데이터를 검색하는 것을 말한다. 데이터들은 매우 다양한 형태로 표현 될 수 있고, 각각의 형태에 대한 키워드 유사성 검색에 대한 많은 연구가 이루어졌다. 이 논문에서는 다양한 키워드 유사성 검색에 대한 연구들의 개관을 살펴보고 그것들을 비교해 볼 것이다. 이 연구들을 비교 분석하는 것은 키워드 유사성 검색을 일반화 하는데 도움이 될 것으로 기대한다.

  • PDF