• 제목/요약/키워드: semantic distance

검색결과 83건 처리시간 0.021초

Salient Object Detection Based on Regional Contrast and Relative Spatial Compactness

  • Xu, Dan;Tang, Zhenmin;Xu, Wei
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제7권11호
    • /
    • pp.2737-2753
    • /
    • 2013
  • In this study, we propose a novel salient object detection strategy based on regional contrast and relative spatial compactness. Our algorithm consists of four basic steps. First, we learn color names offline using the probabilistic latent semantic analysis (PLSA) model to find the mapping between basic color names and pixel values. The color names can be used for image segmentation and region description. Second, image pixels are assigned to special color names according to their values, forming different color clusters. The saliency measure for every cluster is evaluated by its spatial compactness relative to other clusters rather than by the intra variance of the cluster alone. Third, every cluster is divided into local regions that are described with color name descriptors. The regional contrast is evaluated by computing the color distance between different regions in the entire image. Last, the final saliency map is constructed by incorporating the color cluster's spatial compactness measure and the corresponding regional contrast. Experiments show that our algorithm outperforms several existing salient object detection methods with higher precision and better recall rates when evaluated using public datasets.

k-최근점 학습에 기반한 타동사-목적어 연어 사전의 최적화 (Optimization of Transitive Verb-Objective Collocation Dictionary based on k-nearest Neighbor Learning)

  • 김유섭;장병탁;김영택
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권3호
    • /
    • pp.302-313
    • /
    • 2000
  • 영한 기계번역에서 영어 문장의 동사구를 한국어로 정확하게 번역하기 위해서는 일반적으로 타동사와 목적어의 연어 관계를 이용한다. 본 논문에서는 k-최근점(k-nearest neighbor) 학습을 연어 관계에 적용하여 동사 번역을 선택하는 알고리즘을 제시하였는데 k-최근점 학습을 위해서 워드넷에서의 의미거리를 정의하여 사용하였다. 그리고 실시간 번역 시스템에 사용될 사전을 구성하기 위하여, 말뭉치로부터 타동사-목적어 쌍을 추출하여 학습예제를 구축하고, 이 예제의 크기를 번역률과 연관시켜 최적화시키는 알고리즘을 제시한다. 본 논문에서는 위의 알고리즘들을 사용하여 동사 'build'의 번역률을 약 90%로 유지하면서 사전의 크기를 최적화하였다.

  • PDF

Schema- and Data-driven Discovery of SQL Keys

  • Le, Van Bao Tran;Sebastian, Link;Mozhgan, Memari
    • Journal of Computing Science and Engineering
    • /
    • 제6권3호
    • /
    • pp.193-206
    • /
    • 2012
  • Keys play a fundamental role in all data models. They allow database systems to uniquely identify data items, and therefore, promote efficient data processing in many applications. Due to this, support is required to discover keys. These include keys that are semantically meaningful for the application domain, or are satisfied by a given database. We study the discovery of keys from SQL tables. We investigate the structural and computational properties of Armstrong tables for sets of SQL keys. Inspections of Armstrong tables enable data engineers to consolidate their understanding of semantically meaningful keys, and to communicate this understanding to other stake-holders. The stake-holders may want to make changes to the tables or provide entirely different tables to communicate their views to the data engineers. For such a purpose, we propose data mining algorithms that discover keys from a given SQL table. We combine the key mining algorithms with Armstrong table computations to generate informative Armstrong tables, that is, key-preserving semantic samples of existing SQL tables. Finally, we define formal measures to assess the distance between sets of SQL keys. The measures can be applied to validate the usefulness of Armstrong tables, and to automate the marking and feedback of non-multiple choice questions in database courses.

스마트폰 센싱에서 메타데이터의 구조적 유사도를 고려한 클러스터링 기법 (A Clustering Scheme Considering the Structural Similarity of Metadata in Smartphone Sensing System)

  • 민홍;허준영
    • 한국인터넷방송통신학회논문지
    • /
    • 제14권6호
    • /
    • pp.229-234
    • /
    • 2014
  • 다수의 저가 센서 노드를 통해 주변의 환경 정보를 수집하는 센서 네트워크와 스마트폰에 탑재되어 있는 다양한 종료의 센서들을 연동함으로써 사용자의 상태에 따라 주위 환경과 반응하는 응용들이 개발되고 있다. 이런 응용에서 수집된 데이터의 공유를 위해 센싱 데이터와 의미정보를 저장하는 XML 형태의 메타데이터를 함께 저장할 필요가 있다. 메타데이터는 시스템 설계자의 필요에 따라 확장되고 변형되는데 거리 기반의 클러스터링 기법을 사용할 경우 서로 다른 형태의 메타데이터가 혼재하게 되어 데이터 수집의 효율성이 떨어지는 문제가 발생한다. 본 논문에서는 효율적인 데이터 수집을 위해 클러스터를 구성할 때 각 노드의 메타데이터의 구조적 유사도를 반영함으로써 클러스터 구성에 필요한 시간을 줄이고, 구성원 간 메타데이터 유사도를 향상시키는 기법을 제안한다.

화면 제공에 따른 주관적 반응의 차이 - 레저용 사격 소음을 중심으로 - (Difference of subjective response between with and without pictures - Focusing on the leisure shooting noise -)

  • 김득성;장서일;이연수
    • 한국소음진동공학회:학술대회논문집
    • /
    • 한국소음진동공학회 2008년도 춘계학술대회논문집
    • /
    • pp.727-734
    • /
    • 2008
  • This research presents a laboratory study about difference of subjective response between with and without pictures. A main source is impulsive sound caused by leisure shooting. The sources are sampled from outdoor noise and their levels range from 40 to 75 dB at the interval of 5dB. The noise unit is based on A-weighted sound exposure level (ASEL; $L_{AE}$). To make equal ASEL of outdoor noise, finite impulse response (FIR) filter is applied to the originally sampled source to include the effect of distance attenuation. The evaluation method of the jury test adopted a Semantic Difference(SD) Method. The intersection point which two lines crossed was used as reference point. The intersecting point of mean response rating between with and without pictures was approximately 44ASEL and that of %HA was about 60ASEL. In the result of the test, the negative effect of pictures was given at a lower levels than intersection point while the positive effect was given at a higher levels than that.

  • PDF

대규모 스마트폰 센싱을 위한 문서 클러스터링 기법 (Document Clustering Scheme for Large-scale Smart Phone Sensing)

  • 민홍;허준영
    • 한국인터넷방송통신학회논문지
    • /
    • 제14권1호
    • /
    • pp.253-258
    • /
    • 2014
  • 스마트폰에 탑재된 센서들을 사용하여 사회 조직에서 발생하는 다양한 현상들을 모니터링하는 스마트폰 센싱 분야에서 대규모 데이터 처리 및 품질 향상과 수집된 정보를 공유하기 위해 시멘틱 데이터를 관리하는 것은 중요한 이슈 중에 하나이다. 본 논문에서는 이러한 대규모 시멘틱 데이터 관리 구조에서 서버의 부하를 줄이기 위한 문서 클러스터링 기법을 제안한다. 제안된 클러스터링 기법은 헤드 노드와 멤버노드를 갖는 하이브리드 백엔드 구조에서 서버단의 부하 감소를 위해 유사한 메타데이터를 갖는 노드들로 클러스터를 구성한다. 시뮬레이션을 통해 제안 기법이 기존의 거리기반 클러스터링 기법에 비해 서버부하를 줄일 수 있다는 것을 검증 하였다.

의미적 유사성과 그래프 컨볼루션 네트워크 기법을 활용한 엔티티 매칭 방법 (Entity Matching Method Using Semantic Similarity and Graph Convolutional Network Techniques)

  • 단홍조우;이용주
    • 한국전자통신학회논문지
    • /
    • 제17권5호
    • /
    • pp.801-808
    • /
    • 2022
  • 대규모 링크드 데이터에 어떻게 지식을 임베딩하고, 엔티티 매칭을 위해 어떻게 신경망 모델을 적용할 것인가에 대한 연구는 상대적으로 많이 부족한 상황이다. 이에 대한 가장 근본적인 문제는 서로 다른 레이블이 어휘 이질성을 초래한다는 것이다. 본 논문에서는 이러한 어휘 이질성 문제를 해결하기 위해 재정렬 구조를 결합한 확장된 GCN(Graph Convolutional Network) 모델을 제안한다. 제안된 모델은 기존 임베디드 기반 MTransE 및 BootEA 모델과 비교하여 각각 53% 및 40% 성능이 향상되었으며, GCN 기반 RDGCN 모델과 비교하여 성능이 5.1% 향상되었다.

Research on Community Knowledge Modeling of Readers Based on Interest Labels

  • Kai, Wang;Wei, Pan;Xingzhi, Chen
    • Journal of Information Processing Systems
    • /
    • 제19권1호
    • /
    • pp.55-66
    • /
    • 2023
  • Community portraits can deeply explore the characteristics of community structures and describe the personalized knowledge needs of community users, which is of great practical significance for improving community recommendation services, as well as the accuracy of resource push. The current community portraits generally have the problems of weak perception of interest characteristics and low degree of integration of topic information. To resolve this problem, the reader community portrait method based on the thematic and timeliness characteristics of interest labels (UIT) is proposed. First, community opinion leaders are identified based on multi-feature calculations, and then the topic features of their texts are identified based on the LDA topic model. On this basis, a semantic mapping including "reader community-opinion leader-text content" was established. Second, the readers' interest similarity of the labels was dynamically updated, and two kinds of tag parameters were integrated, namely, the intensity of interest labels and the stability of interest labels. Finally, the similarity distance between the opinion leader and the topic of interest was calculated to obtain the dynamic interest set of the opinion leaders. Experimental analysis was conducted on real data from the Douban reading community. The experimental results show that the UIT has the highest average F value (0.551) compared to the state-of-the-art approaches, which indicates that the UIT has better performance in the smooth time dimension.

시각적 특징을 기반한 샷 클러스터링을 통한 비디오 씬 탐지 기법 (Video Scene Detection using Shot Clustering based on Visual Features)

  • 신동욱;김태환;최중민
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.47-60
    • /
    • 2012
  • 비디오 데이터는 구조화되지 않은 복합 데이터의 형태를 지닌다. 이러한 비디오 데이터의 효율적인 관리 및 검색을 위한 비디오 데이터 구조화의 중요성이 대두되면서 콘텐츠 내 시각적 특징을 기반으로 비디오 씬(scene)을 탐지하고자 하는 연구가 활발히 진행되었다. 기존의 연구들은 주로 색상 정보만을 이용하여 샷(shot) 간의 유사도 평가를 기반한 클러스터링(clustering)을 통해 비디오 씬을 탐지하고자 하였다. 하지만 비디오 데이터의 색상 정보는 노이즈(noise)를 포함하고, 특정 사물의 개입 등으로 인해 급격하게 변화하기 때문에 색상만을 특징으로 고려할 경우, 비디오 샷 혹은 씬에 대한 올바른 식별과 디졸브(dissolve), 페이드(fade), 와이프(wipe)와 같은 화면의 점진적인 전환(gradual transitions) 탐지는 어렵다. 이러한 문제점을 해결하기 위해, 본 논문에서는 프레임(frame)의 컬러 히스토그램과 코너 에지, 그리고 객체 컬러 히스토그램에 해당하는 시각적 특징을 기반으로 동일한 이벤트를 구성하는 의미적으로 유사한 샷의 클러스터링을 통해 비디오 씬을 탐지하는 방법(Scene Detector by using Color histogram, corner Edge and Object color histogram, SDCEO)을 제안한다. SDCEO는 샷 바운더리 식별을 위해 컬러 히스토그램 분석 단계에서 각 프레임의 컬러 히스토그램 정보를 이용하여 1차적으로 연관성 있는 연속된 프레임을 샷 바운더리로 병합한 후, 코너 에지 분석 단계에서 병합된 샷 내 처음과 마지막 프레임의 코너 에지 특징 비교를 통하여 샷 바운더리를 정제하여 최종 샷을 식별한다. 키프레임 추출 단계에서는 샷 내 프레임간 유사도 비교를 통해 모든 프레임과 가장 유사한 프레임을 각 샷을 대표하는 키프레임으로 추출한다. 그 후, 비디오 씬 탐지를 위해, 컬러 히스토그램과 객체 컬러 히스토 그램에 해당하는 프레임의 시각적 특징을 기반으로 상향식 계층 클러스터링 방법을 이용하여 의미적인 연관성을 지니는 샷의 군집화를 통해 비디오 씬을 탐지하는 방법이다. 본 논문에서는 SDCEO의 프로토 타입을 구축하고 3개의 비디오 데이터를 이용한 실험을 통하여 SDCEO의 효율성을 평가하였고 샷 바운더리 식별의 성능의 정확도는 평균 93.3%, 비디오 씬 탐지 성능의 정확도는 평균 83.3%로 만족할만한 성능을 보였다.

문서 요약 및 비교분석을 위한 주제어 네트워크 가시화 (Keyword Network Visualization for Text Summarization and Comparative Analysis)

  • 김경림;이다영;조환규
    • 정보과학회 논문지
    • /
    • 제44권2호
    • /
    • pp.139-147
    • /
    • 2017
  • 문자 정보는 인터넷 공간에 통용되는 정보의 대다수를 차지하고 있다. 따라서 대용량의 문서의 의미를 빠르게 특히 자동적으로 파악하는 일은 빅 데이터 시대의 중요한 연구 주제중 하나이다. 이 분야의 대표적인 연구 중 하나는 문서의 의미를 요약해주는 주요 주제어의 자동 추출 및 분석이다. 그러나 단순히 추출된 개별 주제어들의 집합만으로 문서의 의미구조를 나타내기에는 부족함이 있다. 본 논문에서는 추출된 주제어들의 연관관계를 그래프로 표현하여 대상 문서의 의미구조를 보다 다양하게 표시하고 추상화할 수 있는 주제어 가시화 방법을 개발하였다. 먼저 각 주제어들 간의 연관관계를 추출하기 위해 주제어별 지배구간 모델과 단어거리 모델을 제안하였다. 이렇게 추출한 주제어 연결성과 그를 형상화한 그래프는 문서의 의미구조를 보다 함축적으로 담고 있으므로 문서의 빠른 내용파악과 요약이 가능하며 이 가시화 그래프를 비교함으로서 문서의 의미적 유사도 비교도 가능하다. 실험을 통하여 문서의 의미파악과 비교에 본 주제어 가시화 그래프는 일반적인 요약문이나 단순 주제어 리스트보다 더 유용함을 보였다.