• 제목/요약/키워드: Visual Weighting

검색결과 65건 처리시간 0.026초

영상 기반 위치 인식을 위한 대규모 언어-이미지 모델 기반의 Bag-of-Objects 표현 (Large-scale Language-image Model-based Bag-of-Objects Extraction for Visual Place Recognition)

  • 정승운;박병재
    • 센서학회지
    • /
    • 제33권2호
    • /
    • pp.78-85
    • /
    • 2024
  • We proposed a method for visual place recognition that represents images using objects as visual words. Visual words represent the various objects present in urban environments. To detect various objects within the images, we implemented and used a zero-shot detector based on a large-scale image language model. This zero-shot detector enables the detection of various objects in urban environments without additional training. In the process of creating histograms using the proposed method, frequency-based weighting was applied to consider the importance of each object. Through experiments with open datasets, the potential of the proposed method was demonstrated by comparing it with another method, even in situations involving environmental or viewpoint changes.

상호 관계 기반 자동 이미지 주석 생성 (Correlation-based Automatic Image Captioning)

  • Hyungjeong, Yang;Pinar, Duygulu;Christos, Falout
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권10호
    • /
    • pp.1386-1399
    • /
    • 2004
  • 본 논문에서는 상호 관계에 기반한 자동 이미지 주석 생성 방법을 보인다 새로운 실험 이미지를 위한 자동 주석의 생성은 훈련 데이타 내의 주석과 함께 주어진 이미지들을 이용하여 이미지의 시각적 속성과 텍스트 속성의 상호 관계를 발견해 냄으로 수행된다. 본 논문에서 제시하는 상호 관계 기반 자동주석 생성 모델은 1) 시각적 속성의 적절한 군집화, 2) 시각적 속성과 텍스트 속성의 가중치 부여, 3) 노이즈 제거를 위한 차원 축소 등의 요소를 고려하여 설계된다. 실험은 680 MB의 Corel 이미지 데이터를 이용하여 각 10개의 데이타 집합에 대해 수행되었으며, 실험 결과, 시각적 속성과 텍스트 속성에 대한 가중치 부여와 시각적 속성의 적절한 군집화가 모델의 성능을 향상시키며, 본 논문에서 제시한 상호 관계기반 모델이 기존의 EM을 이용한 자동 주석 생성 모델에 비해 45%의 상대적 성능 향상을 보인다.

색인어 가중치 부여 방법에 따른 K-Means 문서 클러스터링의 LSI 분석 (Latent Semantic Indexing Analysis of K-Means Document Clustering for Changing Index Terms Weighting)

  • 오형진;고지현;안동언;박순철
    • 정보처리학회논문지B
    • /
    • 제10B권7호
    • /
    • pp.735-742
    • /
    • 2003
  • 정보검색 시스템에서 문서 클러스터링 기술은 사용자 질의에 대해 검색된 문서들을 문서간의 유사도를 기반으로 특정 주제에 따라 재배치하여 놓는 기술로써 사용자에게 검색의 편의성을 제공하고, 그 결과들을 시각적으로 보여줄 수 있다. 본 논문에서는 K-Means 알고리즘을 사용하여 문서를 클러스터링하며 문서를 대표하는 색인어에 가중치를 부여하는 기법에 대하여 논한다. 클러스터링 결과를 시각적으로 보여주기 위하여 문서와 클러스터 중심들을 2차원 공간으로 사상하기 위한 Latent Semantic Indexing 접근 방법을 적용하였다. 실험 결과 문서의 색인어에 대한 가중치 부여 방법을 동일하게 하거나 또는 유사한 수식을 적용한 사례보다는 로컬가중치, 글로벌가중치, 정규화 요소를 모두 부여한 사례에서 문서들이 2차원 벡터 공간에서 군집하여 분포하는 클러스터링 효과가 우수하였다. 특히 로컬 가중치와 글로벌 가중치에 logarithm을 적용하였을 때 문서 분포의 군집도는 현저하게 나타남을 알 수 있었다.

L2 Proficiency Effect on the Acoustic Cue-Weighting Pattern by Korean L2 Learners of English: Production and Perception of English Stops

  • Kong, Eun Jong;Yoon, In Hee
    • 말소리와 음성과학
    • /
    • 제5권4호
    • /
    • pp.81-90
    • /
    • 2013
  • This study explored how Korean L2 learners of English utilize multiple acoustic cues (VOT and F0) in perceiving and producing the English alveolar stop with a voicing contrast. Thirty-four 18-year-old high-school students participated in the study. Their English proficiency level was classified as either 'high' (HEP) or 'low' (LEP) according to high-school English level standardization. Thirty different synthesized syllables were presented in audio stimuli by combining a 6-step VOTs and a 5-step F0s. The listeners judged how close the audio stimulus was to /t/ or /d/ in L2 using a visual analogue scale. The L2 /d/ and /t/ productions collected from the 22 learners (12 HEP, 10 LEP) were acoustically analyzed by measuring VOT and F0 at the vowel onset. Results showed that LEP listeners attended to the F0 in the stimuli more sensitively than HEP listeners, suggesting that HEP listeners could inhibit less important acoustic dimensions better than LEP listeners in their L2 perception. The L2 production patterns also exhibited a group-difference between HEP and LEP in that HEP speakers utilized their VOT dimension (primary cue in L2) more effectively than LEP speakers. Taken together, the study showed that the relative cue-weighting strategies in L2 perception and production are closely related to the learner's L2 proficiency level in that more proficient learners had a better control of inhibiting and enhancing the relevant acoustic parameters.

가변적인 길이의 특성 정보를 지원하는 특성 가중치 조정 기법 (A Feature Re-weighting Approach for the Non-Metric Feature Space)

  • ;김상희;박호현;이석룡;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권4호
    • /
    • pp.372-383
    • /
    • 2006
  • 이미지 데이타베이스 분야에 대한 다양한 기법들 가운데, 내용 기반 영상 검색 기법 (Content Based Image Retrieval)은 대용량의 영상을 효율적으로 검색하고 탐색할 수 있도록 한다. 기존의 내용 기반 영상 검색 시스템은 사용자가 입력한 질의 이미지에서 낮은 레벨의 특성 (low-level feature)을 추출하고 그에 기반하여 데이타베이스로부터 유사한 영상을 검색한다. 하지만 컴퓨터에서 사용하는 낮은 레벨의 특성은 실제 인간이 영상을 인식하는 방법과 다르게 영상을 인식한다는 단점이 있다. 이러한 단점을 보완하기 위하여 각 특성에 대한 가중치를 적합성 피드백 (relevance feedback)을 통하여 재조정하는 기법이 개발되었다. 기존의 특성 가중치 조정 (feature re-weighting) 기법은 모든 영상에 대하여 특성은 항상 고정된 길이의 벡터 데이타로 표현된다고 가정한다, 이러한 가정을 전제로 하여 기존의 기법은 특성 표현 (feature representation)의 각 부분을 n 차원 공간의 각 축에 할당한다. 하지만 특성 표현 기법의 발전에 따라 가변적인 길이의 벡터로 표현되는 특성이 출현하였으며 이로 인하여 기존의 제한된 길이의 벡터로 표현되는 특성 표현에 기반한 특성 가중치 조정 기법의 유효성은 감소하게 되었다. 본 논문에서는 가변적인 크기의 벡터로 표현되는 특성에 대해서도 특성 가중치를 효과적으로 조정할 수 있는 기법을 제안한다. 본 기법은 특성에 기반하여 계산된 질의 영상과 데이타베이스 내부의 영상간의 거리와 양방향 신뢰구간을 이용하여 특성 가중치를 조정한다. 이 때 각 특성의 거리 계산 방법에 대해서는 제한을 두지 않는다. 또한 각 특성의 표현에 있어서도 고정적인 크기뿐만이 아니라 가변적인 크기의 데이타 역시 사용할 수 있도록 한다. 본 논문에서는 실험을 통하여 제안한 기법의 유효성을 입증하였으며, 다른 연구 결과와의 비교를 통하여 제안한 기법의 성능이 보다 우수함을 보였다.

이진 이미지에 대한 픽셀값 가중치를 이용한 자료 은닉 기법 연구 (A Data Hiding Method of Binary Images Using Pixel-value Weighting)

  • 정기현
    • 한국군사과학기술학회지
    • /
    • 제11권4호
    • /
    • pp.68-75
    • /
    • 2008
  • This paper proposes a new data hiding method for binary images using the weighting value of pixel-value differencing. The binary cover image is partitioned into non-overlapping sub-blocks and find the most suitable position to embed a secret bit for each sub-block. The proposed method calculates the weighted value for a sub-block to pivot a pixel to be changed. This improves the image quality of the stego-image. The experimental results show that the proposed method achieves a good visual quality and high capacity.

JPEG2000에서 저 전송 부호화를 위한 비주얼 양자화기 설계 (Design of Visual Quantizer for very low Bit-rate Coding on JPEG2000)

  • 김동혁;전준현
    • 대한전자공학회논문지SP
    • /
    • 제47권4호
    • /
    • pp.69-78
    • /
    • 2010
  • 대역분할 부호화방식의 표준인 비가역 9/7 JPEG2000의 경우 0.15bpp 이하에서 양자화 손실로 배경과 에지 부분에서 급격한 화질 왜곡이 발생하는 문제점을 갖고 있다. 본 논문에서는 이러한 문제를 해결하기 위해 고주파대역들의 L-pdf(Laplace probability density function) 통계특성을 이용한 VQ(Visual Quantizer)를 제안하였다. 제안된 VQ는 재생영상의 화질왜곡을 최소화하기 위한 비주얼파라메타와 효율적인 비트율 감축을 위한 가중치 파라메타를 각각 사용하여 설계되었다. 실험결과 제안된 VQ는 0.15bpp이하에서도 재생영상의 시각적 손실을 최소화하면서 재생영상의 화질왜곡 기준척도인 MSE(Mean-Squared Error)도 최소화 할 수 있었다.

태권도 종목별 선수들의 차기에 대한 시지각기능 및 충격량 비교 분석 (The Comparative Analysis of Visual Perceptual Function and Impulse on Players Chagi in Taekwondo Events)

  • 이영림;하철수
    • 한국운동역학회지
    • /
    • 제20권2호
    • /
    • pp.205-212
    • /
    • 2010
  • The purpose of this study was to compare the efficiency of visual perception and impulse according to the three types of Taekwondo players to be able to supply an efficient training method, for this a total of 12 representative Taekwondo players of the Korean National team, 4 poomsae players, 4 kyokpa players and 4 kyorugi players weighting between 68 to 74 kg, and the results from the motion analysis system, eye tracker and Electronic hogu are as follows. For the visual perceptual function, the total body reaction time was slowest for the kyokpa group, and for the visible reaction and vision fixation time was longest of the poomsae group, while the performance movement was fastest for the kyorugi group. As for description of the two kicking motions dollyo chagi and dolgae chagi the longer visual fixation helps the accuracy of the kick. In conclusion, as there was a difference between the groups, this information could help to train the visual perception of players according to what event they are participating in.

균형 잡힌 데이터 증강 기반 영상 감정 분류에 관한 연구 (A Study on Visual Emotion Classification using Balanced Data Augmentation)

  • 정치윤;김무섭
    • 한국멀티미디어학회논문지
    • /
    • 제24권7호
    • /
    • pp.880-889
    • /
    • 2021
  • In everyday life, recognizing people's emotions from their frames is essential and is a popular research domain in the area of computer vision. Visual emotion has a severe class imbalance in which most of the data are distributed in specific categories. The existing methods do not consider class imbalance and used accuracy as the performance metric, which is not suitable for evaluating the performance of the imbalanced dataset. Therefore, we proposed a method for recognizing visual emotion using balanced data augmentation to address the class imbalance. The proposed method generates a balanced dataset by adopting the random over-sampling and image transformation methods. Also, the proposed method uses the Focal loss as a loss function, which can mitigate the class imbalance by down weighting the well-classified samples. EfficientNet, which is the state-of-the-art method for image classification is used to recognize visual emotion. We compare the performance of the proposed method with that of conventional methods by using a public dataset. The experimental results show that the proposed method increases the F1 score by 40% compared with the method without data augmentation, mitigating class imbalance without loss of classification accuracy.

시각 자극 동안의 유발성 전위분포 의 중심점 추적에 관한 연구 (The Center Locus Estimation of the Evoked Potential Distributions During Visual Stimulation in Human)

  • 박광석;민병구;이충웅
    • 대한전자공학회논문지
    • /
    • 제20권3호
    • /
    • pp.6-12
    • /
    • 1983
  • 시각 자극을 주었을 때 이에 유발되어 나타나는 전위를 두피에 19개의 전극을 부착하고 측정하여 500Hz의 표본화 주파수로 A/D변환하였다. 이들 전위들의 분포로부터 각 전극의 좌표에 의해서 결정된 웨이팅 매트릭스를 사용하여 전위 분포의 중심점을 구하고 시간에 따른 이동 상태를 5명의 대상인과 4명의 비정상인에 대하여 분석하였다. 정상인에게서는 자극에 의한 시각적 정보가 시신경 경로를 통해서 전기적 신호로 전달되는 형태를 파악할 수 있었고, 비정상인의 경우에는 이러한 현상이 나타나지 않는 것을 발견하였다. 또한 본 연구의 중심점 추적의 방법과 다이폴 소오스 모델, 포인트 소오스 모델과의 관계를 검토 분석하였다.

  • PDF