• 제목/요약/키워드: Bag-of-words

검색결과 90건 처리시간 0.028초

재발량 분석을 이용한 음향 상황 인지 (Acoustic scene classification using recurrence quantification analysis)

  • 박상욱;최우현;고한석
    • 한국음향학회지
    • /
    • 제35권1호
    • /
    • pp.42-48
    • /
    • 2016
  • 동일한 장소에서도 매우 다양한 음향이 발생하고, 서로 다른 장소에서도 유사한 음향이 발생하기 때문에 훈련 데이터가 적거나, 훈련 단계에서 일부 음향만 고려된 경우 음향 상황 인지 성능을 보장할 수 없다. 이러한 문제점을 해결하기 위한 방법으로 Bag of Words (BOW) 기반 히스토그램 특징이 소개되었다. 하지만 BOW 기반 히스토그램 특징은 일정 시간동안 발생한 음향의 분포를 이용하기 때문에 음향이 발생한 순차적인 정보는 고려할 수 없다. 음향 상황 인지에서 일정 시간 동안 발생한 음향의 주기성과 지속성은 상황을 인지하는데 중요한 정보가 될 수 있다. 따라서 본 논문에서는 재발량 분석을 이용하여 주기성과 지속성에 대한 특징을 추출하였다. 인식 실험에서 재발량 분석을 통해 추출된 특징을 함께 사용한 경우 기존 방법들 보다 향상된 성능을 확인했다.

비디오 감시 응용에서 확장된 기술자를 이용한 물체 검출과 분류 (Object Detection and Classification Using Extended Descriptors for Video Surveillance Applications)

  • 모하마드 카이룰 이슬람;파라 자한;민재홍;백중환
    • 대한전자공학회논문지SP
    • /
    • 제48권4호
    • /
    • pp.12-20
    • /
    • 2011
  • 본 논문은 비디오 감시 장치에 사용되는 효율적인 물체 검출 및 분류 알고리즘을 제안한다. 이전 연구는 주로 Scale Invariant Feature Transform (SIFT)나 Speeded Up Robust Feature (SURF)와 같은 특정 형태의 특징을 이용해 물체를 검출하거나 분류하였다. 본 논문에서는 물체 검출 및 분류에 상호 작용하는 알고리즘을 제안한다. 이는 로컬 패치들로부터 얻어지는 텍스쳐나 컬러 분포 같은 서로 다른 특성을 갖는 특징값을 이용해 물체의 검출 및 분류율을 높인다. 물체 검출에는 특징점들의 공간적인 클러스터링을, 이미지 표현이나 분류에는 Bag of Words 모델과 Naive Bayes 분류기를 사용한다. 실험을 통해 제안한 기법이 로컬 기술자를 사용한 물체 분류기법보다 우수한 성능을 나타냄을 보인다.

속성선택방법과 워드임베딩 및 BOW (Bag-of-Words)를 결합한 오피니언 마이닝 성과에 관한 연구 (Investigating Opinion Mining Performance by Combining Feature Selection Methods with Word Embedding and BOW (Bag-of-Words))

  • 어균선;이건창
    • 디지털융복합연구
    • /
    • 제17권2호
    • /
    • pp.163-170
    • /
    • 2019
  • 과거 10년은 웹의 발달로 인한 데이터가 폭발적으로 생성되었다. 데이터마이닝에서는 대용량의 데이터에서 무의미한 데이터를 구분하고 가치 있는 데이터를 추출하는 단계가 중요한 부분을 차지한다. 본 연구는 감성분석을 위한 재표현 방법과 속성선택 방법을 적용한 오피니언 마이닝 모델을 제안한다. 본 연구에서 사용한 재표현 방법은 백 오즈 워즈(Bag-of-words)와 Word embedding to vector(Word2vec)이다. 속성선택(Feature selection) 방법은 상관관계 기반 속성선택(Correlation based feature selection), 정보획득 속성선택(Information gain)을 사용했다. 본 연구에서 사용한 분류기는 로지스틱 회귀분석(Logistic regression), 인공신경망(Neural network), 나이브 베이지안 네트워크(naive Bayesian network), 랜덤포레스트(Random forest), 랜덤서브스페이스(Random subspace), 스태킹(Stacking)이다. 실증분석 결과, electronics, kitchen 데이터 셋에서는 백 오즈 워즈의 정보획득 속성선택의 로지스틱 회귀분석과 스태킹이 높은 성능을 나타냄을 확인했다. laptop, restaurant 데이터 셋은 Word2vec의 정보획득 속성선택을 적용한 랜덤포레스트가 가장 높은 성능을 나타내는 조합이라는 것을 확인했다. 다음과 같은 결과는 오피니언 마이닝 모델 구축에 있어서 모델의 성능을 향상시킬 수 있음을 나타낸다.

VILODE : 키 프레임 영상과 시각 단어들을 이용한 실시간 시각 루프 결합 탐지기 (VILODE : A Real-Time Visual Loop Closure Detector Using Key Frames and Bag of Words)

  • 김혜숙;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권5호
    • /
    • pp.225-230
    • /
    • 2015
  • 본 논문에서는 키 프레임 영상과 SURF 특징점 기반의 시각 단어들을 이용한 효과적인 실시간 시각 루프 결합 탐지기 VILODE를 제안한다. 시각 루프 결합 탐지기는 과거에 지나온 위치들 중 하나를 다시 재방문하였는지를 판단하기 위해, 새로운 입력 영상을 이미 지나온 위치들에서 수집한 과거 영상들과 모두 비교해보아야 한다. 따라서 새로운 위치나 장소를 방문할수록 비교 대상 영상들이 계속해서 증가하기 때문에, 일반적으로 루프 결합 탐지기는 실시간 제약과 높은 탐지 정확도를 동시에 만족하기 어렵다. 이러한 문제점을 극복하기 위해, 본 시스템에서는 입력 영상들 중에서 의미 있는 것들만을 선택해 이들만을 비교하는 효과적인 키 프레임 선택 방법을 채택하였다. 따라서 루프 탐지에 필요한 영상 비교를 대폭 줄일 수 있다. 또한 본 시스템에서는 루프 결합 탐지의 정확도와 효율성을 높이기 위해, 키 프레임 영상들을 시각 단어들로 표현하고, DBoW 데이터베이스 시스템을 이용해 키 프레임 영상들에 대한 색인을 구성하였다. TUM 대학의 벤치마크 데이터들을 이용한 실험을 통해, 본 논문에서 제안한 시각 루프 결합 탐지기의 높은 성능을 확인할 수 있었다.

전통문화 콘텐츠 표준체계를 활용한 자동 텍스트 분류 시스템 (A System for Automatic Classification of Traditional Culture Texts)

  • 허윤아;이동엽;김규경;유원희;임희석
    • 한국융합학회논문지
    • /
    • 제8권12호
    • /
    • pp.39-47
    • /
    • 2017
  • 한국 문화의 역사, 전통과 관련된 디지털 웹 문서가 증가하게 되었다. 하지만 창작자 또는 전통 문화와 관련된 소재를 찾는 사용자들은 정보를 검색해도 결과가 충분하지 않았으며 원하는 정보를 얻지 못하는 경우가 나타나고 있다. 이런 효과적인 정보를 접하기 위해서는 문서 분류가 필요하다. 과거에 문서 분류는 작업자가 수작업으로 문서 분류하여 시간과 비용이 많이 소비하는 어려움이 있었지만, 최근 기계학습 기반으로 한 자동 문서 분류를 통해 효율적인 문서 분류가 이루어진다. 이에 본 논문은 전통문화 콘텐츠를 체계적인 분류체계로 구성한 한민족정보문화마당 데이터를 기반으로 전통문화 콘텐츠 자동 텍스트 분류 모델을 개발한다. 본 연구는 한민족정보문화마당 텍스트 데이터에 대해 단어 빈도수를 추출하기 위해 TF-IDF모델, Bag-of-Words 모델, TF-IDF/Bag-of-Words를 결합한 모델을 적용하여 각각 SVM 분류 알고리즘을 사용하여 전통문화 콘텐츠 자동 텍스트 분류 모델을 개발하여 성능평가를 확인하였다.

Crowd Activity Classification Using Category Constrained Correlated Topic Model

  • Huang, Xianping;Wang, Wanliang;Shen, Guojiang;Feng, Xiaoqing;Kong, Xiangjie
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권11호
    • /
    • pp.5530-5546
    • /
    • 2016
  • Automatic analysis and understanding of human activities is a challenging task in computer vision, especially for the surveillance scenarios which typically contains crowds, complex motions and occlusions. To address these issues, a Bag-of-words representation of videos is developed by leveraging information including crowd positions, motion directions and velocities. We infer the crowd activity in a motion field using Category Constrained Correlated Topic Model (CC-CTM) with latent topics. We represent each video by a mixture of learned motion patterns, and predict the associated activity by training a SVM classifier. The experiment dataset we constructed are from Crowd_PETS09 bench dataset and UCF_Crowds dataset, including 2000 documents. Experimental results demonstrate that accuracy reaches 90%, and the proposed approach outperforms the state-of-the-arts by a large margin.

Word Embedding 자질을 이용한 한국어 개체명 인식 및 분류 (Korean Named Entity Recognition and Classification using Word Embedding Features)

  • 최윤수;차정원
    • 정보과학회 논문지
    • /
    • 제43권6호
    • /
    • pp.678-685
    • /
    • 2016
  • 한국어 개체명 인식에 다양한 연구가 있었지만, 영어 개체명 인식에 비해 자질이 부족한 문제를 가지고 있다. 본 논문에서는 한국어 개체명 인식의 자질 부족 문제를 해결하기 위해 word embedding 자질을 개체명 인식에 사용하는 방법을 제안한다. CBOW(Continuous Bag-of-Words) 모델을 이용하여 word vector를 생성하고, word vector로부터 K-means 알고리즘을 이용하여 군집 정보를 생성한다. word vector와 군집 정보를 word embedding 자질로써 CRFs(Conditional Random Fields)에 사용한다. 실험 결과 TV 도메인과 Sports 도메인, IT 도메인에서 기본 시스템보다 각각 1.17%, 0.61%, 1.19% 성능이 향상되었다. 또한 제안 방법이 다른 개체명 인식 및 분류 시스템보다 성능이 향상되는 것을 보여 그 효용성을 입증했다.

A Study on Word Vector Models for Representing Korean Semantic Information

  • Yang, Hejung;Lee, Young-In;Lee, Hyun-jung;Cho, Sook Whan;Koo, Myoung-Wan
    • 말소리와 음성과학
    • /
    • 제7권4호
    • /
    • pp.41-47
    • /
    • 2015
  • This paper examines whether the Global Vector model is applicable to Korean data as a universal learning algorithm. The main purpose of this study is to compare the global vector model (GloVe) with the word2vec models such as a continuous bag-of-words (CBOW) model and a skip-gram (SG) model. For this purpose, we conducted an experiment by employing an evaluation corpus consisting of 70 target words and 819 pairs of Korean words for word similarities and analogies, respectively. Results of the word similarity task indicated that the Pearson correlation coefficients of 0.3133 as compared with the human judgement in GloVe, 0.2637 in CBOW and 0.2177 in SG. The word analogy task showed that the overall accuracy rate of 67% in semantic and syntactic relations was obtained in GloVe, 66% in CBOW and 57% in SG.

A Salient Based Bag of Visual Word Model (SBBoVW): Improvements toward Difficult Object Recognition and Object Location in Image Retrieval

  • Mansourian, Leila;Abdullah, Muhamad Taufik;Abdullah, Lilli Nurliyana;Azman, Azreen;Mustaffa, Mas Rina
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권2호
    • /
    • pp.769-786
    • /
    • 2016
  • Object recognition and object location have always drawn much interest. Also, recently various computational models have been designed. One of the big issues in this domain is the lack of an appropriate model for extracting important part of the picture and estimating the object place in the same environments that caused low accuracy. To solve this problem, a new Salient Based Bag of Visual Word (SBBoVW) model for object recognition and object location estimation is presented. Contributions lied in the present study are two-fold. One is to introduce a new approach, which is a Salient Based Bag of Visual Word model (SBBoVW) to recognize difficult objects that have had low accuracy in previous methods. This method integrates SIFT features of the original and salient parts of pictures and fuses them together to generate better codebooks using bag of visual word method. The second contribution is to introduce a new algorithm for finding object place based on the salient map automatically. The performance evaluation on several data sets proves that the new approach outperforms other state-of-the-arts.

마코프 논리 기반의 시맨틱 문서 검색 (Semantic Document-Retrieval Based on Markov Logic)

  • 황규백;봉성용;구현서;백은옥
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권6호
    • /
    • pp.663-667
    • /
    • 2010
  • 본 논문은 질의 문서와 의미가 유사한 문서를 검색하는 문제를 다룬다. 이 문제에 대한 기본적인 접근법은 각 문서를 bag-of-words 형태로 표현한 후, 코사인 유사도 등의 거리 기준에 기반하여 유사 문서를 판별하는 것이다. 그러나, 이처럼 문서에 출현하는 단어에만 의존하는 검색 방법은 의미적 유사성을 제대로 반영하기 어렵다는 단점을 가진다. 본 논문에서는 이러한 문제를 극복하기 위해 데이터 기반의 감독 학습(supervised learning) 기법과 관련 온톨로지 정보를 마코프 논리(Markov logic)에 기반하여 결합한다. 구체적으로, 단어들 사이에 존재하는 관계를 표현한 온톨로지와 유사도가 태깅된 문서 데이터에서 마코프 논리 망(Markov logic network)을 학습하며, 학습된 마코프 논리 망과 문서 데이터 및 새로 주어진 질의 문서에 대한 추론을 통해 질의 문서와 의미적으로 유사한 문서를 검색하는 기법을 제안한다. 제안하는 접근법은 서울시의 민원서비스 홈페이지에서 수집된 실제 민원 데이터에 적용되었으며, 적용 결과, 단순한 문서 간 거리에 기반한 유사 문서 검색 기법에 비해 월등히 높은 정확도를 보였다.