• 제목/요약/키워드: Benchmark dataset

검색결과 105건 처리시간 0.023초

단-단계 물체 탐지기 학습을 위한 고난도 예들의 온라인 마이닝 (Online Hard Example Mining for Training One-Stage Object Detectors)

  • 김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권5호
    • /
    • pp.195-204
    • /
    • 2018
  • 본 논문에서는 심층 합성 곱 신경망 모델 기반의 단-단계 물체 탐지기들의 탐지 성능을 향상시킬 수 있는 새로운 손실 함수와 온라인 고난도 예 마이닝 방식을 제안한다. 본 논문에서 제안하는 손실 함수와 온라인 고난도 예 마이닝 방식은 물체와 배경 간의 학습 데이터 불균형 문제를 해결할 뿐만 아니라, 각 물체의 위치 추정 정확도를 더 개선시킬 수 있다. 따라서 물체 탐지 속도가 빠른 단-단계 물체 탐지기들에 이-단계 물체 탐지기들과 비슷하거나 더 우수한 탐지 성능을 제공할 수 있다. PASCAL VOC 2007 벤치마크 데이터 집합을 이용한 다양한 실험들을 통해, 본 논문에서 제안하는 손실 함수와 온라인 고난도 예 마이닝 방식이 단-단계 물체 탐지기들의 성능 개선에 도움이 된다는 것을 입증해 보인다.

계층적 ZP-스플라인을 이용한 곡선 복구 기법 (Curve Reconstruction from Oriented Points Using Hierarchical ZP-Splines)

  • 김현준;김민호
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제22권5호
    • /
    • pp.1-16
    • /
    • 2016
  • 본 논문에서는 최소자승법에 기반한 효율적인 곡선 복구 기법을 제안한다. 구체적으로는, 법선 벡터를 포함한 평면상의 샘플포인트가 주어졌을 때 계층적인 ZP(Zwart-Powell)-스플라인의 레벨로 곡선을 복구하는데, 세밀한 부문을 복구하면서도 비교적 큰 구멍도 효율적으로 메꾸고 있다. 정규화를 위해서는, (1) 선형시스템의 특이성을 피하기 위한 티코노프 정규항과 (2) 아이소커브를 부드럽게 하기 위한 이산 라플라스 정규항 두 가지를 사용하고 있다. 정량적인 벤치마크 테스트를 통해 비교한 결과, 본 방법은 다항식에 기반한 기법들에 비해 훨씬 우수한 결과를 보여준다는 것을 확인할 수 있다. 구멍이 있는 데이터의 경우, 계층적인 B-스플라인과 비교해본 결과 엇비슷한 품질을 보이지만 약 90%의 계산량만을 필요로 한다.

시각-언어 이동 에이전트를 위한 복합 학습 (Hybrid Learning for Vision-and-Language Navigation Agents)

  • 오선택;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권9호
    • /
    • pp.281-290
    • /
    • 2020
  • 시각-언어 이동 문제는 시각 이해와 언어 이해 능력을 함께 요구하는 복합 지능 문제이다. 본 논문에서는 시각-언어 이동 에이전트를 위한 새로운 학습 모델을 제안한다. 이 모델은 데모 데이터에 기초한 모방 학습과 행동 보상에 기초한 강화 학습을 함께 결합한 복합 학습을 채택하고 있다. 따라서 이 모델은 데모 데이터에 편향될 수 있는 모방 학습의 문제와 상대적으로 낮은 데이터 효율성을 갖는 강화 학습의 문제를 상호 보완적으로 해소할 수 있다. 또한, 제안 모델에서는 기존의 목표 기반 보상 함수들의 문제점을 해결하기 위해 설계된 새로운 경로 기반 보상 함수를 이용한다. 본 논문에서는 Matterport3D 시뮬레이션 환경과 R2R 벤치마크 데이터 집합을 이용한 다양한 실험들을 통해, 제안 모델의 높은 성능을 입증하였다.

LVLN: 시각-언어 이동을 위한 랜드마크 기반의 심층 신경망 모델 (LVLN : A Landmark-Based Deep Neural Network Model for Vision-and-Language Navigation)

  • 황지수;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권9호
    • /
    • pp.379-390
    • /
    • 2019
  • 본 논문에서는 시각-언어 이동 문제를 위한 새로운 심층 신경망 모델인 LVLN을 제안한다. LVLN 모델에서는 자연어 지시의 언어적 특징과 입력 영상 전체의 시각적 특징들 외에, 자연어 지시에서 언급하는 주요 장소와 랜드마크 물체들을 입력 영상에서 탐지해내고 이 정보들을 추가적으로 이용한다. 또한 이 모델은 자연어 지시 내 각 개체와 영상 내 각 관심 영역, 그리고 영상에서 탐지된 개별 물체 및 장소 간의 서로 연관성을 높일 수 있도록 맥락 정보 기반의 주의 집중 메커니즘을 이용한다. 그뿐만 아니라, LVLN 모델은 에이전트의 목표 도달 성공율을 향상시키기 위해, 목표를 향한 실질적인 접근을 점검할 수 있는 진척 점검기 모듈도 포함하고 있다. Matterport3D 시뮬레이터와 Room-to-Room (R2R) 벤치마크 데이터 집합을 이용한 다양한 실험들을 통해, 본 논문에서 제안하는 LVLN 모델의 높은 성능을 확인할 수 있었다.

FRS-OCC: Face Recognition System for Surveillance Based on Occlusion Invariant Technique

  • Abbas, Qaisar
    • International Journal of Computer Science & Network Security
    • /
    • 제21권8호
    • /
    • pp.288-296
    • /
    • 2021
  • Automated face recognition in a runtime environment is gaining more and more important in the fields of surveillance and urban security. This is a difficult task keeping in mind the constantly volatile image landscape with varying features and attributes. For a system to be beneficial in industrial settings, it is pertinent that its efficiency isn't compromised when running on roads, intersections, and busy streets. However, recognition in such uncontrolled circumstances is a major problem in real-life applications. In this paper, the main problem of face recognition in which full face is not visible (Occlusion). This is a common occurrence as any person can change his features by wearing a scarf, sunglass or by merely growing a mustache or beard. Such types of discrepancies in facial appearance are frequently stumbled upon in an uncontrolled circumstance and possibly will be a reason to the security systems which are based upon face recognition. These types of variations are very common in a real-life environment. It has been analyzed that it has been studied less in literature but now researchers have a major focus on this type of variation. Existing state-of-the-art techniques suffer from several limitations. Most significant amongst them are low level of usability and poor response time in case of any calamity. In this paper, an improved face recognition system is developed to solve the problem of occlusion known as FRS-OCC. To build the FRS-OCC system, the color and texture features are used and then an incremental learning algorithm (Learn++) to select more informative features. Afterward, the trained stack-based autoencoder (SAE) deep learning algorithm is used to recognize a human face. Overall, the FRS-OCC system is used to introduce such algorithms which enhance the response time to guarantee a benchmark quality of service in any situation. To test and evaluate the performance of the proposed FRS-OCC system, the AR face dataset is utilized. On average, the FRS-OCC system is outperformed and achieved SE of 98.82%, SP of 98.49%, AC of 98.76% and AUC of 0.9995 compared to other state-of-the-art methods. The obtained results indicate that the FRS-OCC system can be used in any surveillance application.

컨볼루션 뉴럴 네트워크를 이용한 군중 행동 감지 (Crowd Behavior Detection using Convolutional Neural Network)

  • 와셈 울라;파트 우 민 울라;백성욱;이미영
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제15권6호
    • /
    • pp.7-14
    • /
    • 2019
  • 감시 영상에서 군중 행동의 자동 모니터링 및 감지는 보안, 안전 및 자산 보호와 같은 방대한 응용 프로그램으로 인해 컴퓨터 비전 분야에서 중요한 관심을 받고 있다. 또한 연구 커뮤니티에서 군중 분석 분야가 점차 증가하고 있다. 이를 위해서는 군중들의 행동을 감지하고 분석하는 것이 매우 필요하다. 본 논문에서는 스마트 시티에 설치된 감시 카메라의 비정상적인 활동을 감지하는 딥러닝 기반 방법을 제안하였다. 미세 조정된 VGG-16모델은 트레이닝된 공개적으로 사용 가능한 벤치마크 군중 데이터 셋을 실시간 스트리밍으로 테스트한다. CCTV카메라는 비디오 스트림을 캡쳐하는데, 비정상적인 활동이 감지되면 경보가 발생하여 추가 손실 전에 즉각적인 조치가 이루어지도록 가장 가까운 경찰서로 전송된다. 우리는 제안된 방법이 기존의 첨단 기술 보다 성능이 뛰어남을 실험으로 입증하였다.

단계적 슈퍼픽셀 병합을 통한 이미지 분할 방법에서 특권정보의 활용 방안 (Image Segmentation by Cascaded Superpixel Merging with Privileged Information)

  • 박용진
    • 한국정보통신학회논문지
    • /
    • 제23권9호
    • /
    • pp.1049-1059
    • /
    • 2019
  • 기존의 영역 병합을 통한 이미지 분할 방법에서는 이웃한 두 영역 사이의 정보만을 이용하여 병합 모델을 학습한다. 학습 과정에서는 두 영역 사이의 지역적인 정보뿐만 아니라 물체 정보와 같은 전역적인 정보 또한 활용 가능하므로 주어진 모든 정보를 활용하여 병합 모델의 성능을 높이는 것이 바람직하다. 본 논문에서는 학습 기반의 이미지 분할 알고리즘에서 학습 시에만 사용 가능한 특권정보를 활용하는 SVM+ 방법을 제안한다. 특권정보는 학습 시에만 사용 가능한 정보이므로 전통적인 지도학습 방법으로는 학습이 불가하다. SVM+와 같은 특권정보를 학습할 수 있는 구조를 통해 지역 정보뿐만 아니라 물체 정보를 포함하여 영역 간의 병합 여부를 결정하는 모델을 학습하였다. BSDS 500 데이터 세트와 VOC 2012 데이터 세트에서 벤치마크를 수행하였으며 대부분의 평가 지표에서 개선된 성능을 보여 주었다. 특히 학습 데이터 세트가 작은 경우에 기존의 알고리즘에 비해서 월등히 뛰어난 성능을 보인다.

DRAZ : 이기종 메타 데이터 소스를 위한 SPARQL 쿼리 엔진 (DRAZ: SPARQL Query Engine for heterogeneous metadata sources)

  • 우메이르 쿠두스;엠디 이브라힘 호세인;이창주;키파야트 울아 칸;원희선;이영구
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.69-85
    • /
    • 2018
  • 최근 DCAT, CKAN 같은 동종 데이터 집합에 대해 질의를 동시에 수행하여 쿼리 결과의 품질을 크게 향상하는 페더레이션 쿼리 엔진이 활발하게 연구되고 있다. 하지만 기존 연구는 비표준 쿼리를 사용하며 정적 바인딩을 적용한 몇 가지 이기종 데이터 집합 또는 동종 데이터 집합에 대해서만 질의 할 수 있다. 본 논문에서는 SPARQL을 사용하여 여러 데이터 소스에 질의하는 페더레이티드 엔진 (DRAZ)을 제안한다. 제안하는 시스템에서는 주어진 SPARQL 쿼리의 모든 트리플 패턴을 API 호출로 변환하여 해당 데이터셋에 접근한다. 마지막으로 모든 API 호출 결과를 N-트리플로 변환하고 모든 트리플 패턴을 고려한 최종 결과를 요약한다. 우리는 제안하는 DRAZ를 DCAT 및 DOI와 같은 이기종 메타 데이터 표준을 고려하여 수정된 Fedbench 벤치 마크 질의를 사용하여 평가하였다. 제안하는 시스템인 DRAZ가 JOIN 작업을 사용할 수 없음에도 불구하고 결과의 70-100 % 정확도를 달성 할 수 있음을 실험을 통해 확인하였다.

복잡한 환경에서 MTCNN 모델 기반 얼굴 검출 알고리즘 개선 연구 (Research and Optimization of Face Detection Algorithm Based on MTCNN Model in Complex Environment)

  • 부옥매;김민영;장종욱
    • 한국정보통신학회논문지
    • /
    • 제24권1호
    • /
    • pp.50-56
    • /
    • 2020
  • 현재 심층 신경망 이론 및 응용 연구의 빠른 개발로 얼굴 인식의 효과가 향상되고 있다. 그러나 심층 신경망 계산의 복잡성과 탐지 환경의 복잡성으로 인해 얼굴을 빠르고 정확하게 감지하는 방법이 주요 문제가 된다. 이 논문은 FDDB, LFW 및 FaceScrub 공개 데이터 세트를 훈련 표본을 사용하는 단순한 MTCNN 모델을 기반으로 둔다. MTCNN 모델을 분류하고 소개하면서 학습 훈련 속도를 높이고 성능을 향상하는 방법을 모색합니다. 본 논문에서는 다이내믹 이미지 피라미드 기술을 이용하여 기존 이미지 Pyramid 기술을 대체하여 샘플을 분할하고 MTCNN 모델의 OHEM을 훈련에서 제거하여 훈련 속도를 향상시켰다.

An Artificial Intelligence Approach for Word Semantic Similarity Measure of Hindi Language

  • Younas, Farah;Nadir, Jumana;Usman, Muhammad;Khan, Muhammad Attique;Khan, Sajid Ali;Kadry, Seifedine;Nam, Yunyoung
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권6호
    • /
    • pp.2049-2068
    • /
    • 2021
  • AI combined with NLP techniques has promoted the use of Virtual Assistants and have made people rely on them for many diverse uses. Conversational Agents are the most promising technique that assists computer users through their operation. An important challenge in developing Conversational Agents globally is transferring the groundbreaking expertise obtained in English to other languages. AI is making it possible to transfer this learning. There is a dire need to develop systems that understand secular languages. One such difficult language is Hindi, which is the fourth most spoken language in the world. Semantic similarity is an important part of Natural Language Processing, which involves applications such as ontology learning and information extraction, for developing conversational agents. Most of the research is concentrated on English and other European languages. This paper presents a Corpus-based word semantic similarity measure for Hindi. An experiment involving the translation of the English benchmark dataset to Hindi is performed, investigating the incorporation of the corpus, with human and machine similarity ratings. A significant correlation to the human intuition and the algorithm ratings has been calculated for analyzing the accuracy of the proposed similarity measures. The method can be adapted in various applications of word semantic similarity or module for any other language.