• 제목/요약/키워드: Image retrieval

검색결과 1,058건 처리시간 0.031초

다중 분류기의 판정단계 융합에 의한 얼굴인식 (Multi-classifier Decision-level Fusion for Face Recognition)

  • 염석원
    • 대한전자공학회논문지SP
    • /
    • 제49권4호
    • /
    • pp.77-84
    • /
    • 2012
  • 얼굴인식 기술은 지능형 보안, 웹에서 콘텐츠 검색, 지능로봇의 시각부분, 머신인터페이스 등, 활용이 광범위 하다. 그러나 일반적으로 대상자의 표정과 포즈 변화, 주변의 조명 환경과 같은 문제가 있으며 이와 더불어 원거리에서 획득한 영상의 경우 저해상도를 비롯하여 블러와 잡음에 의한 영상의 열화 등의 여러 가지 어려움이 발생한다. 본 논문에서는 포톤 카운팅(Photon-counting) 선형판별법(Linear Discriminant Analysis)을 이용한 다중 분류기(Classifier)에 의한 판정을 융합하여 얼굴 영상 인식을 수행한다. Fisher 선형판별법은 집단 간 분산을 최대로 하고 집단 내 분산을 최소로 하는 공간으로 선형 투영하는 방법으로, 학습영상의 수가 적을 경우 특이행렬 문제가 발생하지만 포톤카운팅 선형 판별법은 이러한 문제가 없으므로 차원축소를 위한 전 처리 과정이 필요 없다. 본 논문의 다중 분류기는 포톤 카운팅 선형판별법의 유클리드 거리(Euclidean Distance) 또는 정규화된 상관(Normalized Correlation)을 적용하는 판정규칙에 따라 구성된다. 다중분류기의 판정의 융합은 각 분류기 cost의 정규화(Normalization), 유효화(Validation), 그리고 융합규칙(Fusion Rule)으로 구성된다. 각 분류기에서 도출된 cost는 같은 범위로 정규화된 후 유효화 과정에서 선별되고 Minimum, 또는 Average, 또는 Majority-voting의 융합규칙에 의하여 융합된다. 실험에서는 원거리에서 획득한 효과를 구현하기 위하여 고해상도 데이터베이스 영상을 인위적으로 Unfocusing과 Motion 블러를 이용하여 열화하여 테스트하였다. 실험 결과는 다중분류기 융합결과의 인식률은 단일분류기보다 높다는 것을 보여준다.

웹 통합문서의 효율적 생성과 검색을 위한 자동링크지원 시스템의 설계 및 구축 (Design and Implementation of Automatic Linking Support System for Efficient Generating and Retrieving Integrated Documents Based on Web)

  • 이원중;정은재;주수종;이승용
    • 정보처리학회논문지A
    • /
    • 제10A권2호
    • /
    • pp.93-100
    • /
    • 2003
  • 분산 컴퓨팅과 웹 서비스 기술의 발달과 함께, 급증하는 인터넷 사용자는 웹 기반의 맞춤형 정보를 편리하게 작성하고 제공받을 수 있는 서비스들을 요구하고 있다. 이를 위해, 본 논문에서는 맞춤형 정보로서 웹 기반의 통합문서를 생성하고, 사용자 요구에 따라 다양한 검색을 지원할 수 있는 자동링크지원 시스템(ALSS : Automatic Linking Support System)을 구축하고자 한다. 본 시스템의 구성은 클라이언트/서버 환경을 기반으로, 서버는 어휘분석, 질의처리 및 통합문서생성 기능들을 제공하는 자동링크엔진과 사전, 이미지 컨텐츠 및 URLs로 이루어진 데이터베이스를 지원하도록 구축하였다. 클라이언트 측은 서버 측의 자동링크엔진과 데이터베이스를 접근하여 웹 기반의 통합문서를 생성하는 웹 에디터와 검색 서비스를 지원하는 웹 도우미로 구축하였다. 웹 에디터나 웹 도우미 프로그램은 클라이언트 측에 별도의 설치 없이 서버로부터 다운로딩하여 실행할 수 있으며, 서버의 실행기능들의 일부를 글라이언트 측에 분산시키므로써 서버의 부하를 감소시켰다. 본 시스템의 구현으로서, 사용자 인터페이스는 JDK 1.3 기반의 SWING을 이용하고, 클라이언트와 서버간의 연동을 위한 자바 RMI 기법을 적용하였으며, SQL Server 7.0을 사용하여 데이터베이스를 구축하였다. 마지막으로 웹 에디터와 웹 도우미에 의해 자동링크엔진과 데이터베이스를 접근하는 과정과 그들의 실행결과를 보였다.

멀티미디어 저작도구를 이용한 발달장애 진단.평가 시스템 구현연구 (Developmental disability Diagnosis Assessment Systems Implementation using Multimedia Authorizing Tool)

  • 변상해;이재현
    • 벤처창업연구
    • /
    • 제3권1호
    • /
    • pp.57-72
    • /
    • 2008
  • 본 논문에서는 그동안 부분적으로 진행된 발달장애 진단 평가에 관련된 전산처리를 멀티미디어 기법을 응용하여 발달장애 진단 평가분야에 새로운 방법을 제시한다. 발달장애 진단 평가를 위한 멀티미디어 정보는 여러 가지 속성을 지니고 있기 때문에 모든 발달장애 진단 평가 정보에 대한 기술을 사람이 수행해야 할 때는 엄청난 작업량이 수반될 뿐 아니라 동일한 데이터에 대한 기술이 주관에 따라 달라질 수도 있다는 것을 알게 되였다. 특히 발달장애 시스템 구현은 현재의 컴퓨팅 환경에서의 동영상 데이터 처리에 대한 비중의 증가, 텍스트 위주의 데이터에서 시각적인 동영상으로의 데이터 활용의 전이 등 발달장애 데이터가 멀티미디어 환경에 적합한 데이터로의 전이가 필수적이며 사용자 역시 빠른 이해를 위해 시각적 데이터를 선호하기 때문에 본 논문에서는 GUI(Graphics User Interface) 기법을 도입하여 검사 중에 텍스트 명령어는 거의 사용하지 않고도 발달장애 진단 평가를 수행할 수 있게 했다. 특히 발달장애 진단 평가에서 필요한 각종 데이터는 그 속성이 영상, 이미지, 논리연산의 필요성 및 각종 연산이 요구된다. 그래서 본 논문에서는 문제점을 해결하기 위해 편집대상 데이터(Content)에 의해 관련 정보를 검색하는 내용 기반(Content-based)의 검색 기술에 대한 연구를 적용했다.

  • PDF

Bi-LSTM 모델을 이용한 음악 생성 시계열 예측 (Prediction of Music Generation on Time Series Using Bi-LSTM Model)

  • 김광진;이칠우
    • 스마트미디어저널
    • /
    • 제11권10호
    • /
    • pp.65-75
    • /
    • 2022
  • 딥러닝은 기존의 분석 모델이 갖는 한계를 극복하고 텍스트, 이미지, 음악 등 다양한 형태의 결과물을 생성할 수 있는 창의적인 도구로 활용되고 있다. 본 고에서는 Niko's MIDI Pack 음원 파일 1,609개를 데이터 셋으로 삼아 전처리 과정을 수행하고, 양방향 장단기 기억 순환 신경망(Bi-LSTM) 모델을 이용하여, 효율적으로 음악을 생성할 수 있는 전처리 방법과 예측 모델을 제시한다. 생성되는 으뜸음을 바탕으로 음악적 조성(調聲)에 적합한 새로운 시계열 데이터를 생성할 수 있도록 은닉층을 다층화하고, 디코더의 출력 게이트에서 인코더의 입력 데이터 중 영향을 주는 요소의 가중치를 적용하는 어텐션(Attention) 메커니즘을 적용한다. LSTM 모델의 인식률 향상을 위한 파라미터로서 손실함수, 최적화 방법 등 설정 변수들을 적용한다. 제안 모델은 MIDI 학습의 효율성 제고 및 예측 향상을 위해 높은음자리표(treble clef)와 낮은음자리표(bass clef)를 구분하여 추출된 음표, 음표의 길이, 쉼표, 쉼표의 길이와 코드(chord) 등을 적용한 다채널 어텐션 적용 양방향 기억 모델(Bi-LSTM with attention)이다. 학습의 결과는 노이즈와 구별되는 음악의 전개에 어울리는 음표와 코드를 생성하며, 화성학적으로 안정된 음악을 생성하는 모델을 지향한다.

COMS 위성의 가시 및 적외 영상 채널로부터 복원된 대류운의 강우강도 향상과 검증 (Improvement and Validation of Convective Rainfall Rate Retrieved from Visible and Infrared Image Bands of the COMS Satellite)

  • 문윤섭;이강열
    • 한국지구과학회지
    • /
    • 제37권7호
    • /
    • pp.420-433
    • /
    • 2016
  • 본 연구의 목적은 2011년 4월 22일부터 10월 22일까지 우리나라에서 강수가 있는 총 75일 동안 COMS 위성의 적외 채널 $10.8{\mu}m$ 휘도 온도(IR), 적외 채널 $10.8{\mu}m$와 수증기 채널 $6.7{\mu}m$의 휘도 온도차(IR-WV), 정규화 된 가시반사도(VIS)와 기상 레이더의 강우강도를 이용하여 2-D와 3-D 대류운의 강우강도 (CRR) 조견표를 향상시키는 것이다. 특별히 한국형 2-D와 3-D CRR 조견표를 검증하기 위해 2011년 강수가 있는 24일 동안의 기상 레이더 강우강도 자료가 사용된다. 2-D와 3-D CRR 조견표는 각 채널의 등급 범주별 강우 총수와 비강우 총수의 행렬을 이용하여 구한 강우 확률에 평균 누적강우강도와 최대 강우강도를 각각 곱함으로써 2-D (IR, IR-WV)와 3-D (IR, IR-WV, VIS) 조견표의 기본과 최대 행렬을 얻을 수 있다. 최종적으로 새로운 2-D와 3-D의 CRR 조견표는 경험적으로 기본과 최대 강우강도 행렬의 회귀 분석으로 얻어진다. 그 결과 새로운 CRR 조견표는 기존보다 낮은 IR 휘도 온도, 낮은 IR-WV 휘도 온도차일 때에도 비교적 많은 강우 현상을 나타내며, $10mm\;h^{-1}$ 이상의 강우강도 영역이 확대되어 나타난다. 정확도와 범주별 통계가 주어진 기간 동안 발생했던 CRR 자료에 대해 계산된다. 새로운 2-D와 3-D CRR 조견표의 평균 오차, 평균절대 오차, 제곱근평균 오차가 기존 조견표보다 작게 나타나며, 예측 거짓경고비율은 감소하고, 탐지확률은 증가하며, 임계성공지수는 개선된다. 태풍과 뇌우와 같은 기상 이변에서의 강한 호우를 고려하기 위해서 습윤 보정 계수를 교정한다. 이 인자는 수치모델이나 COMS에서 복원한 지면에서 500 hPa까지 평균한 총가강수량과 상대습도의 곱 (PW RH)으로 정의된다. 이 연구에서는 PW RH에 근거하여 IR 운정 휘도 온도가 210 K 이하일 때, 상대습도가 40% 이상일 때 1에서 2사이를 경험적으로 정한다. 새로운 2-D와 3-D CRR 조견표를 적용한 결과 평균 오차, 평균 절대 오차, 제곱근 평균 오차가 줄어든다.

웹툰의 사운드 표현에 관한 연구 (A Study of Sound Expression in Webtoon)

  • 목혜정
    • 만화애니메이션 연구
    • /
    • 통권36호
    • /
    • pp.469-491
    • /
    • 2014
  • 웹툰은 출판만화에서 사운드를 시각적으로 표현했던 방법을 발전시켜왔으며, 웹 기술의 발전을 토대로 직접 소리를 들려주기까지 한다. 직접 들리는 소리는 당연히 사운드 분석의 대상이 된다. 그러나 들리지 않는 사운드도 분석 대상이 될 수 있다. 본 연구는 들리지 않는 소리를 분석할 수 있다는 것의 이론적 토대를 인지심리학의 이중부호 개념에 둔다. 작가는 자신의 청각적 기억을 시각적으로 기호화할 수 있고, 독자는 기억과 인출의 과정을 통해 시각화된 기호를 보고 사운드를 떠올릴 수 있다. 이와 같은 웹툰의 들리지는 않지만 떠올릴 수 있는 사운드와 직접 들리는 사운드 두 경우를 본 연구는 함께 분석대상으로 한다. 구체적 분석을 위해서는 이론적 성과물이 있는 영화 사운드 분석 방법을 활용할 수 있다. 소리를 구성하는 세 요소인 음량, 음조, 음색은 음향학에서는 주파수 등으로 설명되고 직접 들을 때는 느낌으로 알지만, 시각적으로는 사운드를 표현한 글자나 이미지의 선의 굵기와 위치, 음원의 이미지 등으로 알 수 있다. 내화면 사운드와 외화면 사운드의 시각적 표현은 만화의 칸과 관련이 있다. 일반적으로는 칸 외부로 외화면 사운드를 표현하지만 웹툰에서는 듣는 자를 강조하는 방법으로 칸 내부에 외화면 소리를 표현하기도 한다. 그리고 영화의 호러 장르가 장르 효과를 높이기 위해 사운드를 많이 사용하는데 웹툰에서도 호러 장르가 같은 효과를 위해 사운드를 많이 사용한다. 이러한 영화 사운드 분석 방법을 활용해 사운드를 이미지로 표현한 작품들을 분석해볼 때, 초창기 출판만화에서부터 시작한 사운드의 청각적 표현들이 계속 발전해서 웹툰에서 창의적으로 표현되고 있음을 알 수 있다. 특히 세로 이동을 활용한 칸의 배치 및 소리표현의 방식들은 웹툰이 보여준 새로운 방법들이며, 칸 모양도 훨씬 다양해졌다. 직접 들려주는 소리로는 BGM이 가장 먼저 사용되었는데 최근에는 한 회의 분위기에 맞춰 음향효과까지 섞어 맞춤 작곡된 곡들이 사용된다. 그리고 스크롤 이동에 맞춰 소리를 들려주는 프로그램이 개발되면서 특정 순간의 음향효과나 특정 장면에 어울리는 음악들을 들을 수 있게 되었다. 특히 호러 장르에서는 특정한 이미지와 공포를 불러일으키는 사운드를 같이 사용하여 장르적 효과를 배가시킨다. 이렇게 웹툰에서는 다양한 사운드 시각화 방법이 계속 창조되고 있으며 기술과 접목된 새로운 시도들이 이루어지고 있다. 이러한 발전은 웹툰이 하나의 문화콘텐츠로서의 융합의 장이 될 수 있음을 보여준다.

시각적 특징을 기반한 샷 클러스터링을 통한 비디오 씬 탐지 기법 (Video Scene Detection using Shot Clustering based on Visual Features)

  • 신동욱;김태환;최중민
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.47-60
    • /
    • 2012
  • 비디오 데이터는 구조화되지 않은 복합 데이터의 형태를 지닌다. 이러한 비디오 데이터의 효율적인 관리 및 검색을 위한 비디오 데이터 구조화의 중요성이 대두되면서 콘텐츠 내 시각적 특징을 기반으로 비디오 씬(scene)을 탐지하고자 하는 연구가 활발히 진행되었다. 기존의 연구들은 주로 색상 정보만을 이용하여 샷(shot) 간의 유사도 평가를 기반한 클러스터링(clustering)을 통해 비디오 씬을 탐지하고자 하였다. 하지만 비디오 데이터의 색상 정보는 노이즈(noise)를 포함하고, 특정 사물의 개입 등으로 인해 급격하게 변화하기 때문에 색상만을 특징으로 고려할 경우, 비디오 샷 혹은 씬에 대한 올바른 식별과 디졸브(dissolve), 페이드(fade), 와이프(wipe)와 같은 화면의 점진적인 전환(gradual transitions) 탐지는 어렵다. 이러한 문제점을 해결하기 위해, 본 논문에서는 프레임(frame)의 컬러 히스토그램과 코너 에지, 그리고 객체 컬러 히스토그램에 해당하는 시각적 특징을 기반으로 동일한 이벤트를 구성하는 의미적으로 유사한 샷의 클러스터링을 통해 비디오 씬을 탐지하는 방법(Scene Detector by using Color histogram, corner Edge and Object color histogram, SDCEO)을 제안한다. SDCEO는 샷 바운더리 식별을 위해 컬러 히스토그램 분석 단계에서 각 프레임의 컬러 히스토그램 정보를 이용하여 1차적으로 연관성 있는 연속된 프레임을 샷 바운더리로 병합한 후, 코너 에지 분석 단계에서 병합된 샷 내 처음과 마지막 프레임의 코너 에지 특징 비교를 통하여 샷 바운더리를 정제하여 최종 샷을 식별한다. 키프레임 추출 단계에서는 샷 내 프레임간 유사도 비교를 통해 모든 프레임과 가장 유사한 프레임을 각 샷을 대표하는 키프레임으로 추출한다. 그 후, 비디오 씬 탐지를 위해, 컬러 히스토그램과 객체 컬러 히스토 그램에 해당하는 프레임의 시각적 특징을 기반으로 상향식 계층 클러스터링 방법을 이용하여 의미적인 연관성을 지니는 샷의 군집화를 통해 비디오 씬을 탐지하는 방법이다. 본 논문에서는 SDCEO의 프로토 타입을 구축하고 3개의 비디오 데이터를 이용한 실험을 통하여 SDCEO의 효율성을 평가하였고 샷 바운더리 식별의 성능의 정확도는 평균 93.3%, 비디오 씬 탐지 성능의 정확도는 평균 83.3%로 만족할만한 성능을 보였다.

확률 뇌 지도를 이용한 뇌 영역의 위치 정보 추출 (Probabilistic Anatomical Labeling of Brain Structures Using Statistical Probabilistic Anatomical Maps)

  • 김진수;이동수;이병일;이재성;신희원;정준기;이명철
    • 대한핵의학회지
    • /
    • 제36권6호
    • /
    • pp.317-324
    • /
    • 2002
  • 목적: SPM 기법을 이용하여 뇌 영상을 분석할 때 Talairach 뇌 지도를 찾아 해부학적 정보를 추측함으로 생기는 문제점들을 해결하기 위하여 통계적 확률 뇌지도(SPAM)을 이용하여 뇌 영역에 대한 해부학적 위치와 확률을 추출하는 프로그램을 개발하였다. 대상 및 방법: 몬트리얼 신경과학연구소에서 개발한 MNI152 표준지도에 기반한 SPAM을 이용하였다. SPM 분석 결과로 주어진 x, y, z 좌표 값을 입력하면 SPAM의 해당 좌표에서 0이 아닌 확률 값을 갖는 영역의 이름 및 확률을 추출하여 출력하게 하였으며 가장 높은 확률을 갖는 영역의 SPAM을 표준지도 위에 표시하도록 하였다. IDL 및 자바를 기반으로 프로그램을 개발하였으며 향후 인터넷 기반 프로그램으로 확장이 용이하게 하였다. 이 프로그램의 유용성을 보이고자 기존의 SPM 결과보고 형식과 이 프로그램의 결과 형식을 비교하였다. 또한 이 프로그램에 대한 예비적인 검증을 위하여 활성화되는 영역이 국소화되고 또한 그 영역이 잘 알려져 있는 기억 활성화 PET 실험 분석에 이 프로그램을 이용하여 보았다. 결과: 기존의 SPM 분석한 결과는 MNI 좌표계에서의 좌표 값만을 보여주나 이 프로그램을 이용하여 그 좌표에 대한 확률적 해부학적 정보를 얻을 수 있었다. 기억 실험 결과 유의한 활성화를 보인 영역에 대해서 이 프로그램을 적용한 결과 좌측해마구성체일 확률이 80% 이상임을 알 수 있었으며 이는 이 영역이 기억기능을 담당한다는 기존의 널리 알려진 사실과 잘 부합되었다. 결론: 이 연구에서 개발한 프로그램을 이용하여 MNI 좌표에 대한 해부학적 위치와 확률을 빠르고 정확하게 찾을 수 있어서 뇌영상 분석에 유용할 것이다.