통합 검색 | Korea Science

오디오-비디오 정보 융합을 통한 멀티 모달 음성 인식 시스템 (Audio-Visual Integration based Multi-modal Speech Recognition System)

이상운;이연철;홍훈섭;윤보현;한문성
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2002년도 추계학술발표논문집 (상)
- /
- pp.707-710
- /
- 2002
본 논문은 오디오와 비디오 정보의 융합을 통한 멀티 모달 음성 인식 시스템을 제안한다. 음성 특징 정보와 영상 정보 특징의 융합을 통하여 잡음이 많은 환경에서 효율적으로 사람의 음성을 인식하는 시스템을 제안한다. 음성 특징 정보는 멜 필터 캡스트럼 계수(Mel Frequency Cepstrum Coefficients: MFCC)를 사용하며, 영상 특징 정보는 주성분 분석을 통해 얻어진 특징 벡터를 사용한다. 또한, 영상 정보 자체의 인식률 향상을 위해 피부 색깔 모델과 얼굴의 형태 정보를 이용하여 얼굴 영역을 찾은 후 강력한 입술 영역 추출 방법을 통해 입술 영역을 검출한다. 음성-영상 융합은 변형된 시간 지연 신경 회로망을 사용하여 초기 융합을 통해 이루어진다. 실험을 통해 음성과 영상의 정보 융합이 음성 정보만을 사용한 것 보다 대략 5%-20%의 성능 향상을 보여주고 있다.
PDF

특징기반 영상 데이터베이스 검색 기법 (A Feature-Based Retrieval Technique for Image Database)

김봉기;오해석
- 한국정보처리학회논문지
- /
- 제5권11호
- /
- pp.2776-2785
- /
- 1998
내용 기반 영상 검색 기술은 전자 미술관과 박물관, 상표와 저작권, 영상 저장 및 전송 시스템과 같은 대용량의 멀티미디어 데이터베이스를 구축하고 유지하는데 필수적인 요소이다. 따라서 내용 기반 검색에 대한 연구가 최근 몇 년 동안 큰 관심을 모으고 있다. 본 논문에서는 영상 검색을 위한 특징으로서 칼라 정보와 모양 정보를 동시에 고려하는 복합적인 특징 벡터를 사용한 검색 기법을 제안하였다. 칼라 정보 획득을 위해서는 지역 칼라 분포 특성을 고려하여, 영상을 이루는 각 부영역별 화소들의 대수적 모멘트를 이용하여 각 특징 산출하였다. 모양 정보를 획득하기 위해서는 향상된 불변 모멘트를 사용함으로써 연산량을 줄이면서 검색의 효율을 증대시켰 다. 그리고 모양 특징 추출을 위한 전처리 과정에서 칼라 영상을 그레이 영상으로 변형한 후, 구현이 용이하고 실시간 윤곽선 추출이 가능한 DCT 알고리즘을 변형 이용하였다. 실험영상으로 150여개의 자동차 영상을 사용하여 기존 방법들과의 비교 실험을 통해 향상된 검색 결과를 얻을 수 있었다.
PDF

딥 러닝을 이용한 실감형 콘텐츠 특징점 추출 및 식별 방법 (A Feature Point Extraction and Identification Technique for Immersive Contents Using Deep Learning)

박병찬;장세영;유인재;이재청;김석윤;김영모
- 전기전자학회논문지
- /
- 제24권2호
- /
- pp.529-535
- /
- 2020
4차 산업의 주요 기술로 실감형 360도 영상 콘텐츠가 주목받고 있다. 전 세계 실감형 360도 영상 콘텐츠의 시장 규모는 2018년 67억 달러에서 2020년 약 700억 달러까지 증가될 것이라고 전망하고 있다. 하지만 대부분 실감형 360도 영상 콘텐츠가 웹하드, 토렌트 등의 불법 유통망을 통해 유통되고 있어 불법복제로 인한 피해가 증가하고 있다. 이러한 불법 유통을 막기 위하여 기존 2D 영상은 불법저작물 필터링 기술을 사용하고 있다. 그러나 초고화질을 지원하고 두 대 이상의 카메라를 통해 촬영된 영상을 하나의 영상에 담는 실감형 360도 영상 콘텐츠의 특징 때문에 왜곡 영역이 존재하여 기존 2D 영상에 적용된 기술을 그대로 사용하기엔 다소 무리가 있다. 또한, 초고화질에 따른 특징점 데이터량 증가와 이에 따른 처리 속도 문제와 같은 기술적 한계가 존재한다. 본 논문에서는 이러한 문제를 해결하기 위하여 왜곡이 심한 영역을 제외한 객체 식별 영역을 선정하고, 식별 영역에서 딥 러닝 기술을 이용하여 객체를 인식하고 인식된 객체의 정보를 이용하여 특징 벡터를 추출하는 특징점 추출 및 식별 방법을 제안한다. 제안한 방법은 기존에 제안 되었던 스티칭 영역을 이용한 실감형 콘텐츠 특징점 추출방법과 비교하여 성능의 우수성을 보였다.
https://doi.org/10.7471/ikeee.2020.24.2.529 인용 PDF KSCI

군집을 이루는 자궁 경부암 세포 인식에 관한 연구 (A Study on Recognition of Clustered Cells in Uterine Cervical Pap-Smear Image)

최예찬;김선아;김호영;김백섭
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
- /
- pp.511-513
- /
- 2000
PaP Smear 테스트는 자궁 경부암 진단에 가장 효율적인 방법으로 알려져 있다. 그러나 이 방법은 높은 위 음성률(false negative error, 15~50%)을 나타내고 있다. 이런 큰 오류율은 주로 다량의 세포 검사에 기인하여, 자동화 시스템의 개발이 절실히 요구되고 있다. 본 논문은 자궁 경부암의 특징인 군집을 이루는 암세포를 인식할 수 있는 시스템을 제안한다. 시스템은 두 부분으로 나누어진다. 첫 단계에서는 저 배율(100배)에서 간단한 영상처리와 최소 근접 트리(Minimum Spanning Tree)를 통해 군집을 이루는 세포를 찾는다. 두 번째 단계서는 고 배율(400배)로 확대하여 군집 세포들로부터 여러 가지 특징을 추출한 후 KNN(k-Neighbor) 방법을 통해 인식하는 단계이다. 50개의 영상 (640X 480, RGB True Color 25 개의 100배 영상 , 25개의 400배 영상)이 실험에 사용되었다. 한 영상을 처리하는데 약 3초 (2.984초) 소요되었으며, 이는 region growing(20초)나 split and merge(58초) 방법 보다 덜 소요되었다. 100배 영상에서 정상과 비정상의 두 그룹으로 나누었을 경우에는 96%의 높은 인식율을 나타내었으나 비정상을 다시 5개의 그룹으로 나누었을 때는 45%로 나타내었다. 이는 영역 추출(segmentation) 단계에서 오류와 트레이닝 데이터의 비정확성에 기인한다. 400배 영상에서는 각각 92%와 30%로 나타내었다. 이는 영역추출 단계에서 사용한 Watershed 방법의 오류로 기인한 것으로 본다.
PDF

SURF 알고리즘을 이용한 증강현실 동영상 서비스 시스템의 설계 및 구현 (Design and Implementation of Video Clip Service System in Augmented Reality Using the SURF Algorithm)

전영준;신홍섭;김진일
- 융합신호처리학회논문지
- /
- 제16권1호
- /
- pp.22-28
- /
- 2015
본 논문은 신문, 잡지, 앨범 등에서 추출한 정적인 영상으로부터 이와 연계된 동영상을 증강현실로 보여주는 서비스를 제공하는 시스템을 설계하고 구현하였다. 먼저, 매체에 인쇄되어 있는 원본 영상에 대하여 SURF 알고리즘을 이용하여 특징점을 추출하여 관련 동영상과 함께 저장한다. 다음으로 스마트폰 등의 모바일 기기의 카메라를 이용하여 이미지를 촬영하면, 이의 특징점을 실시간으로 추출하여 이와 매칭되는 원본 영상을 검색하여 연결된 동영상을 불러와서 스마트폰을 통해 증강현실로 보여준다. 제안 시스템은 안드로이드 스마트폰에 적용시켜 보았으며 테스트 결과, 인쇄매체의 이미지 일부가 오염 또는 훼손되어도 인식에 문제가 없이 잘 동작함을 확인하였다.
PDF KSCI

지식기반 영상개선을 위한 지문영상의 품질분석 (Fingerprint Image Quality Analysis for Knowledge-based Image Enhancement)

윤은경;조성배
- 한국정보과학회논문지:소프트웨어및응용
- /
- 제31권7호
- /
- pp.911-921
- /
- 2004
지문영상으로부터 특징점을 정확하게 추출하는 것은 효과적인 지문인식 시스템의 구축에 매우 중요하다. 하지만 지문영상의 품질에 따라 특징점 추출의 정확도가 달라지기 때문에 지문인식 시스템에서의 영상 전처리 과정은 시스템의 성능에 크게 영향을 미친다. 본 논문에서는 지문영상으로부터 명암값의 평균 및 분산, 블록 방향성 차, 방향성 변화도, 융선과 골의 두께 비율 등의 5가지 특징을 추출하고 계층적 클러스터링 알고리즘으로 클러스터링하여 영상의 품질 특성을 분석한 후 습성(oily), 보통(neutral), 건성(dry)의 특성에 적합하게 영상을 개선하는 지식기반 전처리 방법을 제안한다. NIST DB 4와 인하대학교 데이타를 이용하여 실험한 결과, 클러스터링 기법이 영상의 특성을 제대로 구분함을 확인할 수 있었다. 또한 제안한 방법의 성능 평가를 위해 품질 지수와 블록 방향성 차이를 측정하여 일반적인 전처리 방법보다 지식기반 전처리 방법이 품질 지수와 블록 방향성 차이를 향상시킴을 확인할 수 있었다.
PDF KSCI

TRUS 영상에서 질감 특징 예측과 경계 분포를 이용한 전립선 경계 분할 (Delineating the Prostate Boundary on TRUS Image Using Predicting the Texture Features and its Boundary Distribution)

박순화;김호용;서영건
- 디지털콘텐츠학회 논문지
- /
- 제17권6호
- /
- pp.603-611
- /
- 2016
일반적으로 병원의 의사들은 눈으로 전립선 영상을 보고 수동으로 전립선과 배경의 경계를 구분하였다. 그러나 수동으로 자르는 과정은 너무 많은 시간을 소모하고 의사에 따라 다양한 경계가 추출되었다. 이런 문제를 줄이기 위해 자동 추출방식이 필요하게 되었지만, 전립선 경계의 정확한 추출은 작은 잡음이나 옅은 경계로 인하여 상당히 어려운 일이다. 지금까지 SVM, SIFT, 가버 텍스처 필터, 뱀형상 윤곽선 방법, 평균형상모델들과 같은 많은 연구가 진행되었다. 게다가, 2차원뿐만 3차원 영상, CT나 MRI 등에 관한 연구도 진행되었다. 하지만 아직까지 인간 전문가가 가진 경험을 뛰어 넘는 기술은 개발되지 않았으며, 많은 추가적인 연구를 필요로 하고 있다. 이에 본 논문에서는 전립선 영상의 경계의 평균적인 분포와 경계의 질감 특징을 예축하여 경계를 추출하는 방법을 제안한다. 실험 결과, 의사의 추출 방법과 유사한 경계를 얻을 수 있었다.
https://doi.org/10.9728/dcs.2016.17.6.603 인용 PDF KSCI

향상된 자동 독순을 위한 새로운 시간영역 필터링 기법 (A New Temporal Filtering Method for Improved Automatic Lipreading)

이종석;박철훈
- 정보처리학회논문지B
- /
- 제15B권2호
- /
- pp.123-130
- /
- 2008
자동 독순(automatic lipreading)은 화자의 입술 움직임을 통해 음성을 인식하는 기술이다. 이 기술은 잡음이 존재하는 환경에서 말소리를 이용한 음성인식의 성능 저하를 보완하는 수단으로 최근 주목받고 있다. 자동 독순에서 중요한 문제 중 하나는 기록된 영상으로부터 인식에 적합한 특징을 정의하고 추출하는 것이다. 본 논문에서는 독순 성능의 향상을 위해 새로운 필터링 기법을 이용한 특징추출 기법을 제안한다. 제안하는 기법에서는 입술영역 영상에서 각 픽셀값의 시간 궤적에 대역통과필터를 적용하여 음성 정보와 관련이 없는 성분, 즉 지나치게 높거나 낮은 주파수 성분을 제거한 후 주성분분석으로 특징을 추출한다. 화자독립 인식 실험을 통해 영상에 잡음이 존재하는 환경이나 존재하지 않는 환경에서 모두 향상된 인식 성능을 얻음을 보인다.
https://doi.org/10.3745/KIPSTB.2008.15-B.2.123 인용 PDF KSCI

딥러닝 기반 거리 영상의 Semantic Segmentation을 위한 Atrous Residual U-Net (Atrous Residual U-Net for Semantic Segmentation in Street Scenes based on Deep Learning)

신석용;이상훈;한현호
- 융합정보논문지
- /
- 제11권10호
- /
- pp.45-52
- /
- 2021
본 논문에서는 U-Net 기반의 semantic segmentation 방법에서 정확도를 개선하기 위한 Atrous Residual U-Net (AR-UNet)을 제안하였다. U-Net은 의료 영상 분석, 자율주행 자동차, 원격 감지 영상 등의 분야에서 주로 사용된다. 기존 U-Net은 인코더 부분에서 컨볼루션 계층 수가 적어 추출되는 특징이 부족하다. 추출된 특징은 객체의 범주를 분류하는 데 필수적이며, 부족할 경우 분할 정확도를 저하시키는 문제를 초래한다. 따라서 이 문제를 개선하기 위해 인코더에 residual learning과 ASPP를 활용한 AR-UNet을 제안하였다. Residual learning은 특징 추출 능력을 개선하고, 연속적인 컨볼루션으로 발생하는 특징 손실과 기울기 소실 문제 방지에 효과적이다. 또한 ASPP는 특징맵의 해상도를 줄이지 않고 추가적인 특징 추출이 가능하다. 실험은 Cityscapes 데이터셋으로 AR-UNet의 효과를 검증하였다. 실험 결과는 AR-UNet이 기존 U-Net과 비교하여 향상된 분할 결과를 보였다. 이를 통해 AR-UNet은 정확도가 중요한 여러 응용 분야의 발전에 기여할 수 있다.
https://doi.org/10.22156/CS4SMB.2021.11.10.045 인용 PDF KSCI

주성분 분석과 서포트 백터 머신을 이용한 효과적인 얼굴 검출 시스템 (Effective Face Detection Using Principle Component Analysis and Support Vector Machine)

강병두;권오화;성치영;전재덕;엄재성;김종호;이재원;김상균
- 한국멀티미디어학회논문지
- /
- 제9권11호
- /
- pp.1435-1444
- /
- 2006
본 논문은 얼굴 영상에서 추출된 특징 값들을 주성분 분석(Principle Component Analysis; 이하 PCA)을 이용하여 재해석하고, 서포트 벡터 머신(Support Vector Machine; 이하 SVM)을 이용한 이진 분류를 통하여 효과적이면서 실시간으로 얼굴을 검출할 수 있는 방법론을 제안한다. 얼굴과 얼굴이 아닌 영상들로 학습데이터를 구성하여, 이 영상들로부터 Haar-like 특징값들을 추출한다. 추출된 다량의 특징 값들 중에 얼굴과 얼굴이 아닌 영역에 대하여 판별 능력이 우수한 특징값들은 PCA를 이용하여 재해석되고 유용한 특징들을 선별한다. 선별된 특징들을 SVM의 입력 차원으로 사용하여 최종 분류기를 학습 및 구성한다. 제안하는 분류기는 학습데이터 집단의 구성에 크게 영향을 받지 않고, 소량의 학습데이터만으로도 90.1%의 만족할만한 얼굴 검출률을 보여주며, $320{\times}240$ 크기의 영상에 대하여 실시간 얼굴 검출에 사용 가능한 초당 8프레임의 처리속도를 보여주었다.
PDF

검색결과 2,333건 처리시간 0.04초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)