• 제목/요약/키워드: Audio Analysis

검색결과 544건 처리시간 0.025초

시청각(사진/동영상) 기록물 관리를 위한 시스템 구축과 운영 사례 연구 (A Case Study of the Audio-Visual Archives System Development and Management)

  • 신동헌;정세영;김선현
    • 한국기록관리학회지
    • /
    • 제9권1호
    • /
    • pp.33-50
    • /
    • 2009
  • 국방과학연구소에서는 보유하고 있는 아날로그 형태 시청각 기록물을 디지털 변환을 통하여 이용자의 접근 용이성을 확보하고 시스템을 통한 보다 체계적인 관리를 위해 "영상기록관리시스템"을 구축하고 운영 중에 있다. 본 연구는 이에 대한 전체 구축 과정과 실제 운영 사항에 관한 내용을 담고 있는 것으로, 시청각 기록물의 디지털 변환을 통한 DB 구축과 이용자의 직접적인 검색 활용을 통하여 기록물에 대한 보존과 활용에 대한 실제 사례를 기술하고 있다. 구체적으로는 이미지와 동영상 데이터를 관리하고 활용하기 위한 시스템 개발요구사항 분석에서부터 아날로그형 자료의 디지털 변환을 통한 DB 구축 시 표준 업무절차 구현, 품질 기준 설정, 메타데이터 항목 설정 등에 관한 내용을 포함하고 있다. 또한, 실제로 시청각 기록물 관리를 위한 시스템을 운영함으로써 얻을 수 있는 시스템 효과 분석을 통하여 시청각 기록물 관리 시스템 구축의 필요성에 대해서도 언급하고 있다.

오디오 정보를 이용한 골프 동영상 자동 색인 알고리즘 (Automatic Indexing Algorithm of Golf Video Using Audio Information)

  • 김형국
    • 한국음향학회지
    • /
    • 제28권5호
    • /
    • pp.441-446
    • /
    • 2009
  • 본 논문에서는 오디오 정보 분석을 이용하여 골프 통영상을 자동 색인하는 알고리즘을 제안한다. 제안하는 알고리즘에서는 입력되는 골프 동영상을 비디오 신호와 오디오 신호로 분리한 후에, 연속적인 오디오 스트림을 Adaboost Cascade 분류방식을 통하여 스튜디오 환경에서의 아나운서의 음성구간, 선수이름이 TV 화면에 소개 될 때 수반되는 음악구간, 선수들의 플레이에 따라 반응하는 관중들의 박수 및 환호성 소리구간, 필드에서의 레포터의 음성구간, 바다나 바람 등의 필드환경 잡음 사운드구간 등의 5가지 구간으로 분류한다. 그리고 드라이브 샷, 아이런 샷과 퍼팅 샷 시에 발생하는 스윙 사운드는 onset 검출과 변조스펙트럼 검증 방법을 통해 검출되며, 관객의 박수 소리 구간과 결합하여 액션 및 하이라이트를 효율적으로 색인할 수 있게 한다. 제안된 알고리즘은 오디오 신호의 간단한 연산을 통해 의미를 지니고 있는 기본구조들을 검출하기 때문에 골프 동영상에서 사용자가 원하는 부분을 빠르게 브라우징하는 임베이디드 시스템에 적용가능하다.

시청각 유형 보존포맷 선정기준 및 권고포맷 연구 - 오디오 유형을 중심으로 - (Research on Audiovisual Type Preservation Format Selection Criteria and Recommended Formats: Focusing on Audio Types)

  • 전한역;양동민
    • 한국비블리아학회지
    • /
    • 제35권1호
    • /
    • pp.273-300
    • /
    • 2024
  • 전자기록 환경에서는 아날로그 기록물의 디지털화 방안에 대한 논의와 함께, 전자적으로 생산, 접수된 기록물에 대한 유형별 보존전략 마련이 중요하게 인식된다. 같은 맥락에서, 문서유형 외 데이터세트, 시청각 유형 전자기록물의 장기보존을 목표로 보존포맷 선정체계를 적용하기 위한 논의가 필요하다. 시청각 기록물은 이미지, 오디오, 비디오와 같이 매체별 특성에 적합한 보존전략을 적용해야 한다. 본 연구는 시청각 중 오디오 유형 전자기록물의 보존포맷 선정을 위한 고유기준을 문헌 조사에 바탕을 둔 필수보존속성 분석을 통해 수립하고, 오디오 유형 보존포맷 적합성 평가항목을 구성하고 이를 적용한 결과를 토대로 권고포맷을 제안했다.

치매노인에게 시청각 자극을 병행한 회상요법의 적용효과 (The Effect of Reminiscence with Audio-Visual Stimulation on Senile Dementia)

  • 김남초;유양숙;한숙원
    • 대한간호학회지
    • /
    • 제30권1호
    • /
    • pp.98-109
    • /
    • 2000
  • The purpose of this study was to identify the effect on improvement of the Activity of Daily Living (ADL) and decrease the cognitive function and agitation behaviors by reminiscence with audio-visual stimulation for senile dementia. The quasi-experimental design was used in this study. Subjects were 26 with mild senile dementia who were cared for at a Day Care Center for Dementia in Seoul. The data were collected from March to July, 1999. Subjects were divided into three groups : Control Igroup with 10 subjects, reminiscence group(Control II group with 8 subjects), and reminiscence with audio-visual stimulation group(experimental group with 8 subjects). The Control I group got routine care as usual. Control II group participated in reminiscence sessions for one hour a day, five times a week , for a period of 4 weeks. The experimental group participated in reminiscence with audio-visual stimulation sessions for one hour a day, five times a week, for a period of 4 weeks. Instruments of this study were color photography with sound that was developed through an open questionnaire about events, objects, humans in action and animals that 100 Korean elderly over 60 would like to memorize. This was referred from the Sensory Stimuli Package by Namazi and Haynes(1994). The effects of treatment was evaluated through MMSE-K by Kwon & Park(1989). Also the Brief Cognitive Rating Scale(BCRS) by Reisberg et al(1983) for the cognitive function, through Agitation Inventory by Cohen- Mansfield and Colleague(1989) for behavioral response and through the Rapid Disability Rating Scale-2(RDRS-2) by Linn & Linn(1982) for the activity of daily living respectively. Data analysis was done using SPSS for $\chi$2- test, ANOVA, repeated measures ANOVA. The results were as follows : 1. Reminiscence with audio-visual stimulation did not improve cognitive function for senile dementia, but significantly improved verbal expression, the subscale of cognitive function. 2. Reminiscence with audio-visual stimulation reduced agitation behavior of experimental group significantly, but there was no significant difference between groups. 3. Reminiscence with audio-visual stimulation did not significantly effect the activity of daily living after treatment. In conclusion, it was shown that the reminiscence with audio-visual stimulation was an effective therapy to improve verbal expression and to reduce agitation behaviors of senile dementia. Further research with more indepth approach is needed, considering characteristic and level individualized for each senile dementia.

  • PDF

MPEG-H 3D 오디오 표준 복호화기 구조 및 연산량 분석 (MPEG-H 3D Audio Decoder Structure and Complexity Analysis)

  • 문현기;박영철;이용주;황영수
    • 한국통신학회논문지
    • /
    • 제42권2호
    • /
    • pp.432-443
    • /
    • 2017
  • MPEG-H 3D 오디오 표준은 UHDTV 등의 초고해상도 방송서비스에 대응하는 실감음향 서비스의 제공을 목표로 한다. 이를 위해 본 표준은 다채널 신호, 객체 신호, 장면 기반 신호의 부호화/복호화 기술과 다양한 재생 환경에서 3차원 오디오 제공을 위한 렌더링 기술, 후처리 기술 등 방대한 기술을 통합하였다. 본 표준의 참조 소프트웨어 복호화기는 여러 모듈들이 결합된 구조로 다양한 모드에서 동작이 가능하며, 각 모듈들이 독립된 실행파일로 순차적으로 실행되어 실시간 처리가 불가능하다. 본 논문에서는 MPEG-H 3D 오디오의 코어 복호화기, 포맷 변환기, 객체 렌더러, 바이노럴 렌더러의 각 함수를 동적 라이브러리화 및 통합하여 프레임 기반 복호화가 가능하도록 하였다. 또한 MPEG-H 3D 오디오의 각 모드별 연산량을 측정하여 다양한 하드웨어 플랫폼에서 적합한 모드를 선택하기 위한 참고 자료를 제공한다. 연산량 분석 결과, 한국 방송 표준에 포함된 저연산량 프로파일은 채널 신호로 렌더링을 할 경우 QMF 합성 연산의 2.8배에서 12.4배의 연산량을 가지며, 바이노럴 렌더링을 할 경우 QMF 합성 연산의 4.1배에서 15.3배의 연산량을 가진다.

오디오 스펙트럼을 이용한 LED 감성 조명 알고리즘과 응용 (LED Emotional Lighting Algorithm and Application using Audio Spectrum)

  • 장영범;석상철
    • 한국통신학회논문지
    • /
    • 제36권10B호
    • /
    • pp.1252-1257
    • /
    • 2011
  • 이 논문에서는 오디오 신호의 스펙트럼 가시광선 스펙트럼으로 매핑하는 감성 조명 방식을 제안한다. 인간의 청각이 인지하는 오디오 스펙트럼의 전 대역을 시각이 인지하는 가시광 스펙트럼의 전 대역으로 매핑하는 조명 알고리즘을 제안하며 특히 기본적인 선행 매핑 방식과 특정 주파수 대역을 가조하는 비선형 스펙트럼 매핑 방식에 대하여 논한다. 알고리즘의 효과를 실험하기 위하여 DSP 보드로 구현함으로써 제안된 조명 방식의 응용 가능성을 보였다. 따라서 제안된 조명 방식은 스탠드 LED 조명, 화병 LED 조명, 분수용 LED 조명, 건축물용 LED 조명, 노래방용 LED 조명, 청각 장애인용 LED 음악조명 등의 분야에 응용될 수 있을 것이다.

DCT and DWT Based Robust Audio Watermarking Scheme for Copyright Protection

  • Deb, Kaushik;Rahman, Md. Ashikur;Sultana, Kazi Zakia;Sarker, Md. Iqbal Hasan;Chong, Ui-Pil
    • 융합신호처리학회논문지
    • /
    • 제15권1호
    • /
    • pp.1-8
    • /
    • 2014
  • Digital watermarking techniques are attracting attention as a proper solution to protect copyright for multimedia data. This paper proposes a new audio watermarking method based on Discrete Cosine Transformation (DCT) and Discrete Wavelet Transformation (DWT) for copyright protection. In our proposed watermarking method, the original audio is transformed into DCT domain and divided into two parts. Synchronization code is applied on the signal in first part and 2 levels DWT domain is applied on the signal in second part. The absolute value of DWT coefficient is divided into arbitrary number of segments and calculates the energy of each segment and middle peak. Watermarks are then embedded into each middle peak. Watermarks are extracted by performing the inverse operation of watermark embedding process. Experimental results show that the hidden watermark data is robust to re-sampling, low-pass filtering, re-quantization, MP3 compression, cropping, echo addition, delay, and pitch shifting, amplitude change. Performance analysis of the proposed scheme shows low error probability rates.

An advertisement method using inaudible sound of speaker

  • Chung, Myoungbeom
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권8호
    • /
    • pp.7-13
    • /
    • 2015
  • Recently, there are serviced user customized advertisement of various type using smart device. Representative services are advertisement service using light of smart TV screen or audible sound of smart TV to transmit advertisement information. However, those services have to do a specific action of smart device user for advertisement information or need audible audio information of TV contents. To overcome those weakness, therefore, we propose an advertisement method using inaudible sound of speaker based on smart device. This method supports the transfer of advertising content to the smart device user with no additional action or TV audio signal required to access that content. The proposed method used two high frequencies among 18kHz ~ 22kHz of audible frequency range which smart TV can send out. And it generates those frequencies synthesized with audio of TV contents as trigger signal which can send advertisements to smart device. Next, smart device analysis the trigger signal and request advertisement contents related to the signal to server. After then, smart device can show the downloaded contents to user. Because the proposed method uses the high frequencies of sound signals via the inner speaker of the smart device, its main advantage is that it does not affect the audio signal of TV content. To evaluate the efficacy of the proposed method, we developed an application to implement it and subsequently carried out an advertisement transmission experiment. The success rate of the transmission experiment was approximately 97%. Based on this result, we believe the proposed method will be a useful technique in introducing a customized user advertising service.

Low Peak Feature와 영상 Color를 이용한 유사 동영상 검색 (Similar Movie Retrieval using Low Peak Feature and Image Color)

  • 정명범;고일주
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권8호
    • /
    • pp.51-58
    • /
    • 2009
  • 본 논문에서는 오디오의 Low Peak Feature와 영상의 Color 값을 이용하여 유사한 동영상을 찾는 알고리즘을 제안한다. 동영상 검색 시 영상 데이터 전체를 이용하면 많은 시간과 저장 공간이 필요하다. 게다가 같은 영상임에도 해상도 또는 코덱이 다른 경우 전혀 다른 영상으로 인식된다. 따라서 해상도와 코덱이 달라져도 변화가 크지 않은 오디오의 파형으로부터 강인한 Peak 특징을 추출하고, 그 위치의 영상 Color 값을 비교하여 유사한 동영상을 검색하는 방법을 제안한다. 제안 방법의 성능을 확인하기 위해 2,000개의 동영상 데이터를 수집하여 실험하였으며, 그 결과 97.7%의 검색 성공률을 나타내었다.

피처벡터 축소방법에 기반한 장애음성 분류 (Classification of pathological and normal voice based on dimension reduction of feature vectors)

  • 이지연;정상배;최홍식;한민수
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2007년도 한국음성과학회 공동학술대회 발표논문집
    • /
    • pp.123-126
    • /
    • 2007
  • This paper suggests a method to improve the performance of the pathological/normal voice classification. The effectiveness of the mel frequency-based filter bank energies using the fisher discriminant ratio (FDR) is analyzed. And mel frequency cepstrum coefficients (MFCCs) and the feature vectors through the linear discriminant analysis (LDA) transformation of the filter bank energies (FBE) are implemented. This paper shows that the FBE LDA-based GMM is more distinct method for the pathological/normal voice classification than the MFCC-based GMM.

  • PDF