• Title/Summary/Keyword: 오디오 추출

Search Result 170, Processing Time 0.034 seconds

A Unique Identification hiding technique for Internet Broadcast service of Digital Audio (디지털 오디오의 인터넷 방송 서비스를 위한 저작물 식별 코드 은닉 기술)

  • 신승원;김종원;최종욱
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2001.11b
    • /
    • pp.163-168
    • /
    • 2001
  • 본 논문은 인터넷을 이용한 방송 서비스에서 저작권 보호 및 저작물 식별을 위한 고유 식별 정보(unique identification)를 삽입, 추출하는 기술을 제안한다. 인터넷을 통한 방송 서비스의 활성화를 위해서는 저작권의 보호와 저작물의 불법 사용 방지, 저작물에 대한 저작권료 지불, 그리고 차후에 불법 사용자의 적발 등을 할 수 있는 기술이 필요하다. 본 논문에서 제안하는 기술은 디지털 음악을 소비자에게 서비스할 때, 사용자의 아이디(ID)와 신상 정보를 이용해서 생성된 정보와 음악의 식별 정보를 같이 저작물에 삽입하여 다운로드 받은 음악 파일이나 또는 청취 중에 녹음한 음악 파일을 불법으로 유통시킬 경우에 유통된 음악 파일에서 삽입된 식별코드를 추출하여 음악 파일의 불법 유통경로를 추적하여 불법 사용자를 적발할 수 있는 기능을 갖고 있다. 이러한 기능을 만족시키기 위해서 인터넷 서비스에서 널리 이용되는 MP3, AAC, WMA 등과 같은 손실 압축을 거친 이후에도 삽입된 워터마크를 검출할 수 있으며, 일반 사용자들이 손쉽게 접할 수 있는 여러 신호처리에도 강인한 특성을 갖는 기술을 제안한다.

  • PDF

Human factors research issues in multimedia systems (멀티미디어 시스템에서의 인간공학 연구대상)

  • 김미정;한성호
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 1995.04a
    • /
    • pp.545-554
    • /
    • 1995
  • 멀티미디어 시스템(Multimedia system)이란 단일 매체(Media)를 통해서 정보를 한가지 형태로 제공하던 종래의 방식과는 달리 필요한 정보를 문자, 오디오, 비디오, 그래픽스 등 여러 가지 매체를 통하여 다양한 형태로 제공해 줄 수 있는 시스템이다. 본 연구에서는 멀티미디어 시스템의 고유특성상 인간공학 연구가 필요한 여러가지 요소들을 고찰하여 보고, 이를 바탕으로 사용자 인터페이스(User interface)의 전반적인 사용편의성(Usability)에 영향을 미치는 주요 설계변수들을 추출하였다. 멀티미디어 시스템에서의 인간공학적 고려요소를 도출하기 위한 기본 작업으로서 멀티미디어 시스템을 사용자(user), 작업(task), 인터페이스(interface), 정보형태(information type), 환경(environment)의 5가지 구성요소로 나누고 이들 구성요소들 간의 연관관계를 멀티미디어 시스템의 설계에 필요한 기본구조(framework)의 형태로 정리하였다. 이러한 구성요소에 관련된 인간공학적 설계변수들을 상세히 조사하고, 조사된 90여개의 설계변수들 중 연구가 미진한 변수 또는 사용편의성에 영향을 많이 미칠수 있는 변수들만 추출하여 주요 변수들을 설정하였으며 이 변수들은 체계적인 연구계획(Research plan) 설정에 입력자료로 사용될 예정이다.

  • PDF

Imp1ementation of MPEG-4 BIFS Parser on PDA (PDA에서의 MPEG-4 BIFS파서 구현)

  • 여재욱;정재일;신용경;김상욱
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.565-567
    • /
    • 2002
  • 본 논문은 PDA(Personal Digital Assistants)에서의 MPEG-4 BIFS(Binary Format (or Scenes) 파서를 구현한다. 일반 데스크탑 환경의 MPEG-4 재생기에서 장면 구성은 BIFS 파싱 결과로 생긴 장면 그래프의 각 객체정보를 모두 렌더링 한다 그러나, 이동 단말기인 PDA는 메모리 및 디스플레이 자인이 제한되어 있어 기존의 데스크탑 환경에서 구현된 모듈들을 그대로 적용하기가 어렵다. 따라서, 본 논문에서는 BIFS 파싱 결과로 나온 장면 그래프에서 생성된 드로어블 노드 리스트 중 제한된 자원의 PDA에서 디스플레이 가능한 노트들만을 추출하는 새로운 기술을 제안한다. 추출된 드로어블 노드 리스트는 MPEG-4 재생기의 렌더링 모듈에서 검색하여 장면구성 및 비디오/오디오 스트림이 재생된다. 이러할 과정을 내장형 리눅스가 탑재된 PDA에서 구현하고, 기타 이동장치에서도 이용 가능하다.

  • PDF

Copyright Protection of Application Softwares using Digital Watermarking (디지털워터마킹 기법을 이용한 응용프로그램 저작권보호)

  • Song, Jang-Ho;Kim, Young-Jin;Lee, Won-Don
    • Annual Conference of KIPS
    • /
    • 2002.11a
    • /
    • pp.19-22
    • /
    • 2002
  • 워터마킹(watermarking) 기술은 판매하거나 배포할 자료들 중, 특히 이미지, 오디오, 텍스트, 비디오 및 멀티미디어 데이터 등에 원래의 소유주를 표시할 수 있는 특정 데이터, 즉 워터마크를 넣어 소유주를 확인할 수 있게 하는 저작권 보호(copyright protection)기법으로 근래에 들어 그 필요성이 크게 대두되고 있는 기술이다. 본 논문에서는 wave format 파일을 읽어들여 음향에 효과를 주는 응용프로그램의 불법사용을 막는 데에 대한 저작권 보호를 연구 기술하였다. 원본 없이 추출 가능한 디지털 워터마킹 기법[1]을 음악파일에 삽입하고 응용프로그램이 그것을 추출하여 편집저장할 여부를 결정하도록 하는 방법에 주요 관점을 두고 실험 및 구현을 하였다.

  • PDF

디지털 오디오의 인티넷 방송 서비스를 위한 저작물 식별 코드 은닉 기술$^{(1)}$

  • 신승원;김종원;최종욱
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2004.05a
    • /
    • pp.103-106
    • /
    • 2004
  • 본 논문은 인터넷을 이용한 방송 서비스에서 저작권 보호 및 저작물 식별을 위한 고유 식별 정보(unique identification)를 삽입, 추출하는 기술을 제안한다. 인터넷을 통한 방송 서비스의 활성화를 위해서는 저작권의 보호와 저작물의 불법 사용 방지, 저작물에 대한 저작권료 지불, 그리고 차후에 불법 사용자의 적발 등을 할 수 있는 기술이 필요하다. 본 논문에서 제안하는 기술은 사용자 관련 정보와 음악의 식별 정보를 저작물에 삽입하여 다운로드 받은 음악 파일이나 또는 청취 중에 녹음한 음악 파일의 불법 복제를 막는 방법이다. 저작물을 불법으로 유통시킬 경우에 유통된 음악 파일에서 삽입된 식별코드를 추출하여 음악 파일의 불법 유통경로를 추적하여 불법 사용자를 적발할 수 있도록 하였다. 이러한 기능을 만족시키기 위해서 인터넷 서비스에서 널리 이용되는 MP3, AAC, WMA 등과 같은 손실 압축을 거친 이후에도 삽입된 워터마크를 검출할 수 있으며, 일반 사용자들이 손쉽게 접할 수 있는 섞어 신호처리에도 강인한 특성을 갖는 기술을 제안한다.

  • PDF

Improving Attention-based Video Highlight Prediction (어텐션 기반 비디오 하이라이트 예측 알고리즘의 개선)

  • Yoon, Wonbin;Hwang, Junkyu;Lee, Gyemin
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.314-317
    • /
    • 2021
  • 하이라이트 영상은 원본 영상의 중요한 장면들을 짧은 시간 안에 감상할 수 있게 도와준다. 특히나 경기 시간 긴 축구나 야구 그리고 e-스포츠의 시청자들에게 있어, 하이라이트 영상의 효용성은 더욱 증가한다. 하이라이트 영상 추출의 자동화로 방송사나 온라인 플랫폼은 비용 절감과 시간 절약의 이점을 얻을 수 있다. 따라서 본 논문에서는 스포츠 영상에서 자동으로 하이라이트 구간을 추출하는 모델을 제안한다. 제안하는 모델은 멀티 헤드 어텐션 매커니즘과 LSTM 네트워크의 결합으로 구성된다. 해당 매커니즘의 여러 헤드를 통해 어텐션을 다양한 관점에서 진행한다. 이로 인해 영상의 전체적인 맥락과 장면 간의 유기적 관계를 다양한 관점에서 파악할 수 있다. 또한 오디오와 이미지 정보를 함께 이용하여 모델을 학습한다. 학습한 모델의 평가는 e-스포츠 경기 영상을 이용하여 평가한다.

  • PDF

Speech/Music Signal Classification Based on Spectrum Flux and MFCC For Audio Coder (오디오 부호화기를 위한 스펙트럼 변화 및 MFCC 기반 음성/음악 신호 분류)

  • Sangkil Lee;In-Sung Lee
    • The Journal of Korea Institute of Information, Electronics, and Communication Technology
    • /
    • v.16 no.5
    • /
    • pp.239-246
    • /
    • 2023
  • In this paper, we propose an open-loop algorithm to classify speech and music signals using the spectral flux parameters and Mel Frequency Cepstral Coefficients(MFCC) parameters for the audio coder. To increase responsiveness, the MFCC was used as a short-term feature parameter and spectral fluxes were used as a long-term feature parameters to improve accuracy. The overall voice/music signal classification decision is made by combining the short-term classification method and the long-term classification method. The Gaussian Mixed Model (GMM) was used for pattern recognition and the optimal GMM parameters were extracted using the Expectation Maximization (EM) algorithm. The proposed long-term and short-term combined speech/music signal classification method showed an average classification error rate of 1.5% on various audio sound sources, and improved the classification error rate by 0.9% compared to the short-term single classification method and 0.6% compared to the long-term single classification method. The proposed speech/music signal classification method was able to improve the classification error rate performance by 9.1% in percussion music signals with attacks and 5.8% in voice signals compared to the Unified Speech Audio Coding (USAC) audio classification method.

Investigating an Automatic Method for Summarizing and Presenting a Video Speech Using Acoustic Features (음향학적 자질을 활용한 비디오 스피치 요약의 자동 추출과 표현에 관한 연구)

  • Kim, Hyun-Hee
    • Journal of the Korean Society for information Management
    • /
    • v.29 no.4
    • /
    • pp.191-208
    • /
    • 2012
  • Two fundamental aspects of speech summary generation are the extraction of key speech content and the style of presentation of the extracted speech synopses. We first investigated whether acoustic features (speaking rate, pitch pattern, and intensity) are equally important and, if not, which one can be effectively modeled to compute the significance of segments for lecture summarization. As a result, we found that the intensity (that is, difference between max DB and min DB) is the most efficient factor for speech summarization. We evaluated the intensity-based method of using the difference between max-DB and min-DB by comparing it to the keyword-based method in terms of which method produces better speech summaries and of how similar weight values assigned to segments by two methods are. Then, we investigated the way to present speech summaries to the viewers. As such, for speech summarization, we suggested how to extract key segments from a speech video efficiently using acoustic features and then present the extracted segments to the viewers.

The Development of Image Caption Generating Software for Auditory Disabled (청각장애인을 위한 동영상 이미지캡션 생성 소프트웨어 개발)

  • Lim, Kyung-Ho;Yoon, Joon-Sung
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02a
    • /
    • pp.1069-1074
    • /
    • 2007
  • 청각장애인이 PC환경에서 영화, 방송, 애니메이션 등의 동영상 콘텐츠를 이용할 때 장애의 정도에 따라 콘텐츠의 접근성에 있어서 시각적 수용 이외의 부분적 장애가 발생한다. 이러한 장애의 극복을 위해 수화 애니메이션이나 독화 교육과 같은 청각장애인의 정보 접근성 향상을 위한 콘텐츠와 기술이 개발된 사례가 있었으나 다소 한계점을 가지고 있다. 따라서 본 논문에서는 현대 뉴미디어 예술 작품의 예술적 표현 방법을 구성요소로서 추출하여, 기술과 감성의 조화가 어우러진 독창적인 콘텐츠를 생산할 수 있는 기술을 개발함으로써 PC환경에서 청각장애인의 동영상 콘텐츠에 대한 접근성 향상 방법을 추출하고, 실질적으로 청각적 효과의 시각적 변환 인터페이스 개발 및 이미지 캡션 생성 소프트웨어 개발을 통해 청각장애인의 동영상 콘텐츠 사용성을 극대화시킬 수 있는 방법론을 제시하고자 한다. 본 논문에서는 첫째, 청각장애인의 동영상 콘텐츠 접근성 분석, 둘째, 미디어아트 작품의 선별적 분석 및 유동요소 추출, 셋째, 인터페이스 및 콘텐츠 제작의 순서로 단계별 방법론을 제시하고 있다. 이 세번 째 단계에서 이미지 캡션 생성 소프트웨어가 개발되고, 비트맵 아이콘 형태의 이미지 캡션 콘텐츠가 생성된다. 개발한 이미지 캡션 생성 소프트웨어는 사용성에 입각한 일상의 언어적 요소와 예술 작품으로부터 추출한 청각 요소의 시각적요소로의 전환을 위한 인터페이스인 것이다. 이러한 기술의 개발은 기술적 측면으로는 청각장애인의 다양한 웹콘텐츠 접근 장애를 개선하는 독창적인 인터페이스 추출 환경을 확립하여 응용영역을 확대하고, 공학적으로 단언된 기술 영역을 콘텐츠 개발 기술이라는 새로운 영역으로 확장함으로써 간학제적 시도를 통한 기술영역을 유기적으로 확대하며, 문자와 오디오를 이미지와 시각적 효과로 전환하여 다각적인 미디어의 교차 활용 방안을 제시하여 콘텐츠를 형상화시키는 기술을 활성화 시키는 효과를 거둘 수 있다. 또한 청각장애인의 접근성 개선이라는 한정된 영역을 뛰어넘어 국가간 언어적인 장벽을 초월할 수 있는 다각적인 부가 동영상 콘텐츠에 대한 시도, 접근, 생산을 통해 글로벌 시대에 부응하는 새로운 방법론으로 발전 할 수 있다.

  • PDF

An Efficient Content-based Retrieval System using High-Dimensional Index Structure Image Database (대규모 이미지 데이터베이스에서 고차원 색인 구조를 이용한 효율적인 내용 기반 검색 시스템)

  • Lee, Dong-Ho;Park, Ju-Hong;Jeong, Jin-Wan;Kim, Hyeong
    • Journal of KIISE:Software and Applications
    • /
    • v.26 no.1
    • /
    • pp.52-65
    • /
    • 1999
  • 이미지나 비디오, 오디오와 같이 멀티미디어 데이터들은 기존의 단순한 텍스트 기반의 데이터에 비하여 대용량적인 특성과 비정형적인 특성을 가지고 있어서 검색시 많은 어려움이 따른다. 본 논문에서는 대규모의 이미지 데이터베이스에서 효율적이고 신속하게 사용자가 원하는 이미지를 검색할수 있는 내용 기반 검색 시스템을 제시한다. 이를 위해서 본 논문에서는 최근 여러 장점으로 인하여 신호 분석이나 이미지 압축 분야에 많이 사용되는 웨이브릿 변환을 이용하여 이미지 데이터로부터 내용 기반 검색에 사용되는 특징 벡터를 효율적으로 추출하는 기법과 유사성 측정 방법을 제안한다. 그리고, 이러한 특징 추출방법과 유사성 측정 방법을 이용하여 내용 기반 질의 및 검색을 수행할 경우, 검색 조건을 만족하는 객체인데 실수로 검색해내지 못하는 경우인 false dismissals 이 발생하지 않음을 보인다. 또한 대규모 이미지 데이터베이스에서 신속한 내용 기반 검색을 지원하기 위하여 고차원 데이터에 대한 효율적인 색인을 제공하는 X-tree를 이용한 이미지 색인 방법을 보이며 이것이 기존의 순차 검색이나 R*-tree를 이용한 색인 방법보다 신속하게 이미지 데이터들을 검색할 수 있다는 것을 다양한 실험을 통해 보인다. 마지막으로 QBIC에서 제안한 검색 적합성 측정 방법을 이용하여 본 논문에서 제안하는 내용 기반 이미지 검색시스템의 검색 적합성을 보인다.