• 제목/요약/키워드: Media AI

검색결과 343건 처리시간 0.023초

CMOS 아날로그 전류모드 곱셈기의 선형성과 동적범위 향상을 위한 회로설계 기법에 관한 연구 (A Study on Circuit Design Method for Linearity and Range Improvement of CMOS Analog Current-Mode Multiplier)

  • 이대니얼주헌;김형민;박소연;노태민;김성권
    • 한국전자통신학회논문지
    • /
    • 제15권3호
    • /
    • pp.479-486
    • /
    • 2020
  • 이 논문에서는 아날로그 전류모드 인공지능 프로세서에서 핵심 디바이스 중에 하나인 아날로그 전류 모드 곱셈기 회로의 선형성과 동적범위 향상을 위한 설계 기법을 소개한다. 제안하는 회로는 4 quadrant Translinear loop를 NMOS 트랜지스터만으로 구성하여, 트랜지스터의 물리적 Mismatch를 최소화하는 설계로 0.35㎛ CMOS 공정에서 117㎛ × 109㎛로 구현가능하였으며, 최대 전고조파왜율 0.3% 의 선형성을 확보할 수 있었다. 제안한 아날로그 전류모드 곱셈기는 전류모드 인공지능 프로세서의 핵심 회로로 유용할 것으로 기대된다.

VVC의 기울기 기반 화면내 예측모드 결정 및 블록분할 고속화 기법 (Gradient-Based Methods of Fast Intra Mode Decision and Block Partitioning in VVC)

  • 윤용욱;박도현;김재곤
    • 방송공학회논문지
    • /
    • 제25권3호
    • /
    • pp.338-345
    • /
    • 2020
  • 차세대 비디오 부호화 표준으로 진행중인 VVC(Versatile Video Coding)는 HEVC(High Efficiency Video Coding)보다 두 배 이상의 압축 성능을 달성하기 위해 다양한 기술들을 채택하고 있다. 최근 배포된 VVC 참조 SW 코덱인 VTM(VVC Test Model)은 HEVC 대비 38% 이상의 BD-rate 부호화 성능 향상을 보이는 반면 부호화와 복호화 복잡도가 각각 9배, 2배 정도 증가를 보인다. 특히, 재귀적 MTT(Multi-Type Tree) 분할 구조와 HEVC 대비 2배로 증가한 화면내 예측모드 수로 인해 상당한 부호화기의 복잡도가 증가하였으며, 이를 감소시키기 위한 다양한 기법들이 연구되고 있다. 본 논문에서는 부호화기의 복잡도를 감소시키기 위하여 블록내 화소의 기울기를 이용한 고속 화면내 예측모드 결정 및 블록분할 기법을 제시한다. 실험결과 VTM6.0 대비 AI(All Intra) 부호화 구조에서 3.54%의 부호화 성능 감소와 65%의 부호화 시간 절감 효과를 얻었다.

VVC의 화면 내 예측에서 적응적 TBC를 사용하는 방법 (Adaptive TBC in Intra Prediction on Versatile Video Coding)

  • 이원준;박광훈
    • 방송공학회논문지
    • /
    • 제25권1호
    • /
    • pp.109-112
    • /
    • 2020
  • VVC는 화면 내 예측에서 67가지의 모드를 사용한다. 이때 화면 내 예측 모드 표현을 위한 데이터를 감소시키기 위하여 MPM(Most Probable Mode)을 사용한다. 시그널링 되는 모드가 MPM 후보 내에 존재하는 경우 MPM 리스트의 해당 index를 송신하는 방법을 사용하고 MPM 후보 내에 존재하지 않는 경우에는 TBC 부호화를 적용한다. 화면 내 예측에서 TBC가 적용될 때 MPM 후보를 제외하고 낮은 번호의 모드 순서대로 3가지가 선택되어 5비트로 부호화되고 나머지 모드는 6비트로 부호화된다. 본 논문에서는 VVC의 화면 내 예측에서 사용하는 TBC 기술의 한계점을 알아보고 화면 내 예측에서 TBC를 사용할 때 기존의 방법보다 효율적으로 부호화 할 수 있는 적응적인 방법을 제안한다. 그 결과 기존의 부호화 방법과 비교해서 overall 부호화 성능이 AI와 RA에서 각각 0.01%, 0.04%의 부호화 효율이 증대되었다.

증강현실 기반의 키즈 콘텐츠 제작을 위한 관찰 조작형 모델의 설계 및 구현 (Design and Implementation of Observation Manipulation Model for Creating Kids Contents Based on Augmented Reality)

  • 오암석
    • 한국정보통신학회논문지
    • /
    • 제25권3호
    • /
    • pp.339-345
    • /
    • 2021
  • 코로나19로 인해 온라인 교육이 발달하면서 교육에 AI, AR/VR등의 신기술을 결합한 에듀테크 시장이 급격히 성장하고 있다. 또한, 1가구 1자녀 가정이 늘면서 자녀에 대한 투자가 집중됨에 따라 매년 출산율이 줄어듦에도 불구하고 키즈 산업은 꾸준히 성장 중이다. 그러나 늘어나는 수요에 비해 에듀테크 시장의 콘텐츠 공급은 더딘 편이다. 이에 본 논문에서는 AR 기술을 이용하여 편의성, 실용성, 효율성을 갖춘 AR 키즈 콘텐츠를 개발하고 지원함으로써 이러한 문제를 해결 하는데 도움을 주는 것을 목적으로 한다. 유아 어휘 학습 지원용 AR 콘텐츠는 단순히 보고 듣는 것이 끝이 아니라, 콘텐츠를 직접 조작해볼 수 있는 관찰 조작형 모델이라 유아의 흥미를 유발하고 아동의 단어학습에 도움을 준다. 본 논문은 본격적인 언어발달이 나타나는 생후 15개월 이상 36개월 이하의 유아를 대상으로 한다.

문맥적응적 화면내 예측 모델 학습 및 부호화 성능분석 (Context-Adaptive Intra Prediction Model Training and Its Coding Performance Analysis)

  • 문기화;박도현;김재곤
    • 방송공학회논문지
    • /
    • 제27권3호
    • /
    • pp.332-340
    • /
    • 2022
  • 최근 딥러닝을 적용하는 비디오 압축에 대한 연구가 활발히 진행되고 있다. 특히, 화면내 예측 부호화의 성능 한계를 극복할 수 있는 방안으로 딥러닝 기반의 화면내 예측 부호화 기술이 연구되고 있다. 본 논문은 신경망 기반 문맥적응적 화면내 예측 모델의 학습기법과 그 부호화 성능분석을 제시한다. 즉, 본 논문에서는 주변 참조샘플의 문맥정보를 입력하여 현재블록을 예측하는 기존의 합성곱 신경망(CNN: Convolutional Neural network) 기반의 화면내 예측 모델을 학습한다. 학습된 화면내 예측 모델을 HEVC(High Efficiency Video Coding)의 참조 소프트웨어인 HM16.19에 추가적인 화면내 예측모드로 구현하고 그 부호화 성능을 분석하였다. 실험결과 학습한 예측 모델은 HEVC 대비 AI(All Intra) 모드에서 0.28% BD-rate 부호화 성능 향상을 보였다. 또한 비디오 부호화 블록분할 구조를 고려하여 학습한 경우의 성능도 확인하였다.

VVC 인코더에서 합성 곱 신경망의 어텐션 맵을 이용한 휘도 매핑 함수 생성 방법 (Luma Mapping Function Generation Method Using Attention Map of Convolutional Neural Network in Versatile Video Coding Encoder)

  • 권나성;이종석;변주형;심동규
    • 방송공학회논문지
    • /
    • 제26권4호
    • /
    • pp.441-452
    • /
    • 2021
  • 본 논문에서는 VVC의 LMCS에서 휘도 신호 매핑 방법의 부호화 효율을 향상시키기 위한 휘도 신호 매핑 함수 생성 방법을 제안한다. 본 논문에서 제안하는 방법은 기존 LMCS에서 지역적 특징을 반영하기 위하여 사용하는 지역적 공간 분산에 합성 곱 신경망의 어텐션 맵을 곱하여 인지 지각적 특징을 추가적으로 반영한다. 제안하는 방법의 성능 평가를 위하여 AI (All Intra) 조건에서 VVC 표준 실험 영상의 A1, A2, B, C, D 클래스를 이용하여 VTM-12.0과 BD-rate 성능을 비교한다. 실험 결과로서 본 논문에서 제안하는 방법이 VTM-12.0 대비 BD-rate 성능 관점에서 휘도 성분이 평균 -0.07%의 성능 향상을 보이고, 부/복호화 시간은 거의 동일하다.

곱셈 연산을 고려한 고속 역변환 방법 (Fast Inverse Transform Considering Multiplications)

  • 송현주;이영렬
    • 방송공학회논문지
    • /
    • 제28권1호
    • /
    • pp.100-108
    • /
    • 2023
  • 하이브리드 블록 기반 비디오 압축에서 변환 부호화는 공간 영역의 잔차 신호를 주파수 영역으로 변환하여 낮은 주파수 대역에 에너지를 집중시켜 이후 엔트로피 코딩 과정에서 높은 압축률을 달성할 수 있게 한다. 최신 비디오 압축 표준인 VVC(Versatile Video Coding)는 DCT-2(Discrete Cosine Transform type 2), DST-7(Discrete Sine Transform type 7), DCT-8(Discrete Cosine Transform type 8)를 사용하여 주변환을 수행한다. 본 논문에서는 DCT-2, DST-7, DCT-8이 모두 선형 변환임을 고려하여, 선형 변환의 선형성을 이용하여 역변환 시 곱셈 연산량을 줄이는 역변환 방법을 제안한다. 제안하는 역변환 방법은 VVC의 참조 소프트웨어인 VVC Test Model-8.2 (VTM-8.2) 대비 비트율의 증가 없이 부호화 시간과 복호화 시간이 AI(All Intra)에서 평균 26%, 15%, RA(Randon Access)에서 평균 4%, 10% 감소하였다.

자연어 처리 기술을 활용한 인구 고령화 관련 토픽 분석 (Analysis of Topics Related to Population Aging Using Natural Language Processing Techniques)

  • 박현정;이태민;임희석
    • 한국IT서비스학회지
    • /
    • 제23권1호
    • /
    • pp.55-79
    • /
    • 2024
  • Korea, which is expected to enter a super-aged society in 2025, is facing the most worrisome crisis worldwide. Efforts are urgently required to examine problems and countermeasures from various angles and to improve the shortcomings. In this regard, from a new viewpoint, we intend to derive useful implications by applying the recent natural language processing techniques to online articles. More specifically, we derive three research questions: First, what topics are being reported in the online media and what is the public's response to them? Second, what is the relationship between these aging-related topics and individual happiness factors? Third, what are the strategic directions and implications for benchmarking discussed to solve the problem of population aging? To find answers to these, we collect Naver portal articles related to population aging and their classification categories, comments, and number of comments, including other numerical data. From the data, we firstly derive 33 topics with a semi-supervised BERTopic by reflecting article classification information that was not used in previous studies, conducting sentiment analysis of comments on them with a current open-source large language model. We also examine the relationship between the derived topics and personal happiness factors extended to Alderfer's ERG dimension, carrying out additional 3~4-gram keyword frequency analysis, trend analysis, text network analysis based on 3~4-gram keywords, etc. Through this multifaceted approach, we present diverse fresh insights from practical and theoretical perspectives.

프랑스학 교육 분야의 디지털 학습지원 매체 활용에 관한 연구 (A Study on the Utilization of Digital Learning Support Tools in the Field of French Studies Education)

  • 김연주
    • 문화기술의 융합
    • /
    • 제9권5호
    • /
    • pp.685-695
    • /
    • 2023
  • 이 연구는 프랑스학 교육 분야에서 디지털 학습지원 매체가 실제적으로 어떻게 적용되고 있는지 활용 현황을 파악하고 시사점을 도출하여 향후 연구 방향을 모색하는 데 목적을 두었다. 이를 위해 프랑스학 교육 분야에서의 학습 과정별 디지털 매체가 어떻게 활용되었는지 검토하였으며, 최근 대두되고 있는 챗GPT의 활용은 외국어와 교육분야까지 확장하여 학습에 직접적 적용 현황을 확인하였다. 이상의 문헌 검토 결과, 첫째, 프랑스학 교육 분야에서는 디지털 학습지원 매체의 적용은 다소 제한적이었다. 주로 '온라인 수업 매체', '수업 전 학습', '효율적 학습 및 상호작용' 그리고 '자기주도적 학습'의 과정에 디지털 학습지원 매체를 선별적으로 활용하고 있는 것으로 나타났다. 특히 교수·학습 과정에서 '효율적 학습 및 상호작용'을 위하여 다양한 디지털 학습지원 매체가 활용되는 현황을 확인할 수 있었다. 둘째, 챗GPT의 경우, 프랑스학 교육 분야에서는 아직 연구가 진행되지 않은 것으로 나타났으며, 타 교육 분야에서 학습 과정의 실제적 적용에 관한 매우 소수의 연구가 진행되고 있었다. 챗GPT는 교수·학습자료의 개발과 학습 전 과정 및 평가, 그리고 학습자의 자기주도적 학습 측면 등 활용범위가 매우 넓고 학습자들의 긍정적 효과가 보고되었지만, 정보의 질, 출처 및 신뢰도 등의 측면에서는 윤리적 문제점도 함께 보고되고 있었다. 따라서 향후 국내 프랑스학 교육 분야에서는 이를 바탕으로 대학의 교수·학습 상황에 적합한 교육적 적용 및 그 효과 검증 그리고 디지털 학습지원 매체와 범 학문적 융합의 방향으로 이루어져야 할 필요가 있다.

인공신경망을 이용한 샷 사이즈 분류를 위한 ROI 탐지 기반의 익스트림 클로즈업 샷 데이터 셋 생성 (Generating Extreme Close-up Shot Dataset Based On ROI Detection For Classifying Shots Using Artificial Neural Network)

  • 강동완;임양미
    • 방송공학회논문지
    • /
    • 제24권6호
    • /
    • pp.983-991
    • /
    • 2019
  • 본 연구는 영상 샷의 크기에 따라 다양한 스토리를 갖고 있는 영상들을 분석하는 것을 목표로 한다. 따라서 영상 분석에 앞서, 익스트림 클로즈업 샷, 클로즈업 샷, 미디엄 샷, 풀 샷, 롱 샷 등 샷 사이즈에 따라 데이터셋을 분류하는 것이 선행되어야 한다. 하지만 일반적인 비디오 스토리 내의 샷 분포는 클로즈업 샷, 미들 샷, 풀 샷, 롱 샷 위주로 구성되어 있기 때문에 충분한 양의 익스트림 클로즈업 샷 데이터를 얻는 것이 상대적으로 쉽지 않다. 이를 해결하기 위해 본 연구에서는 관심 영역 (Region Of Interest: ROI) 탐지 기반의 이미지 크롭핑을 통해 익스트림 클로즈업 샷을 생성함으로써 영상 분석을 위한 데이터셋을 확보 방법을 제안한다. 제안 방법은 얼굴 인식과 세일리언시(Saliency)를 활용하여 이미지로부터 얼굴 영역 위주의 관심 영역을 탐지한다. 이를 통해 확보된 데이터셋은 인공신경망의 학습 데이터로 사용되어 샷 분류 모델 구축에 활용된다. 이러한 연구는 비디오 스토리에서 캐릭터들의 감정적 변화를 분석하고 시간이 지남에 따라 이야기의 구성이 어떻게 변화하는지 예측 가능하도록 도움을 줄 수 있다. 향후의 엔터테인먼트 분야에 AI 활용이 적극적으로 활용되어질 때 캐릭터, 대화, 이미지 편집 등의 자동 조정, 생성 등에 영향을 줄 것이라 예상한다.