• 제목/요약/키워드: 미디어 AI

검색결과 349건 처리시간 0.028초

연속분포 HMM을 이용한 음성인식 시스템에 관한 연구 (A Study on Speech Recognition System Using Continuous HMM)

  • 김상덕;이극
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 1998년도 추계학술발표논문집
    • /
    • pp.221-225
    • /
    • 1998
  • 본 논문에서는 연속분포(Continuous) HMM(hidden Markov model)을 기반으로 하여 한국어 고립단어인식 시스템을 설계, 구현하였다. 시스템의 학습과 평가를 위해 자동차 항법용 음성 명령어 도메인에서 추출한 10개의 고립단어를 대상으로 음성 데이터 베이스를 구축하였다. 음성 특징 파라미터로는 MFCCs(Mel Frequency Cepstral Coefficients)와 차분(delta) MFCC 그리고 에너지(energy)를 사용하였다. 학습 데이터로부터 추출한 18개의 유사 음소(phoneme-like unit : PLU)를 인식단위로 HMM 모델을 만들었고 조음 결합 현상(채-articulation)을 모델링 하기 위해 트라이폰(triphone) 모델로 확장하였다. 인식기 평가는 학습에 참여한 음성 데이터와 학습에 참여하지 않은 화자가 발성한 음성 데이터를 이용해 수행하였으며 평균적으로 97.5%의 인식성능을 얻었다.

  • PDF

인공지능 데이터 품질검증 기술 및 오픈소스 프레임워크 분석 연구 (An Evaluation Study on Artificial Intelligence Data Validation Methods and Open-source Frameworks)

  • 윤창희;신호경;추승연;김재일
    • 한국멀티미디어학회논문지
    • /
    • 제24권10호
    • /
    • pp.1403-1413
    • /
    • 2021
  • In this paper, we investigate automated data validation techniques for artificial intelligence training, and also disclose open-source frameworks, such as Google's TensorFlow Data Validation (TFDV), that support automated data validation in the AI model development process. We also introduce an experimental study using public data sets to demonstrate the effectiveness of the open-source data validation framework. In particular, we presents experimental results of the data validation functions for schema testing and discuss the limitations of the current open-source frameworks for semantic data. Last, we introduce the latest studies for the semantic data validation using machine learning techniques.

AI 음성 에이전트의 음성 특성에 대한 사용자 반응 연구 (AI Voice Agent and Users' Response)

  • 백승주;정윤혁
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제31권2호
    • /
    • pp.137-158
    • /
    • 2022
  • Purpose As artificial intelligence voice agents (AIVA) have been widely adopted in services, diverse forms of their voices, which are the main interface with users, have been experimented. The purpose of this study is to examine how users evaluate vocal characteristics (gender, voice pitch, and voice pace) of AIVA, depending on prior research on human voice attractiveness. Design/methodology/approach This study employed an experimental survey which 516 participated in. Each participant was randomly assigned into one of eight situations (e.g., male - higher pitch - faster pace) and listened a AIVA voice sample, which introduce weather information. Next, a participant answered three consequence factors (attractiveness, trust, and anthropomorphism). Findings The results reveal that female voices of AIVA were perceived as more attractive and trustworthy than male voices. As far as voice pitch goes, while lower-pitch voices were preferred in female voices, higher-pitch voices were preferred in male voices. Finally, faster voices of AIVA were more attractive than slower voices.

효용이론 기반 숙고형 행동트리를 이용한 게임 인공지능 에이전트 (Game AI Agents using Deliberative Behavior Tree based on Utility Theory)

  • 권민지;서진석
    • 한국멀티미디어학회논문지
    • /
    • 제25권2호
    • /
    • pp.432-439
    • /
    • 2022
  • This paper introduces deliberative behavior tree using utility theory. The proposed approach combine the strengths of behavior trees and utility theory to implement complex behavior of AI agents in an easier and more concise way. To achieve this goal, we devised and implemented three types of additional behavior tree nodes, which evaluate utility values of its own node or its subtree while traversing and selecting its child nodes based on the evaluated values. In order to validate our approach, we implemented a sample scenario using conventional behavior tree and our proposed deliberative tree respectively. And then we compared and analyzed the simulation results.

추천 다양화 방법을 적용한 콜드 아이템 추천 정확도 향상 (Improved Cold Item Recommendation Accuracy by Applying an Recommendation Diversification Method)

  • 한정규;천세진
    • 한국멀티미디어학회논문지
    • /
    • 제25권8호
    • /
    • pp.1242-1250
    • /
    • 2022
  • When recommending cold items that do not have user-item interactions to users, even we adopt state-of-the-arts algorithms, the predicted information of cold items tends to have lower accuracy compared to warm items which have enough user-item interactions. The lack of information makes for recommender systems to recommend monotonic items which have a few top popular contents matched to user preferences. As a result, under-diversified items have a negative impact on not only recommendation diversity but also on recommendation accuracy when recommending cold items. To address the problem, we adopt a diversification algorithm which tries to make distributions of accumulated contents embedding of the two items groups, recommended items and the items in the target user's already interacted items, similar. Evaluation on a real world data set CiteULike shows that the proposed method improves not only the diversity but also the accuracy of cold item recommendation.

KoBigBird를 활용한 수능 국어 문제풀이 모델 (Korean CSAT Problem Solving with KoBigBird)

  • 박남준;김재광
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 추계학술대회
    • /
    • pp.207-210
    • /
    • 2022
  • 최근 자연어 처리 분야에서 기계학습 독해 관련 연구가 활발하게 이루어지고 있다. 그러나 그 중에서 한국어 기계독해 학습을 통해 문제풀이에 적용한 사례를 찾아보기 힘들었다. 기존 연구에서도 수능 영어와 수능 수학 문제를 인공지능(AI) 모델을 활용하여 문제풀이에 적용했던 사례는 있었지만, 수능 국어에 이를 적용하였던 사례는 존재하지 않았다. 또한, 수능 영어와 수능 수학 문제를 AI 문제풀이를 통해 도출한 결괏값이 각각 12점, 16점으로 객관식이라는 수능의 특수성을 고려했을 때 기대에 못 미치는 결과를 나타냈다. 이에 본 논문은 한국어 기계독해 데이터셋을 트랜스포머(Transformer) 기반 모델에 학습하여 수능 국어 문제 풀이에 적용하였다. 이를 위해 객관식으로 이루어진 수능 문항의 각각의 선택지들을 질문 형태로 변형하여 모델이 답을 도출해낼 수 있도록 데이터셋을 변형하였다. 또한 BERT(Bidirectional Encoder Representations from Transformer)가 가진 입력값 개수의 한계를 극복하기 위해 더 큰 입력값을 처리할 수 있는 트랜스포머 기반 모델 중에서 한국어 기계독해 학습에 적합한 KoBigBird를 사전학습모델로 설정하여 성능을 높였다.

  • PDF

GPU를 이용한 대용량 3D 메쉬 모델에 대한 병렬 자체 충돌검사 (Parallel Self-Collision Detection for Large 3D Mesh Model using GPU)

  • 박성훈;김양은;최유주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.708-711
    • /
    • 2022
  • 본 논문은 3D 프린팅 출력 성공률을 높이기 위해 GPU를 이용한 대용량 3D 메쉬 모델에 대한 병렬 자체충돌 검사 방법을 제안한다. 강인하고 견고한 자체 충돌 검사를 위해 분리축 검사, 삼각형-삼각형 교차 검사, 메쉬 연결성 검사, 대용량 메쉬를 위한 분할 처리 기법의 절차를 제안한다. 이러한 자체 충돌 검사를 빠르게 수행하기 위하여 GPU 기반 병렬처리 구현 방법을 제시한다.

단일 이미지 기반 3D 모델 생성을 위한 딥-뉴럴 네트워크 분류 및 성능비교 (A Survey on Deep Neural Networks for 3D Reconstruction from a 2D Image)

  • 김민경;최유주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.715-718
    • /
    • 2022
  • 단일 이미지로부터 3D 모델을 생성하는 방법은 메타버스와 가상현실 콘텐츠에 대한 필요성이 높아짐에 따라, 보다 효율적인 모델 생성방법으로서 관심이 높아지고 있다. 본 논문에서는 단일 이미지로부터 3D 모델을 자동 생성하는 기존 딥-뉴럴 네트워크들을 대상으로, 생성되는 3D 모델의 유형에 따라 기존 네트워크들을 분류하고, 주요 딥-뉴럴 네트워크의 형태와 특징, 그리고 모델 생성의 성능을 분석하고자 한다.

머신러닝 기반 사진인식 기술을 활용한 다이어트 AI

  • 노가현;윤인경
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 추계학술대회
    • /
    • pp.384-387
    • /
    • 2020
  • AI가 각광받고 있는 시대에 발 맞추어 머신러닝, 딥러닝을 활용한 이미지 인식 기술을 구현하였다. 사용자가 원하는 음식 사진을 업로드하면 인공 신경망 알고리즘이 convolution을 수행해 데이터베이스에 학습시켜 두었던 이미지들 가운데 유사도가 가장 높은 수치로 나오는 이미지를 결과로 보여주어, 사용자는 사진만으로도 음식의 칼로리 정보, 칼로리를 소모하기 위한 운동량 등의 정보를 간편하게 알 수 있는 시스템을 구축하였다. 또한 MYSQL과 PHP를 활용하여 자신의 칼로리 정보를 저장하고, 사용자가 매일 입력하는 몸무게의 변화량 등을 실시간으로 확인할 수 있는 등의 데이터베이스 서버를 구축하였다. 스마트폰을 통해 정보를 얻을 수 있도록 어플리케이션을 구성했다.

  • PDF

Music Composition with Collaboratory AI Composers

  • Kim, Haekwang;You, Younghwan
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 하계학술대회
    • /
    • pp.23-25
    • /
    • 2021
  • This paper describes an approach of composing music with multiple AI composers. This approach enriches more the creativity space of artificial intelligence music composition than using only one composer. This paper presents a simple example with 2 different deep learning composers working together for composing one music. For the experiment, the two composers adopt the same deep learning architecture of an LSTM model trained with different data. The output of a composer is a sequence of notes. Each composer alternatively appends its output to the resulting music which is input to both the composers. Experiments compare different music generated by the proposed multiple composer approach with the traditional one composer approach.

  • PDF