• Title/Summary/Keyword: Audio Data

Search Result 879, Processing Time 0.033 seconds

법원도서관 장서개발정책 수립을 위한 이용자 인식조사 연구 (A Study on Perceptions for the Establishment of Collection Development Policy in Court Libraries)

  • 곽승진;노영희;장인호;김정택;신영지
    • 한국도서관정보학회지
    • /
    • 제52권3호
    • /
    • pp.1-20
    • /
    • 2021
  • 본 연구는 법원도서관이 법률 관련 전문서비스를 책임지는 국내 최고의 법률전문도서관으로 자리매김하는데 있어서 가장 중요한 구성요소이며 핵심역량 제고의 원천이 될 장서개발정책을 수립하기 위해 일반 이용자와 법률 관련 분야 전문가를 대상으로 인식조사를 실시하였다. 그 결과, 첫째, 일반 이용자의 요구 기반 장서 수집 방향을 살펴보면, 장서 유형의 경우 도서, 전자자료, 비도서 순의 선호도를 고려해야 하며, 세부 정보원 유형과 관련해서 일반 이용자들은 단행본, 연속간행물 등 도서에 대한 선호가 높은 것을 반영하여 장서개발정책을 계획해야 할 것으로 보인다. 또한 비도서 부분에서는 오디오 보다 비디오 형태의 비도서자료를, 언어의 경우 국내서에 대한 선호도가 월등하게 높아 국내서 위주로 장서를 수집해야 할 것으로 보인다. 둘째, 전문가의 요구 기반 장서 수집 방향을 살펴보면, 전문가는 만족도가 대체적으로 낮게 나타나 이를 개선할 수 있는 장서개발정책이 수립되어야 할 것으로 보인다. 정보원 유형의 경우 전자자료, 도서, 비도서 순으로 선호도가 나타났으며, 전체 정보원 비율 구성 시, [도서] 단행본과 더불어 전자책, 멀티미디어자료, 전자저널 등 전자자료에 대한 수집량과 범위를 확대할 필요가 있다. 주제별 장서는 절차법류, 전문분야, 기본 실체법류, 법률총서 순으로 나타난 선호도를 기반으로 향후 장서 수집 방향을 이루어야 할 것이며, 또한 동일 도서에 대한 수집 시 인쇄보다 전자형태의 법률 자료 확보를 고려해야 한다. 또한 국내서 위주로 장서를 수집할 필요가 있으며, 이어 영미서, 일본서, 독일서 등의 우선순위로 수집 범위를 확대해야 할 것으로 보인다.

야외지질답사 및 모델링 기반 순환 학습에서 학생들이 그린 그림의 목적과 기능에 대한 이해 (Understanding Purposes and Functions of Students' Drawing while on Geological Field Trips and during Modeling-Based Learning Cycle)

  • 최윤성
    • 한국지구과학회지
    • /
    • 제42권1호
    • /
    • pp.88-101
    • /
    • 2021
  • 이 연구의 목적은 학생들이 그린 그림이 야외지질답사와 모델링 기반 순환 학습에서 어떤 의미를 갖는지 질적으로 탐색하는 것이다. 서울의 한 대학 부설 영재교육원에 재학 중인 10명의 학생이 참여하였다. 한탄강 형성과정이라는 것을 주제로 야외지질답사와 3차시 모델링 3차시 수업을 진행하였다. 각 차시별 학생들이 작성했던 모든 기록장(글, 그림), 연구자 필드노트, 학생들이 참여한 모든 영상 자료 및 음성 녹음, 전사한 인터뷰 자료 등을 연구진과 공유하였다. Hatisaru (2020) 그림 표상화를 야외지질학습의 맥락에 맞게 수정하여 그림의 유형을 분류하였다. 학생들의 글(text, memo)을 포함한 그림의 특징을 분석하기 위해 연연적 내용 분석(deductive content analysis)을 사용하였다. 또한, 그림이 모델링 기반 순환 과정(자료 수집 관찰, 모델 생성, 모델 발달, 자연현상의 구체화) 속에서 어떤 역할을 하는지 분석하였다. 그 결과 학생들의 그림 유형은 지질학적인 개념을 포함한 상징적 이미지, 지형학적으로 외형을 묘사한 외형적 이미지, 학생들의 심리적인 영역을 표현한 정의적 이미지가 있었다. 특징은 설명, 생산화, 정교화, 증거, 일치, 심상(心狀)으로 분류하였다. 그림의 유형과 특징은 모델링 기반 순환 학습 과정에서 연속적으로 나타나며 학생들의 모델 발달 과정 속에서 학생들의 인지적인 영역에 관한 특성과 학업에 대한 긍정적인 태도와 감정을 반영하였다. 학생들이 그린 그림은 야외지질답사와 모델링 과정 모두에 있어서 학생들의 사고와 의사표현을 반영할 수 있는 도구로써 의미를 있음을 밝힘으로써 과학교육 관계자들에게 학생들의 그림 그리기 활동의 중요성을 역설하였다.

좌표계산을 통해 동영상의 안면 특징점 분석을 중심으로 한 웹 기반 발표 태도 교정 프로그램 개발 (Development of a Web-based Presentation Attitude Correction Program Centered on Analyzing Facial Features of Videos through Coordinate Calculation)

  • 권기현;안수호;박찬정
    • 한국콘텐츠학회논문지
    • /
    • 제22권2호
    • /
    • pp.10-21
    • /
    • 2022
  • 학생들의 취업을 위한 면접 발표와 회사에서의 프로젝트 결과 발표 등과 같은 형식적인 발표 태도가 개선되려면 동료나 교수자의 관찰에 의한 방법 이외에 자동화된 방법은 드물다. 기존 연구에 따르면, 발표자의 안정적인 발화와 시선 처리가 발표에서의 전달력에 영향을 미친다고 한다. 또한, 본인 발표에 대한 적절한 피드백이 발표자의 발표 역량을 늘이는 효과가 있다는 연구도 있다. 본 연구에서는 이와 같은 교정의 긍정적 측면을 고려하여 대학생들의 잘못된 발표 습관과 태도를 동영상의 안면 분석을 통해 지능적으로 교정해 주는 프로그램을 개발하고 성능을 분석하였다. 개발하는 프로그램은 웹 기반으로 군말 사용 여부를 확인하고 안면 인식과 발표 내용 텍스트화를 통해 개발되었다. 이를 위해 군말 분류 인공지능 모델을 개발하였고, 동영상 객체 추출 후, 좌표에 기반으로 얼굴 특징점을 인식하였다. 이후 4,000개 안면 데이터를 이용해 Teachable Machine에서 안면 인식한 경우와 본 연구의 알고리즘 성능을 비교·분석하였다. 프로그램을 이용해 발표 태도를 자기스스로 교정하여 발표자들에게 도움을 준다.

Hate Speech Detection Using Modified Principal Component Analysis and Enhanced Convolution Neural Network on Twitter Dataset

  • Majed, Alowaidi
    • International Journal of Computer Science & Network Security
    • /
    • 제23권1호
    • /
    • pp.112-119
    • /
    • 2023
  • Traditionally used for networking computers and communications, the Internet has been evolving from the beginning. Internet is the backbone for many things on the web including social media. The concept of social networking which started in the early 1990s has also been growing with the internet. Social Networking Sites (SNSs) sprung and stayed back to an important element of internet usage mainly due to the services or provisions they allow on the web. Twitter and Facebook have become the primary means by which most individuals keep in touch with others and carry on substantive conversations. These sites allow the posting of photos, videos and support audio and video storage on the sites which can be shared amongst users. Although an attractive option, these provisions have also culminated in issues for these sites like posting offensive material. Though not always, users of SNSs have their share in promoting hate by their words or speeches which is difficult to be curtailed after being uploaded in the media. Hence, this article outlines a process for extracting user reviews from the Twitter corpus in order to identify instances of hate speech. Through the use of MPCA (Modified Principal Component Analysis) and ECNN, we are able to identify instances of hate speech in the text (Enhanced Convolutional Neural Network). With the use of NLP, a fully autonomous system for assessing syntax and meaning can be established (NLP). There is a strong emphasis on pre-processing, feature extraction, and classification. Cleansing the text by removing extra spaces, punctuation, and stop words is what normalization is all about. In the process of extracting features, these features that have already been processed are used. During the feature extraction process, the MPCA algorithm is used. It takes a set of related features and pulls out the ones that tell us the most about the dataset we give itThe proposed categorization method is then put forth as a means of detecting instances of hate speech or abusive language. It is argued that ECNN is superior to other methods for identifying hateful content online. It can take in massive amounts of data and quickly return accurate results, especially for larger datasets. As a result, the proposed MPCA+ECNN algorithm improves not only the F-measure values, but also the accuracy, precision, and recall.

소량 및 불균형 능동소나 데이터세트에 대한 딥러닝 기반 표적식별기의 종합적인 분석 (Comprehensive analysis of deep learning-based target classifiers in small and imbalanced active sonar datasets)

  • 김근환;황용상;신성진;김주호;황수복;추영민
    • 한국음향학회지
    • /
    • 제42권4호
    • /
    • pp.329-344
    • /
    • 2023
  • 본 논문에서는 소량 및 불균형 능동소나 데이터세트에 적용된 다양한 딥러닝 기반 표적식별기의 일반화 성능을 종합적으로 분석하였다. 서로 다른 시간과 해역에서 수집된 능동소나 실험 데이터를 이용하여 두 가지 능동소나 데이터세트를 생성하였다. 데이터세트의 각 샘플은 탐지 처리 이후 탐지된 오디오 신호로부터 추출된 시간-주파수 영역 이미지이다. 표적식별기의 신경망 모델은 다양한 구조를 가지는 22개의 Convolutional Neural Networks(CNN) 모델을 사용하였다. 실험에서 두 가지 데이터세트는 학습/검증 데이터세트와 테스트 데이터세트로 번갈아 가며 사용되었으며, 표적식별기 출력의 변동성을 계산하기 위해 학습/검증/테스트를 10번 반복하고 표적식별 성능을 분석하였다. 이때 학습을 위한 초매개변수는 베이지안 최적화를 이용하여 최적화하였다. 실험 결과 본 논문에서 설계한 얕은 층을 가지는 CNN 모델이 대부분의 깊은 층을 가지는 CNN 모델보다 견실하면서 우수한 일반화 성능을 가지는 것을 확인하였다. 본 논문은 향후 딥러닝 기반 능동소나 표적식별 연구에 대한 방향성을 설정할 때 유용하게 사용될 수 있다.

CNN 기반 스펙트로그램을 이용한 자유발화 음성감정인식 (Spontaneous Speech Emotion Recognition Based On Spectrogram With Convolutional Neural Network)

  • 손귀영;권순일
    • 정보처리학회 논문지
    • /
    • 제13권6호
    • /
    • pp.284-290
    • /
    • 2024
  • 음성감정인식(Speech Emotion Recognition, SER)은 사용자의 목소리에서 나타나는 떨림, 어조, 크기 등의 음성 패턴 분석을 통하여 감정 상태를 판단하는 기술이다. 하지만, 기존의 음성 감정인식 연구는 구현된 시나리오를 이용하여 제한된 환경 내에서 숙련된 연기자를 대상으로 기록된 음성인 구현발화를 중심의 연구로 그 결과 또한 높은 성능을 얻을 수 있지만, 이에 반해 자유발화 감정인식은 일상생활에서 통제되지 않는 환경에서 이루어지기 때문에 기존 구현발화보다 현저히 낮은 성능을 보여주고 있다. 본 논문에서는 일상적 자유발화 음성을 활용하여 감정인식을 진행하고, 그 성능을 향상하고자 한다. 성능평가를 위하여 AI Hub에서 제공되는 한국인 자유발화 대화 음성데이터를 사용하였으며, 딥러닝 학습을 위하여 1차원의 음성신호를 시간-주파수가 포함된 2차원의 스펙트로그램(Spectrogram)로 이미지 변환을 진행하였다. 생성된 이미지는 CNN기반 전이학습 신경망 모델인 VGG (Visual Geometry Group) 로 학습하였고, 그 결과 7개 감정(기쁨, 사랑스러움, 화남, 두려움, 슬픔, 중립, 놀람)에 대해서 성인 83.5%, 청소년 73.0%의 감정인식 성능을 확인하였다. 본 연구를 통하여, 기존의 구현발화기반 감정인식 성능과 비교하면, 낮은 성능이지만, 자유발화 감정표현에 대한 정량화할 수 있는 음성적 특징을 규정하기 어려움에도 불구하고, 일상생활에서 이루어진 대화를 기반으로 감정인식을 진행한 점에서 의의를 두고자 한다.

초임 중등 과학 교사의 수업에서 과학 내용의 전개 방식과 내용 이해 전략 (Beginning Science Teachers' Teaching Practice in Relation to Arranging Science Content and Sense-Making Strategy)

  • 안유민;김찬종;최승언
    • 한국과학교육학회지
    • /
    • 제26권6호
    • /
    • pp.691-702
    • /
    • 2006
  • 본 연구는 초임 중등 과학 교사의 과학 수업에서 교과 내용 전개방식, 내용 이해 전략과 갈등 요인을 알아보는데 그 목적이 있다. 여섯 명의 초임 중등 과학 교사가 이 연구에 참여하였다. 연구 참여 교사의 과학 수업을 참여 관찰하고, 녹화하였으며, 수업이 끝난 직후에 초임 교사를 대상으로 반구조화된 면담을 실시하였다. 녹화되고 녹음된 모든 자료는 전사되었으며, 미시건 주립대학에서 개발한 분석틀을 수정하여 분석에 사용하였다. 본 연구의 결과는 다음과 같다. 첫째, 초임 중등 과학 교사들은 교과 내용의 전달에 치중하는 전통적 과학 수업을 지향하는 내용 전개 방식을 주로 활용하고 있다. 둘째, 초임 중등 과학 교사들의 내용 이해 전략은 비교적 낮은 수준인 절차적 나열과 내러티브 추론 전략이다. 셋째, 연구에 참여한 초임 교사의 지향에 부정적인 영향을 미치는 요인은 입시 준비와 같은 사회적 요구와 선배 동료 교사와의 의견 불일치였다. 마지막으로 혁신적인 과학 수업의 장애 요인으로는 입시준비와 같은 사회적 요구 이외 에도 이전 교육 경험, 혁신적인 과학 수업에 대한 인식 및 준비 부족, 초임 교사를 위한 전문적 도움이나 전문성 계발을 위한 체계적인 프로그램의 부재이다.

합성곱 신경망의 비지니스 응용: 런웨이 이미지를 사용한 의류 분류를 중심으로 (Business Application of Convolutional Neural Networks for Apparel Classification Using Runway Image)

  • 서이안;신경식
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.1-19
    • /
    • 2018
  • 최근 딥러닝은 오디오, 텍스트 및 이미지 데이터와 같은 비 체계적인 데이터를 대상으로 다양한 추정, 분류 및 예측 문제에 사용 및 적용되고 있다. 특히, 의류산업에 적용될 경우 딥러닝 기법을 활용한 의류 인식, 의류 검색, 자동 제품 추천 등의 심층 학습을 기반으로 한 응용이 가능하다. 이 때의 핵심모형은 합성곱 신경망을 사용한 이미지 분류이다. 합성곱 신경망은 입력이 전달되고 출력에 도달하는 과정에서 가중치와 같은 매개 변수를 학습하는 뉴런으로 구성되고, 영상 분류에 가장 적합한 방법론으로 사용된다. 기존의 의류 이미지 분류 작업에서 대부분의 분류 모형은 의류 이미지 자체 또는 전문모델 착용 의류와 같이 통제된 상황에서 촬영되는 온라인 제품 이미지를 사용하여 학습을 수행한다. 하지만 본 연구에서는 통제되지 않은 상황에서 촬영되고 사람들의 움직임과 다양한 포즈가 포함된 스트릿 패션 이미지 또는 런웨이 이미지를 분류하려는 상황을 고려하여 분류 모형을 훈련시키는 효과적인 방법을 제안한다. 이동성을 포착하는 런웨이 의류 이미지로 모형을 학습시킴으로써 분류 모형의 다양한 쿼리 이미지에 대한 적응력을 높일 수 있다. 모형 학습 시 먼저 ImageNet 데이터셋을 사용하여 pre-training 과정을 거치고 본 연구를 위해 수집된 32 개 주요 패션 브랜드의 2426개 런웨이 이미지로 구성된 데이터셋을 사용하여 fine-tuning을 수행한다. 학습 과정의 일반화를 고려해 10번의 실험을 수행하고 제안된 모형은 최종 테스트에서 67.2 %의 정확도를 기록했다. 본 연구 모형은 쿼리 이미지가 런웨이 이미지, 제품 이미지 또는 스트릿 패션 이미지가 될 수 있는 다양한 분류 환경에 적용될 수 있다. 구체적으로는 패션 위크에서 모바일 어플리케이션 서비스를 통해 브랜드 검색을 용이하게 하는 서비스를 제공하거나, 패션 잡지사의 편집 작업에 사용되어 브랜드나 스타일을 분류하고 라벨을 붙일 수 있으며, 온라인 쇼핑몰에서 아이템 정보를 제공하거나 유사한 아이템을 추천하는 등의 다양한 목적에 적용될 수 있다.

한국형 멀티모달 몽타주 앱을 위한 생성형 AI 연구 (Research on Generative AI for Korean Multi-Modal Montage App)

  • 임정현;차경애;고재필;홍원기
    • 서비스연구
    • /
    • 제14권1호
    • /
    • pp.13-26
    • /
    • 2024
  • 멀티모달 (multi-modal) 생성이란 텍스트, 이미지, 오디오 등 다양한 정보를 기반으로 결과를 도출하는 작업을 말한다. AI 기술의 비약적인 발전으로 인해 여러 가지 유형의 데이터를 종합적으로 처리해 결과를 도출하는 멀티모달 기반 시스템 또한 다양해지는 추세이다. 본 논문은 음성과 텍스트 인식을 활용하여 인물을 묘사하면, 몽타주 이미지를 생성하는 AI 시스템의 개발 내용을 소개한다. 기존의 몽타주 생성 기술은 서양인들의 외형을 기준으로 이루어진 반면, 본 논문에서 개발한 몽타주 생성 시스템은 한국인의 안면 특징을 바탕으로 모델을 학습한다. 따라서, 한국어에 특화된 음성과 텍스트의 멀티모달을 기반으로 보다 정확하고 효과적인 한국형 몽타주 이미지를 만들어낼 수 있다. 개발된 몽타주 생성 앱은 몽타주 초안으로 충분히 활용 가능하기 때문에 기존의 몽타주 제작 인력의 수작업을 획기적으로 줄여줄 수 있다. 이를 위해 한국지능정보사회진흥원의 AI-Hub에서 제공하는 페르소나 기반 가상 인물 몽타주 데이터를 활용하였다. AI-Hub는 AI 기술 및 서비스 개발에 필요한 인공지능 학습용 데이터를 구축하여 원스톱 제공을 목적으로 한 AI 통합 플랫폼이다. 이미지 생성 시스템은 고해상도 이미지를 생성하는데 사용하는 딥러닝 모델인 VQGAN과 한국어 기반 영상생성 모델인 KoDALLE 모델을 사용하여 구현하였다. 학습된 AI 모델은 음성과 텍스트를 이용해 묘사한 내용과 매우 유사한 얼굴의 몽타주 이미지가 생성됨을 확인할 수 있다. 개발된 몽타주 생성 앱의 실용성 검증을 위해 10명의 테스터가 사용한 결과 70% 이상이 만족한다는 응답을 보였다. 몽타주 생성 앱은 범죄자 검거 등 얼굴의 특징을 묘사하여 이미지화하는 여러 분야에서 다양하게 사용될 수 있을 것이다.

PoC Box 단말의 RTSP 운용을 위한 사용자 요구 중심의 효율적인 다중 수신 버퍼링 기법 및 패킷화 방법에 대한 성능 분석에 관한 연구 (A Study of Performance Analysis on Effective Multiple Buffering and Packetizing Method of Multimedia Data for User-Demand Oriented RTSP Based Transmissions Between the PoC Box and a Terminal)

  • 방지웅;김대원
    • 한국멀티미디어학회논문지
    • /
    • 제14권1호
    • /
    • pp.54-75
    • /
    • 2011
  • PoC(Push-to-talk Over Cellular)는 그룹 음성 및 영상 통화와 인터넷, 멀티미디어 서비스를 통합한 단말 기술이다. PoC는 부재, 긴급 상황, 배터리 방전 등과 같은 다양한 이유로 인해 PoC 세션에 참여하지 못하는 사용자에게 종래 MMS 서비스에서의 MM Box와 비슷한 기능을 가진 PoC Box를 사용하는 기능을 제공하고 있다. PoC 표준안에서는 PoC Box에서 PoC 단말로 미디어 전송 시 RTSP (Real-Time Streaming Protocol)를 사용하도록 권장하고 있다. 기존의 RTSP를 적용한 VOD 서비스의 경우는 빠른 유선 네트워크 망을 고려하여 패킷의 크기를 크게 구현하는 반면 PoC 서비스는 무선 통신 환경이기 때문에 이러한 특성을 고려한 RTSP 전송 방법이 필요하다. 무선 통신 환경에서는 패킷의 손실률이 비교적 유선 통신 환경에서보다 다소 높기 때문에 PoC 단말 측에서 미디어 재생 시 화면 끊김 현상, 영상과 음성의 비동기화 발생, 버퍼링 대기 시간 등이 발생한다. 따라서 PoC 단말 측에서의 이러한 문제점은 사용자가 미디어 콘텐츠를 재생하는데 있어 자신이 원하는 정보를 빠르게 습득하기 어렵게 만든다. 본 논문에서는 RTSP를 이용하여 사용자가 미디어 검색 시 단시간 내에 전송되는 미디어에서 효과적으로 중요한 정보를 습득하고 재생 지연 현상을 줄일 수 있는 "교차 이중 수신 버퍼링 기법", "사전 분할 다중 수신 버퍼링 기법", "On-Demand 다중 수신 버퍼링 기법"과 전송 시 미디어 데이터의 패킷화 방법인 "동일 순위 패킷화 전송 방식", "우선 순위 패킷화 전송 방식"을 제안하였고 실험을 통해 그 성능의 적정성 및 우수성을 검증하였다. 실시된 시뮬레이션 성능 평가에서 사용자의 미디어 검색 성향에 따라 제안된 다중 수신 버퍼링 및 패킷화 방식이 기존 단일 수신 버퍼링 방식과 비교하여 효율성 및 우수성 평가에서 6-9점 이상 우수한 결과를 보였다. 그 중 On-Demand 다중 수신 버퍼링 기법은 동일순위 패킷화 방법과 사용될 때 타 기법과 비교하여 3-24점 사이의 우수성을 보임으로써 사용자의 다양한 미디어 검색 성향에 대해 빠르게 대응할 수 있었다. 또한 단시간 내에 사용자가 집중적으로 미디어 검색이 이루어지는 재생 시간대에 대해 많은 미디어 데이터를 수신 받기 때문에 단말 사용자에게 빠른 정보를 제공할 수 있었다.