• Title/Summary/Keyword: 변환기반 학습

Search Result 418, Processing Time 0.028 seconds

Enhancing Korean Alphabet Unit Speech Recognition with Neural Network-Based Alphabet Merging Methodology (한국어 자모단위 음성인식 결과 후보정을 위한 신경망 기반 자모 병합 방법론)

  • Solee Im;Wonjun Lee;Gary Geunbae Lee;Yunsu Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.659-663
    • /
    • 2023
  • 이 논문은 한국어 음성인식 성능을 개선하고자 기존 음성인식 과정을 자모단위 음성인식 모델과 신경망 기반 자모 병합 모델 총 두 단계로 구성하였다. 한국어는 조합어 특성상 음성 인식에 필요한 음절 단위가 약 2900자에 이른다. 이는 학습 데이터셋에 자주 등장하지 않는 음절에 대해서 음성인식 성능을 저하시키고, 학습 비용을 높이는 단점이 있다. 이를 개선하고자 음절 단위의 인식이 아닌 51가지 자모 단위(ㄱ-ㅎ, ㅏ-ㅞ)의 음성인식을 수행한 후 자모 단위 인식 결과를 음절단위의 한글로 병합하는 과정을 수행할 수 있다[1]. 자모단위 인식결과는 초성, 중성, 종성을 고려하면 규칙 기반의 병합이 가능하다. 하지만 음성인식 결과에 잘못인식된 자모가 포함되어 있다면 최종 병합 결과에 오류를 생성하고 만다. 이를 해결하고자 신경망 기반의 자모 병합 모델을 제시한다. 자모 병합 모델은 분리되어 있는 자모단위의 입력을 완성된 한글 문장으로 변환하는 작업을 수행하고, 이 과정에서 음성인식 결과로 잘못인식된 자모에 대해서도 올바른 한글 문장으로 변환하는 오류 수정이 가능하다. 본 연구는 한국어 음성인식 말뭉치 KsponSpeech를 활용하여 실험을 진행하였고, 음성인식 모델로 Wav2Vec2.0 모델을 활용하였다. 기존 규칙 기반의 자모 병합 방법에 비해 제시하는 자모 병합 모델이 상대적 음절단위오류율(Character Error Rate, CER) 17.2% 와 단어단위오류율(Word Error Rate, WER) 13.1% 향상을 확인할 수 있었다.

  • PDF

Dynamic Training Algorithm for Hand Gesture Recognition System (손동작 인식 시스템을 위한 동적 학습 알고리즘)

  • Shim Jae-Rok;Park Ho-Sik;Kim Tae-Woo;Ra Sang-Dong;Bae Cheol-Soo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.05a
    • /
    • pp.701-704
    • /
    • 2006
  • 본 논문에서는 카메라-투영 시스템에서 비전에 기반을 둔 손동작 인식을 위한 새로운 알고리즘을 제안하고 있다. 제안된 인식방법은 정적인 손동작 분류를 위하여 푸리에 변환을 사용하였다. 손분할은 개선된 배경 제거 방법을 사용하였다. 대부분의 인식방법들이 같은 피검자에 의해 학습과 실험이 이루어지고 상호작용에 이전에 학습단계가 필요하다. 그러나 학습되지 않은 다양한 상황에 대해서도 상호작용을 위해 동작 인식이 요구된다. 그러므로 본 논문에서는 인식 작업 중에 검출된 불완전한 동작들을 정정하여 적용하였다. 그 결과 사용자와 독립되게 동작을 인식함으로써 새로운 사용자에게 신속하게 온라인 적용이 가능하였다.

  • PDF

The Melody Composition by using Neural Network (신경망 기반의 멜로디 작곡법)

  • Jo, JaeYoung;Kim, YoonHo
    • The Journal of Korea Institute of Information, Electronics, and Communication Technology
    • /
    • v.1 no.3
    • /
    • pp.77-82
    • /
    • 2008
  • In this paper, in the middle of progressing popular music chord, a method of inserting melody is addressed, which utilized by analyzing chord progress pattern. Firstly, a method for transforming melody into bit pattern which is to be used for neural network input is described. In order to insert the melody, composition pattern is learned from back propagation neural network, and based on these data new melody is to be generated. Experimental results verified the possibility of neural network based computer composition.

  • PDF

Implementation of IoT training system for piano practicing (피아노 학습을 위한 IoT 훈련시스템 구현)

  • Ryu, Sungryong;Yu, Gangeun;Kim, Dayeong;Park, Hyung-kun
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2022.10a
    • /
    • pp.526-528
    • /
    • 2022
  • In this study, through the capstone design project, an IoT based piano training system was developed after identifying problems in piano learning. The piano training system recognizes sheet music through image processing technology and checks whether the correct keyboard is struck through FFT transformation during piano practicing. By providing a visual effect and score display function using a rhythm game, it was possible to arouse interest in boring piano practice and increase the effect of piano learning.

  • PDF

A Study for Generation of Artificial Lunar Topography Image Dataset Using a Deep Learning Based Style Transfer Technique (딥러닝 기반 스타일 변환 기법을 활용한 인공 달 지형 영상 데이터 생성 방안에 관한 연구)

  • Na, Jong-Ho;Lee, Su-Deuk;Shin, Hyu-Soung
    • Tunnel and Underground Space
    • /
    • v.32 no.2
    • /
    • pp.131-143
    • /
    • 2022
  • The lunar exploration autonomous vehicle operates based on the lunar topography information obtained from real-time image characterization. For highly accurate topography characterization, a large number of training images with various background conditions are required. Since the real lunar topography images are difficult to obtain, it should be helpful to be able to generate mimic lunar image data artificially on the basis of the planetary analogs site images and real lunar images available. In this study, we aim to artificially create lunar topography images by using the location information-based style transfer algorithm known as Wavelet Correct Transform (WCT2). We conducted comparative experiments using lunar analog site images and real lunar topography images taken during China's and America's lunar-exploring projects (i.e., Chang'e and Apollo) to assess the efficacy of our suggested approach. The results show that the proposed techniques can create realistic images, which preserve the topography information of the analog site image while still showing the same condition as an image taken on lunar surface. The proposed algorithm also outperforms a conventional algorithm, Deep Photo Style Transfer (DPST) in terms of temporal and visual aspects. For future work, we intend to use the generated styled image data in combination with real image data for training lunar topography objects to be applied for topographic detection and segmentation. It is expected that this approach can significantly improve the performance of detection and segmentation models on real lunar topography images.

Analysis on the Argumentation Pattern and Level of Students' Mental Models in Modeling-based Learning about Geologic Structures (지질구조에 대한 모델링기반 학습에서 나타나는 논증패턴과 정신모형 수준에 대한 분석)

  • Park, Su-Kyeong
    • Journal of The Korean Association For Science Education
    • /
    • v.35 no.5
    • /
    • pp.919-929
    • /
    • 2015
  • This study aims to develop a modeling-based learning program about geologic structures and to reveal the relationship between the argumentation patterns and levels of students' mental models. Participants included 126 second grade high school students in four sessions of modeling-based learning regarding continental drift, oceanic ridges, transform faults, and characteristics of faults. A modeling-based learning program was implemented in two classes of the experimental group, and teacher-centered traditional classes were carried out for the other students in the comparison group. Science achievement scores and the distribution of students' mental models in experimental and comparison groups were quantitatively compared. The video-taped transcripts of five teams' argumentation were qualitatively analyzed based on the analytic framework developed in the study. The analytic framework for coding students' argumentation in the modeling-based learning was composed of five components of TAP and the corresponding components containing alternative concepts. The results suggest that the frequencies of causal two-dimensional model and cubic model were high in the experimental group, while the frequencies of simple two-dimensional model and simple cross sectional model were high in the comparison group. The higher the frequency of claims, an argumentation pattern was proven successful, and the level of mental model was higher. After the rebuttal was suggested, students observed the model again and claimed again according to new data. Therefore, the model could be confirmed as having a positive impact on students' argumentation process.

Extracting Arrhythmia Classification Fuzzy Rules Using A Neural Network And Wavelet Transform (퍼지 신경망과 웨이블릿 변환을 이용한 부정맥 분류 퍼지규칙의 추출)

  • Kim Deok-Yong;Lim JoonShik
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2005.11a
    • /
    • pp.110-113
    • /
    • 2005
  • 본 논문은 가중 퍼지소속함수 기반 신경망(Neural Network with Weighted fuzzy Membership Funcstions, NEWFM)을 이용하여 심전도 신호로부터 조기심실수축(Premature Ventricular Contraction, PVC)을 판별하는 퍼지규칙을 추출하고 있다. NEWFM은 자기적응적(self adaptive) 가중 퍼지소속함수를 가지고 주어진 입력 데이터로부터 학습하여 퍼지규칙을 생성하고 이를 기반으로 정상 파형과 PVC 파형을 구분한다. 분류 성능 평가를 위하여 MIT/BIH 부정맥 데이터 베이스를 사용하였으며, NEWFM의 입력은 심전도의 파형에 웨이블릿 변환을 적용하여 추출된 웨이블릿 계수를 사용하였다. 여기에 비중복면적 분산 측정법을 적용하여 중요도가 낮은 계수를 제거하면서 최소의 m 개 특징입력만을 사용한 하이퍼박스로 단순화 시킨다. 이러한 방법으로 추출된 2개의 웨이블릿 계수를 사용한 퍼지규칙은 $96\%$의 PVC 분류성능을 보여준다.

  • PDF

Boundary-enhanced SAR Water Segmentation using Adversarial Learning of Deep Neural Networks (적대적 학습 개념을 도입한 경계 강화 SAR 수체탐지 딥러닝 모델)

  • Hwisong Kim;Duk-jin Kim;Junwoo Kim;Seungwoo Lee
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.2-2
    • /
    • 2023
  • 기후변화가 가속화로 인해 수재해의 빈도와 강도 예측이 어려워짐에 따라 실시간 홍수 모니터링에 대한 수요가 증가하고 있다. 합성개구레이다는 광원과 날씨에 무관하게 촬영이 가능하여 수재해 발생시에도 영상을 확보할 수 있다. 합성개구레이다를 활용한 수체 탐지 알고리즘 개발이 활발히 연구되어 왔고, 딥러닝의 발달로 CNN을 활용하여 높은 정확도로 수체 탐지가 기능해졌다. 하지만, CNN 기반 수체 탐지 모델은 훈련시 높은 정량적 정확성 지표를 달성하여도 추론 후 정성적 평가시 경계와 소하천에 대한 탐지 정확성이 떨어진다. 홍수 모니터링에서 특히 중요한 정보인 경계와 좁은 하천에 대해서 정확성이 떨어짐에 따라 실생활 적용이 어렵다. 이에 경계를 강화한 적대적 학습 기반의 수체 탐지 모델을 개발하여 더 세밀하고 정확하게 탐지하고자 한다. 적대적 학습은 생성적 적대 신경망(GAN)의 두 개의 모델인 생성자와 판별자가 서로 관여하며 더 높은 정확도를 달성할 수 있도록 학습이다. 이러한 적대적 학습 개념을 수체 탐지 모델에 처음으로 도입하여, 생성자는 실제 라벨 데이터와 유사하게 수체 경계와 소하천까지 탐지하고자 학습한다. 반면 판별자는 경계 거리 변환 맵과 합성개구레이다 영상을 기반으로 라벨데이터와 수체 탐지 결과를 구분한다. 경계가 강화될 수 있도록, 면적과 경계를 모두 고려할 수 있는 손실함수 조합을 구성하였다. 제안 모델이 경계와 소하천을 정확히 탐지하는지 판단하기 위해, 정량적 지표로 F1-score를 사용하였으며, 육안 판독을 통해 정성적 평가도 진행하였다. 기존 U-Net 모델이 탐지하지 못하던 영역에 대해 제안한 경계 강화 적대적 수체 탐지 모델이 수체의 세밀한 부분까지 탐지할 수 있음을 증명하였다.

  • PDF

A Study on the Deep Learning-Based Textbook Questionnaires Detection Experiment (딥러닝 기반 교재 문항 검출 실험 연구)

  • Kim, Tae Jong;Han, Tae In;Park, Ji Su
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.11
    • /
    • pp.513-520
    • /
    • 2021
  • Recently, research on edutech, which combines education and technology in the e-learning field called learning, education and training, has been actively conducted, but it is still insufficient to collect and utilize data tailored to individual learners based on learning activity data that can be automatically collected from digital devices. Therefore, this study attempts to detect questions in textbooks or problem papers using artificial intelligence computer vision technology that plays the same role as human eyes. The textbook or questionnaire item detection model proposed in this study can help collect, store, and analyze offline learning activity data in connection with intelligent education services without digital conversion of textbooks or questionnaires to help learners provide personalized learning services even in offline learning.

MHP-based SCORM Contents Trans-Coding System for DiTV Service (DiTV 서비스를 위한 MHP 기반의 SCORM 콘텐츠 트랜스코딩 시스템)

  • Im, Seung-Hyun;Lee, Si-Hwa;Hwang, Dae-Hoon
    • Journal of Korea Multimedia Society
    • /
    • v.10 no.5
    • /
    • pp.642-651
    • /
    • 2007
  • Recently, digital convergence, whose core demand is OSMU (One Sourse Multi Use),has been the main topic in e-learning domain and industry. However, the existing web learning content and the new resource developed toprovide contents to different learning environment must be processed to adapt the new learning settings, which causes the cost and time problem, So in this paper we design and implement a Java based SCORM content transcoding system which can transcode the SCORM-based learning content into MHP-based DiTV content in order to adapt t-learning environment using DiTV, which is closer to our real life. Using this system which has ability of inter-operation, reuse, highly-use, the problem mentioned above can be solved well. Moreover, it is possible for a learner who is not familiar with computer to study using DiTV instead of PC.

  • PDF