• 제목/요약/키워드: 준지도 학습

검색결과 68건 처리시간 0.018초

잡음 학생 모델 기반의 자가 학습을 활용한 음향 사건 검지 (Sound event detection model using self-training based on noisy student model)

  • 김남균;박창수;김홍국;허진욱;임정은
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.479-487
    • /
    • 2021
  • 본 논문에서는 잡음 학생 모델 기반의 자가 학습을 활용한 음향 사건 검지 기법을 제안한다. 제안된 음향 사건 검지 모델은 두 단계로 구성된다. 첫 번째 단계에서는 잔차 합성곱 순환 신경망(Residual Convolutional Recurrent Neural Network, RCRNN)을 훈련하여 레이블이 지정되지 않은 비표기 데이터셋의 레이블 예측에 활용한다. 두 번째 단계에서는 세 가지 잡음 종류를 적용한 잡음 학생 모델을 자가학습 기법으로 반복하여 학습한다. 여기서 잡음 학생 모델은 SpecAugment, Mixup, 시간-주파수 이동을 활용한 특징 잡음, 드롭아웃을 활용한 모델 잡음, 그리고 semi-supervised loss function을 적용한 레이블 잡음을 활용하여 학습된다. 제안된 음향 사건 검지 모델의 성능은 Detection and Classification of Acoustic Scenes and Events(DCASE) 2020 Challenge Task 4의 validation set으로 평가하였다. DCASE 2020 챌린지 데이터셋의 baseline 및 최상위 랭크된 모델과 이벤트 단위 F1 점수 성능을 비교한 결과, 제안된 음향 사건 검지 모델이 단일 모델과 앙상블 모델에서 최상위 모델 대비 F1 점수를 각각 4.6 %와 3.4 % 향상시켰다.

한국어 서답형 문항 자동채점 시스템의 성능 개선 (Performance Comparison of Automated Scoring System for Korean Short-Answer Questions)

  • 천민아;김창현;김재훈;노은희;성경희;송미영;박종임;김유향
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.181-185
    • /
    • 2016
  • 최근 교육과정에서 학생들의 능력 평가는 단순 암기보다 학생들의 종합적인 사고력을 판단할 수 있는 서답형 문항을 늘리는 방향으로 변하고 있다. 그러나 서답형 문항의 경우 채점하는 데 시간과 비용이 많이 들고, 채점자의 주관에 따라 채점 결과의 일관성과 신뢰성을 보장하기 어렵다는 문제가 있다. 이런 점을 해결하기 위해 해외의 사례를 참고하여 국내에서도 서답형 문항에 자동채점 시스템을 적용하는 연구를 진행하고 있다. 본 논문에서는 2014년도에 개발된 '한국어 문장 수준 서답형 문항 자동채점 시스템'의 성능분석을 바탕으로 언어 처리 기능과 자동채점 성능을 개선한 2015년도 자동채점 시스템을 간략하게 소개하고, 각 자동채점 시스템의 성능을 비교 분석한다. 성능 분석 대상으로는 2014년도 국가수준 학업성취도평가의 서답형 문항을 사용했다. 실험 결과, 개선한 시스템의 평균 완전 일치도와 평균 정확률이 기존의 시스템보다 각각 9.4%p, 8.9%p 증가했다. 자동채점 시스템의 목적은 가능한 채점 시간을 단축하면서 채점 기준의 일관성과 신뢰성을 확보하는 데 있으므로, 보완한 2015년 자동채점 시스템의 성능이 향상되었다고 판단할 수 있다.

  • PDF

한국어 서답형 문항 자동채점 시스템의 성능 개선 (Performance Comparison of Automated Scoring System for Korean Short-Answer Questions)

  • 천민아;김창현;김재훈;노은희;성경희;송미영;박종임;김유향
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.181-185
    • /
    • 2016
  • 최근 교육과정에서 학생들의 능력 평가는 단순 암기보다 학생들의 종합적인 사고력을 판단할 수 있는 서답형 문항을 늘리는 방향으로 변하고 있다. 그러나 서답형 문항의 경우 채점하는 데 시간과 비용이 많이 들고, 채점자의 주관에 따라 채점 결과의 일관성과 신뢰성을 보장하기 어렵다는 문제가 있다. 이런 점을 해결하기 위해 해외의 사례를 참고하여 국내에서도 서답형 문항에 자동채점 시스템을 적용하는 연구를 진행하고 있다. 본 논문에서는 2014년도에 개발된 '한국어 문장 수준 서답형 문항 자동채점 시스템'의 성능분석을 바탕으로 언어 처리 기능과 자동채점 성능을 개선한 2015년도 자동채점 시스템을 간략하게 소개하고, 각 자동채점 시스템의 성능을 비교 분석한다. 성능 분석 대상으로는 2014년도 국가수준 학업성취도평가의 서답형 문항을 사용했다. 실험 결과, 개선한 시스템의 평균 완전 일치도와 평균 정확률이 기존의 시스템보다 각각 9.4%p, 8.9%p 증가했다. 자동채점 시스템의 목적은 가능한 채점 시간을 단축하면서 채점 기준의 일관성과 신뢰성을 확보하는 데 있으므로, 보완한 2015년 자동채점 시스템의 성능이 향상되었다고 판단할 수 있다.

  • PDF

이상탐지 알고리즘 성능 비교: 이상치 유형과 데이터 속성 관점에서 (Performance Comparison of Anomaly Detection Algorithms: in terms of Anomaly Type and Data Properties)

  • 김재웅;정승렬;김남규
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.229-247
    • /
    • 2023
  • 여러 분야에서 이상탐지의 중요성이 강조됨에 따라, 다양한 데이터 유형과 이상치 유형에 대한 이상탐지 알고리즘이 개발되고 있다. 하지만 이상탐지 알고리즘의 성능은 주로 공개 데이터 세트에 대해 측정될 뿐 특정 유형의 이상치에서 나타나는 각 알고리즘의 성능은 확인되지 않고 있으므로, 분석 상황에 맞는 적절한 이상탐지 알고리즘 선택에 어려움이 있다. 이에 본 논문에서는 이상치의 유형과 다양한 데이터 속성을 먼저 파악하여, 이를 기반으로 적절한 이상탐지 알고리즘 선택에 도움을 줄 수 있는 방안을 제시하고자 한다. 구체적으로 본 연구에서는 지역, 전역, 종속성, 그리고 군집화의 총 4가지 이상치 유형에 대해 이상탐지 알고리즘의 성능을 비교하고, 추가 분석을 통해 라벨 수준, 데이터 개수, 그리고 차원 수가 성능에 미치는 영향을 확인한다. 실험 결과 이상치 유형에 따라 가장 우수한 성능을 나타내는 알고리즘이 다르게 나타나며, 이상치 유형에 대한 정보가 없는 경우에도 안정적인 성능을 보여주는 알고리즘을 확인했다. 또한 비지도 학습 기반 이상탐지 알고리즘의 성능이 지도 학습 및 준지도 학습 알고리즘의 성능보다 낮게 나타나는 유형을 확인하였다. 마지막으로 데이터 개수가 상대적으로 적거나 많을 때 대부분 알고리즘들의 성능이 이상치 유형에 더 강하게 영향을 받으며, 상대적으로 고차원일 경우 지역, 전역 이상치에서는 우수한 성능을 보였지만 군집화 이상치 유형에서 낮은 성능을 나타냄을 확인하였다.

'빅데이터' 분석 기반 한국사 연구의 현황과 가능성: 디지털 역사학의 시작 (Conditions and potentials of Korean history research based on 'big data' analysis: the beginning of 'digital history')

  • 이상국
    • 응용통계연구
    • /
    • 제29권6호
    • /
    • pp.1007-1023
    • /
    • 2016
  • 본 글은 역사학, 그 중에서 한국사 연구에서 활용 가능한 빅데이터 분석 방법론을 모색하고, 이를 활용한 '디지털 역사학'의 가능성을 검토하는 것을 목적으로 한다. 방대한 '한국사 빅데이터'를 활용한 한국사 연구를 위해서는 기존의 질적분석 방법론뿐만 아니라 양적분석 방법론이 모색되어야 한다. 이를 위해서는 다양한 학문 분야와의 학제 간 융합연구가 요청된다. 본 글에서는 '한국사 빅데이터'를 활용한 다양한 융합연구의 출현을 고대하면서, 학제 간 융합연구의 연구방법론을 제안하고, 이를 적용한 연구의 한 사례를 소개하였다. 즉, 문장의 의미를 분석하는 텍스트 분석방법으로 '한국사 빅데이터'에서 원하는 정보를 추출한다면, 양적분석 방법론의 단점으로 지적되는 '행간의 의미읽기의 부재'를 점차 보완해 갈 수 있을 것이다. 그리고 이러한 방법론으로 구축한 데이터베이스를 바탕으로 준지도 학습(Semi-Supervised Learning) 방법론을 적용할 경우, 사료가 충분하지 않은 전근대 한국사의 역사적 인물과 사건들을 분석하는데 유용하게 활용될 것으로 기대된다. 분석 결과를 직관적으로 보여주는 시각화를 통해서도 평면적 연구에서 찾아내지 못한 역사적 사실들을 밝혀낼 수 있을 것이다. 이제 '디지털 역사학'의 서막이 오른 것이다.

제조 공정 결함 탐지를 위한 MixMatch 기반 준지도학습 성능 분석 (Performance Analysis of MixMatch-Based Semi-Supervised Learning for Defect Detection in Manufacturing Processes)

  • 김예준;정예은;김용수
    • 산업경영시스템학회지
    • /
    • 제46권4호
    • /
    • pp.312-320
    • /
    • 2023
  • Recently, there has been an increasing attempt to replace defect detection inspections in the manufacturing industry using deep learning techniques. However, obtaining substantial high-quality labeled data to enhance the performance of deep learning models entails economic and temporal constraints. As a solution for this problem, semi-supervised learning, using a limited amount of labeled data, has been gaining traction. This study assesses the effectiveness of semi-supervised learning in the defect detection process of manufacturing using the MixMatch algorithm. The MixMatch algorithm incorporates three dominant paradigms in the semi-supervised field: Consistency regularization, Entropy minimization, and Generic regularization. The performance of semi-supervised learning based on the MixMatch algorithm was compared with that of supervised learning using defect image data from the metal casting process. For the experiments, the ratio of labeled data was adjusted to 5%, 10%, 25%, and 50% of the total data. At a labeled data ratio of 5%, semi-supervised learning achieved a classification accuracy of 90.19%, outperforming supervised learning by approximately 22%p. At a 10% ratio, it surpassed supervised learning by around 8%p, achieving a 92.89% accuracy. These results demonstrate that semi-supervised learning can achieve significant outcomes even with a very limited amount of labeled data, suggesting its invaluable application in real-world research and industrial settings where labeled data is limited.

이질성 학습을 통한 문서 분류의 정확성 향상 기법 (Improving the Accuracy of Document Classification by Learning Heterogeneity)

  • 윌리엄;현윤진;김남규
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.21-44
    • /
    • 2018
  • 최근 인터넷 기술의 발전과 함께 스마트 기기가 대중화됨에 따라 방대한 양의 텍스트 데이터가 쏟아져 나오고 있으며, 이러한 텍스트 데이터는 뉴스, 블로그, 소셜미디어 등 다양한 미디어 매체를 통해 생산 및 유통되고 있다. 이처럼 손쉽게 방대한 양의 정보를 획득할 수 있게 됨에 따라 보다 효율적으로 문서를 관리하기 위한 문서 분류의 필요성이 급증하였다. 문서 분류는 텍스트 문서를 둘 이상의 카테고리 혹은 클래스로 정의하여 분류하는 것을 의미하며, K-근접 이웃(K-Nearest Neighbor), 나이브 베이지안 알고리즘(Naïve Bayes Algorithm), SVM(Support Vector Machine), 의사결정나무(Decision Tree), 인공신경망(Artificial Neural Network) 등 다양한 기술들이 문서 분류에 활용되고 있다. 특히, 문서 분류는 문맥에 사용된 단어 및 문서 분류를 위해 추출된 형질에 따라 분류 모델의 성능이 달라질 뿐만 아니라, 문서 분류기 구축에 사용된 학습데이터의 질에 따라 문서 분류의 성능이 크게 좌우된다. 하지만 현실세계에서 사용되는 대부분의 데이터는 많은 노이즈(Noise)를 포함하고 있으며, 이러한 데이터의 학습을 통해 생성된 분류 모형은 노이즈의 정도에 따라 정확도 측면의 성능이 영향을 받게 된다. 이에 본 연구에서는 노이즈를 인위적으로 삽입하여 문서 분류기의 견고성을 강화하고 이를 통해 분류의 정확도를 향상시킬 수 있는 방안을 제안하고자 한다. 즉, 분류의 대상이 되는 원 문서와 전혀 다른 특징을 갖는 이질적인 데이터소스로부터 추출한 형질을 원 문서에 일종의 노이즈의 형태로 삽입하여 이질성 학습을 수행하고, 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식의 규칙 선별 기반의 앙상블 준지도학습을 제안함으로써 문서 분류의 성능을 향상시키고자 한다.

영상 기반 Semantic Segmentation 알고리즘을 이용한 도로 추출 (Road Extraction from Images Using Semantic Segmentation Algorithm)

  • 오행열;전승배;김건;정명훈
    • 한국측량학회지
    • /
    • 제40권3호
    • /
    • pp.239-247
    • /
    • 2022
  • 현대에는 급속한 산업화와 인구 증가로 인해 도시들이 더욱 복잡해지고 있다. 특히 도심은 택지개발, 재건축, 철거 등으로 인해 빠르게 변화하는 지역에 해당한다. 따라서 자율주행에 필요한 정밀도로지도와 같은 다양한 목적을 위해 빠른 정보 갱신이 필요하다. 우리나라의 경우 기존 지도 제작 과정을 통해 지도를 제작하면 정확한 공간정보를 생성할 수 있으나 대상 지역이 넓은 경우 시간과 비용이 많이 든다는 한계가 있다. 지도 요소 중 하나인 도로는 인류 문명을 위한 많은 다양한 자원을 제공하는 중추이자 필수적인 수단에 해당한다. 따라서 도로 정보를 정확하고 신속하게 갱신하는 것이 중요하다. 이 목표를 달성하기 위해 본 연구는 Semantic Segmentation 알고리즘인 LinkNet, D-LinkNet 및 NL-LinkNet을 사용하여 광주광역시 도시철도 2호선 공사 현장을 촬영한 드론 정사영상에서 도로를 추출한 다음 성능이 가장 높은 모델에 하이퍼 파라미터 최적화를 적용하였다. 그 결과, 사전 훈련된 ResNet-34를 Encoder로 사용한 LinkNet 모델이 85.125 mIoU를 달성했다. 향후 연구 방향으로 최신 Semantic Segmentation 알고리즘 또는 준지도 학습 기반 Semantic Segmentation 기법을 사용하는 연구의 결과와의 비교 분석이 수행될 것이다. 본 연구의 결과는 기존 지도 갱신 프로세스의 속도를 개선하는 데 도움을 줄 수 있을 것으로 예상된다.