• 제목/요약/키워드: Classification of Difficulty

검색결과 247건 처리시간 0.025초

다중 레이블 분류의 정확도 향상을 위한 스킵 연결 오토인코더 기반 레이블 임베딩 방법론 (Label Embedding for Improving Classification Accuracy UsingAutoEncoderwithSkip-Connections)

  • 김무성;김남규
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.175-197
    • /
    • 2021
  • 최근 딥 러닝 기술의 발전으로 뉴스, 블로그 등 다양한 문서에 포함된 텍스트 분석에 딥 러닝 기술을 활용하는 연구가 활발하게 수행되고 있다. 다양한 텍스트 분석 응용 가운데, 텍스트 분류는 학계와 업계에서 가장 많이 활용되는 대표적인 기술이다. 텍스트 분류의 활용 예로는 정답 레이블이 하나만 존재하는 이진 클래스 분류와 다중 클래스 분류, 그리고 정답 레이블이 여러 개 존재하는 다중 레이블 분류 등이 있다. 특히, 다중 레이블 분류는 여러 개의 정답 레이블이 존재한다는 특성 때문에 일반적인 분류와는 상이한 학습 방법이 요구된다. 또한, 다중 레이블 분류 문제는 레이블과 클래스의 개수가 증가할수록 예측의 난이도가 상승한다는 측면에서 데이터 과학 분야의 난제로 여겨지고 있다. 따라서 이를 해결하기 위해 다수의 레이블을 압축한 후 압축된 레이블을 예측하고, 예측된 압축 레이블을 원래 레이블로 복원하는 레이블 임베딩이 많이 활용되고 있다. 대표적으로 딥 러닝 모델인 오토인코더 기반 레이블 임베딩이 이러한 목적으로 사용되고 있지만, 이러한 기법은 클래스의 수가 무수히 많은 고차원 레이블 공간을 저차원 잠재 레이블 공간으로 압축할 때 많은 정보 손실을 야기한다는 한계가 있다. 이에 본 연구에서는 오토인코더의 인코더와 디코더 각각에 스킵 연결을 추가하여, 고차원 레이블 공간의 압축 과정에서 정보 손실을 최소화할 수 있는 레이블 임베딩 방법을 제안한다. 또한 학술연구정보서비스인 'RISS'에서 수집한 학술논문 4,675건에 대해 각 논문의 초록으로부터 해당 논문의 다중 키워드를 예측하는 실험을 수행한 결과, 제안 방법론이 기존의 일반 오토인코더 기반 레이블 임베딩 기법에 비해 정확도, 정밀도, 재현율, 그리고 F1 점수 등 모든 측면에서 우수한 성능을 나타냄을 확인하였다.

기계학습 기반 알츠하이머성 치매의 다중 분류에서 EEG-fNIRS 혼성화 기법 (An EEG-fNIRS Hybridization Technique in the Multi-class Classification of Alzheimer's Disease Facilitated by Machine Learning)

  • 호티키우칸;김인기;전영훈;송종인;곽정환
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.305-307
    • /
    • 2021
  • Alzheimer's Disease (AD) is a cognitive disorder characterized by memory impairment that can be assessed at early stages based on administering clinical tests. However, the AD pathophysiological mechanism is still poorly understood due to the difficulty of distinguishing different levels of AD severity, even using a variety of brain modalities. Therefore, in this study, we present a hybrid EEG-fNIRS modalities to compensate for each other's weaknesses with the help of Machine Learning (ML) techniques for classifying four subject groups, including healthy controls (HC) and three distinguishable groups of AD levels. A concurrent EEF-fNIRS setup was used to record the data from 41 subjects during Oddball and 1-back tasks. We employed both a traditional neural network (NN) and a CNN-LSTM hybrid model for fNIRS and EEG, respectively. The final prediction was then obtained by using majority voting of those models. Classification results indicated that the hybrid EEG-fNIRS feature set achieved a higher accuracy (71.4%) by combining their complementary properties, compared to using EEG (67.9%) or fNIRS alone (68.9%). These findings demonstrate the potential of an EEG-fNIRS hybridization technique coupled with ML-based approaches for further AD studies.

  • PDF

서포트 벡터 머신 기반 비디오 조각파일 분류 (Support Vector Machines-based classification of video file fragments)

  • 강현석;이영석
    • 한국산학기술학회논문지
    • /
    • 제16권1호
    • /
    • pp.652-657
    • /
    • 2015
  • BitTorrent는 다수의 파일 공유자들로부터 조각파일을 전송 받아 하나의 완전한 파일을 완성할 수 있는 파일 공유 및 전송과 관련된 혁신적인 프로토콜이다. 그러나, 불법 또는 저작권과 관련된 비디오 데이터들이 임의로 배포되는 범죄행위가 발생하는 것이 현실이다. BitTorrent 상에 데이터에 대한 저작권 단속의 어려움은 데이터의 전송형태가 완전한 파일 형식이 아닌 조각 파일 형태로 전송된다는 점이다. 따라서, BitTorrent에서 얻어진 조각파일에서 디지털 콘텐츠를 복원하고, 저작권 위반 여부를 판단하기 위해서는 디지털 콘텐츠의 파일 형식에 대한 분류 과정이 선행 되어야 한다. 본 연구에서는 디지털 파일의 형식을 분류하기 위한 방법으로서 조각파일의 히스토그램 차분을 특징 벡터로 하는 SVM 분류기를 제안 하였다. 제안한 분류기는 3종류의 비디오 파일 형식에 적용하여 분류율로 성능을 평가하였다.

요류검사 시스템의 구현과 요류파라미터의 유용성 평가 (Implementation on the Uroflowmetry System and Usefulness Estimation of the Uroflow Parameters)

  • 한봉효;정도운;김우열;배진우;손정만;김재현;박준모;정문기;전계록
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(5)
    • /
    • pp.293-296
    • /
    • 2002
  • In this study, the object is a development on uroflowmetry system to detect a voiding symptom conveniently in home or hospital. The hardware was composed of mechanism and system circuit part, the software was divided into firmware and PC program part. The following experiment was performed to evaluate an ability of classification and fitness. First, the following parameters was calculated in each flow curve pattern. The parameters are MFR, AFR, VOL, VT, FT, and TMF. A significant difference among parameters was examined through a statistical analysis for extracted parameters between normal and abnormal group. In the next work, the following experimentation was performed to classify the voiding symptom. Analysis of congregate rate was examined to find out classification possibility about each symptom of BPH, voiding difficulty, detrusor failure and hyperreflexia, unstable bladder. The uroflow data with the above symptom was divided into normal and abnormal group using fuzzy classifier. and that was performed appending the other group again. Fuzzy classification result using MFR and AFR was superior by 89.6 % more than grouping evaluation including VOL.

  • PDF

CAN 트레이스 분석을 통한 데이터 필드 형식 추론 방법 연구 (Method for Inferring Format Information of Data Field from CAN Trace)

  • 지청민;김지민;홍만표
    • 정보보호학회논문지
    • /
    • 제28권1호
    • /
    • pp.167-177
    • /
    • 2018
  • 최근 차량에 대한 공격 사례가 늘어남에 따라 CAN 기반의 보안 기술에 대한 연구가 활발히 진행되고 있다. 그러나 CAN의 상위 계층 프로토콜은 차량 제조사 및 모델 별로 상이하므로 이상 탐지 기술 또는 ECU 대상의 취약점 탐지를 위한 연구에는 큰 어려움이 따른다. 본 논문에서는 이러한 문제를 완화하기 위하여 CAN 트레이스의 분석을 통해 데이터 필드 영역의 세부 구조를 추론하는 방법을 제안한다. 기존 인터넷 환경에서는 이미 프로토콜 역공학을 위한 연구가 다수 진행되었으나, CAN 버스는 기존의 프로토콜 역공학 기술을 그대로 적용하기 어려운 구조를 지닌다. 본 논문에서는 CAN 프레임 내 데이터의 특성을 이용한 낮은 계산 비용의 필드 구분 방법 및 기존의 CAN 데이터필드 내 필드 분류 방법을 이용한 새로운 추론 방법을 제안한다. 본 논문에서 제안하는 방식은 실제 차량의 CAN 트레이스 및 시뮬레이션으로 생성된 CAN 트레이스를 대상으로 검증되며, 기존 방식 대비 더 낮은 계산 비용으로 더 높은 정확도의 필드 구조 추론 결과를 보인다.

초등학교 과학과 5, 6학년 서술형 평가문항의 행동영역 내용타당도 및 이에 영향을 미치는 요인 분석 (An Analysis of Content Validity of Behavioral Domain of Descriptive Tests and Factors that Affect Content Validity: Focus on the Fifth and Sixth Grade Science)

  • 최정인;백성혜
    • 한국과학교육학회지
    • /
    • 제36권1호
    • /
    • pp.87-101
    • /
    • 2016
  • 본 연구의 목적은 초등학교에서 개발 시행된 서술형 평가 문항의 내용타당도를 분석하는데 있으며, 이 평가 문항들의 개선을 위한 기초자료를 제시하는데 연구의 의의가 있다. 이를 위하여 여러 초등학교의 서술형 평가문항을 수집하고, 이원분류표의 평가목표와 문항의 평가목표가 요구하는 행동소를 비율차 검정하였다. 분석의 결과 교사가 제작한 서술형 평가문항은 '지식', '이해'를 주로 측정하고 있으며, 행동영역의 내용타당도가 낮음을 확인하였다. 내용타당도가 낮은 결과를 설명하기 위해 9명의 초등 교사를 대상으로 면담을 실시하였다. 면담의 결과 초등학교 과학과 서술형 평가문항의 내용타당도 확보를 저해하는 요인으로 교사내적요인과 교사외적요인을 추출하였다. 교사내적요인에는 바르지 않은 이원분류표의 작성법, 초등학생의 발달 단계 고려, 난이도, 채점의 용이성, 경로의존성 등이 포함되었다. 그리고 교사외적으로는 교육과정 및 학부모 그리고 행정적 요소 등이었다. 이상의 결과를 바탕으로 과학교사의 서술형 평가전문성을 위한 요인들을 제언하였다.

자동분류기반 성격 유형별 도서추천시스템 개발을 위한 실험적 연구 (A Experimental Study on the Development of a Book Recommendation System Using Automatic Classification, Based on the Personality Type)

  • 조현양
    • 한국도서관정보학회지
    • /
    • 제48권2호
    • /
    • pp.215-236
    • /
    • 2017
  • 이 연구의 목적은 개인별 성향이나 성격 유형에 따라 선호하는 도서에 차이가 있음을 전제로, 어린이 청소년을 위한 추천도서의 책소개 정보를 활용하여 개인별 성격유형에 적합한 도서를 합리적으로 추천할 수 있는 서평 자동분류시스템을 개발하는 것이다. 연구에서 사용한 데이터는 국립어린이청소년도서관에서 제공하는 501권의 유아 및 아동도서를 대상으로 하였다. 실험에 활용된 2가지 기계학습 모델(비선형 커널 및 선형 커널) 각각에 대해서 총 6가지의 색인어 가중치 계산 방법과 자질 선택 방법, 그리고 10가지의 자질 선정 임계치 조합으로 구성된 360개의 분류 모델들을 구성하고 각각의 성능을 측정하였다. 전체적으로는 선형 커널을 이용한 SVM 기반 학습 방법(LIBLINEAR)이 비선형 분류를 지원하는 LibSVM(RBF 커널) 모델보다 더 나은 성능을 보이는 것으로 나타났다. 다만 성능 측정 결과는 뉴스 기사나 논문을 대상으로 한 문헌 분류 성능에 비해서 낮은 것으로 나타났으나, 합리적인 분류 기준이 존재하는 뉴스기사나 주제 분류에 비해서 성격 유형 기반 분류는 그 난이도가 높다는 것을 감안할 때, 초기 실험 결과로서의 의미는 있다.

CNN 모델과 Transformer 조합을 통한 토지피복 분류 정확도 개선방안 검토 (Assessing Techniques for Advancing Land Cover Classification Accuracy through CNN and Transformer Model Integration)

  • 심우담;이정수
    • 한국지리정보학회지
    • /
    • 제27권1호
    • /
    • pp.115-127
    • /
    • 2024
  • 본 연구는 Transformer 모듈을 기반으로 다양한 구조의 모델을 구성하고, 토지피복 분류를 수행하여 Transformer 모듈의 활용방안 검토를 목적으로 하였다. 토지피복 분류를 위한 딥러닝 모델은 CNN 구조를 가진 Unet 모델을 베이스 모델로 선정하였으며, 모델의 인코더 및 디코더 부분을 Transformer 모듈과 조합하여 총 4가지 딥러닝 모델을 구축하였다. 딥러닝 모델의 학습과정에서 일반화 성능 평가를 위해 같은 학습조건으로 10회 반복하여 학습을 진행하였다. 딥러닝 모델의 분류 정확도 평가결과, 모델의 인코더 및 디코더 구조 모두 Transformer 모듈을 활용한 D모델이 전체 정확도 평균 약 89.4%, Kappa 평균 약 73.2%로 가장 높은 정확도를 보였다. 학습 소요시간 측면에서는 CNN 기반의 모델이 가장 효율적이었으나 Transformer 기반의 모델을 활용할 경우, 분류 정확도가 Kappa 기준 평균 0.5% 개선되었다. 차후, CNN 모델과 Transformer의 결합과정에서 하이퍼파라미터 조절과 이미지 패치사이즈 조절 등 다양한 변수들을 고려하여 모델을 고도화 할 필요가 있다고 판단된다. 토지피복 분류과정에서 모든 모델이 공통적으로 발생한 문제점은 소규모 객체들의 탐지가 어려운 점이었다. 이러한 오분류 현상의 개선을 위해서는 고해상도 입력자료의 활용방안 검토와 함께 지형 정보 및 질감 정보를 포함한 다차원적 데이터 통합이 필요할 것으로 판단된다.

대형 교통사고 발생지점 유형화와 영향요인 분석에 따른 교통안전대책 방안에 관한 연구 (Traffic Safety Countermeasures According to the Accident Area Patterns and Impact Factor Analysis of the Large-scale Traffic Accident Locations)

  • 김봉기;정헌영;고상선
    • 대한교통학회지
    • /
    • 제24권1호
    • /
    • pp.39-52
    • /
    • 2006
  • 본 연구는 대형 교통사고의 발생지점들을 특성별로 유형화하기 위하여 군집분석(Cluster hnalysis)을 행하고, 아울러 충돌 형태에 미치는 영향요인에 대한 영향 정도를 판별할 수 있도록 하기 위하여 수량화 이론 II류(Quantification II)와 C&RT(Classification and Regression Trees) 방법에 의해 분석을 실시하여 이에 대한 적합성을 평가함으로써, 정량적 척도의 간략화를 도모하고자 하였다. 그 결과, 발생 지점별 유형화에 따른 4개 집단의 판별 및 분류분석의 충돌 형태별 제반 영향요인들 특성은 집단별로 명확한 차이를 보이는 것으로 나타나, 교통사고에 대해 우선 시행되어져야 할 대책과 보완 대책들을 집단별로 체계적으로 제시할 수 있었다. 하지만 상당수 변수들에 결측치가 많아, 막대한 정보 손실이 초래되어 보다 심층적인 분석을 하기 어려웠는바, 이러한 문제점을 해결하기 위해서는 대형 교통사고 조사. 분석 시 표준화된 원 자료 시트의 작성을 의무화할 필요가 있는 것으로 나타났다.

건설정보 분류체계 활용도 측정을 통한 분류체계 활성화 방안 (A Promotion Plan through Measuring the Utilization of Information Classification Systems in the Construction Industry)

  • 박환표;이재섭
    • 한국건설관리학회논문집
    • /
    • 제5권6호
    • /
    • pp.90-100
    • /
    • 2004
  • 최근, 산업구조는 산업사회에서 정보화 사회로, 제조산업에서 정보서비스 중심의 산업으로 산업구조의 중심이 소프트하고, 고부가가치의 지식경제사회로 급격히 전환하고 있다. 건설산업도 점차 대형화, 복잡화됨으로써 건설정보화의 중요성은 더욱 커지고 있다. 따라서, 정부에서는$\ulcorner$건설정보 분류체계 구축을 위한 연구$\lrcorner$ 를 추진하여 2001년 5월에 실무적용을 위한 대 $\cdot$ 중분류 등을 제시하였고, 그 결과, '통합건설정보분류체계적용기준' 을 건설교통부 공고로 2001년 8월에 발표하였다. 그러나, 기 구축된 '통합건설정보분류체계"는 건설공사에서 실무활용이 미흡한 실정이다. 이러한 원인을 분석해 보면, 새로운 표준화체계로 추진하기에는 기존의 체계를 변화시키기 어렵고, 잘 개발된 정보표준화의 홍보가 부족하고, 법적 인 구속력이 미약하여 그 적용이 미흡한 것으로 볼 수 있다 또한, 각 발주처의 정보분류체계의 인식부족 및 활용분야의 인식부족으로, 그 실무 활용성이 미흡하다고 볼 수 있다. 특히, 각 주체가 건설관리 분야에서 건설정보 분류체계의 건설업무 활용도를 정확히 인식하지 못함으로써, 그 활용도가 미약한 것으로 지적할 수 있다. 따라서, 본 연구는 건설관리 분야에서 각 업무의 정보분류체계 활용도 측정모델을 활용하여 분석하고, 기 구축된$\ulcorner$정보분류체계$\lrcorner$의 각 파셋이 각 업무단계에서 어느 정도 활용되는 지를 분석하였고, 그 활성화 방안을 제시하였다.