• 제목/요약/키워드: Performance metrics

검색결과 779건 처리시간 0.027초

XGBoost와 교차검증을 이용한 품사부착말뭉치에서의 오류 탐지 (Detecting Errors in POS-Tagged Corpus on XGBoost and Cross Validation)

  • 최민석;김창현;박호민;천민아;윤호;남궁영;김재균;김재훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권7호
    • /
    • pp.221-228
    • /
    • 2020
  • 품사부착말뭉치는 품사정보를 부착한 말뭉치를 말하며 자연언어처리 분야에서 다양한 학습말뭉치로 사용된다. 학습말뭉치는 일반적으로 오류가 없다고 가정하지만, 실상은 다양한 오류를 포함하고 있으며, 이러한 오류들은 학습된 시스템의 성능을 저하시키는 요인이 된다. 이러한 문제를 다소 완화시키기 위해서 본 논문에서는 XGBoost와 교차 검증을 이용하여 이미 구축된 품사부착말뭉치로부터 오류를 탐지하는 방법을 제안한다. 제안된 방법은 먼저 오류가 포함된 품사부착말뭉치와 XGBoost를 사용해서 품사부착기를 학습하고, 교차검증을 이용해서 품사오류를 검출한다. 그러나 오류가 부착된 학습말뭉치가 존재하지 않으므로 일반적인 분류기로서 오류를 검출할 수 없다. 따라서 본 논문에서는 매개변수를 조절하면서 학습된 품사부착기의 출력을 비교함으로써 오류를 검출한다. 매개변수를 조절하기 위해서 본 논문에서는 작은 규모의 오류부착말뭉치를 이용한다. 이 말뭉치는 오류 검출 대상의 전체 말뭉치로부터 임의로 추출된 것을 전문가에 의해서 오류가 부착된 것이다. 본 논문에서는 성능 평가의 척도로 정보검색에서 널리 사용되는 정밀도와 재현율을 사용하였다. 또한 모집단의 모든 오류 후보를 수작업으로 확인할 수 없으므로 표본 집단과 모집단의 오류 분포를 비교하여 본 논문의 타당성을 보였다. 앞으로 의존구조부착 말뭉치와 의미역 부착말뭉치에서 적용할 계획이다.

OPNET Modeler Wireless Suite를 이용한 종단간 패킷 통계 분석 (End-to-end Packet Statistics Analysis using OPNET Modeler Wireless Suite)

  • 김정수
    • 정보처리학회논문지C
    • /
    • 제18C권4호
    • /
    • pp.265-278
    • /
    • 2011
  • 이 논문의 목적은 시뮬레이션 소프트웨어인 OPNET Modeler Wireless Suite를 이용하여 WiFi (IEEE 802.11g)와 WiMAX (IEEE 802.16e)를 가상 무선망으로 모델링 후 종단간 패킷 통계를 시뮬레이션하여 그 특성을 분석한 연구이다. 국내외 무선망에 대한 시뮬레이션이 가능한 툴인 Remcom's Wireless InSite Real Time (RT) 모듈, WinProp: W-LAN, Fixed WiMAX, Mobile WiMAX, SMI 시스템은 무선 전파 신호 세기 분석에 비중을 두었고 이러한 무선 전파 신호 세기로 데이터 전송률을 고려할 수 있도록 설계되었다. 그러나 우리는 이들 시뮬레이션 툴(들)의 특성과 달리 다른 관점으로 본 연구를 접근하였다. 즉, 무선 전파 신호 세기 분석이 아닌 유무선 통합망을 기반으로 한 종단간 가상망 모델링이 가능하고 각 구간(예: 무선사용자, 기지국 또는 AP, HTTP 서버)마다 얼마만큼의 패킷이 전달되었는지를 시각적으로 분석할 수 있는 OPNET Modeler Wireless Suite를 활용한 연구로 접근하였다. 왜냐하면 패킷 통계는 무선서비스 성능 매트릭 중 하나의 지표로 종단간 중요한 QoS 분석 척도가 되기 때문이다. 특히나 WiMAX와 같이 QoS를 보장하는 무선사용자에겐 패킷 통계 지표는 더더욱 필수적인 항목임에 틀림이 없다. OPNET Modeler Wireless Suite로 가상 무선망을 실제에 가깝게 모델링 후 시뮬레이션 결과를 통해 우리는 흥미로운 결과를 찾아낼 수 있었고 그 실험/관측결과를 효율적이고 다각적으로 보여줄 수 있었다.

콘크리트 라이닝 균열 분할 딥러닝 모델 평가 방법 (An evaluation methodology for cement concrete lining crack segmentation deep learning model)

  • 함상우;배수현;이임평;이규필;김동규
    • 한국터널지하공간학회 논문집
    • /
    • 제24권6호
    • /
    • pp.513-524
    • /
    • 2022
  • 터널을 비롯한 여러 가지 기반시설물에 발생한 콘크리트 균열을 영상과 딥러닝 기반으로 자동 탐지하는 연구가 최근 활발히 이루어지고 있다. 이러한 연구성과를 실제 현장에 적용하려면 딥러닝 모델의 신뢰성을 설명할 수 있어야한다. 본 연구에서는 선형성이 강한 균열의 기하적인 특성을 고려했을 때 화소 기반으로 계산하는 기존 평가지표가 충분치 않다는 점을 지적하며, 균열 분할 딥러닝 모델의 성능을 더 합리적으로 설명할 수 있는 다른 평가지표를 제시하고 비교 분석한다. 먼저 선형 객체의 유사성을 측정할 수 평가방법을 제시한다. 구체적으로는 기준 데이터에 허용 버퍼(tolerance buffer)를 부여하여 평가하는 방법을 설계, 구현, 검증한다. 실험 결과 본 연구에서 제안하는 방법은 균열 분할 딥러닝 모델 평가시 기존 대비 과대평가 또는 과소평가 문제를 해결할 수 있었으며, 화소 기반 성능 평가 지표에 비해 균열 분할 딥러닝 모델의 성능을 더 잘 설명할 것으로 기대한다.

로지스틱 회귀, 랜덤포레스트, LSTM 기법을 활용한 서리예측모형 평가 (Comparative assessment of frost event prediction models using logistic regression, random forest, and LSTM networks)

  • 전종안;이현주;임슬희;김대하;백상수
    • 한국수자원학회논문집
    • /
    • 제54권9호
    • /
    • pp.667-680
    • /
    • 2021
  • 이 연구의 목적은 서리 발생일과 무상일 기간의 특성을 분석하고 로지스틱 회귀, 랜덤 포레스트, Long-short Term Memory (LSTM) 기법을 활용하여 서리발생 예측모델을 개발하고 평가하는데 있다. 수원, 청주, 광주 지점에서 봄철과 가을철 서리발생 예측모델 개발을 위한 기상변수들을 수집하였으며, 수집기간은 1973년부터 2019년까지이다. 프리시전(precision), 리콜(Recall), f-1 스코어와, AUC 및 Reliability Diagram과 같은 그래피컬 평가기법을 이용해 서리발생 예측모델을 평가하였다. 봄철과 가을철 모두 서리발생일이 줄어드는 경향성(유의수준: 0.01)을 보였다. 0.9 이상의 높은 AUC 값에도 불구하고, 신뢰도는 일정한 값을 보여주지는 않았다. 서리발생일 측뿐만 아니라, 초상일과 종상일을 정확히 예측할 수 있도록 모형 개선이 필요해 보이며, 다른 지역의 더 많은 지점에서 동일한 기법을 적용해 보는 연구가 필요해 보인다.

잡음 환경에 효과적인 마스크 기반 음성 향상을 위한 손실함수 조합에 관한 연구 (A study on combination of loss functions for effective mask-based speech enhancement in noisy environments)

  • 정재희;김우일
    • 한국음향학회지
    • /
    • 제40권3호
    • /
    • pp.234-240
    • /
    • 2021
  • 본 논문에서는 잡음 환경에서 효과적인 음성 인식을 위해 마스크 기반의 음성 향상 기법을 개선한다. 마스크 기반의 음성 향상 기법에서는 심층 신경망을 기반으로 추정한 마스크를 잡음 오염 음성에 곱하여 향상된 음성을 얻는다. 마스크 추정 모델로 VoiceFilter(VF) 모델을 사용하고 추정된 마스크로 얻은 음성으로부터 잔여 잡음을 보다 확실히 제거하기 위해 Spectrogram Inpainting(SI)기법을 적용한다. 본 논문에서는 음성 향상 결과를 보다 개선하기 위해 마스크 추정을 위한 모델 학습 과정에 사용되는 조합된 손실함수를 제안한다. 음성 구간에 남아 있는 잡음을 보다 효과적으로 제거하기 위해 잡음 오염 음성에 마스크를 적용한 Triplet 손실함수의 Positive 부분을 컴포넌트 손실함수와 조합하여 사용한다. 실험 평가를 위한 잡음 음성 데이터는 TIMIT 데이터베이스와 NOISEX92, 배경음악 잡음을 다양한 Signal to Noise Ratio(SNR) 조건으로 합성하여 만들어 사용한다. 음성 향상의 성능 평가는 Source to Distortion Ratio(SDR), Perceptual Evaluation of Speech Quality(PESQ), Short-Time Objective Intelligibility(STOI)를 이용한다. 실험을 통해 평균 제곱 오차로만 훈련된 기존 시스템과 비교하여, VF 모델은 평균 제곱 오차로 훈련하고 SI 모델은 조합된 손실함수를 사용하였을 때 SDR은 평균 0.5dB, PESQ는 평균 0.06, STOI는 평균 0.002만큼 성능이 향상된 것을 확인했다.

Diffusion Tensor-Derived Properties of Benign Oligemia, True "at Risk" Penumbra, and Infarct Core during the First Three Hours of Stroke Onset: A Rat Model

  • Chiu, Fang-Ying;Kuo, Duen-Pang;Chen, Yung-Chieh;Kao, Yu-Chieh;Chung, Hsiao-Wen;Chen, Cheng-Yu
    • Korean Journal of Radiology
    • /
    • 제19권6호
    • /
    • pp.1161-1171
    • /
    • 2018
  • Objective: The aim of this study was to investigate diffusion tensor (DT) imaging-derived properties of benign oligemia, true "at risk" penumbra (TP), and the infarct core (IC) during the first 3 hours of stroke onset. Materials and Methods: The study was approved by the local animal care and use committee. DT imaging data were obtained from 14 rats after permanent middle cerebral artery occlusion (pMCAO) using a 7T magnetic resonance scanner (Bruker) in room air. Relative cerebral blood flow and apparent diffusion coefficient (ADC) maps were generated to define oligemia, TP, IC, and normal tissue (NT) every 30 minutes up to 3 hours. Relative fractional anisotropy (rFA), pure anisotropy (rq), diffusion magnitude (rL), ADC (rADC), axial diffusivity (rAD), and radial diffusivity (rRD) values were derived by comparison with the contralateral normal brain. Results: The mean volume of oligemia was $24.7{\pm}14.1mm^3$, that of TP was $81.3{\pm}62.6mm^3$, and that of IC was $123.0{\pm}85.2mm^3$ at 30 minutes after pMCAO. rFA showed an initial paradoxical 10% increase in IC and TP, and declined afterward. The rq, rL, rADC, rAD, and rRD showed an initial discrepant decrease in IC (from -24% to -36%) as compared with TP (from -7% to -13%). Significant differences (p < 0.05) in metrics, except rFA, were found between tissue subtypes in the first 2.5 hours. The rq demonstrated the best overall performance in discriminating TP from IC (accuracy = 92.6%, area under curve = 0.93) and the optimal cutoff value was -33.90%. The metric values for oligemia and NT remained similar at all time points. Conclusion: Benign oligemia is small and remains microstructurally normal under pMCAO. TP and IC show a distinct evolution of DT-derived properties within the first 3 hours of stroke onset, and are thus potentially useful in predicting the fate of ischemic brain.

Wasserstein Center 손실을 이용한 스케치 기반 3차원 물체 검색 (Sketch-based 3D object retrieval using Wasserstein Center Loss)

  • 지명근;전준철;김남기
    • 인터넷정보학회논문지
    • /
    • 제19권6호
    • /
    • pp.91-99
    • /
    • 2018
  • 스케치 기반 3차원 물체 검색은 다양한 3차원 물체를 사람이 손으로 그린 스케치를 질의(query)로 사용하여 물체를 편리하게 검색하는 방법이다. 본 논문에서는 스케치 기반 3차원 물체 검색을 위해 스케치 CNN(Convolutional Neural Network)과 Wasserstein CNN 모델에 Wasserstein Center 손실을 적용하여 물체의 검색 성공률을 향상시키는 새로운 방법을 제안한다. 제안된 Wasserstein Center 손실이란 각 물체의 클래스(category)의 중심을 학습하고, 동일한 클래스의 특징과 중심 간의 Wasserstein 거리가 작아지도록 만드는 방법이다. 이를 위하여 제안된 3차원 물체 검색은 다음의 단계로 수행된다. 첫 번째로, 3차원 물체의 특징은 3차원 물체를 여러 방향에서 촬영된 2차원 영상의 특징을 CNN을 이용하여 추출하고, 각 영상 특징의 Wasserstein 중심을 계산한다. 두 번째로, 스케치의 특징은 별도의 스케치 CNN을 이용하여 추출하였다. 마지막으로, 추출한 3차원 물체의 특징과 스케치의 특징을 본 논문에서 제안한 Wasserstein Center 손실을 이용하여 학습하고 스케치 기반의 3차원 물체 검색에 적용하였다. 본 논문에서 제안한 방법의 우수성을 입증하기 위하여 SHREC 13과 SHREC 14의 두 가지 벤치마크 데이터 집합을 이용하여 평가하였으며, 제안된 방법이 기존의 스케치 기반 검색방법들과 비교하여 모든 측정 기준에서 우수한 결과를 나타냄을 확인할 수 있었다.

MeSH 기반의 LDA 토픽 모델을 이용한 검색어 확장 (The MeSH-Term Query Expansion Models using LDA Topic Models in Health Information Retrieval)

  • 유석진
    • 한국도서관정보학회지
    • /
    • 제52권1호
    • /
    • pp.79-108
    • /
    • 2021
  • 헬스 분야에서 정보 검색의 어려움 중의 하나는 일반 사용자들이 전문적인 용어들을 이해하기가 어렵다는 점이다. 헬스와 관련된 전문 용어들은 일반 사용자들이 검색어로 사용하기 어렵기 때문에 이러한 전문 용어들이 자동적으로 검색어에 더해질 수 있다면 좀 더 검색의 효과를 높일 수 있을 것이다. 제안된 검색어 확장 모델은 전문 용어를 포함하는 MeSH(Medical Subject Headings)를 검색어 확장을 위한 단어 후보 군으로 이용하였다. 문서들은 MeSH용어들로 표현이 되고 이렇게 표현된 문서들의 집합에 대해서 LDA(Latent Dirichlet Analysis) 토픽들이 생성된 후, (검색어+초기 검색어에 의해 검색된 상위 k개 문서들)에 연관된 토픽 단어들이 원래의 검색어를 확장하는 데 쓰여졌다. MeSH로 구성된 토픽 단어들은 임의로 정해진 토픽 확률 임계값과 토픽을 구성하는 단어의 확률 임계값보다 높았을 때 초기의 검색어에 포함되었다. 특정수의 토픽을 갖는 LDA 모델에서 이러한 적절한 임계값의 설정을 통해 선택된 토픽 단어들은 검색어 확장에 이용되어 검색시에 infAP(inferred Average Precision)와 infNDCG(inferred Normalized Discounted Cumulative Gain)를 높이는데 효과적으로 작용하였다. 또한 토픽 확률값과 토픽 단어의 확률값을 곱하여 계산된 토픽 단어의 스코어가 높은 상위 k개의 단어를 검색어를 확장하는 데 이용하였을 때에도 검색의 성능이 향상될 수 있음을 확인하였다.

지반정보 변화객체 탐지·추출 시스템 개발 (Detecting and Extracting Changed Objects in Ground Information)

  • 김광수;김봉완;장인성
    • 한국측량학회지
    • /
    • 제39권6호
    • /
    • pp.515-523
    • /
    • 2021
  • 지하공간 통합지도는 지하시설물, 지하구조물, 지반정보로 구성되어 있으며, 주기적으로 갱신이 발생하고 있다. 본 논문에서는 통합지도 갱신 속도를 단축하기 위해 변화된 지반정보만을 탐지 및 추출하는 시스템을 설계하고 이를 구현하였다. 변화 객체를 찾아내기 위해 신규 입력된 지도와 통합지도에 저장된 참조 지도에 포함된 모든 객체들을 비교하였다. 객체를 비교하여 결과를 생성하는 전체 과정을 기능별로 분류하였으므로, 구현된 시스템은 객체 비교기, 변화 객체 탐지기, 과거 데이터 관리기, 변화 객체 추출기, 변화 유형 분류기, 변화 객체 저장기 등의 모듈로 구성되었다. 구현된 시스템의 성능을 평가하는 지표로 변화 객체 탐지율 및 추출률을 사용한다. 개발된 컴포넌트를 평택시 시추공, 관정, 지층, 암상 등에 적용한 결과 각 레이어의 신규, 삭제, 변경(속성) 객체들을 각각 100% 탐지하였다. 또한, 지도를 비교할 때마다 참조 지도를 다운로드 받음으로써 참조 지도의 최신성이 보장되는 장점을 제공하였다. 추후, 현업에 적용하기 위해 다양한 데이터를 사용하여 개발된 결과의 안정성과 효율성을 확인하는 연구가 필요하다.

마이터 어택과 머신러닝을 이용한 UNSW-NB15 데이터셋 기반 유해 트래픽 분류 (Malicious Traffic Classification Using Mitre ATT&CK and Machine Learning Based on UNSW-NB15 Dataset)

  • 윤동현;구자환;원동호
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권2호
    • /
    • pp.99-110
    • /
    • 2023
  • 본 연구는 현 보안 관제 시스템이 직면한 실시간 트래픽 탐지 문제를 해결하기 위해 사이버 위협 프레임워크인 마이터 어택과 머신러닝을 이용하여 유해 네트워크 트래픽을 분류하는 방안을 제안하였다. 마이터 어택 프레임워크에 네트워크 트래픽 데이터셋인 UNSW-NB15를 적용하여 라벨을 변환 후 희소 클래스 처리를 통해 최종 데이터셋을 생성하였다. 생성된 최종 데이터셋을 사용하여 부스팅 기반의 앙상블 모델을 학습시킨 후 이러한 앙상블 모델들이 다양한 성능 측정 지표로 어떻게 네트워크 트래픽을 분류하는지 평가하였다. 그 결과 F-1 스코어를 기준으로 평가하였을 때 희소 클래스 미처리한 XGBoost가 멀티 클래스 트래픽 환경에서 가장 우수함을 보였다. 학습하기 어려운 소수의 공격클래스까지 포함하여 마이터 어택라벨 변환 및 오버샘플링처리를 통한 머신러닝은 기존 연구 대비 차별점을 가지고 있으나, 기존 데이터셋과 마이터 어택 라벨 간의 변환 시 완벽하게 일치할 수 없는 점과 지나친 희소 클래스 존재로 인한 한계가 있음을 인지하였다. 그럼에도 불구하고 B-SMOTE를 적용한 Catboost는 0.9526의 분류 정확도를 달성하였고 이는 정상/비정상 네트워크 트래픽을 자동으로 탐지할 수 있을 것으로 보인다.