• 제목/요약/키워드: Machine Learning & Training

검색결과 789건 처리시간 0.037초

Back TranScription(BTS)기반 데이터 구축 검증 연구 (A Study on Verification of Back TranScription(BTS)-based Data Construction)

  • 박찬준;서재형;이설화;문현석;어수경;임희석
    • 한국융합학회논문지
    • /
    • 제12권11호
    • /
    • pp.109-117
    • /
    • 2021
  • 최근 인간과 컴퓨터의 상호작용(HCI)을 위한 수단으로 음성기반 인터페이스의 사용률이 높아지고 있다. 이에 음성인식 결과에 오류를 교정하기 위한 후처리기에 대한 관심 또한 높아지고 있다. 그러나 sequence to sequence(S2S)기반의 음성인식 후처리기를 제작하기 위해서는 데이터 구축을 위해 human-labor가 많이 소요된다. 최근 기존의 구축 방법론의 한계를 완화하기 위하여 음성인식 후처리기를 위한 새로운 데이터 구축 방법론인 Back TranScription(BTS)이 제안되었다. BTS란 TTS와 STT 기술을 결합하여 pseudo parallel corpus를 생성하는 기술을 의미한다. 해당 방법론은 전사자(phonetic transcriptor)의 역할을 없애고 방대한 양의 학습 데이터를 자동으로 생성할 수 있기에 데이터 구축에 있어서 시간과 비용을 단축할 수 있다. 본 논문은 기존의 BTS 연구를 확장하여 어떠한 기준 없이 데이터를 구축하는 것보다 어투와 도메인을 고려하여 데이터 구축을 해야함을 실험을 통해 검증을 진행하였다.

Concept Drift에 의한 ML 모델 성능 변화의 정량적 추정 방법 (Quantitative Estimation Method for ML Model Performance Change, Due to Concept Drift)

  • 안순홍;이훈석;김승훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권6호
    • /
    • pp.259-266
    • /
    • 2023
  • 기계학습을 통해 학습된 모델은 업무 활용 시 그 성능을 실측하기 매우 어렵다. 때문에 운영 부서에서는 모델의 성능을 효과적으로 관리하지 못한다. 이로 인해 모델의 상태를 판단하기 위한 Concept drift 탐지 방법이 다양하게 연구되고 있다. 운영 부서에서는 운영 중인 모델의 성능을 정량적으로 관리하려고 한다. 그러나 Concept drift는 모델 상태를 데이터 관계적으로 판단 할 뿐, 모델의 정량적 성능 수치를 추정하지는 못한다. 본 연구에서는 Concept drift의 통계량을 통해 정량적으로 precision 값을 추정하는 성능 예측 모델(PPM, Performance prediction model)을 제안한다. 제안 모델의 Algorithm 1에서는, 학습데이터에서 복원 추출한 샘플링 데이터에 인위적인 drift를 유도하고 이때의 precision을 측정하여 drift와 precision의 데이터 셋을 만들어 학습한다. Algorithm 2에서는 테스트 데이터를 통해 실제 precision과 예측 precision의 차이를 측정하여 성능 예측 모델의 오차를 보정 한다. 현실 비즈니스에서 사용될 수 있는 대출 심사 모델과 신용카드 오사용 탐지 모델에 PPM을 적용하여 성능 예측의 유효성을 확인했다.

AI모델을 적용한 군 경계체계 지능화 방안 (A Methodology for Making Military Surveillance System to be Intelligent Applied by AI Model)

  • 한창희;구하림;박복기
    • 인터넷정보학회논문지
    • /
    • 제24권4호
    • /
    • pp.57-64
    • /
    • 2023
  • 현재 진행되는 고령화 및 인구절벽으로 대표되는 인구구조적 문제는 한국군 경계임무에 심각한 도전이 되고 있다. 본 연구의 목적은 AI모델을 적용해 군 경계체계를 지능화하는 것이다. 본 연구를 통해 제4차 산업혁명과 그 핵심이 되는 인공지능 알고리즘의 의의가 경계근무 상황실 내에서의 단순작업을 기계화하여 작업효율을 극대화하는 것임을 실증한다. 하나의 완성된 시스템으로서 군경계체계를 개발하기 위해, 지능화·자동화된 군(軍) 경계체계라는 목표로부터 필요한 인공지능 기술인 다중 객체 추적(multi-object tracking, MOT) 기술을 선택한다. 또한 체계 사용자의 접근성 및 체계 이용의 효율성을 담보하기 위해서는 데이터 시각화(data visualization)와 사용자 인터페이스(user interface)를 꼽았다. 이 추가 요소를 결합하여 하나의 유기적인 소프트웨어 애플리케이션을 구성한다. CCTV 영상 데이터 수집한 장소는 00부대 제1정문 및 제2정문에 설치된 CCTV 카메라이며, 지통실의 협조 아래 영상 수집을 진행하였다. 실험결과를 통해 경계체계를 지능화·자동화시켜 더 많은 정보를 경계체계 운용인원에게 전달할 수 있음을 보였다. 그러 나 여전히 개발된 소프트웨어 경계체계 역시 한계점이 존재한다. 이를 설명하여 군 경계체계 개발의 향후 방향성을 제시한다.

언어 정보가 반영된 문장 점수를 활용하는 삭제 기반 문장 압축 (Deletion-Based Sentence Compression Using Sentence Scoring Reflecting Linguistic Information)

  • 이준범;김소언;박성배
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권3호
    • /
    • pp.125-132
    • /
    • 2022
  • 문장 압축은 원본 문장의 중요한 의미는 유지하면서 길이가 축소된 압축 문장을 생성하는 자연어처리 태스크이다. 문법적으로 적절한 문장 압축을 위해, 초기 연구들은 사람이 정의한 언어 규칙을 활용하였다. 또한 시퀀스-투-시퀀스 모델이 기계 번역과 같은 다양한 자연어처리 태스크에서 좋은 성능을 보이면서, 이를 문장 압축에 활용하고자 하는 연구들도 존재했다. 하지만 언어 규칙을 활용하는 연구의 경우 모든 언어 규칙을 정의하는 데에 큰 비용이 들고, 시퀀스-투-시퀀스 모델 기반 연구의 경우 학습을 위해 대량의 데이터셋이 필요하다는 문제점이 존재한다. 이를 해결할 수 있는 방법으로 사전 학습된 언어 모델인 BERT를 활용하는 문장 압축 모델인 Deleter가 제안되었다. Deleter는 BERT를 통해 계산된 perplexity를 활용하여 문장을 압축하기 때문에 문장 압축 규칙과 모델 학습을 위한 데이터셋이 필요하지 않다는 장점이 있다. 하지만 Deleter는 perplexity만을 고려하여 문장을 압축하기 때문에, 문장에 속한 단어들의 언어 정보를 반영하여 문장을 압축하지 못한다. 또한, perplexity 측정을 위한 BERT의 사전 학습에 사용된 데이터가 압축 문장과 거리가 있어, 이를 통해 측정된 perplexity가 잘못된 문장 압축을 유도할 수 있다는 문제점이 있다. 이를 해결하기 위해 본 논문은 언어 정보의 중요도를 수치화하여 perplexity 기반의 문장 점수 계산에 반영하는 방법을 제안한다. 또한 고유명사가 자주 포함되어 있으며, 불필요한 수식어가 생략되는 경우가 많은 뉴스 기사 말뭉치로 BERT를 fine-tuning하여 문장 압축에 적절한 perplexity를 측정할 수 있도록 하였다. 영어 및 한국어 데이터에 대한 성능 평가를 위해 본 논문에서 제안하는 LI-Deleter와 비교 모델의 문장 압축 성능을 비교 실험을 진행하였고, 높은 문장 압축 성능을 보임을 확인하였다.

의료 인공지능에 대한 대한민국 영상의학과 전공의의 인식 조사 연구 (Survey of the Knowledge of Korean Radiology Residents on Medical Artificial Intelligence)

  • 이현빈;박성호;김채리;김승관;차재형
    • 대한영상의학회지
    • /
    • 제81권6호
    • /
    • pp.1397-1411
    • /
    • 2020
  • 목적 이 연구는 인공지능(artificial intelligence; 이하 AI)에 대한 영상의학과 전공의들의 인식 및 의견을 알아보고자 하였다. 대상과 방법 2019년 6월 4일부터 7일까지 AI와 관련한 18개의 객관식 문항과 1개의 주관식 문항이 포함된 설문의 응답을 받았다. 모집된 결과를 로지스틱 회귀분석을 이용하여 전공의 연차, 소속 병원의 위치 및 규모 등의 요인에 따라 분석하였다. 결과 총 101명(89.4%)의 전공의가 응답하였다. AI의 지식적 측면에서 응답자의 50명(49.5%)이 AI에 대해 평균 이상으로 공부하고 있으며, 68명(67.3%)이 AI 관련 용어에 대한 이해도가 평균 이상이라고 응답하였다. 또한 서울 및 경기 지역 응답자가 기타 지역 응답자에 비하여 AI에 대한 자가 평가 및 지식수준이 의미 있게 높았으며, 4년차 전공의에 비해 1~2년차 전공의가 AI에 대한 자가 평가 및 지식수준이 의미 있게 낮았다. AI 관련 연구에 참여해본 적 있는 전공의는 15.8%이었지만, 추후 연구 참여 의향이 있는 전공의는 90%에 달하였다. 전공의 들은 또한 학회 주도의 AI 교육 및 적극적 홍보를 원하고 있었다. 결론 영상의학과 전공의의 AI 교육 수요를 충족시키고, 의료 AI 시대의 영상의학과 의사의 역할을 제대로 알리기 위해 보다 많은 학회 차원의 노력이 요청된다.

Tokamak plasma disruption precursor onset time study based on semi-supervised anomaly detection

  • X.K. Ai;W. Zheng;M. Zhang;D.L. Chen;C.S. Shen;B.H. Guo;B.J. Xiao;Y. Zhong;N.C. Wang;Z.J. Yang;Z.P. Chen;Z.Y. Chen;Y.H. Ding;Y. Pan
    • Nuclear Engineering and Technology
    • /
    • 제56권4호
    • /
    • pp.1501-1512
    • /
    • 2024
  • Plasma disruption in tokamak experiments is a challenging issue that causes damage to the device. Reliable prediction methods are needed, but the lack of full understanding of plasma disruption limits the effectiveness of physics-driven methods. Data-driven methods based on supervised learning are commonly used, and they rely on labelled training data. However, manual labelling of disruption precursors is a time-consuming and challenging task, as some precursors are difficult to accurately identify. The mainstream labelling methods assume that the precursor onset occurs at a fixed time before disruption, which leads to mislabeled samples and suboptimal prediction performance. In this paper, we present disruption prediction methods based on anomaly detection to address these issues, demonstrating good prediction performance on J-TEXT and EAST. By evaluating precursor onset times using different anomaly detection algorithms, it is found that labelling methods can be improved since the onset times of different shots are not necessarily the same. The study optimizes precursor labelling using the onset times inferred by the anomaly detection predictor and test the optimized labels on supervised learning disruption predictors. The results on J-TEXT and EAST show that the models trained on the optimized labels outperform those trained on fixed onset time labels.

하천 관리를 위한 원격탐사 자료 기반 식생 분류 기법 (Vegetation classification based on remote sensing data for river management)

  • Lee, Chanjoo;Rogers, Christine;Geerling, Gertjan;Pennin, Ellis
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.6-7
    • /
    • 2021
  • 하천에서의 식생 활착은 지형, 생태, 수리학 등의 학문 분야 뿐만 아니라 하천 관리 실무에서도 중요한 이슈 중에 하나로서 하천 식생 문제는 홍수 관리와 생태계 보전이라는 상반되는 가치의 조화에 직결된다. 국내에서는 2000년대 이후 댐 하류 조절하천, 부영화된 소규모 지류하천, 4대강 사업 대상지 고수부지 등 다양한 조건에서 하천 식생 활착과 육역화 문제가 지속적으로 제기되어 왔다. 이러한 배경에서 본 연구에서는 하천 내의 식생 분포를 원격탐사 자료를 기반으로 분류하는 기법을 제안하고 이를 내성천에 적용한 결과를 제시하였다. 내성천은 2014년부터 최근까지 지속적으로 식생 활착이 발생하여 하천 경관이 변화한 대표적인 사례 하천이다. 원격탐사 자료는 유럽항공우주국(ESA)에서 운영 중이며, Google Earth Engine에서 제공하는 Sentinel 1, 2 위성 영상을 사용하였다. 지상 참값(ground truth)으로는 수역, 사주, 초본, 목본 등을 포함한 8가지 유형으로 구분되어 있는 2016년 내성천 지표 피복 자료를 사용하였다. 분류를 위한 방법은 머신러닝 알고리듬의 하나인 랜덤 포레스트 분류 기법을 사용하였으며, 미리 선정된 10개 폴리곤 영역으로부터 1,000개의 표본을 추출하여 1/2씩 나누어 훈련 및 검증 자료로 사용하였다. 검증 자료 기반의 정확도는 82~85 %로 나타났다. 훈련을 통해 수립한 모형을 2016~2020년 자료에도 적용하여 연도에 따른 식생역의 변화 과정을 제시하였다. 본 논문의 기술적 한계와 개선 방안을 고찰하였다. 이 기법은 정량적인 식생 분포를 제공함으로써 하천에서의 홍수위 계산, 식생-수리모델링 등의 기술 분야 뿐만 아니라 간벌이나 하천 식생 회춘 유도(rejuvenation)과 같은 식생의 실무적 관리 측면에서도 활용도가 클 것으로 판단된다.

  • PDF

Sentinel-1 위성 영상을 활용한 침수 탐지 기법 방법론 비교 연구 (Comparative study of flood detection methodologies using Sentinel-1 satellite imagery)

  • 이성우;김완엽;이슬찬;정하규;박종수;최민하
    • 한국수자원학회논문집
    • /
    • 제57권3호
    • /
    • pp.181-193
    • /
    • 2024
  • 기후변화에 의해 발생하는 대기 불균형은 강우량의 증가로 이어지고, 침수 발생 빈도가 증가함에 따라 이를 탐지할 수 있는 기술의 필요성이 증가하고 있다. 침수 피해를 최소화하기 위해 지속적인 모니터링이 필요하며, 날씨의 영향을 받지 않는 합성개구레이더(Synthetic Aperture Radar, SAR) 영상을 활용하여 침수지역을 탐지하였다. 관측된 데이터는 median 필터를 통해 노이즈를 감소시키는 전처리 과정을 진행하였으며, 객체 탐지 기법을 통해 수체와 비수체를 분류하여 각 기법의 침수탐지 활용성을 평가하고자 하였다. 본 연구에서는 Otsu 기법과 SVM 기법을 통해 수체 및 침수 탐지를 수행하였으며, Confusion Matrix를 통해 전체적인 모델의 성능을 평가하였다. Otsu 기법은 수체와 비수체의 경계를 구분하는데 적합함을 보였으나, 혼합물의 영향을 받아 오탐지의 비율이 높게 나타났다. 반면, SVM 기법을 사용한 경우, 오탐지 비율이 낮고 혼합물에 의한 영향에 민감하지 않은 것으로 관측되었다. 이에 따라 침수 상태를 제외한 다른 조건에서 SVM 기법의 정확도가 높게 나타났다. Otsu 기법이 침수 조건에서 SVM 기법보다 다소 높은 정확도를 보였지만, 정확도의 차이가 5% 미만임을 확인할 수 있었다(Otsu: 0.93, SVM: 0.90). SVM 기법이 Otsu 기법보다 침수 전, 침수 후의 조건에서 정확도 차이가 최대 15% 이상 발생하여 수체 및 침수탐지에 더 적합하게 나타났다(Otsu: 0.77, SVM: 0.92). 이러한 결과는 SVM 기법이 수체 및 침수탐지에서 효과적으로 활용될 수 있음을 시사하며, 미래의 수재해 탐지 시스템에 적용될 때 유용한 정보를 제공할 수 있을 것으로 기대된다.

Node2vec 그래프 임베딩과 Light GBM 링크 예측을 활용한 식음료 산업의 수출 후보국가 탐색 연구 (A Study on Searching for Export Candidate Countries of the Korean Food and Beverage Industry Using Node2vec Graph Embedding and Light GBM Link Prediction)

  • 이재성;전승표;서진이
    • 지능정보연구
    • /
    • 제27권4호
    • /
    • pp.73-95
    • /
    • 2021
  • 본 연구는 Node2vec 그래프 임베딩 방법과 Light GBM 링크 예측을 활용해 우리나라 식음료 산업의 미개척 수출 후보국가를 탐색한다. Node2vec은 네트워크의 공통 이웃 개수 등을 기반으로 하는 기존의 링크 예측 방법에 비해 상대적으로 취약하다고 알려져 있던 네트워크의 구조적 등위성 표현의 한계를 개선한 방법이다. 따라서 해당 방법은 네트워크의 커뮤니티 탐지와 구조적 등위성 모두에서 우수한 성능을 나타내는 것으로 알려져 있다. 이에 본 연구는 이상의 방법을 우리나라 식음료 산업의 국제 무역거래 정보에 적용했다. 이를 통해 해당 산업의 글로벌 가치사슬 관계에서 우리나라의 광범위한 마진 다각화 효과를 창출하는데 기여하고자 한다. 본 연구의 결과를 통해 도출된 최적의 예측 모델은 0.95의 정밀도와 0.79의 재현율을 기록하며 0.86의 F1 score를 기록해 우수한 성능을 나타냈다. 이상의 모델을 통해 도출한 우리나라의 잠재적 수출 후보국가들의 결과는 추가 조사를 통해 대부분 적절하게 나타난 것을 알 수 있었다. 이상의 내용을 종합하여 본 연구는 Node2vec과 Light GBM을 응용한 링크 예측 방법의 실무적 활용성에 대해 시사할 수 있었다. 그리고 모델을 학습하며 링크 예측을 보다 잘 수행할 수 있는 가중치 업데이트 전략에 대해서도 유용한 시사점을 도출할 수 있었다. 한편, 본 연구는 그래프 임베딩 기반의 링크 예측 관련 연구에서 아직까지 많이 수행된 적 없는 무역거래에 이를 적용했기에 정책적 활용성도 갖고 있다. 본 연구의 결과는 최근 미중 무역갈등이나 일본 수출 규제 등과 같은 글로벌 가치사슬의 변화에 대한 빠른 대응을 지원하며 정책적 의사결정을 위한 도구로써 충분한 유용성이 있다고 생각한다.

Ensemble of Nested Dichotomies 기법을 이용한 스마트폰 가속도 센서 데이터 기반의 동작 인지 (Ensemble of Nested Dichotomies for Activity Recognition Using Accelerometer Data on Smartphone)

  • 하으뜸;김정민;류광렬
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.123-132
    • /
    • 2013
  • 최근 스마트 폰에 다양한 센서를 내장할 수 있게 되었고 스마트폰에 내장된 센서를 이용항 동작 인지에 관한 연구가 활발히 진행되고 있다. 스마트폰을 이용한 동작 인지는 노인 복지 지원이나 운동량 측정. 생활 패턴 분석, 운동 패턴 분석 등 다양한 분야에 활용될 수 있다. 하지만 스마트 폰에 내장된 센서를 이용하여 동작 인지를 하는 방법은 사용되는 센서의 수에 따라 단일 센서를 이용한 동작인지와 다중 센서를 이용한 동작인지로 나눌 수 있다. 단일 센서를 이용하는 경우 대부분 가속도 센서를 이용하기 때문에 배터리 부담은 줄지만 다양한 동작을 인지할 때에 특징(feature) 추출의 어려움과 동작 인지 정확도가 낮다는 문제점이 있다. 그리고 다중 센서를 이용하는 경우 대부분 가속도 센서와 중력센서를 사용하고 필요에 따라 다른 센서를 추가하여 동작인지를 수행하며 다양한 동작을 보다 높은 정확도로 인지할 수 있지만 다수의 센서를 사용하기 때문에 배터리 부담이 증가한다는 문제점이 있다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 스마트 폰에 내장된 가속도 센서를 이용하여 다양한 동작을 높은 정확도로 인지하는 방법을 제안한다. 서로 다른 10가지의 동작을 높을 정확도로 인지하기 위해 원시 데이터로부터 17가지 특징을 추출하고 각 동작을 분류하기 위해 Ensemble of Nested Dichotomies 분류기를 사용하였다. Ensemble of Nested Dichotomies 분류기는 다중 클래스 문제를 다수의 이진 분류 문제로 변형하여 다중 클래스 문제를 해결하는 방법으로 서로 다른 Nested Dichotomy 분류기의 분류 결과를 통해 다중 클래스 문제를 해결하는 기법이다. Nested Dichotomy 분류기 학습에는 Random Forest 분류기를 사용하였다. 성능 평가를 위해 Decision Tree, k-Nearest Neighbors, Support Vector Machine과 비교 실험을 한 결과 Ensemble of Nested Dichotomies 분류기를 사용하여 동작 인지를 수행하는 것이 가장 높은 정확도를 보였다.