• 제목/요약/키워드: supervised learning

검색결과 747건 처리시간 0.028초

PA 흉부 X-선 영상 패치 분할에 의한 지역 특수성 이상 탐지 방법 (A Method for Region-Specific Anomaly Detection on Patch-wise Segmented PA Chest Radiograph)

  • 김현빈;전준철
    • 인터넷정보학회논문지
    • /
    • 제24권1호
    • /
    • pp.49-59
    • /
    • 2023
  • COVID-19로 대표되는 팬데믹 상황에서 의료 인력 부족으로 인한 문제가 대두되고 있다. 본 논문에서는 진단 업무를 지원하기 위한 컴퓨터 비전 솔루션으로 PA 흉부 X-선 영상에 대한 병변 유무 진단 방법에 대해 제시한다. 디지털 영상에 대한 특징 비교 방식의 이상 탐지 기법을 X-선 영상에 적용하여 비정상적인 영역을 예측할 수 있다. 정렬된 PA 흉부 X-선 영상으로부터 특징 벡터를 추출하고 패치 단위로 분할하여 지역적으로 등장하는 비정상을 포착한다. 사전 실험으로 다중 객체를 포함하는 시뮬레이션 데이터 세트를 생성하고 이에 대한 비교 실험 결과를 제시한다. 정렬된 영상에 대해 적용 가능한 패치 특징 하드마스킹을 통해 프로세스의 효율성 및 성능을 향상하는 방법을 제시한다. 지역 특수성 및 전역 이상 탐지 결과를 합산하여 기존 연구 대비 6.9%p AUROC 향상된 성능을 보인다.

XAI 기반 기업부도예측 분류모델 연구 (A Study on Classification Models for Predicting Bankruptcy Based on XAI)

  • 김지홍;문남미
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권8호
    • /
    • pp.333-340
    • /
    • 2023
  • 기업 부도의 효율적인 예측은 금융기관의 적절한 대출 결정과 여신 부실률 감소 측면에서 중요한 부분이다. 많은 연구에서 인공지능 기술을 활용한 분류모델 연구를 진행하였다. 금융 산업 특성상 새로운 예측 모델의 성능이 우수하더라도 어떤 근거로 결과를 출력했는지 직관적인 설명이 수반되어야 한다. 최근 미국, EU, 한국 등 에서는 공통적으로 알고리즘의 설명요구권을 제시하고 있어 금융권 AI 활용에 투명성을 확보하여야 한다. 본 논문에서는 외부에 오픈된 기업부도 데이터를 활용하여 인공지능 기반의 해석 가능한 분류 예측 모델을 제안하였다. 먼저 데이터 전처리 작업, 5겹 교차검증 등을 수행하고 로지스틱 회귀, SVM, XGBoost, LightGBM 등 10가지 지도학습 분류모델 최적화를 통해 분류 성능을 비교하였다. 그 결과 LightGBM이 가장 우수한 모델로 확인되었고, 설명 가능한 인공지능 기법인 SHAP을 적용하여 부도예측 과정에 대한 사후 설명을 제공하였다.

영상의 효과음을 통한 분위기 메타데이터 추출 (Extractiong mood metadata through sound effects of video)

  • 유연휘;박효경;용성중;이서영;문일영
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.453-455
    • /
    • 2022
  • 메타데이터는 데이터에 대한 속성이나 특징을 설명하는 구조화된 데이터를 말한다. 그중에서 비디오 메타데이터는 정확한 콘텐츠 기반 검색을 위해 비디오를 구성하는 정보에서 추출한 데이터를 의미한다. 최근 영상 콘텐츠를 이용하는 사용자들이 늘어나면서 자연스럽게 OTT 제공 업체들 역시 늘어나고 있으며, OTT 제공 업체에서 많은 양의 영상 콘텐츠를 개인 사용자에게 추천 또는 알맞은 검색을 위해 메타데이터의 역할이 중요해지고 있다. 본 논문에서는 영상의 효과음을 통해 분위기 속성에 대한 메타데이터를 자동으로 추출하는 방법에 관해 연구를 진행하였다. 영상의 효과음에 대한 분류와 분위기 속성에 대한 메타데이터 생성을 위해 분위기에 대한 용어사전을 구축하고 지도학습을 통해 정보를 추출하는 방법을 제안하고자 한다.

  • PDF

영화 장르 메타데이터 생성을 위한 오디오 활용 방법에 대한 연구 (A Research on the Audio Utilization Method for Generating Movie Genre Metadata)

  • 용성중;박효경;유연휘;문일영
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.284-286
    • /
    • 2021
  • 지속적으로 인터넷 및 디지털의 발전으로 많은 양의 미디어 데이터를 저장하고 온라인을 통해 개인에게 맞춤형 서비스를 제공하는 플랫폼이 등장하고 있다. 이러한 서비스를 제공하는 업체들은 미디어의 소비를 촉진 시키기 위해 개인 취향에 맞는 영화를 추천한다. 각 업체에서는 사용자가 선호할 미디어 추천을 위해 다양한 알고리즘에 대해 많은 연구를 하고 있다. 영화는 액션, 멜로, 공포, 드라마 등으로 장르를 구분하고 있으며, 영화의 오디오(음악,효과,음성)는 영화를 구성하는 중요한 제작 요소로 자리잡고 있다. 본 연구에서는 영화예고편을 바탕으로 장르별 오디오를 추출하고, 장르별 오디오의 공통점을 확인 후 인공지능의 지도학습을 통해 영화 장르를 구별하고 추후 메타데이터 생성을 위한 활용방안을 제안하고자 한다.

  • PDF

미디어 초개인화 추천을 위한 YCrCb 컬러 모델 분석을 통한 영상의 메타데이터 추출에 대한 연구 (A Research on Image Metadata Extraction through YCrCb Color Model Analysis for Media Hyper-personalization Recommendation)

  • 박효경;용성중;유연휘;문일영
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.277-280
    • /
    • 2021
  • 최근 높은 접근성을 기반으로 다양한 콘텐츠가 양산됨에 따라 미디어 콘텐츠 시장이 더욱 활성화되고 있다. 사용자들은 취향에 맞는 콘텐츠를 찾고자 하며, 각 플랫폼에서 콘텐츠의 개인화 추천을 위해 경쟁하고 있다. 효율적인 추천시스템을 위해서는 양질의 메타데이터가 필요하다. 기존의 플랫폼들은 영상의 메타데이터를 사용자가 직접 입력하는 방식을 취하고 있다. 이는 많은 양의 데이터를 처리하는 데에 시간과 비용을 낭비하게 할 것이다. 본 논문에서는 미디어 초개인화 추천을 위해서 영화예고편을 바탕으로, 영상의 YCrCb 컬러 모델을 기반으로 키프레임을 추출하고, 인공지능의 지도학습을 통해 영화 장르를 구별하고 추후 메타데이터 생성을 위한 활용방안을 제안하고자 한다.

  • PDF

머신러닝기반 범죄발생 위험지역 예측 (Predicting Crime Risky Area Using Machine Learning)

  • 허선영;김주영;문태헌
    • 한국지리정보학회지
    • /
    • 제21권4호
    • /
    • pp.64-80
    • /
    • 2018
  • 우리나라의 시민들은 범죄에 대한 일반적인 사항만을 알 수 있을 뿐, 자신이 범죄위험에 얼마나 노출되어 있는지를 파악하기 어렵다. 경찰의 입장에서도 범죄발생 지역을 예측할 수 있다면 경찰력이 부족한 상황에서 효율성 있게 범죄에 대처 가능할 것이지만 아직 우리나라에서는 예측시스템이 없고, 관련 연구도 매우 부족한 실정이다. 이에 본 연구에서는 범죄발생 위험지역 예측 자동화 시스템 개발의 첫 번째 단계로 빅데이터로 구축 가능한 범죄정보와 도시지역 자료를 바탕으로 머신러닝 방식을 통해 한국형 범죄발생 위험지역 예측 모형을 개발하고자 한다. 또한 시나리오를 가정하여 범죄발생 확률을 지도로 시각화함으로써 사용자의 이해도를 높이도록 하였다. 선행 연구 및 사례에서 범죄발생에 영향을 미치는 요인 중 빅데이터로 구축 가능한 범죄정보, 날씨정보(기온, 강수량, 풍속, 습도, 일조, 일사, 적설, 전운량), 지역정보(평균 건폐율, 평균 용적율, 평균 높이, 총 건축물수, 평균 공시지가, 평균 주거용도면적, 평균 지상층수)를 머신러닝에 활용할 수 있도록 데이터를 사전 처리하였다. 머신러닝 알고리즘으로서 지도학습 모형 중 다양한 분야에서 활용되며 정확도가 높다고 알려진 의사결정나무모형, 랜덤포레스트모형, Support Vector Machine(SVM)모형을 활용하여 범죄 예측 모형을 구축하고 비교 분석하였다. 그 결과 평균 제곱근 오차(Root Mean Square Error, RMSE)가 낮아 예측력이 높은 의사결정나무모형을 최적모형으로 선정하였다. 이를 바탕으로 가장 빈번하게 발생하는 절도와 폭력범죄를 대상으로 시나리오를 작성하여 범죄 발생 위험지역을 예측한 결과, 사례도시 J시는 위험지역이 3가지 패턴으로 발생하는 것으로 나타났으며, 각각 발생확률을 3 등급으로 구분하여 $250{\times}250m$ 단위의 지도형태로 시각화할 수 있었다. 본 연구는 향후 자동화 시스템으로 개발하여 시시각각으로 변하는 도시 상황에 따라 실시간으로 예측 결과를 시각화하여 제공함으로써 보다 범죄로부터 안전한 도시환경 조성에 기여하고자 한다.

전통문화 콘텐츠 표준체계를 활용한 자동 텍스트 분류 시스템 (A System for Automatic Classification of Traditional Culture Texts)

  • 허윤아;이동엽;김규경;유원희;임희석
    • 한국융합학회논문지
    • /
    • 제8권12호
    • /
    • pp.39-47
    • /
    • 2017
  • 한국 문화의 역사, 전통과 관련된 디지털 웹 문서가 증가하게 되었다. 하지만 창작자 또는 전통 문화와 관련된 소재를 찾는 사용자들은 정보를 검색해도 결과가 충분하지 않았으며 원하는 정보를 얻지 못하는 경우가 나타나고 있다. 이런 효과적인 정보를 접하기 위해서는 문서 분류가 필요하다. 과거에 문서 분류는 작업자가 수작업으로 문서 분류하여 시간과 비용이 많이 소비하는 어려움이 있었지만, 최근 기계학습 기반으로 한 자동 문서 분류를 통해 효율적인 문서 분류가 이루어진다. 이에 본 논문은 전통문화 콘텐츠를 체계적인 분류체계로 구성한 한민족정보문화마당 데이터를 기반으로 전통문화 콘텐츠 자동 텍스트 분류 모델을 개발한다. 본 연구는 한민족정보문화마당 텍스트 데이터에 대해 단어 빈도수를 추출하기 위해 TF-IDF모델, Bag-of-Words 모델, TF-IDF/Bag-of-Words를 결합한 모델을 적용하여 각각 SVM 분류 알고리즘을 사용하여 전통문화 콘텐츠 자동 텍스트 분류 모델을 개발하여 성능평가를 확인하였다.

소셜데이터 분석 및 인공지능 알고리즘 기반 범죄 수사 기법 연구 (Artificial Intelligence Algorithms, Model-Based Social Data Collection and Content Exploration)

  • 안동욱;임춘성
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.23-34
    • /
    • 2019
  • 최근 디지털 플랫폼을 활용한 민생 위협 범죄는 '15년 약 14만여 건, '16년 약 15만여 건 등 사이버범죄 지속 증가 추이이며 전통적인 수사기법을 통한 온라인 범죄 대응에 한계가 있다고 판단되고 있다. 현행 수기 온라인 검색 및 인지 수사 방식만으로는 빠르게 변화하는 민생 위협 범죄에 능동적으로 대처 할 수 없으며, 소셜 미디어 특성상 불특정 다수에게 게시되는 콘텐츠로 이루어 졌다는 점에서 더욱 어려움을 겪고 있다. 본 연구는 민생 침해 범죄가 발생하는 온라인 미디어의 특성을 고려한 콘텐츠 웹 수집 방식 중 사이트 중심의 수집과 Open API를 통한 방식을 제시한다. 또한 불법콘텐츠의 특성상 신속히 게시되고 삭제되며 신조어, 변조어 등이 다양하고 빠르게 생성되기 때문에 수작업 등록을 통한 사전 기반 형태소 분석으로는 빠른 인지가 어려운 상황이다. 이를 해소 하고자 온라인에서 벌어지는 민생 침해 범죄를 게시하는 불법 콘텐츠를 빠르게 인지하고 대응하기 위한 데이터 전처리인 WPM(Word Piece Model)을 통하여 기존의 사전 기반의 형태소 분석에서 토크나이징 방식을 제시한다. 데이터의 분석은 불법 콘텐츠의 수사를 위한 지도학습 기반의 분류 알고리즘 모델을 활용, 투표 기반(Voting) 앙상블 메소드를 통하여 최적의 정확도를 검증하고 있다. 본 연구에서는 민생경제를 침해하는 범죄를 사전에 인지하기 위하여 불법 다단계에 대한 사례를 중심으로 분류 알고리즘 모델을 활용하고, 소셜 데이터의 수집과 콘텐츠 수사에 대하여 효과적으로 대응하기 위한 실증 연구를 제시하고 있다.

  • PDF

추론 및 비교사학습 기법 기반 레이블링을 적용한 탐지 모델 (A Detection Model using Labeling based on Inference and Unsupervised Learning Method)

  • 홍성삼;김동욱;김병익;한명묵
    • 인터넷정보학회논문지
    • /
    • 제18권1호
    • /
    • pp.65-75
    • /
    • 2017
  • 탐지 모델은 인공지능 기법들이나 데이터 마이닝 기법, 또는 지능형 알고리즘들을 이용하여 어떠한 목적에 맞는 결과를 찾고자 하는 모델들이다. 사이버 보안에서는 주로 침입탐지, 악성코드 탐지, 침해사고 탐지, 공격 탐지로 활용되고 있다. 보안데이터와 같은 실제 환경에 수집되는 데이터들을 레이블이 되지 않은 데이터들이 많다. 클래스 레이블이 정해지지 않아 유형을 알 수 없는 데이터가 많아 정확한 탐지 및 분석을 하기 위해서는 레이블 결정과정이 필요하다. 본 논문에서 제안하는 방법은 레이블 결정을 위해 D-S 추론 알고리즘과 비교사 방법인 k-means 알고리즘을 적용하여 각 데이터의 레이블을 융합하여 결정할 수 있는 KDFL(K-means and D-S Fusion based Labeling)제안하였으며 이를 적용한 탐지 모델 구조를 제안하였다. 제안하는 방법은 실험을 통해 기존의 방법에 비해 탐지율, 정확도, F1-measure 성능 지표에서 우수한 성능을 나타냈다. 또한 오류율도 크게 개선된 결과를 나타내어 제안하는 방법의 성능을 검증할 수 있었다.

토픽모델링을 이용한 약어 중의성 해소 (Abbreviation Disambiguation using Topic Modeling)

  • 이운교;김자희;양준기
    • 한국시뮬레이션학회논문지
    • /
    • 제32권1호
    • /
    • pp.35-44
    • /
    • 2023
  • 최근 텍스트 분석으로 트렌드 분석이나 연구 동향 분석을 하는 연구 사례가 많다. 텍스트 분석을 위한 자료 수집에 사용되는 검색어가 약어일 때 약어의 특성상 의미 중의성 해소가 필요하다. 다수의 연구에서는 연구에 필요한 자료를 찾기 위해 수작업으로 자료를 하나씩 읽어 문서를 분류하고 있다. 약어의 의미 중의성 해소를 위한 연구는 단어의 의미를 명확화하는 연구가 대부분이고 지도학습을 이용하고 있다. 약어 중의성 해소를 위한 선행 방법은 약어로 검색된 자료에서 연구 대상 자료를 찾는 문서 분류에는 적합하지 않으며 관련 연구도 부족하다. 본 연구에서는 데이터 전처리 단계에서 비지도 학습 방법인 비음수 행렬 분해 방법으로 토픽 모델링을 진행하여 약어로 수집된 문서를 반자동으로 분류하는 방법을 제시한다. 이를 검증하기 위해 'MSA'라는 약어 검색어로 학술 데이터베이스에서 논문 자료를 수집했다. 수집된 논문 1,401편에서 제안된 방법으로 316편의 Micro Services Architecture와 관련된 논문을 찾았다. 제안된 방법의 문서 분류 정확도는 92.36%로 측정되었다. 제안된 방법이 수작업에 따른 연구자의 시간과 비용을 줄일 수 있기를 기대한다.