• 제목/요약/키워드: Random Forest Classifier

검색결과 96건 처리시간 0.026초

컴퓨터 단층 촬영 영상에서의 전이성 척추 종양의 정량적 분류를 위한 라디오믹스 기반의 머신러닝 기법 (Radiomics-based Machine Learning Approach for Quantitative Classification of Spinal Metastases in Computed Tomography)

  • 이은우;임상헌;전지수;강혜원;김영재;전지영;김광기
    • 대한의용생체공학회:의공학회지
    • /
    • 제42권3호
    • /
    • pp.71-79
    • /
    • 2021
  • Currently, the naked eyes-based diagnosis of bone metastases on CT images relies on qualitative assessment. For this reason, there is a great need for a state-of-the-art approach that can assess and follow-up the bone metastases with quantitative biomarker. Radiomics can be used as a biomarker for objective lesion assessment by extracting quantitative numerical values from digital medical images. In this study, therefore, we evaluated the clinical applicability of non-invasive and objective bone metastases computer-aided diagnosis using radiomics-based biomarkers in CT. We employed a total of 21 approaches consist of three-classifiers and seven-feature selection methods to predict bone metastases and select biomarkers. We extracted three-dimensional features from the CT that three groups consisted of osteoblastic, osteolytic, and normal-healthy vertebral bodies. For evaluation, we compared the prediction results of the classifiers with the medical staff's diagnosis results. As a result of the three-class-classification performance evaluation, we demonstrated that the combination of the random forest classifier and the sequential backward selection feature selection approach reached AUC of 0.74 on average. Moreover, we confirmed that 90-percentile, kurtosis, and energy were the features that contributed high in the classification of bone metastases in this approach. We expect that selected quantitative features will be helpful as biomarkers in improving the patient's survival and quality of life.

온라인 게임 로그 데이터 클러스터링 기반 일일 단위 게임봇 판별 (Detecting Daily-Driven Game-Bot Based on Online Game Play Log Clustering)

  • 김주환;최진영
    • 정보보호학회논문지
    • /
    • 제31권6호
    • /
    • pp.1097-1104
    • /
    • 2021
  • 온라인 게임 봇은 이미 수 많은 방식을 통해 사람들에게 알려져 왔으며, 사용자의 게임 흥미 저하, 게임 내 경제 순환 파괴, 게임 컨텐츠 및 수명 단축 등 많은 문제점을 야기한다. 정상적이지 않은 게임 봇 운영을 방치하는 것은 장기적으로 게임 제작사와 게임 플레이어에게 모두 악영향을 미치게 되므로 이에 대한 탐지 및 제재는 필수가 되었다. 하지만 제재 단계에서 생기는 오인 제재의 딜레마를 피하기 쉽지 않다. 게임사 측에서 유저를 제재하기 위해서는 객관적인 분석 지표인 로그를 가지고 제재 여부를 판단해야 하며, 로그에서 추출한 정보를 근거로 확보해야 한다. 본 연구에서는 탐지 대상 기간의 로그에 대하여 이를 일일 단위로 나누어서 게임봇 유저 판별을 수행할 것이다. 일일 단위 탐지를 위해 탐지 기간을 하루 단위로 나누어 해당 일자에 대한 게임봇 여부를 우선 판별하고, 이후 최종 결과를 판단하였다. 제안한 방법론을 통해 일반 유저 스타일과 게임봇 유저 스타일이 섞여 있는 경우를 쉽게 탐지해 낼 수 있을 것이다. 본 논문에서 제안한 방법론으로 테스트한 결과, 분류 정확도를 확인할 수 있는 지표 중 하나인 F1-score가 0.898에서 0.945로 향상되었다.

다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 미치는 영향 연구 (The Effect of Meta-Features of Multiclass Datasets on the Performance of Classification Algorithms)

  • 김정훈;김민용;권오병
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.23-45
    • /
    • 2020
  • 기업의 경쟁력 확보를 위해 판별 알고리즘을 활용한 의사결정 역량제고가 필요하다. 하지만 대부분 특정 문제영역에는 적합한 판별 알고리즘이 어떤 것인지에 대한 지식은 많지 않아 대부분 시행착오 형식으로 최적 알고리즘을 탐색한다. 즉, 데이터셋의 특성에 따라 어떠한 분류알고리즘을 채택하는 것이 적합한지를 판단하는 것은 전문성과 노력이 소요되는 과업이었다. 이는 메타특징(Meta-Feature)으로 불리는 데이터셋의 특성과 판별 알고리즘 성능과의 연관성에 대한 연구가 아직 충분히 이루어지지 않았기 때문이며, 더구나 다중 클래스(Multi-Class)의 특성을 반영하는 메타특징에 대한 연구 또한 거의 이루어진 바 없다. 이에 본 연구의 목적은 다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 유의한 영향을 미치는지에 대한 실증 분석을 하는 것이다. 이를 위해 본 연구에서는 다중 클래스 데이터셋의 메타특징을 데이터셋의 구조와 데이터셋의 복잡도라는 두 요인으로 분류하고, 그 안에서 총 7가지 대표 메타특징을 선택하였다. 또한, 본 연구에서는 기존 연구에서 사용하던 IR(Imbalanced Ratio) 대신 시장집중도 측정 지표인 허핀달-허쉬만 지수(Herfindahl-Hirschman Index, HHI)를 메타특징에 포함하였으며, 역ReLU 실루엣 점수(Reverse ReLU Silhouette Score)도 새롭게 제안하였다. UCI Machine Learning Repository에서 제공하는 복수의 벤치마크 데이터셋으로 다양한 변환 데이터셋을 생성한 후에 대표적인 여러 판별 알고리즘에 적용하여 성능 비교 및 가설 검증을 수행하였다. 그 결과 대부분의 메타특징과 판별 성능 사이의 유의한 관련성이 확인되었으며, 일부 예외적인 부분에 대한 고찰을 하였다. 본 연구의 실험 결과는 향후 메타특징에 따른 분류알고리즘 추천 시스템에 활용할 것이다.

매장 문화재 공간 분포 결정을 위한 지하투과레이더 영상 분석 자동화 기법 탐색 (Automated Analyses of Ground-Penetrating Radar Images to Determine Spatial Distribution of Buried Cultural Heritage)

  • 권문희;김승섭
    • 자원환경지질
    • /
    • 제55권5호
    • /
    • pp.551-561
    • /
    • 2022
  • 지구물리탐사기법은 매장 문화재 조사에 필요한 높은 해상도의 지하 구조 영상 생성과 매장 유구의 정확한 위치 결정하는 데 매우 유용하다. 이 연구에서는 경주 신라왕경 중심방의 고해상도 지하투과레이더 영상에서 유구의 규칙적인 배열이나 선형 구조를 자동적으로 구분하기 위하여 영상처리 기법인 영상 특징 추출과 영상분할 기법을 적용하였다. 영상 특징 추출의 대상은 유구의 원형 적심과 선형의 도로 및 담장으로 캐니 윤곽선 검출(Canny edge detection)과 허프 변환(Hough Transform) 알고리듬을 적용하였다. 캐니 윤곽선 검출 알고리듬으로 검출된 윤곽선 이미지에 허프 변환을 적용하여 유구의 위치를 탐사 영상에서 자동 결정하고자 하였으나, 탐사 지역별로 매개변수를 달리해서 적용해야 한다는 제약이 있었다. 영상 분할 기법의 경우 연결요소 분석 알고리듬과 QGIS에서 제공하는 Orfeo Toolbox (OTB)를 이용한 객체기반 영상분석을 적용하였다. 연결 요소 분석 결과에서, 유구에 의한 신호들이 연결된 요소들로 효과적으로 인식되었지만 하나의 유구가 여러 요소로 분할되어 인식되는 경우도 발생함을 확인하였다. 객체기반 영상분석에서는 평균이동(Large-Scale Mean-Shift, LSMS) 영상 분할을 적용하여 각 분할 영역에 대한 화소 정보가 포함된 벡터 레이어를 우선 생성하였고, 유구를 포함하는 영역과 포함하지 않는 영역을 선별하여 훈련 모델을 생성하였다. 이 훈련모델에 기반한 랜덤포레스트 분류기를 이용해 LSMS 영상분할 벡터 레이어에서 유구를 포함하는 영역과 그렇지 않은 영역이 자동 분류 될 수 있음을 확인하였다. 이러한 자동 분류방법을 매장 문화재 지하투과레이더 영상에 적용한다면 유구 발굴 계획에 활용가능한 일관성 있는 결과를 얻을 것으로 기대한다.

텍스트 마이닝을 활용한 지역 특성 기반 도시재생 유형 추천 시스템 제안 (Suggestion of Urban Regeneration Type Recommendation System Based on Local Characteristics Using Text Mining)

  • 김익준;이준호;김효민;강주영
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.149-169
    • /
    • 2020
  • 현 정부의 주요 국책사업 중 하나인 도시재생 뉴딜사업은 매년 100 곳씩, 5년간 500곳을대상으로 50조를 투자하여 낙후된 지역을 개발하는 것으로 언론과 지자체의 높은 이목이 집중되고 있다. 그러나, 현재 이 사업모델은 면적 규모에 따라 "우리동네 살리기, 주거정비지원형, 일반근린형, 중심시가지형, 경제기반형" 등 다섯 가지로 나뉘어 추진되어 그 지역 본래의 특성을 반영하지 못하고 있다. 국내 도시재생 성공 키워드는 "주민 참여", "지역특화" "부처협업", "민관협력"이다. 성공 키워드에 따르면 지자체에서 정부에게 도시재생 사업을 제안할 때 지역주민, 민간기업의 도움과 함께 도시의 특성을 정확히 이해하고 도시의 특성에 어울리는 방향으로 사업을 추진하는 것이 가장 중요하다는 것을 알 수 있다. 또한 도시재생 사업 후 발생하는 부작용 중 하나인 젠트리피케이션 문제를 고려하면 그 지역 특성에 맞는 도시재생 유형을 선정하여 추진하는 것이 중요하다. 이에 본 연구는 '도시재생 뉴딜 사업' 방법론의 한계점을 보완하기 위해, 기존 서울시가 지역 특성에 기반하여 추진하고 있는 "2025 서울시 도시재생 전략계획"의 도시재생 유형을 참고하여 도시재생 사업지에 맞는 도시재생 유형을 추천하는 시스템을 머신러닝 알고리즘을 활용하여 제안하고자 한다. 서울시 도시재생 유형은 "저이용저개발, 쇠퇴낙후, 노후주거, 역사문화자원 특화" 네 가지로 분류된다 (Shon and Park, 2017). 지역 특성을 파악하기 위해 총 4가지 도시재생 유형에 대해 사업이 진행된 22개의 지역에 대한 뉴스 미디어 10만여건의 텍스트 데이터를 수집하였다. 수집된 텍스트를 이용하여 도시재생 유형에 따른 지역별 주요 키워드를 도출하고 토픽모델링을 수행하여 유형별 차이가 있는 지 탐색해 보았다. 다음 단계로 주어진 텍스트를 기반으로 도시재생 유형을 추천하는 추천시스템 구축을 위해 텍스트 데이터를 벡터로 변환하여 머신러닝 분류모델을 개발하였고, 이를 검증한 결과 97% 정확도를 보였다. 따라서 본 연구에서 제안하는 추천 시스템은 도시재생 사업을 진행하는 과정에서 신규 사업지의 지역 특성에 기반한 도시재생 유형을 추천할 수 있을 것으로 기대된다.

Node2vec 그래프 임베딩과 Light GBM 링크 예측을 활용한 식음료 산업의 수출 후보국가 탐색 연구 (A Study on Searching for Export Candidate Countries of the Korean Food and Beverage Industry Using Node2vec Graph Embedding and Light GBM Link Prediction)

  • 이재성;전승표;서진이
    • 지능정보연구
    • /
    • 제27권4호
    • /
    • pp.73-95
    • /
    • 2021
  • 본 연구는 Node2vec 그래프 임베딩 방법과 Light GBM 링크 예측을 활용해 우리나라 식음료 산업의 미개척 수출 후보국가를 탐색한다. Node2vec은 네트워크의 공통 이웃 개수 등을 기반으로 하는 기존의 링크 예측 방법에 비해 상대적으로 취약하다고 알려져 있던 네트워크의 구조적 등위성 표현의 한계를 개선한 방법이다. 따라서 해당 방법은 네트워크의 커뮤니티 탐지와 구조적 등위성 모두에서 우수한 성능을 나타내는 것으로 알려져 있다. 이에 본 연구는 이상의 방법을 우리나라 식음료 산업의 국제 무역거래 정보에 적용했다. 이를 통해 해당 산업의 글로벌 가치사슬 관계에서 우리나라의 광범위한 마진 다각화 효과를 창출하는데 기여하고자 한다. 본 연구의 결과를 통해 도출된 최적의 예측 모델은 0.95의 정밀도와 0.79의 재현율을 기록하며 0.86의 F1 score를 기록해 우수한 성능을 나타냈다. 이상의 모델을 통해 도출한 우리나라의 잠재적 수출 후보국가들의 결과는 추가 조사를 통해 대부분 적절하게 나타난 것을 알 수 있었다. 이상의 내용을 종합하여 본 연구는 Node2vec과 Light GBM을 응용한 링크 예측 방법의 실무적 활용성에 대해 시사할 수 있었다. 그리고 모델을 학습하며 링크 예측을 보다 잘 수행할 수 있는 가중치 업데이트 전략에 대해서도 유용한 시사점을 도출할 수 있었다. 한편, 본 연구는 그래프 임베딩 기반의 링크 예측 관련 연구에서 아직까지 많이 수행된 적 없는 무역거래에 이를 적용했기에 정책적 활용성도 갖고 있다. 본 연구의 결과는 최근 미중 무역갈등이나 일본 수출 규제 등과 같은 글로벌 가치사슬의 변화에 대한 빠른 대응을 지원하며 정책적 의사결정을 위한 도구로써 충분한 유용성이 있다고 생각한다.