• Title/Summary/Keyword: Tree classification

Search Result 926, Processing Time 0.03 seconds

시뮬레이티드 어니일링 기반의 랜덤 포레스트를 이용한 기업부도예측 (Predicting Corporate Bankruptcy using Simulated Annealing-based Random Fores)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.155-170
    • /
    • 2018
  • 기업의 금융 부도를 예측하는 것은 전통적으로 비즈니스 분석에서 가장 중요한 예측문제 중 하나이다. 선행연구에서 예측모델은 통계 및 기계학습 기반의 기법을 적용하거나 결합하는 방식으로 제안되었다. 본 논문에서는 잘 알려진 최적화기법 중 하나인 시뮬레이티드 어니일링에 기반한 새로운 지능형 예측모델을 제안한다. 시뮬레이티드 어니일링은 유전자알고리즘과 유사한 최적화 성능을 가진 것으로 알려져 있다. 그럼에도 불구하고, 시뮬레이티드 어니일링을 사용한 비즈니스 의사결정 문제의 예측과 분류에 관한 연구가 거의 없었기 때문에, 비즈니스 분석에서의 유용성을 확인하는 것은 의미가 있다. 본 연구에서는 시뮬레이티드 어니일링과 기계학습의 결합 모델을 사용하여 부도예측모델의 입력 특징을 선정한다. 최적화 기법과 기계학습기법을 결합하는 대표적인 유형은 특징 선택, 특징 가중치 및 사례 선택이다. 이 연구에서는 선행연구에서 가장 많이 연구된 특징 선택을 위한 결합모델을 제안한다. 제안하는 모델의 우수성을 확인하기 위하여 본 연구에서는 한국 기업의 실제 재무데이터를 이용하여 그 결과를 분석한다. 분석결과는 제안된 모델의 예측 정확도가 단순한 모델의 예측 정확성보다 우수하다는 것을 보여준다. 특히 기존의 의사결정나무, 랜덤포레스트, 인공신경망, SVM 및 로지스틱 회귀분석에 비해 분류성능이 향상되었다.

천연기념물 지정 당산숲·비보숲의 명칭 부여 및 지정 물량 실태 고찰 (Naming and Object Specifying of Dangsan Forests and Bibo Forests Designated as Natural Monument)

  • 최재웅;김동엽
    • 헤리티지:역사와 과학
    • /
    • 제43권1호
    • /
    • pp.28-55
    • /
    • 2010
  • 천연기념물의 명칭 부여 및 지정 물량을 포함한 현재의 천연기념물 관련 체계는 일제강점기에 도입된 '조선보물고적명승천연기념물보존령' (1934)을 기반으로 하고 있으며, 이에 따른 골격이 지금까지 그대로 통용되고 있다는 문제점이 지적되고 있다. 당산숲 비보숲은 우리나라 농어촌의 숲문화를 대표하는 전통문화자원이며 국가적 문화자산이다. 천연기념물을 포함한 당산숲 비보숲을 논할 때 천연기념물 등에서 사용하는 "명칭", "분류 체계" 등에 대해서 문화재청에서조차, '조선의임수(朝鮮の林藪)' (1938)라는 일제의 조사보고서에 실린 내용에 전적으로 의존하고 있다는 것이 근본적인 문제점이라고 할 수 있다. 즉, 일제가 1938년에 '완도 예송리 당산숲'을 '례송리상녹수림(禮松里常綠樹林)'이라고 이름을 붙인 후, 현재까지도 우리 농어촌의 당산숲 비보숲을 천연기념물 등으로 지정할 때, 해안가의 경우 대부분 일제가 한 방식대로 '~상록수림'이라는 명칭을 그대로 따르고 있다는 것이 대표적인 예이다. 본 논문의 목적은 천연기념물 제도의 출발점인 일제강점기의 '조선의임수(朝鮮の林藪)' 등 일본 자료에 대한 문제점을 고찰하고, '조선의임수(朝鮮の林藪)' 등의 논리를 우리의 당산숲 비보숲 등에 여과 없이 적용시키고 있는 현 상황을 개선하는 방안을 찾고자 하는 것이다. 이를 위해 천연기념물로 지정된 수림지, 노거수 중에서 당산제를 지내는 당산숲이 있는 18개소를 선정하여 조사, 분석하였다. 결과로서, 천연기념물로 지정된 많은 수림지, 노거수 중에서 그것이 당산숲, 당산나무라면 "~당산숲", "~당산숲과 비보숲", "~당산나무"라는 명칭을 일관성 있게 부여해야 할 필요가 있다는 것을 제안하고자 한다. 이러한 조치가 이루어지면 일제강점기에 도입된 천연기념물 제도의 한계를 극복하는 출발점이 시작될 수 있으며, 우리나라 전통조경 양식 및 문화경관으로서의 당산숲에 대한 위상이 제고될 수 있을 것이다.

Vegetation structure and distribution characteristics of Symplocos prunifolia, a rare evergreen broad-leaved tree in Korea

  • Kim, Yangji;Song, Kukman;Yim, Eunyoung;Seo, Yeonok;Choi, Hyungsoon;Choi, Byoungki
    • Journal of Ecology and Environment
    • /
    • 제44권4호
    • /
    • pp.275-285
    • /
    • 2020
  • Background: In Korea, Symplocos prunifolia Siebold. & Zucc. is only found on Jeju Island. Conservation of the species is difficult because little is known about its distribution and natural habitat. The lack of research and survey data on the characteristics of native vegetation and distribution of this species means that there is insufficient information to guide the management and conservation of this species and related vegetation. Therefore, this study aims to identify the distribution and vegetation associated with S. prunifolia. Results: As a result of field investigations, it was confirmed that the native S. prunifolia communities were distributed in 4 areas located on the southern side of Mt. Halla and within the evergreen broad-leaved forest zones. Furthermore, these evergreen broad-leaved forest zones are themselves located in the warm temperate zone which are distributed along the valley sides at elevations between 318 and 461 m. S. prunifolia was only found on the south side of Mt. Halla, and mainly on south-facing slopes; however, small communities were found to be growing on northwest-facing slopes. It has been confirmed that S. prunifolia trees are rare but an important constituent species in the evergreen broad-leaved forest of Jeju. The mean importance percentage of S. prunifolia community was 48.84 for Castanopsis sieboldii, 17.79 for Quercus acuta, and 12.12 for Pinus thunbergii; S. prunifolia was the ninth most important species (2.6). Conclusions: S. prunifolia can be found growing along the natural streams of Jeju, where there is little anthropogenic influence and where the streams have caused soil disturbance through natural processes of erosion and deposition of sediments. Currently, the native area of S. prunifolia is about 3300 ㎡, which contains a confirmed population of 180 individual plants. As a result of these low population sizes, it places it in the category of an extremely endangered plant in Korea. In some native sites, the canopy of evergreen broad-leaved forest formed, but the frequency and coverage of species were not high. Negative factors that contributed to the low distribution of this species were factors such as lacking in shade tolerance, low fruiting rates, small native areas, and special habitats as well as requiring adequate stream disturbance. Presently, due to changes in climate, it is unclear whether this species will see an increase in its population and habitat area or whether it will remain as an endangered species within Korea. What is clear, however, is that the preservation of the present native habitats and population is extremely important if the population is to be maintained and expanded. It is also meaningful in terms of the stable conservation of biodiversity in Korea. Therefore, based on the results of this study, it is judged that a systematic evaluation for the preservation and conservation of the habitat and vegetation management method of S. prunifolia should be conducted.

기계학습과 GPT3를 시용한 조작된 리뷰의 탐지 (The Detection of Online Manipulated Reviews Using Machine Learning and GPT-3)

  • 체르냐예바 올가;홍태호
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.347-364
    • /
    • 2022
  • 고객의 구매 의사결정에 영향을 주는 온라인 리뷰의 부적절한 조작을 통해 이익을 얻고자 하는 기업 또는 온라인 판매자들 때문에, 리뷰의 신뢰성은 온라인 거래에서 매우 중요한 이슈가 되었다. 온라인 쇼핑몰 등에서 온라인 리뷰에 대한 소비자들의 의존도가 높아짐에 따라 많은 연구들이 조작된 리뷰를 탐지하는 방법에 개발하고자 하였다. 기존의 연구들은 온라인 리뷰를 기반으로 정상 리뷰와 조작된 리뷰를 대상으로 기계학습으로 이용함으로써 조작된 리뷰를 탐지하는 모형을 제시하였다. 기계학습은 데이터를 이용하여 이진분류 문제에서 탁월한 성능을 보여왔으나, 학습에 충분한 데이터를 확보할 수 있는 환경에서만 이러한 성능을 기대할 수 있었다. 조작된 리뷰는 학습용으로 사용할 수 있는 데이터가 충분하지 못하며, 이는 기계학습이 충분한 학습을 할 수 없다는 치명적 약점으로 내포하게 된다. 본 연구에서는 기계학습이 불균형 데이터 셋으로 인한 학습의 저하를 방지할 수 있는 방안으로 부족한 조작된 리뷰를 인공지능을 이용하여 생성하고 이를 기반으로 균형된 데이터 셋에서 기계학습을 학습하여 조작된 리뷰를 탐지하는 방안을 제시하였다. 파인 튜닝된 GPT-3는 초거대 인공지능으로 온라인 플랫폼의 리뷰를 생성하여 데이터 불균형 문제를 해결하는 오버샘플링 접근방법으로 사용되었다. GPT-3로 생성한 온라인 리뷰는 기존 리뷰를 기반으로 인공지능이 작성한 리뷰로써, 본 연구에서 사용된 로짓, 의사결정나무, 인공신경망의 성능을 개선시키는 것을 SMOTE와 단순 오버샘플링과 비교하여 실증분석을 통해서 확인하였다.

욕지도(경남) 산림식생 유형구분과 공간분포 특성 (Classification and Spatial Distribution of Forest Vegetation Types in Yokjido Island, Korea)

  • 이보라;이호상;김준수;조준희;오승환;조현제
    • 한국산림과학회지
    • /
    • 제111권3호
    • /
    • pp.345-356
    • /
    • 2022
  • 욕지도는 한반도 남동부 남해안의 끝에 위치하고 있는 섬 크기 15 km2의 유인도서로 현존산림은 대부분 대상식생(substitutive vegetation)으로 구성되어 있다. 본 연구는 욕지도 산림식생의 생태적 보전과 관리에 필요한 기초정보 제공을 위하여 식물사회학적 방법을 적용하여 현존식생 유형을 구분하고 상관 우점종 중심의 현존식생도를 작성하여 공간적 분포특성을 파악하였다. 현존식생은 총 8개 유형으로 구분되었고, 2개 군락(community), 4개 아군락(subcommunity), 6개 변군락(variant), 그리고 2개 아변군락(subvariant)의 식생단위 체계로 구성되어 있었으며, 대개 인간간섭, 입지환경, 천이단계, 그리고 성립기간 등에 따라 종조성적 차이를 반영하고 있었다. 종다양성 지수는 현존식생 유형 간 모두 유의한 차이가 있었는데, 전반적으로 종풍부도, 종다양도, 그리고 종균재도는 해발고도가 높아짐에 따라 통계적으로 다소 유의한 증가 경향을 보였으며, 초본성 식물종이 가장 높은 정(+)의 상관관계를 보였다. 이러한 결과는 비교적 낮은 해발고도를 가진 산지에서는 중간영역효과(mid-domain effect, MDE)로 해발고도가 높아짐에 따라 종다양성이 증가한다는 McCain의 연구 결과와 일치하는 경향을 보였다. 욕지도 산림식생은 외부간섭이 없는 한 혼효림 도중 단계를 거쳐 잠재적으로 상록활엽수가 우점하는 산림으로 천이가 이루어질 것으로 판단되었다.

Diagnosis of Residual Tumors after Unplanned Excision of Soft-Tissue Sarcomas: Conventional MRI Features and Added Value of Diffusion-Weighted Imaging

  • Jin, Kiok;Lee, Min Hee;Yoon, Min A;Kim, Hwa Jung;Kim, Wanlim;Chee, Choong Geun;Chung, Hye Won;Lee, Sang Hoon;Shin, Myung Jin
    • Investigative Magnetic Resonance Imaging
    • /
    • 제26권1호
    • /
    • pp.20-31
    • /
    • 2022
  • Purpose: To assess conventional MRI features associated with residual soft-tissue sarcomas following unplanned excision (UPE), and to compare the diagnostic performance of conventional MRI only with that of MRI including diffusion-weighted imaging (DWI) for residual tumors after UPE. Materials and Methods: We included 103 consecutive patients who had received UPE of a soft-tissue sarcoma with wide excision of the tumor bed between December 2013 and December 2019 and who also underwent conventional MRI and DWI in this retrospective study. The presence of focal enhancement, soft-tissue edema, fascial enhancement, fluid collections, and hematoma on MRI including DWI was reviewed by two musculoskeletal radiologists. We used classification and regression tree (CART) analysis to identify the most significant MRI features. We compared the diagnostic performances of conventional MRI and added DWI using the McNemar test. Results: Residual tumors were present in 69 (66.9%) of 103 patients, whereas no tumors were found in 34 (33.1%) patients. CART showed focal enhancement to be the most significant predictor of residual tumors and correctly predicted residual tumors in 81.6% (84/103) and 78.6% (81/103) of patients for Reader 1 and Reader 2, respectively. Compared with conventional MRI only, the addition of DWI for Reader 1 improved specificity (32.8% vs. 56%, 33.3% vs. 63.0%, P < 0.05), decreased sensitivity (96.8% vs. 84.1%, 98.7% vs. 76.7%, P < 0.05), without a difference in diagnostic accuracy (76.7% vs. 74.8%, 72.9% vs. 71.4%) in total and in subgroups. For Reader 2, diagnostic performance was not significantly different between the sets of MRI (P > 0.05). Conclusion: After UPE of a soft-tissue sarcoma, the presence or absence of a focal enhancement was the most significant MRI finding predicting residual tumors. MRI provided good diagnostic accuracy for detecting residual tumors, and the addition of DWI to conventional MRI may increase specificity.

남해 정치망에서 채집한 엽상자어(Leptocephalus)의 형태 및 유전학적 특성 (Morphogenetic Identification of Eel's Larva (Leptocephalus) Collected by Set net in Namhae, Korea)

  • 홍창기;한경호
    • 한국해양생명과학회지
    • /
    • 제8권2호
    • /
    • pp.128-135
    • /
    • 2023
  • 엽상자어(Leptocephalus)는 뱀장어목(Anguiliformes)에 속하는 어류의 자어로 5~6월에 우리나라 남해안 일대의 정치망에서 멸치와 함께 어획 후 방류하지만 대부분 폐사하는 실정이다. 따라서 본 연구의 목적은 멸치어업을 하는 정치망에서 무분별하게 포획되는 엽상자어의 종을 구명하여 수산자원보호 및 이들 자치어 생태 연구를 위한 기초 생물학적 자료를 제시하고자 수행하였다. 실험에 사용된 엽상자어는 5~6월에 남해의 정치망에서 채집하였으며, 외부형태와 유전학적 특성을 붕장어(Conger myriaster), 갯장어(Muraenesox cinereus) 및 뱀장어속(Anguilla) 4종의 성어와 비교하였다. 유전학적 분석은 추출한 DNA를 12s rRNA, 16s rRNA 부분단편을 PCR로 증폭하여 염기배열을 분석한 후 분자계통수를 작성하여 장어류 유생이 붕장어, 갯장어 및 뱀장어속 4종 중 어느 쪽의 성체와 클러스터 그룹화를 이루는지 계통학적 유연관계를 확인하였다. 엽상자어의 외부형태 계수 및 계측결과 엽상자어의 전장에 대한 머리길이의 백분비와 뒷지느러미 기점거리의 백분비는 붕장어와 가장 유사한 비율을 보였고, 척추골수 역시 붕장어와 가장 유사하였다. 또한 엽상자어의 유전자 분석결과는 모두 붕장어 성체와 클러스터 그룹화를 이루는 것을 확인함으로서 남해안에서 5~6월에 어획되는 엽상자어는 모두 붕장어의 자어임을 할 수 있었다.

소셜미디어 감성분석을 위한 베이지안 속성 선택과 분류에 대한 연구 (Investigating the Performance of Bayesian-based Feature Selection and Classification Approach to Social Media Sentiment Analysis)

  • 강창민;어균선;이건창
    • 경영정보학연구
    • /
    • 제24권1호
    • /
    • pp.1-19
    • /
    • 2022
  • 온라인 사용자들이 소셜 미디어상에 올린 온라인 리뷰 속 숨겨진 감정을 분석하는 감성분석은 소셜미디어의 확산에 힘입어 많은 관심을 받고 있다. 본 연구는 기존 연구들과 차별화된 방법으로 감성분석을 시도하기 위하여 베이지안 네트워크에 기반한 감성 분석 모델을 제안한다. 모델에는 MBFS(Markov Blanket-based Feature Selection)가 속성 선택 기법으로 사용된다. MBFS의 성과를 실증적으로 증명하기 위하여 소셜미디어인 Yelp의 리뷰 데이터를 활용하였다. 벤치마킹 속성 선택 기법으로는 상관관계기반 속성 선택, 정보획득 속성 선택, 획득비율 속성 선택을 사용하였다. 한편, 해당 속성선택방법을 토대로 4개의 머신러닝 알고리즘을 이용하여 분류성과를 비교하였다. 나아가 MBFS로 선택된 속성들 간 인과관계를 확인하고자 베이지안 네트워크를 통해 What-if 분석을 실시하였다. 본 연구에서 택한 머신러닝 분류기는 베이지안 네트워크 기반의 TAN (Tree Augmented Naive Bayes), NB (Naive Bayes), S-Spouses(Sons & Spouses), A-markov (Augmented Markov Blanket)이다. 성과분석 결과 본 연구에서 제안한 MBFS 방법이 정확도, 정밀도, F1점수 측면에서 벤치마킹 방법보다 더 우수한 성과를 나타내었다.

기술력 평가항목을 이용한 고안정성 중소기업 판별력 검증 (Verification Test of High-Stability SMEs Using Technology Appraisal Items)

  • 이준원
    • 경영정보학연구
    • /
    • 제20권4호
    • /
    • pp.79-96
    • /
    • 2018
  • 본 연구는 기술력 평가항목 중 기업의 재무안정성과 관련된 항목을 신용평가모형에 반영하여 중소기업뿐만이 아닌 전체 기업을 대상으로 한 신용평가모형의 부도변별력을 높이기 위한 기술력 평가모형의 신용평가모형 내 내재화에 착안하여 시작되었다. 따라서 기술력 평가모형이 부채비율 기준의 고안정성 중소기업을 사전에 판별하는 데 적용될 수 있는지 검증하는 것을 목표로 한다. 대상 기업을 업종(제조업 vs. 비(非)제조업)과 업력(창업기업 vs. 비(非)창업기업)으로 구분하고, 3개년 동안 해당 군집의 평균 부채비율 1/2 이하를 달성한 기업에 대해 고안정성 중소기업으로 정의한 후, C5.0 기법을 적용하여 모형의 판별력을 검증하였다. 분석결과 소항목 수준에서는 업종과 업력에 따라 중요도 간 차이가 있지만, 중항목 수준에서는 기술개발역량이 고안정성 중소기업을 판별하는 중요변수로 도출되었으며, 기업의 업력에 따라 창업 초기에는 자금조달능력(수익창출능력을 고려한 자본구조, 자본비용 및 자금조달 방법의 다양성)이 미래 고안정성 중소기업 여부를 결정하는 중요변수이지만, 업력이 증가함에 따라 지속적인 성과를 가능하게 하는 기술개발 인프라가 재무안정성에 영향을 미치는 중요 변수로 변화한다는 결론을 도출하였다. 업종과 업력에 따른 모형의 분류 정확도는 71~91% 수준이며, 기술력 평가항목을 이용하여 고안정성 중소기업을 판별할 수 있다는 가능성을 확인하였다.

인구통계특성 기반 디지털 마케팅을 위한 클릭스트림 빅데이터 마이닝 (Clickstream Big Data Mining for Demographics based Digital Marketing)

  • 박지애;조윤호
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.143-163
    • /
    • 2016
  • 인구통계학적 정보는 디지털 마케팅의 핵심이라 할 수 있는 인터넷 사용자에 대한 타겟 마케팅 및 개인화된 광고를 위해 고려되는 가장 기초적이고 중요한 정보이다. 하지만 인터넷 사용자의 온라인 활동은 익명으로 행해지는 경우가 많기 때문에 인구통계특성 정보를 수집하는 것은 쉬운 일이 아니다. 정기적인 설문 조사를 통해 사용자들의 인구통계특성 정보를 수집할 수도 있지만 많은 비용이 들며 허위 기재 등과 같은 위험성이 존재한다. 특히, 모바일 환경에서는 대부분의 사용자들이 익명으로 활동하기 때문에 인구통계특성 정보를 수집하는 것은 더욱 더 어려워지고 있다. 반면, 인터넷 사용자의 온라인 활동을 기록한 클릭스트림 데이터는 해당 사용자의 인구통계학적 정보에 활용될 수 있다. 특히, 인터넷 사용자의 온라인 행위 특성 중 하나인 페이지뷰는 인구통계학적 정보 예측에 있어서 중요한 요인이 된다. 본 연구에서는 기존 선행 연구를 토대로 클릭스트림 데이터 분석을 통해 인터넷 사용자의 온라인 행위 특성을 추출하고 이를 해당 사용자의 인구통계학적 정보 예측에 사용한다. 또한, 1)의사결정나무를 이용한 변수 축소, 2)주성분분석을 활용한 차원축소, 3)군집분석을 활용한 변수축소의 방법을 제안하고 실험에 적용함으로써 많은 설명변수를 이용하여 예측 모델 생성 시 발생하는 차원의 저주와 과적합 문제를 해결하고 예측 모델의 정확도를 높이고자 하였다. 실험 결과, 범주의 수가 많은 다분형 종속변수에 대한 예측 모델은 모든 설명변수를 사용하여 예측 모델을 생성했을 때보다 본 연구에서 제안한 방법론들을 적용했을 때 예측 모델에 대한 정확도가 향상됨을 알 수 있었다. 본 연구는 클릭스트림 분석을 통해 추출된 인터넷 사용자의 온라인 행위는 해당 사용자의 인구통계학적 정보 예측에 활용 가능하며, 예측된 익명의 인터넷 사용자들에 대한 인구통계학적 정보를 디지털 마케팅에 활용 할 수 있다는데 의의가 있다. 또한, 제안 방법론들을 통해 어느 종속변수에 대해 어떤 방법론들이 예측 모델의 정확도를 개선하는지 확인하였다. 이는 추후 클릭스트림 분석을 활용하여 인구통계학적 정보를 예측할 때, 본 연구에서 제안한 방법론을 사용하여 보다 높은 정확도를 가지는 예측 모델을 생성 할 수 있다는데 의의가 있다.