• 제목/요약/키워드: classification trees

검색결과 317건 처리시간 0.025초

회사채 신용등급 예측을 위한 SVM 앙상블학습 (Ensemble Learning with Support Vector Machines for Bond Rating)

  • 김명종
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.29-45
    • /
    • 2012
  • 회사채 신용등급은 투자자의 입장에서는 수익률 결정의 중요한 요소이며 기업의 입장에서는 자본비용 및 기업 가치와 관련된 중요한 재무의사결정사항으로 정교한 신용등급 예측 모형의 개발은 재무 및 회계 분야에서 오랫동안 전통적인 연구 주제가 되어왔다. 그러나, 회사채 신용등급 예측 모형의 성과와 관련된 가장 중요한 문제는 등급별 데이터의 불균형 문제이다. 예측 문제에 있어서 데이터 불균형(Data imbalance) 은 사용되는 표본이 특정 범주에 편중되었을 때 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류경계영역이 왜곡되므로 분류자의 학습성과가 저하되게 된다. 본 연구에서는 데이터 불균형 문제가 존재하는 다분류 문제를 효과적으로 해결하기 위한 다분류 기하평균 부스팅 기법 (Multiclass Geometric Mean-based Boosting MGM-Boost)을 제안하고자 한다. MGM-Boost 알고리즘은 부스팅 알고리즘에 기하평균 개념을 도입한 것으로 오분류된 표본에 대한 학습을 강화할 수 있으며 불균형 분포를 보이는 각 범주의 예측정확도를 동시에 고려한 학습이 가능하다는 장점이 있다. 회사채 신용등급 예측문제를 활용하여 MGM-Boost의 성과를 검증한 결과 SVM 및 AdaBoost 기법과 비교하여 통계적으로 유의적인 성과개선 효과를 보여주었으며 데이터 불균형 하에서도 벤치마킹 모형과 비교하여 견고한 학습성과를 나타냈다.

선진국(先進國)에 있어서의 임목육종연구(林木育種硏究)의 동향(動向) (The Trend and Achievements of Forest Genetics Research in Abroad)

  • 현신규
    • 한국산림과학회지
    • /
    • 제14권1호
    • /
    • pp.1-20
    • /
    • 1972
  • 해외(海外) 선진국(先進國)에서의 임목육종(林木育種)의 실정(實情)과 기(其) 동향(動向)을 견개(見開)하고 금후(今後) 우리나라 임목육종(林木育種)의 취진(就進)에 있어서 반드시 고려(考慮) 또는 실시(實施)되어야할 사항(事項)들에 의하여 고찰(考察)한 결과(結果) 다음과 같은 결론(結論)을 얻었다. 1. 유전자(遺傳子) 보존(保存)을 위한 천연림(天然林)의 보존(保存) 선진제국(先進諸國)에서 천연림(天然林)의 이용개발(利用開發)이 성행(盛行)됨과 아울러 유전자(遺傳子)의 보존(保存)을 목적(目的)으로 하는 일부(一部) 천연림(天然林)의 지역별(地域別) 보존책(保存策)을 채택(採擇)하고 있는 실정(實情)에 비추어서 우리나라와 같이 천연림(天然林)이 거의 탕진(蕩盡)되고 있는 실정하(實情下)에서는 강송(剛松), 잣나무, 섬잣나무, 사시나무, 피나무 등(等) 자생수종(自生樹種)의 천연림(天然林)의 일부(一部)를 유전자보존림(遺傳子保存林)으로 확보(確保)하는 조처(措處)가 긴급(緊急)히 이루어져야할 일이다. 또한 우리나라 고유수종(固有樹種)에 대(對)한 천연림(天然林)의 구성(構成)과 기(其) 발달과정(發達過程)에 대(對)한 연구(硏究)도 근래(近來) 새 수단(手段)으로 등장(登場)한 isozyme의 연구(硏究)에 의(依)하여 수행(遂行)되어야 할 문제(問題)이다. 2. 수형목(秀型木) 수(數)의 증가(增加) 현하(現下) 우리나라의 수형목(秀型木) 수(數)는 기(其) 선발강도(選拔强度)가 지나치게 강(强)하였던 탓으로 그 수(數)가 소(小)하여 이에 의(依)한 채종원(採種園)은 일차조림용(一次造林用)으로는 가(可)하나 이대채종원(二代採種園)을 위(爲)한 모수(母樹)의 선택대상(選擇對象)으로는 중복선발(重複選拔)이 될 우려(憂慮)가 큰 고(故)로 선발강도(選拔强度)를 연화(軟化)하여서 기(其) 본수(本數)를 대폭(大幅) 증가(增加)시킬 필요(必要)가 있다. 3. 차대검정(次代檢定) 특수조합능력(特殊組合能力)을 강조(强調)해야 할 특별(特別)한 경우를 제외(除外)하고는 수형목(秀型木)의 풍매종자(風媒種子)에 의(依)한 차대검정(次代檢定)을 위주(爲主)로 함이 적당(適當)하다고 사료(思料)되나, 차대검정(次代檢定)의 연한(年限) 단축(短縮)을 위(爲)하여서 임목(林木)의 중요형질(重要形質)에 대(對)한 조기검정(早期檢定)에 관(關)한 연구(硏究)가 중요(重要)한 과제(課題)로서 다루어져야만 할것이다. 이와 관련(關聯)하여 zymography의 활용성(活用性) 연구(硏究)도 중요(重要)한 일이다. 4. 유전자형(遺傳子型)과 환경(環境)과의 교호작용(交互作用)에 관(關)한 연구(硏究) 종래(從來) 사실상(事實上) 입지조건(立地條件)이 양호(良好)한 임분(林分)에서 선발(選拔)된 수형목(秀型木)이 요박(療薄)한 임지(林地)에서도 그 우수성(優秀性)을 나타내는지의 여부(如否)를 구명(究明)하므로서 특수입지(特殊立地)를 위(爲)한 별도채종원조성(別途採種園造成)의 필요성(必要性) 유무(有無)를 하루속(速)히 구명(究明)해야하며 우리나라의 육종구(育種區)에 대(對)한 재확인(再確認)과 그 적용(適用)이 요청(要請)되는 일이다. 5. 윤엽수(潤葉樹)의 채종원(採種園) 천연림(天然林)의 구성분자(構成分子)로서 생장력(生長力)의 비교(比較)가 곤란(困難)한 윤엽수(潤葉樹)에 대(對)하여서는 외국(外國)에서 실시(實施)하는 바를 참고(參考)하여 선발목간(選拔木間)의 교잡차대(交雜次代)로서 차대검정림(次代檢定林)을 설치(設置)한후 이를 도태(陶汰) seedling seed orchard로 유도(誘導)하는 방법(方法)을 취(取)함이 가(可)하다고 사료(思料)된다. 6. 내병충성(耐病蟲性) 육종(育種) 소나무좀벌레, 솔잎흑파리 등(等) 충해(蟲害)와 낙엽송(落葉松)의 낙엽병(落葉病)과 포푸라 현병(鉉病) 등(等)은 유전자(遺傳子)에 의(依)하여 지배(支配)되는 것이 구명(究明)되고 있어 이에 대(對)한 내병충성(耐病蟲性) 육종(育種)을 계획실시(計劃實施)함을 요(要)한다. 7. 재질(材質) 특(特)히 목재비중(木材比重)에 대(對)한 육종(育種) 특(特)히 pulp 용재(用材)를 목적(目的)으로 하는 수종(樹種)에 대(對)하여서는 선진각국(先進各國)에 비추어서 목재비중(木材比重)에 대(對)한 육종(育種)의 실시(實施)가 요청(要請)된다. 8. 삼나무(Cryptomeria japonica) 및 편백(Chamaecyparis obtusa)의 도입(導入) 삼나무와 편백은 현재(現在) 남부(南部) 난대지대(暖帶地帶)에 국한(局限)하여 조림(造林)하고 있으나 일본(日本)에 있어서의 양수종(兩樹種)의 조림한계(造林限界)가 예상이상(豫想以上)으로 한냉(寒冷)한 지대(地帶)까지 실시(實施)되고 있는 실정(實定)에 비추어서 상기(上記) 양수종(兩樹種)에 대(對)한 도입시험(導入試驗)을 종래(從來)보는 한냉(寒冷)한 지대(地帶)까지 확대실시(擴大實施)할 필요(必要)가 있다고 인정(認定)되었다.

  • PDF

경주국립공원 불국사 사찰림의 식생구조 (Vegetation Structure of the Bulguksa Buddhist Temple Forest in the Gyeongju National Park)

  • 강현미;최송현;이수동;조현서;김지석
    • 한국환경생태학회지
    • /
    • 제26권5호
    • /
    • pp.787-800
    • /
    • 2012
  • 경주국립공원 불국사 주변 사찰림을 중심으로 식생구조를 파악하기 위하여 42개의 조사구(단위면적 $100m^2$)를 설치하여 식생조사를 실시하였다. Classification 분석 중 TWINSPAN 기법을 이용하여 군락분리를 시도한 결과, 군락 I은 소나무-잣나무군락, 군락 II는 소나무군락, 군락 III은 소나무-단풍나무군락, 군락 IV는 단풍나무-소나무군락으로 최종 분리되었다. 식생구조 분석결과 경주국립공원 불국사 주변 사찰림은 소나무가 우점하고 있었다. 군락 IV는 소나무 군락에 단풍나무가 유입되면서 단풍나무-소나무군락으로 군락이 변한 것으로 파악되었다. 그러나 최근 자연발생적으로 아교목층과 관목층에 굴참나무, 갈참나무, 졸참나무, 신갈나무가 확산되고 있어 추후 소나무와의 경쟁이 예상된다. 본 조사지역의 산림식생의 임령은 소나무가 우점종인 산림은 30~100년 내외인 것으로 밝혀졌으며, 단풍나무는 30~36년의 수령을 가진 것으로 나타났다.

CART 분석을 이용한 지하철 마모 영향인자 분석 (Analysis of Factors Influencing upon the Metro Wear Using the Classification and Regression Trees)

  • 정민철;이원우;김정훈;공정식
    • 한국방재학회:학술대회논문집
    • /
    • 한국방재학회 2011년도 정기 학술발표대회
    • /
    • pp.38-38
    • /
    • 2011
  • 일반적으로 레일마모는 열차의 주행안전 및 승차감에 미치는 영향이 크고, 소음 진동의 주요원인으로 작용한다. 또한 레일마모가 발생할 경우 궤도구조의 파괴를 촉진시킴으로써 차량 및 궤도유지보수비를 크게 증가시킨다. 따라서 구간 특성 및 환경 영향 인자 등 현장에서 발생하는 마모 원인을 체계적으로 분석함으로써 마모를 저감할 수 있도록 차량운행 조건과 선로선형 및 궤도구조를 설계하는 것은 중요한 과제이다. CART(Classification And Regression Tree; 분류와 회귀나무) 분석은 패키지화된 좋은 분류 및 예측도구 기법으로 나무의 상위 분리수준에서 일반적으로 나타나는 가장 중요한 입력변수들을 사용하는 등의 입력변수를 선정하는 경우 매우 유용하다. 본 연구에서는 다변수 구간특성 및 환경인자를 고려한 검측 자료 상관관계 분석을 위한 회귀 나무기반 모델(TBM: Tree Based Model) 분석 수행을 위해 지하철 2호선 마모 데이터와 마모 데이터에 영향을 미치는 각종 다변수 구간특성 및 환경인자를 사용하였다. 2호선 지하철의 구간특성 인자 및 환경인자는 레일의 종류, 레일의 위치, 도상, 곡률반경, 캔트 슬랙 및 운행 일수 등으로 구분하였다. 레일의 종류는 ks-50kg과 ks-60kg 두 종류의 레일이 있으며, 레일의 위치는 지상과 지하로 크게 구분할 수 있다. 도상은 콘크리트 도상, 자갈 도상과 일부 구간의 방진상 콘크리트 도상으로 구분할 수 있으며, 곡률반경은 직선구간과 완화곡선 구간 및 최소 250m부터 627m까지 분포된 원 곡선 구간으로 구분할 수 있다. 캔트 간격은 최소 96cm 부터 120cm 간격으로 구분하며, 슬랙은 5~9cm에 분포하고, 운행 기간은 해당 기간 동안 유지보수 이력이 없는 구간을 선정하여 2005년부터 2006년까지 4번에 걸쳐 검측된 지하철 2호선 내선 마모데이터를 사용하였다. 총 X1부터 X7까지 총 7개의 구간특성 또는 환경특성을 영향인자로 선정하였으며, 이러한 영향인자에 의해 결정되는 종속 인자로 Y1인 직마모와 Y2인 측마모를 선정하여 이 중 실질적으로 지하철 궤도의 성능 평가에 주요 판단인자로 사용되는 측마모와 구간특성 및 환경영향인자와의 상관관계 분석을 수행하였다. 해당 마모 데이터가 검측되는 기간 동안 유지보수 이력이 없는 12272 point의 데이터를 검출하였고 CART 프로그램을 이용하여 데이터를 분석하였으며, CART 프로그램의 해석을 위해 종속변수인 직마모량은 각 검측 지점의 마모량에 해당하는 등급으로 변환하여 분석을 수행하였다. 레일의 마모에 영향을 미치는 구간특성 및 환경인자와 종속 변수로 사용된 레일의 마모량 사이의 CART를 이용한 상관관계 분석은 실제 구조물에서 영향인자간의 상관 관계와 유사하며, 추후 연구에서는 이를 바탕으로 하여 정량화된 검측 데이터를 종속변수로 하여 구간특성 또는 환경인자 등 외부 영향인자를 고려한 궤도 검측데이터와의 상관관계 분석을 수행할 계획이다.

  • PDF

일월산 산림식생의 종구성적 특성 (Forest Vegetation Classification and Species Composition of Mt. Ilwol, Yeongyang-Gun, Korea)

  • 이중효;배관호;조현제
    • 한국농림기상학회지
    • /
    • 제8권3호
    • /
    • pp.132-140
    • /
    • 2006
  • 일월산 산림식생의 종구성적 특성을 파악하기 위하여 조사구 68개소$(10m{\sim}10m)$ 설정하여 식생유형과 그에 대한 특성(현존식물상, 상재도급과 생활형분포율, 종다양도, 층위별 중요치)을 분석하였다. 식생유형은 산악건조 지식생형과 비옥적윤한 산록과 계곡부식생형으로 대별되었으며, 전자는 3개 군락(진달래군락, 굴참나무군락, 일월비비추군락), 2개 군(잣나무군, 진달래전형군), 후자는 3군락(피나무군락, 머루군락, 고광나무군락), 깨 군(당단풍군, 참반디군)으로 구분되어 총 8개 식생단위로 나타났다. 관찰된 총 252종에서 국화과가 26종, 백합과 19종, 미나리아재비과 15종, 장미과 14종 등의 순으로 높게 나타났고, 상재도급별 분포경향에서 신갈나무(IV), 대사초(III), 물푸레나무(III)가 고중상재도종으로 나타났다. 생활형 분포율은 교목성이 18.5%, 소교목성 5.7%, 관목성 14.9%, 만목성 6.6%, 화본과류 8.8%, 광역초본 42.4%, 양치식물 3.1%로 나타났으며, 종다양도는 PH유형이 $1.70{\pm}.50{\sim}1.97{\pm}0.57$$1.40{\pm}0.18{\sim}1.62{\pm}0.20$인 AM유형 보다 높은 값을 나타내었다. 교목층에서는 소나무, 신갈나무, 굴참나무 등의 중요치 값이 높게 나타났으며, 아교목층은 신갈나무, 관목층은 쇠물푸레, 조록싸리, 철쭉꽃, 생강나무, 진달래, 초본층은 대사초, 산거울, 큰기름새의 영향력이 높게 나타났다.

시맨틱 구문 트리 커널을 이용한 생명공학 분야 전문용어간 관계 식별 및 분류 연구 (A Study on the Identification and Classification of Relation Between Biotechnology Terms Using Semantic Parse Tree Kernel)

  • 최성필;정창후;전홍우;조현양
    • 한국문헌정보학회지
    • /
    • 제45권2호
    • /
    • pp.251-275
    • /
    • 2011
  • 본 논문에서는 단백질 간 상호작용 자동 추출을 위해서 기존에 연구되어 높은 성능을 나타낸 구문 트리 커널을 확장한 시맨틱 구문 트리 커널을 제안한다. 기존 구문 트리 커널의 문제점은 구문 트리의 단말 노드를 구성하는 개별 어휘에 대한 단순 외형적 비교로 인해, 실제 의미적으로는 유사한 두 구문 트리의 커널 값이 상대적으로 낮아지는 현상이며 결국 상호작용 자동 추출의 전체 성능에 악영향을 줄 수 있다는 점이다. 본 논문에서는 두 구문 트리의 구문적 유사도(syntactic similarity)와 어휘 의미적 유사도(lexical semantic similarity)를 동시에 효과적으로 계산하여 이를 결합하는 새로운 커널을 고안하였다. 어휘 의미적 유사도 계산을 위해서 문맥 및 워드넷 기반의 어휘 중의성 해소 시스템과 이 시스템의 출력으로 도출되는 어휘 개념(WordNet synset)의 추상화를 통한 기존 커널의 확장을 시도하였다. 실험에서는 단백질 간 상호작용 추출(PPII, PPIC) 성능의 심층적 최적화를 위해서 기존의 SVM에서 지원되던 정규화 매개변수 외에 구문 트리 커널의 소멸인자와 시맨틱 구문 트리 커널의 어휘 추상화 인자를 새롭게 도입하였다. 이를 통해 구문 트리 커널을 적용함에 있어서 소멸인자 역할의 중요성을 확인할 수 있었고, 시맨틱 구문 트리 커널이 기존 시스템의 성능향상에 도움을 줄 수 있음을 실험적으로 보여주었다. 특히 단백질 간 상호작용식별 문제보다도 비교적 난이도가 높은 상호작용 분류에 더욱 효과적임을 알 수 있었다.

기상인자(氣象因子)에 의한 우리 나라 산림(山林)의 산지구분(産地區分) (Delineation of Provenance Regions of Forests Based on Climate Factors in Korea)

  • 최완용;탁우식;임경빈;장석성
    • 한국산림과학회지
    • /
    • 제88권3호
    • /
    • pp.379-388
    • /
    • 1999
  • 우리 나라에 적용할 산림용 종자 산지구분(塵地區分)의 첫 단계로 임목집단의 유전생태적 분화에 영향이 큰 연평균 온도, 극한 최저온도, 생육기간중 상대습도, 일조량, 건조지수 등 기상인자를 척도로 수평적 산지를 구분하였다. 적용한 산지구분의 개념은 전형적인 산지구분 형태인 수종별 구분법보다는 전 수종을 포함한 생태지역 개념의 산지구분법에 따랐다. 산림대를 대구분 단위로 하여 산림대별(난대, 온대남부, 온대중부, 온대북부)로 기본구역을 설정하여 유집분석을 근거로 난대 3, 온대남부 6, 온대중부 8, 온대북부 2로 총 19개의 수평적 산지로 구분하였다. 적용한 6개의 척도중 연평균 온도, 극한 최저온도, 생장일수는 산림대별로 난대에서 온대북부 방향으로 일정한 경향을 보였으며 상대습도, 일조량 및 건조지수에서는 일정한 경향을 보이지는 않았으나 산지간에는 많은 차이를 보여 이들 인자는 미세 환경인자에 민감한 것으로 나타났다. 본 연구에 의해 구분된 산지는 구획 초기단계로 잠정적인 산지로 활용하면서 금후 생물기후도, 산지시험, 유전생태 자료 등이 축적되면 보완해 나갈 것이다.

  • PDF

부산 금정산 범어사계곡 낙엽활엽수림의 식생구조 (Vegetation Structure of Deciduous Broad-leaved Forest at the Beomeosa(Temple) Valley in Kumjungsan, Busan)

  • 김정호;최송현;최인태;양순자;이상철
    • 한국환경생태학회지
    • /
    • 제25권4호
    • /
    • pp.581-589
    • /
    • 2011
  • 부산 금정산 범어사계곡의 낙엽활엽수가 우점하는 군락의 식생구조를 분석하기 위해 단위면적 100$m^2$의 조사구 28개를 설정하고 조사를 실시하였다. Classification기법중의 하나인 TWINSPAN을 이용하여 군락을 분류한 결과, 개서어나무-낙엽활엽수군락(군락 I), 졸참나무-개서어나무군락(군락 II), 개서어나무-졸참나무-소나무군락(군락 III), 개서어나무-졸참나무-신갈나무군락(군락 IV), 졸참나무-낙엽활엽수군락(군락 V), 편백-개서어나무군락(군락 VI)의 6개 군락으로 최종 분리되었다. 군락별 종다양도는 0.3832~1.0450의 범위이었으며 인공식재한 편백나무가 우점하는 군락 VI의 종다양도가 가장 낮았고 개서어나무와 기타 낙엽활엽수가 우점하는 군락 I과 군락 V의 종다양도가 가장 높았다. 단위면적당(100$m^2$) 종수는 6.8${\pm}$3.2종이었다. 금정산 범어사계곡의 개서어나무군락은 기후극상림으로써 보전가치 높으므로 지속적인 보전관리대책이 요구된다.

Analysis of Genetic and Pathogenic Diversity of Ralstonia solanacearum Causing Potato Bacterial Wilt in Korea

  • Cho, Heejung;Song, Eun-Sung;Lee, Young Kee;Lee, Seungdon;Lee, Seon-Woo;Jo, Ara;Lee, Byoung-Moo;Kim, Jeong-Gu;Hwang, Ingyu
    • The Plant Pathology Journal
    • /
    • 제34권1호
    • /
    • pp.23-34
    • /
    • 2018
  • The Ralstonia solanacearum species complex (RSSC) can be divided into four phylotypes, and includes phenotypically diverse bacterial strains that cause bacterial wilt on various host plants. This study used 93 RSSC isolates responsible for potato bacterial wilt in Korea, and investigated their phylogenetic relatedness based on the analysis of phylotype, biovar, and host range. Of the 93 isolates, twenty-two were identified as biovar 2, eight as biovar 3, and sixty-three as biovar 4. Applied to the phylotype scheme, biovar 3 and 4 isolates belonged to phylotype I, and biovar 2 isolates belonged to phylotype IV. This classification was consistent with phylogenetic trees based on 16S rRNA and egl gene sequences, in which biovar 3 and 4 isolates clustered to phylotype I, and biovar 2 isolates clustered to phylotype IV. Korean biovar 2 isolates were distinct from biovar 3 and 4 isolates pathologically as well as genetically - all biovar 2 isolates were nonpathogenic to peppers. Additionally, in host-determining assays, we found uncommon strains among biovar 2 of phylotype IV, which were the tomato-nonpathogenic strains. Since tomatoes are known to be highly susceptible to RSSC, to the best of our knowledge this is the first report of tomato-nonpathogenic potato strains. These results imply the potential prevalence of greater RSSC diversity in terms of host range than would be predicted based on phylogenetic analysis.

다변량 목표변수를 갖는 의사결정나무의 노드분리에 관한 연구 (A Study on the Node Split in Decision Tree with Multivariate Target Variables)

  • 김성준
    • 한국지능시스템학회논문지
    • /
    • 제13권4호
    • /
    • pp.386-390
    • /
    • 2003
  • 데이터마이닝은 많은 양의 데이터로부터 의사결정에 유용한 패턴을 발견하는 과정으로서 최근 경영 및 공학 분야의 폭넓은 영역에서 많은 관심을 모으고 있다. 어떤 그룹을 여러 하위그룹으로 분류해내는 일은 데이터마이닝의 주요 내용 중 하나이다. 의사결정나무로 알려진 트리기반 기법은 그러한 분류모형을 수립하는 데 효율적인 방안을 제공한다 트리학습에 있어서 우선적인 관건은 목표변수에 의해 측정되는 노드불순도를 최소화하는 것이다. 하지만 공정관측, 마케팅과학, 임상분석 등과 같은 문제에서는 여러 목표변수를 동시에 고려해야 하는 상황이 쉽게 등장하는 데, 본 논문의 목적은 이처럼 다변량 목표변수를 갖는 데이터셋에서 활용할 수 있는 노드불순도 측정방안을 제시하는 데 있다. 아울러 수치 예를 이용하여 적용결과에 대해 논의한다.