• Title/Summary/Keyword: classification trees

검색결과 313건 처리시간 0.02초

절 경계와 트리 거리를 사용한 2단계 부분 의미 분석 시스템 (A Two-Phase Shallow Semantic Parsing System Using Clause Boundary Information and Tree Distance)

  • 박경미;황규백
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권5호
    • /
    • pp.531-540
    • /
    • 2010
  • 본 논문은 최대 엔트로피 모형에 기반한 두 단계 부분 의미 분석 방법을 제안한다. 먼저, 의미 논항의 경계를 인식하고, 그 다음 단계에서 확인된 논항에 적절한 의미역을 할당한다. 두 단계 부분 의미 분석에서는 두 번째 단계인 논항 분류가 논항 확인 단계의 결과에 기반하여 수행되기 때문에 논항 확인의 성능이 매우 중요하다. 본 논문은 논항 확인의 성능을 향상시키기 위하여 논항 확인의 전처리 단계에 구문 지식을 통합한다. 구체적으로, 절 인식 결과로부터 술어의 인접절 및 상위절들을 확인하고, 구문 분석 결과로부터 술어의 부모 노드로부터 구문 구성 요소의 부모 노드까지의 트리 거리를 추출하여 전처리 단계에서 활용한다. 실험을 통해, 구문 지식을 활용하는 것이 부분 의미 분석 성능에 기여함과 제안하는 두 단계 방법이 한 단계 방법보다 우수한 성능을 낼 수 있음을 보인다.

바이러스 핵산중합효소의 아미노산 서열에 의한 바이러스 분류 (Classification of Viruses Based on the Amino Acid Sequences of Viral Polymerases)

  • 남지현;이동훈;이건명;이찬희
    • 미생물학회지
    • /
    • 제43권4호
    • /
    • pp.285-291
    • /
    • 2007
  • 볼티모어의 분류체계에 의하면 바이러스는 복제 및 단백질합성 전략에 따라 6개의 집단으로나눌 수 있다. 몇 종류의 작은 DNA 바이러스를 제외한 대부분의 바이러스는 게놈 복제를 위한 자신의 핵산중합효소를 유전자로 암호화하고 있다. 바이러스 핵산중합효소에는 DNA-의존DNA 중합효수, RNA-의존RNA 중합효소, RNA-의존 DNA 중합효소 세 종류가 있으며, 이들은 모두 4개의 공통된 모티프(motif)를 가진다. 우리는 볼티모어의 분류체계와 바이러스의 핵산중합효소와의 관계를 아미노산 서열을 통해 분자 계통분류학적 분석을 통해 알아보고자 하였다. NCBI GenBank에서 얻은 바이러스 중합효소의 아미노산 서열을 CLUSTAL X 프로그램으로 다중서열하고, Neighbor-joining, Maximum-likelihood, Bayesian의 세 가지 방법으로 계통도를 그려보았다. 미세한 차이는 있었으나, 세 가지 방법 모두에서 볼티모어의 분류법과 일치하는 결과를 보였고, 특이하게도 두 가닥 RNA 바이러스는 숙주의 종류에 따라, (-)RNA 바이러스는 게놈의 절편화에 따라 각각2개의 소집단으로 나뉘어지는 것을 볼 수 있었다.

LiDAR의 높이 및 밀도 정보를 이용한 도시지역의 3D기반 분류 (3D based Classification of Urban Area using Height and Density Information of LiDAR)

  • 정성은;이우균;곽두안;최현아
    • Spatial Information Research
    • /
    • 제16권3호
    • /
    • pp.373-383
    • /
    • 2008
  • 지표면에 대한 정보를 취득하는 기법 중 지금까지 주로 사용되어온 기법은 항공사진 및 위성영상과 같이 평면적인 정보 수집에 중점을 두고 있는 반면, 본 논문에서 다루는 LiDAR(Light Detection And Ranging)는 레이저 측량기술을 이용하여 지표면에 대한 고해상도의 비정규분포 Point 형태의 3차원 정보의 획득이 가능하다. GPS(Global Positioning System) 수신기와 INS(Inertial Navigation System)의 결합을 통해 좌표 값을 제공하게 된다. 이러한 LiDAR의 3차원 Point 정보와 좌표 값을 활용하여 보다 정밀한 3차원 모델링 수행이 가능하다. 본 연구에서는 LiDAR의 반사강도와 기하/지형 자료를 이용하여 도시지역을 대상으로 정밀한 3차원 공간정보자료를 취득하고, 그 자료를 분석하여 도시지역을 높이와 밀도를 기반으로 하여 3차원으로 분류하였다. LiDAR를 통해 획득된 원시자료로부터 지표면에서 반사되는 Point Data의 개수를 지면과 비지면 요소의 비율로 추정하여 지형과 공간적 특성을 파악하고 이에 따라 3차원 토지피복분류도를 작성하였다. 신호의 강약을 구분하는 기준은 통계적 방법(Jenk's Natural Break)을 통해 추정된 값을 사용하였으며, 지표면 반사비율에 따라 세부지역으로 구분하여 크게 고밀도 저밀도 식생지역과 비식생지역으로 구분하였다.

  • PDF

퍼지 분류를 이용한 초기 위험도 예측 모델 (Early Criticality Prediction Model Using Fuzzy Classification)

  • 홍의석;권용길
    • 한국정보처리학회논문지
    • /
    • 제7권5호
    • /
    • pp.1401-1408
    • /
    • 2000
  • 소프트웨어 개발 초기 단계의 문제점이 개발 후반부 산물의 품질에 심각한 영향을미치기 때문에 설계 명세를 이용하여 위험 부분을 예측하는위험도 예측 모델은 전체 시스템 개발비용을 낮추는 데 중요한 역할을 하고 있으며, 이러한 예측 모델은 결과 산물이 매우 크고 실행 정확성이 요구되는통신 소프트웨어 같은 실시간 시스템 설계에 더욱 필요하다. 판별분석, 인공신경망, 분류트리 등의 기법들을 이용한 모델들이 제안되었으나 이들은 결과에 대한 원인 분석의 어려움, 낮은 확장성 등의 문제점들을 지니고 있었다. 본 논문에서는 유전자 알고리즘에 의해 구축된 퍼지 규칙 베이스를 이용한 위험도 예측 모델을 제안한다. 제안 모델은 예측 결과에 대한 원인 분석이 용이하고 높은 확정성과 적용성을 지니고 규칙수에 대한 제안이 없다. 이러한 내부특성들 비교의 모의 실을 통한 예측 정확도 비교를 통해 제안 모델이 타 모델들보다 우수함을 보였다.

  • PDF

멀티 프레임 기반 건물 인식에 필요한 특징점 분류 (Classification of Feature Points Required for Multi-Frame Based Building Recognition)

  • 박시영;안하은;이규철;유지상
    • 한국통신학회논문지
    • /
    • 제41권3호
    • /
    • pp.317-327
    • /
    • 2016
  • 영상에서 의미 있는 특징점(feature point)의 추출은 제안하는 기법의 성능과 직결되는 문제이다. 특히 나무나 사람 등에서의 가려짐 영역(occlusion region), 하늘과 산 등 객체가 아닌 배경에서 추출되는 특징점들은 의미없는 특징점으로 분류되어 정합과 인식 기법의 성능을 저하시키는 원인이 된다. 본 논문에서는 한 장 이상의 멀티 프레임을 이용하여 건물 인식에 필요한 특징점을 분류하여 인식과 정합단계에서 기존의 일반적인 건물 인식 기법의 성능을 향상시키기 위한 새로운 기법을 제안한다. 먼저 SIFT(scale invariant feature transform)를 통해 일차적으로 특징점을 추출한 후 잘못 정합 된 특징점은 제거한다. 가려짐 영역에서의 특징점 분류를 위해서는 RANSAC(random sample consensus)을 적용한다. 분류된 특징점들은 정합 기법을 통해 구하였기 때문에 하나의 특징점은 여러 개의 디스크립터가 존재하고 따라서 이를 통합하는 과정도 제안한다. 실험을 통해 제안하는 기법의 성능이 우수하다는 것을 보였다.

The detection of cavitation in hydraulic machines by use of ultrasonic signal analysis

  • Gruber, P.;Farhat, M.;Odermatt, P.;Etterlin, M.;Lerch, T.;Frei, M.
    • International Journal of Fluid Machinery and Systems
    • /
    • 제8권4호
    • /
    • pp.264-273
    • /
    • 2015
  • This presentation describes an experimental approach for the detection of cavitation in hydraulic machines by use of ultrasonic signal analysis. Instead of using the high frequency pulses (typically 1MHz) only for transit time measurement different other signal characteristics are extracted from the individual signals and its correlation function with reference signals in order to gain knowledge of the water conditions. As the pulse repetition rate is high (typically 100Hz), statistical parameters can be extracted of the signals. The idea is to find patterns in the parameters by a classifier that can distinguish between the different water states. This classification scheme has been applied to different cavitation sections: a sphere in a water flow in circular tube at the HSLU in Lucerne, a NACA profile in a cavitation tunnel and two Francis model test turbines all at LMH in Lausanne. From the signal raw data several statistical parameters in the time and frequency domain as well as from the correlation function with reference signals have been determined. As classifiers two methods were used: neural feed forward networks and decision trees. For both classification methods realizations with lowest complexity as possible are of special interest. It is shown that two to three signal characteristics, two from the signal itself and one from the correlation function are in many cases sufficient for the detection capability. The final goal is to combine these results with operating point, vibration, acoustic emission and dynamic pressure information such that a distinction between dangerous and not dangerous cavitation is possible.

신용카드 대손회원 예측을 위한 SVM 모형 (Credit Card Bad Debt Prediction Model based on Support Vector Machine)

  • 김진우;지원철
    • 한국IT서비스학회지
    • /
    • 제11권4호
    • /
    • pp.233-250
    • /
    • 2012
  • In this paper, credit card delinquency means the possibility of occurring bad debt within the certain near future from the normal accounts that have no debt and the problem is to predict, on the monthly basis, the occurrence of delinquency 3 months in advance. This prediction is typical binary classification problem but suffers from the issue of data imbalance that means the instances of target class is very few. For the effective prediction of bad debt occurrence, Support Vector Machine (SVM) with kernel trick is adopted using credit card usage and payment patterns as its inputs. SVM is widely accepted in the data mining society because of its prediction accuracy and no fear of overfitting. However, it is known that SVM has the limitation in its ability to processing the large-scale data. To resolve the difficulties in applying SVM to bad debt occurrence prediction, two stage clustering is suggested as an effective data reduction method and ensembles of SVM models are also adopted to mitigate the difficulty due to data imbalance intrinsic to the target problem of this paper. In the experiments with the real world data from one of the major domestic credit card companies, the suggested approach reveals the superior prediction accuracy to the traditional data mining approaches that use neural networks, decision trees or logistics regressions. SVM ensemble model learned from T2 training set shows the best prediction results among the alternatives considered and it is noteworthy that the performance of neural networks with T2 is better than that of SVM with T1. These results prove that the suggested approach is very effective for both SVM training and the classification problem of data imbalance.

결정트리를 이용하는 불완전한 데이터 처리기법 (Incomplete data handling technique using decision trees)

  • 이종찬
    • 한국융합학회논문지
    • /
    • 제12권8호
    • /
    • pp.39-45
    • /
    • 2021
  • 본 논문은 손실값을 포함하는 불완전한 데이터를 처리하는 방법에 대해 논한다. 손실값을 최적으로 처리한다는 것은 학습 데이터가 가지고 있는 정보들에서 본래값과 가장 근사한 추정치를 구하고, 이 값으로 손실값을 대치하는 것이다. 이것을 실현하기 위한 방안으로 분류기가 정보를 분류하는 과정에서 완성되어가는 결정트리를 이용한다. 다시말해 이 결정트리는 전체 학습 데이터 중에서 손실값을 포함하지 않는 완전한 정보만을 C4.5 분류기에 입력하여 학습하는 과정에서 얻어진다. 이 결정트리의 노드들은 분류 변수의 정보를 가지는데, 루트에 가까운 상위 노드일수록 많은 정보를 포함하게 되고 말단 노드에서는 루트로부터의 경로를 통해 분류 영역을 형성하게 된다. 또한 각 영역에는 분류된 데이터 사건들의 평균이 기록된다. 손실값을 포함하는 사건들은 이러한 결정트리에 입력되어 각 노드의 정보에 따라 순회과정을 통해 사건과 가장 근접한 영역을 찾아가게 된다. 이 영역에 기록된 평균값을 손실값의 추정치로 간주하고, 보상 과정은 완성된다.

A Study on Obtaining Tree Data from Green Spaces in Parks Using Unmanned Aerial Vehicle Images: Focusing on Mureung Park in Chuncheon

  • Lee, Do-Hyung;Kil, Sung-Ho;Lee, Su-Been
    • 인간식물환경학회지
    • /
    • 제24권4호
    • /
    • pp.441-450
    • /
    • 2021
  • Background and objective: The purpose of study is to analyze the three-dimensional (3D) structure by creating a 3D model for green spaces in a park using unmanned aerial vehicle (UAV) images. Methods: After producing a digital surface model (DSM) and a digital terrain model (DTM) using UAV images taken in Mureung Park in Chuncheon-si, we generated a digital tree height model (DHM). In addition, we used the mean shift algorithm to test the classification accuracy, and obtain accurate tree height and volume measures through field survey. Results: Most of the tree species planted in Mureung Park were Pinus koraiensis, followed by Pinus densiflora, and Zelkova serrata, and most of the shrubs planted were Rhododendron yedoense, followed by Buxus microphylla, and Spiraea prunifolia. The average height of trees measured at the site was 7.8 m, and the average height estimated by the model was 7.5 m, showing a difference of about 0.3 m. As a result of the t-test, there was no significant difference between height values of the field survey data and the model. The estimated green coverage and volume of the study site using the UAV were 5,019 m2 and 14,897 m3, respectively, and the green coverage and volume measured through the field survey were 6,339 m2 and 17,167 m3. It was analyzed that the green coverage showed a difference of about 21% and the volume showed a difference of about 13%. Conclusion: The UAV equipped with RTK (Real-Time Kinematic) and GNSS (Global Navigation Satellite System) modules used in this study could collect information on tree height, green coverage, and volume with relatively high accuracy within a short period of time. This could serve as an alternative to overcome the limitations of time and cost in previous field surveys using remote sensing techniques.

빅데이터 기반 2형 당뇨 예측 알고리즘 개발 (Development of Type 2 Prediction Prediction Based on Big Data)

  • 심현;김현욱
    • 한국전자통신학회논문지
    • /
    • 제18권5호
    • /
    • pp.999-1008
    • /
    • 2023
  • 당뇨병과 같은 만성 질환의 조기 예측은 중요한 이슈이며, 그중에서도 당뇨 예측의 정확도 향상은 매우 중요하다. 당뇨 예측을 위한 다양한 기계 학습 및 딥 러닝 기반 방법론을 도입하고 있으나, 이러한 기술들은 다른 방법론보다 더 우수한 성능을 위해 대량의 데이터를 필요로 하며, 복잡한 데이터 모델 때문에 학습 비용이 높다. 본 연구에서는 pima 데이터셋과 k-fold 교차 검증을 사용한 DNN이 당뇨 진단 모델의 효율성을 감소시킨다는 주장을 검증하고자 한다. 의사 결정 트리, SVM, 랜덤 포레스트, 로지스틱 회귀, KNN 및 다양한 앙상블 기법과 같은 기계 학습 분류 방법을 사용하여 어떤 알고리즘이 최상의 예측 결과를 내는지 결정하였다. 모든 분류 모델에 대한 훈련 및 테스트 후 제안된 시스템은 ADASYN 방법과 함께 XGBoost 분류기에서 최상의 결과를 제공하였으며, 정확도는 81%, F1 계수는 0.81, AUC는 0.84였다. 또한 도메인 적응 방법이 제안된 시스템의 다양성을 보여주기 위해 구현되었다. LIME 및 SHAP 프레임워크를 사용한 설명 가능한 AI 접근 방식이 모델이 최종 결과를 어떻게 예측하는지 이해하기 위해 구현되었다.