• 제목/요약/키워드: k-nearest neighbor method

검색결과 313건 처리시간 0.026초

선택적 자질 차원 축소를 이용한 최적의 지도적 LSA 방법 (Optimal supervised LSA method using selective feature dimension reduction)

  • 김정호;김명규;차명훈;인주호;채수환
    • 감성과학
    • /
    • 제13권1호
    • /
    • pp.47-60
    • /
    • 2010
  • 기존 웹 페이지 자동분류 연구는 일반적으로 학습 기반인 kNN(k-Nearest Neighbor), SVM(Support Vector Machine)과 통계 기반인 Bayesian classifier, NNA(Neural Network Algorithm)등 여러 종류의 분류작업에서 입증된 분류 기법을 사용하여 웹 페이지를 분류하였다. 하지만 인터넷 상의 방대한 양의 웹 페이지와 각 페이지로부터 나오는 많은 양의 자질들을 처리하기에는 공간적, 시간적 문제에 직면하게 된다. 그리고 분류 대상을 표현하기 위해 흔히 사용하는 단일(uni-gram) 자질 기반에서는 자질들 간의 관계 분석을 통해 자질에 정확한 의미를 부여하기 힘들다. 특히 본 논문의 분류 대상인 한글 웹 페이지의 자질인 한글 단어는 중의적인 의미를 가지는 경우가 많기 때문에 이러한 중의성이 분류 작업에 많은 영향을 미칠 수 있다. 잠재적 의미 분석 LSA(Latent Semantic Analysis) 분류기법은 선형 기법인 특이치 분해 SVD(Singular Value Decomposition)을 통해 행렬의 분해 및 차원 축소(dimension reduction)를 수행하여 대용량 데이터 집합의 분류를 효율적으로 수행하고, 또한 차원 축소를 통해 새로운 의미공간을 생성하여 자질들의 중의적 의미를 분석할 수 있으며 이 새로운 의미공간상에 분류 대상을 표현함으로써 분류 대상의 잠재적 의미를 분석할 수 있다. 하지만 LSA의 차원 축소는 전체 데이터의 표현 정도만을 고려할 뿐 분류하고자 하는 범주를 고려하지 않으며 또한 서로 다른 범주 간의 차별성을 고려하지 않기 때문에 축소된 차원 상에서 분류 시 서로 다른 범주 데이터간의 모호한 경계로 인해 안정된 분류 성능을 나타내지 못한다. 이에 본 논문은 새로운 의미공간(semantic space) 상에서 서로 다른 범주사이의 명확한 구분을 위한 특별한 차원 선택을 수행하여 최적의 차원 선택과 안정된 분류성능을 보이는 최적의 지도적 LSA을 소개한다. 제안한 지도적 LSA 방법은 기본 LSA 및 다른 지도적 LSA 방법들에 비해 저 차원 상에서 안정되고 더 높은 성능을 보였다. 또한 추가로 자질 생성 및 선택 시 불용어의 제거와 자질에 대한 가중치를 통계적인 학습을 통해 얻음으로써 더 높은 학습효과를 유도하였다.

  • PDF

사례 기반 추론을 이용한 적조 예측 모니터링 시스템 구현 및 설계 (A Design and Implementation Red Tide Prediction Monitoring System using Case Based Reasoning)

  • 송병호;정민아;이성로
    • 한국통신학회논문지
    • /
    • 제35권12B호
    • /
    • pp.1219-1226
    • /
    • 2010
  • 적조 현상에 대한 판별, 예측 분석을 위한 시스템은 현재 개발이 아주 미흡한 상태이고 현재의 적조원인에 대한 연구는 화학 및 생물학적 원인의 규명에 대해 그 초점이 맞추어져 있어 지능적인 의사 결정 알고리즘을 갖는 시스템 구현이 필요하다. 본 논문에서는 사례 기반 추론 기법을 이용하여 적조 현상에 관한 사례를 지식 베이스로 구축하고 추론하는 시스템을 설계하였다. 가장 유사한 사례 추천을 위해 KNN 알고리즘을 이용하였고 적조 사례 베이스를 구축하기 위하여 375 건의 데이터를 입력 받아 실험하였다. 학습 데이터로부터의 영향을 최소화하고 신뢰성을 확보하기 위해 10-Fold 교차검증을 수행한 결과 적조 사례에 대한 평균 정확도는 약 84.2%를 나타냈고 유사도 분류 k 개수가 5인 경우에 최적의 수행 결과를 나타냈다. 또한, 추론된 결과를 이용하여 적조 모니터링 시스템을 구현하였다.

Designing Hypothesis of 2-Substituted-N-[4-(1-methyl-4,5-diphenyl-1H-imidazole-2-yl)phenyl] Acetamide Analogs as Anticancer Agents: QSAR Approach

  • Bedadurge, Ajay B.;Shaikh, Anwar R.
    • 대한화학회지
    • /
    • 제57권6호
    • /
    • pp.744-754
    • /
    • 2013
  • Quantitative structure-activity relationship (QSAR) analysis for recently synthesized imidazole-(benz)azole and imidazole - piperazine derivatives was studied for their anticancer activities against breast (MCF-7) cell lines. The statistically significant 2D-QSAR models ($r^2=0.8901$; $q^2=0.8130$; F test = 36.4635; $r^2$ se = 0.1696; $q^2$ se = 0.12212; pred_$r^2=0.4229$; pred_$r^2$ se = 0.4606 and $r^2=0.8763$; $q^2=0.7617$; F test = 31.8737; $r^2$ se = 0.1951; $q^2$ se = 0.2708; pred_$r^2=0.4386$; pred_$r^2$ se = 0.3950) were developed using molecular design suite (VLifeMDS 4.2). The study was performed with 18 compounds (data set) using random selection and manual selection methods used for the division of the data set into training and test set. Multiple linear regression (MLR) methodology with stepwise (SW) forward-backward variable selection method was used for building the QSAR models. The results of the 2D-QSAR models were further compared with 3D-QSAR models generated by kNN-MFA, (k-Nearest Neighbor Molecular Field Analysis) investigating the substitutional requirements for the favorable anticancer activity. The results derived may be useful in further designing novel imidazole-(benz)azole and imidazole-piperazine derivatives against breast (MCF-7) cell lines prior to synthesis.

영한 기계 번역에서 미가공 텍스트 데이터를 이용한 대역어 선택 중의성 해소 (Target Word Selection Disambiguation using Untagged Text Data in English-Korean Machine Translation)

  • 김유섭;장정호
    • 정보처리학회논문지B
    • /
    • 제11B권6호
    • /
    • pp.749-758
    • /
    • 2004
  • 본 논문에서는 미가공 말뭉치 데이터를 활용하여 영한 기계번역 시스템의 대역어 선택 시 발생하는 중의성을 해소하는 방법을 제안한다. 이를 위하여 은닉 의미 분석(Latent Semantic Analysis : LSA)과 확률적 은닉 의미 분석(Probabilistic LSA : PLSA)을 적용한다. 이 두 기법은 텍스트 문단과 같은 문맥 정보가 주어졌을 때, 이 문맥이 내포하고 있는 복잡한 의미 구조를 표현할 수 있다 본 논문에서는 이들을 사용하여 언어적인 의미 지식(Semantic Knowledge)을 구축하였으며 이 지식은 결국 영한 기계번역에서의 대역어 선택 시 발생하는 중의성을 해소하기 위하여 단어간 의미 유사도를 추정하는데 사용된다. 또한 대역어 선택을 위해서는 미리 사전에 저장된 문법 관계를 활용하여야 한다. 본 논문에서는 이러한 대역어 선택 시 발생하는 데이터 희소성 문제를 해소하기 위하여 k-최근점 학습 알고리즘을 사용한다. 그리고 위의 두 모델을 활용하여 k-최근점 학습에서 필요한 예제 간 거리를 추정하였다. 실험에서는, 두 기법에서의 은닉 의미 공간을 구성하기 위하여 TREC 데이터(AP news)론 활용하였고, 대역어 선택의 정확도를 평가하기 위하여 Wall Street Journal 말뭉치를 사용하였다. 그리고 은닉 의미 분석을 통하여 대역어 선택의 정확성이 디폴트 의미 선택과 비교하여 약 10% 향상되었으며 PLSA가 LSA보다 근소하게 더 좋은 성능을 보였다. 또한 은닉 공간에서의 축소된 벡터의 차원수와 k-최근점 학습에서의 k값이 대역어 선택의 정확도에 미치는 영향을 대역어 선택 정확도와의 상관관계를 계산함으로써 검증하였다.젝트의 성격에 맞도록 필요한 조정만을 통하여 품질보증 프로세스를 확립할 수 있다. 개발 된 패키지의 효율적인 활용이 내조직의 소프트웨어 품질보증 구축에 투입되는 공수 및 어려움을 줄일 것으로 기대된다.도가 증가할 때 구기자 열수 추출 농축액은 $1.6182{\sim}2.0543$, 혼합구기자 열수 추출 농축액은 $1.7057{\sim}2.1462{\times}10^7\;J/kg{\cdot}mol$로 증가하였다. 이와 같이 구기자 열수 추출 농축액과 혼합구기자 열수 추출 농축액의 리올리지적 특성에 큰 차이를 나타내지는 않았다. security simultaneously.% 첨가시 pH 5.0, 7.0 및 8.0에서 각각 대조구의 57, 413 및 315% 증진되었다. 거품의 열안정성은 15분 whipping시, pH 4.0(대조구, 30.2%) 및 5.0(대조구, 23.7%)에서 각각 $0{\sim}38.0$$0{\sim}57.0%$이었고 pH 7.0(대조구, 39.6%) 및 8.0(대조구, 43.6%)에서 각각 $0{\sim}59.4$$36.6{\sim}58.4%$이었으며 sodium alginate 첨가시가 가장 양호하였다. 전체적으로 보아 거품안정성이 높은 것은 열안정성도 높은 경향이며, 표면장력이 낮으면 거품형성능이 높아지고, 비점도가 높으면 거품안정성 및 열안정성이 높아지는 경향이 있었다.protocol.eractions between application agents that are developed using different

A personalized exercise recommendation system using dimension reduction algorithms

  • Lee, Ha-Young;Jeong, Ok-Ran
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권6호
    • /
    • pp.19-28
    • /
    • 2021
  • 코로나로 인해 건강관리에 대한 관심이 증가하고 있는 요즘, 여러 사람이 함께 이용하는 헬스장이나 공용시설을 이용하는데 어려움이 늘어남에 따라 홈 트레이닝을 하는 이들이 늘어나고 있다. 이에 본 연구에서는 홈 트레이닝 사용자들에게 좀 더 정확하고 의미 있는 운동 추천을 제공하기 위해 개인 성향 정보를 활용한 개인화된 운동 추천 알고리즘을 제안한다. 이를 위해 식습관 정보, 육체적 조건 등 개인을 나타낼 수 있는 개인 성향 정보를 사용해 k-최근접 이웃 알고리즘으로 데이터를 비만의 기준에 따라 분류하였다. 또한, 운동 데이터 셋을 운동의 레벨에 따라 등급을 구별하였으며 각 데이터 셋의 이웃 정보를 바탕으로 모델 기반 협업 필터링 방법 중 차원 축소모델인 특이값 분해 알고리즘(SVD)을 통해 사용자들에게 개인화된 운동 추천을 제공한다. 따라서 메모리 기반 협업 필터링 추천 기법의 데이터 희소성과 확장성의 문제를 해결할 수 있고, 실험을 통해 본 연구에서 제안하는 알고리즘의 정확도와 성능을 검증한다.

원격탐사와 GIS 기반의 산림탄소저장량 추정에 관한 주요국 연구동향 개관 (Overview of Research Trends in Estimation of Forest Carbon Stocks Based on Remote Sensing and GIS)

  • 김경민;이정빈;김은숙;박현주;노영희;이승호;박기호;신휴석
    • 한국지리정보학회지
    • /
    • 제14권3호
    • /
    • pp.236-256
    • /
    • 2011
  • 토지이용변화에 따른 산림탄소저장량 변화는 기후변화협약에서 요구하는 주요 자료 중 하나이다. IPCC 우수실행지침(intergovernmental panel on climate change good practice guidance, IPCC GPG) 수준 3에 근거하여 공간적으로 명확한 산림탄소저장량을 추정하게 되면 높은 신뢰도를 확보할 수 있다. 그러나 기존의 추정 방법은 표본점(sample plot) 단위의 국가산림자원조사 (national forest inventory, NFI) 자료만을 이용하여 행정구역별 평균을 집계하는 것으로 폴리곤 혹은 셀 단위의 상세한 탄소저장량을 파악할 수 없었다. 이를 보완하기 위해 유럽, 북미 등에서는 NFI 자료, 원격탐사 및 GIS 기술을 결합하여 산림탄소저장량을 추정하기 위한 노력이 활발히 이루어져왔다. 주요국의 연구 동향을 활용 기법에 따라 분류해보면 원격탐사, GIS, 지구통계 및 환경변수 모델링 등 크게 4가지 범주로 나눌 수 있다. 이 중 가장 손쉽게 국내 적용을 고려해 볼 수 있는 방법은 NFI 자료와 임상도를 결합하는 GIS 기반의 방법이다. 특히, 복잡한 수종 구성을 가지고 있는 국내 산림 환경 특성을 고려할 때 국지적 변이 추정에 유용한 지구통계 기법의 활용성이 기대된다. 아울러, 고해상도 영상의 활용은 산림탄소저장량 추정의 검증 및 탄소배출권 확보를 위한 CDM(clean development mechanism, 청정개발체제) 사업 적지 선정 등에 유용할 것으로 판단된다. 국내 관련 연구는 아직 초기 단계로 최근린 기법(k-nearest neighbor, k-NN)의 적용성을 검토하는 연구가 주를 이루고 있으나 국내 산림 환경에 적합한 방법론의 선정을 위해서는 보다 다양한 공간 자료와 알고리즘의 적용성이 검토되고 방법론 간의 비교 연구가 필요하다.

코페이셜 적층 구조를 가진 펜타센 유도체 단결정기반 유기트랜지스터의 계면 전하이동 이방성에 관한 연구 (Interfacial Charge Transport Anisotropy of Organic Field-Effect Transistors Based on Pentacene Derivative Single Crystals with Cofacial Molecular Stack)

  • 최현호
    • 접착 및 계면
    • /
    • 제20권4호
    • /
    • pp.155-161
    • /
    • 2019
  • 공액분자 나노구조체 계면에서의 전하이동 이방성을 이해하는 것은 유기전계효과트랜지스터(OFET)에서 구조-물성 상관관계를 규명하는데 중요하다. 본 연구에서는 대표적인 코페이셜 적층구조를 가진 6,13-bis(triisopropylsilylethynyl) pentacene (TIPS-pentacene) 유기반도체 단결정과 산화물 계면에서 전하이동도 이방성을 연구하였다. 용매치환공정을 이용해 유기단결정을 산화실리콘 절연체 표면에 성장시키고 유기단결정/산화물 계면에서 전하이동을 유도할 수 있도록 OFET 소자를 완성하였다. TIPS-pentacene OFET에서 최고/최저 전하이동도 이방성은 5.2로 관찰되었다. TIPS-pentacene의 전하이동을 담당하는 공액부의 최인접부와의 상호작용을 분석한 결과, HOMO 준위 커플링과 전하의 호핑 궤도가 전하이동도 이방성에 기여하는 것으로 밝혀졌다. HOMO 준위 커플링에 기반한 전하이동도 이방성의 정량적 예측은 실험결과와 유사하게 나타났다.

An effective automated ontology construction based on the agriculture domain

  • Deepa, Rajendran;Vigneshwari, Srinivasan
    • ETRI Journal
    • /
    • 제44권4호
    • /
    • pp.573-587
    • /
    • 2022
  • The agricultural sector is completely different from other sectors since it completely relies on various natural and climatic factors. Climate changes have many effects, including lack of annual rainfall and pests, heat waves, changes in sea level, and global ozone/atmospheric CO2 fluctuation, on land and agriculture in similar ways. Climate change also affects the environment. Based on these factors, farmers chose their crops to increase productivity in their fields. Many existing agricultural ontologies are either domain-specific or have been created with minimal vocabulary and no proper evaluation framework has been implemented. A new agricultural ontology focused on subdomains is designed to assist farmers using Jaccard relative extractor (JRE) and Naïve Bayes algorithm. The JRE is used to find the similarity between two sentences and words in the agricultural documents and the relationship between two terms is identified via the Naïve Bayes algorithm. In the proposed method, the preprocessing of data is carried out through natural language processing techniques and the tags whose dimensions are reduced are subjected to rule-based formal concept analysis and mapping. The subdomain ontologies of weather, pest, and soil are built separately, and the overall agricultural ontology are built around them. The gold standard for the lexical layer is used to evaluate the proposed technique, and its performance is analyzed by comparing it with different state-of-the-art systems. Precision, recall, F-measure, Matthews correlation coefficient, receiver operating characteristic curve area, and precision-recall curve area are the performance metrics used to analyze the performance. The proposed methodology gives a precision score of 94.40% when compared with the decision tree(83.94%) and K-nearest neighbor algorithm(86.89%) for agricultural ontology construction.

머신러닝 알고리즘 기반 반도체 자동화를 위한 이송로봇 고장진단에 대한 연구 (A Study on the Failure Diagnosis of Transfer Robot for Semiconductor Automation Based on Machine Learning Algorithm)

  • 김미진;고광인;구교문;심재홍;김기현
    • 반도체디스플레이기술학회지
    • /
    • 제21권4호
    • /
    • pp.65-70
    • /
    • 2022
  • In manufacturing and semiconductor industries, transfer robots increase productivity through accurate and continuous work. Due to the nature of the semiconductor process, there are environments where humans cannot intervene to maintain internal temperature and humidity in a clean room. So, transport robots take responsibility over humans. In such an environment where the manpower of the process is cutting down, the lack of maintenance and management technology of the machine may adversely affect the production, and that's why it is necessary to develop a technology for the machine failure diagnosis system. Therefore, this paper tries to identify various causes of failure of transport robots that are widely used in semiconductor automation, and the Prognostics and Health Management (PHM) method is considered for determining and predicting the process of failures. The robot mainly fails in the driving unit due to long-term repetitive motion, and the core components of the driving unit are motors and gear reducer. A simulation drive unit was manufactured and tested around this component and then applied to 6-axis vertical multi-joint robots used in actual industrial sites. Vibration data was collected for each cause of failure of the robot, and then the collected data was processed through signal processing and frequency analysis. The processed data can determine the fault of the robot by utilizing machine learning algorithms such as SVM (Support Vector Machine) and KNN (K-Nearest Neighbor). As a result, the PHM environment was built based on machine learning algorithms using SVM and KNN, confirming that failure prediction was partially possible.

Optimize KNN Algorithm for Cerebrospinal Fluid Cell Diseases

  • Soobia Saeed;Afnizanfaizal Abdullah;NZ Jhanjhi
    • International Journal of Computer Science & Network Security
    • /
    • 제24권2호
    • /
    • pp.43-52
    • /
    • 2024
  • Medical imaginings assume a important part in the analysis of tumors and cerebrospinal fluid (CSF) leak. Magnetic resonance imaging (MRI) is an image segmentation technology, which shows an angular sectional perspective of the body which provides convenience to medical specialists to examine the patients. The images generated by MRI are detailed, which enable medical specialists to identify affected areas to help them diagnose disease. MRI imaging is usually a basic part of diagnostic and treatment. In this research, we propose new techniques using the 4D-MRI image segmentation process to detect the brain tumor in the skull. We identify the issues related to the quality of cerebrum disease images or CSF leakage (discover fluid inside the brain). The aim of this research is to construct a framework that can identify cancer-damaged areas to be isolated from non-tumor. We use 4D image light field segmentation, which is followed by MATLAB modeling techniques, and measure the size of brain-damaged cells deep inside CSF. Data is usually collected from the support vector machine (SVM) tool using MATLAB's included K-Nearest Neighbor (KNN) algorithm. We propose a 4D light field tool (LFT) modulation method that can be used for the light editing field application. Depending on the input of the user, an objective evaluation of each ray is evaluated using the KNN to maintain the 4D frequency (redundancy). These light fields' approaches can help increase the efficiency of device segmentation and light field composite pipeline editing, as they minimize boundary artefacts.