• 제목/요약/키워드: K-최근이웃

검색결과 213건 처리시간 0.025초

결측값 대체를 위한 데이터 재현 기법 비교 (Comparison of Data Reconstruction Methods for Missing Value Imputation)

  • 김청호;강기훈
    • 문화기술의 융합
    • /
    • 제10권1호
    • /
    • pp.603-608
    • /
    • 2024
  • 무응답 및 결측값은 표본 탈락, 설문조사에 대한 답변 회피 등으로 발생하며 정보의 손실 및 편향된 추론의 가능성이 있는 문제가 발생하게 되며, 이 경우 결측값을 적절한 값으로 바꾸는 대체가 필요하게 된다. 본 논문에서는 결측값에 대한 대체 방법으로 제안되었던 평균 대체, 다중회귀 대체, 랜덤 포레스트 대체, K-최근접 이웃 대체, 그리고 딥러닝을 기본으로 한 오토인코더 대체와 잡음제거 오토인코더 대체 방법을 비교한다. 결측값을 대체하는 이러한 방법들에 대해 설명하고, 연속형의 모의실험 데이터와 실제 데이터에 접목시켜 각 방법들을 비교하였다. 비교 결과 대부분의 경우에서 다중 대체 방법인 랜덤 포레스트 대체 방법과 잡음제거 오토인코더 대체 방법의 성능이 좋았음을 확인하였다.

대표 속성을 이용한 최적 연관 이웃 마이닝 (Optimal Associative Neighborhood Mining using Representative Attribute)

  • 정경용
    • 전자공학회논문지CI
    • /
    • 제43권4호
    • /
    • pp.50-57
    • /
    • 2006
  • 최근 정보 기술의 발전에 따라 다양하고 폭넓은 정보들이 디지털 형태로 빠르게 생산 및 배포되고 있다. 사용자가 이러한 정보과잉 속에서 자신이 원하는 정보를 단시간 내에 검색하는 것은 그리 쉬운 일이 아니다. 따라서 유비쿼터스 상거래에서 사용자가 정보를 효율적으로 이용할 수 있도록 제어하고 필터링하는 일을 도와주는 개인화된 추천 시스템이 등장하였으며, 더 나아가 사용자가 원하는 아이템을 예측하고 추천해주고 있으며 이를 위해 협력적 필터링을 적용하고 있다. 이는 사용자의 성향에 맞는 아이템을 예측하고 추천하기 위하여 비슷한 선호도를 가지는 사용자들간의 유사도 가중치를 계산한다. 본 연구는 정보의 속성에 대한 사용자의 선호도를 고려하지 않은 문제를 개선하기 위하여 연관 이웃 마이닝을 사용하여 대표속성에 대한 연관 사용자의 선호도를 협력적 필터링에 반영하였다. 연관 이웃 마이닝은 선호도에 가장 크게 영향을 미치는 속성을 추출하여 유사한 성향을 가진 연관 사용자를 군집한다. 제안된 방법은 사용자가 아이템에 대해서 평가한 MovieLens 데이터 집합을 대상으로 평가되었으며, 기존의 nearest neighbor model과 K-means 군집보다 그 성능이 우수함을 보인다.

메모리 기반의 기계 학습을 이용한 한국어 문장 경계 인식 (Korean Sentence Boundary Detection Using Memory-based Machine Learning)

  • 한군희;임희석
    • 한국콘텐츠학회논문지
    • /
    • 제4권4호
    • /
    • pp.133-139
    • /
    • 2004
  • 본 논문은 기계 학습 기법 중에서 메모리 기반 학습을 사용하여 범용의 학습 가능한 한국어 문장 경계 인식기를 제안한다. 제안한 방법은 메모리 기반 학습 알고리즘 중 최근린 이웃(kNN) 알고리즘을 사용하였으며, 이웃들을 이용한 문장 경계 결정을 위한 스코어 값 계산을 위한 다양한 가중치 방법을 적용하여 이들을 비교 분석하였다 문장 경계 구분을 위한 자질로는 특정 언어나 장르에 제한적이지 않고 범용으로 적용될 수 있는 자질만을 사용하였다. 성능 실험을 위하여 ETRI 코퍼스와 KAIST 코퍼스를 사용하였으며, 성능 척도로는 정확도와 재현율이 사용되었다. 실험 결과 제안한 방법은 적은 학습 코퍼스만으로도 $98.82\%$의 문장 정확률과 $99.09\%$의 문장 재현율을 보였다.

  • PDF

개인화 추천시스템의 성능 향상 적용 알고리즘 분석 (An Analysi s of Performance Improvement Algorithm for Personalized Recommender System)

  • 윤수진;윤희병
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2005년도 춘계학술대회 학술발표 논문집 제15권 제1호
    • /
    • pp.181-184
    • /
    • 2005
  • 무수히 많은 정보 중에서 특정 사용자에게 가장 유용할 것으로 판단되는 정보를 추천하여 제공함으로써 특정 사용자의 편의를 돕는 시스템이 추천시스템이다. 이러한 추천시스템에 성공적으로 적용된 알고리즘이 협력적 필터링이며 이것은 다른 사용자로부터 먼저 평가된 웹 문서를 제공받아 이를 축적하고 다시 사용자에게 환원하는 알고리즘이다. 하지만 이 알고리즘은 초기평가, 희소성, 확장성 둥의 문제점을 내포하고 있다. 따라서 본 논문은 이러한 문제점을 해결하고 성능 향상을 하기 위해 적용된 개인화 추천시스템 관련 최신 알고리즘들을 비교하고 분석한 결과를 제시한다. 이를 위해 먼저 최근에 발표된 협력적 필터링과 최근접 이웃 알고리즘, 인공 지능기술을 이용한 알고리즘, 군집화 알고리즘 둥 각각에 대한 기술적 분석 결과를 수행한다. 그런 후 이들 다양한 알고리즘들의 조합을 통한 성능 향상 결과에 대한 비교분석과 각각의 조합에 대한 장단점 분석 결과도 또한 제시한다.

  • PDF

대규모 병렬 시스템에서 캐시와 공유메모리를 이용한 유한 차분법 성능 (Performance of the Finite Difference Method Using Cache and Shared Memory for Massively Parallel Systems)

  • 김현규;이효종
    • 전자공학회논문지
    • /
    • 제50권4호
    • /
    • pp.108-116
    • /
    • 2013
  • 최근 GPU 시스템과 같은 수백 개의 프로세서로 구성된 대규모 병렬 시스템을 이용하여 성능을 향상시키는 방법들이 많이 개발 되었다. 대표적으로 GPU에서 캐싱(Caching)과 유사한 개념으로 공유 메모리가 사용되었다. 출력 값을 얻기 위해서 이웃 값을 참조하는 이미지 필터와 같은 알고리즘들의 경우 이웃 값의 참조가 빈번하게 발생되므로 공유 메모리를 사용할 경우 성능이 향상되었다. 그러나 공유 메모리를 사용하기 위해서는 기존 코드를 재 구현해야만 하고 이는 코드의 복잡도를 증가시키는 원인이 된다. 최근 GPU 시스템에서는 공유 메모리 뿐 아니라 L1과 L2 캐시 메모리를 지원하도록 하였다. L1 캐시 메모리는 공유 메모리와 동일한 하드웨어에 위치하여 캐시의 사용이 성능향상을 도와줄 것으로 예측된다. 따라서 본 논문에서는 캐시 메모리와 공유 메모리의 성능을 비교하였다. 연구결과 성능 면에서 캐시 메모리를 사용한 알고리즘과 공유메모리를 사용한 알고리즘은 유사하였다. 특히 캐시 메모리를 사용하는 경우 공유메모리 사용 프로그래밍에서 나타나는 코드 복잡도의 증가 문제도 동시에 해결할 수 있었다.

신경망 분류기를 이용한 암 관련 유전자 발현정보를 분류 (Classification of Cancer-related Gene Expression Data Using Neural Network Classifiers)

  • 권영준;류중원;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.295-297
    • /
    • 2001
  • 최근 생물 유전자 정보를 효과적으로 분석하기 위한 적절한 도구의 필요성이 대두되고 있다. 본 논문에서는 백혈병 환자의 골수로부터 얻어낸 DNA Microarray 유전 정보를 분류하여 환자가 가지고 있는 암의 종류를 예측하기 위한 최적의 특징추출방법과 분류 방법을 찾고자 한다. 이를 위해 피어슨 상관관계, 유클리디안 거리, 코사인 계수, 스피어맨 상관관계, 정보 이득, 상호 정보, 신호 대잡음비의 7가지 특징 추출 방법을 사용하였으며, 역전과 신경망, 의사결정 트리, 구조 적응형 자기구성 지도, $textsc{k}$-최근접 이웃 등 가지의 기계학습 분류기를 이용하여 분류 실험을 하였다. 실험결과, 피어슨 상관관계와 역전파 신경망을 이용한 분류 방법이 97.1%의 인식률을 보임을 알 수 있었다.

  • PDF

주민의 인식과 태도로 본 도시 공동체의 현황과 과제 - 대구 동구 안심지역을 사례로 - (Features and Issues of an Urban Community by Analysing Residents' Awareness and Attitude)

  • 이영아
    • 한국지역지리학회지
    • /
    • 제20권3호
    • /
    • pp.269-281
    • /
    • 2014
  • 최근 도시재생 및 사회적 경제 등의 분야에서 도시 공동체가 주목받고 있다. 지금까지는 도시 공동체의 이상적 대안적 성격에 관심이 있었으나, 도시 공동체의 발전을 위해서는 현실의 공동체에 대해 구체적으로 분석하고 이를 통해 과제를 도출하는 것이 필요하다. 이러한 문제의식 하에, 본 논문에서는 최근 공동체 활동이 활발하게 전개되고 있는 대구광역시 동구 안심지역 주민들을 대상으로 그들의 사회경제적 특성, 지역사회에 대한 공동체 의식, 지역에서 이웃과 맺고 있는 관계와 공동체 활동에 참여하는 것과의 관계를 분석함으로써, 도시 공동체의 현황과 과제를 고찰하였다. 분석 결과 이 지역에서는 중산층, 고학력, 아파트 거주자들이 주로 참여하였으며, 이웃과 사회적 관계를 활발히 맺는 경우가 그렇지 않은 경우보다 참여가 활발하였다. 이러한 공동체 활동의 특정 계층 지향성은 다른 주민의 정보 접근을 제한하고 이는 참여 제한으로 이어지며 배제가 일어나는 원인이 될 수 있으므로, 본 논문에서는 계층 간 보다 개방적인 느슨한 연대가 필요하다고 제안한다.

  • PDF

세포독성 자료를 이용한 분류 알고리즘 성능 비교 (Comparison of the performance of classification algorithms using cytotoxicity data)

  • 윤여창;정의배;조나래;주수인;이성덕
    • 응용통계연구
    • /
    • 제31권3호
    • /
    • pp.417-426
    • /
    • 2018
  • 최근 동물실험의 대체방법 중 하나로 쥐의 줄기세포 유래 배상체를 이용하여 독성을 시험하는 방법이 개발되었다. 이는 동물에 직접 약물을 주입하는 것이 아닌 배상체 세포에 약물을 투입하여 세포의 변화에 따른 측정값들을 얻는 방법이다. 본 연구에서는 다범주 세포독성 자료를 이용해 통계적 기법인 판별분석(discriminant analysis)과 머신러닝 기법인 서포트 벡터 머신(support vector machine), 인공신경망(artificial neural network), k-인접이웃분류(k-nearest neighbor)의 성능을 비교하였다. 알고리즘의 성능은 분류 정확도(accuracy)와 가중카파계수(weighted Cohen's kappa coefficient)로 비교하였다.

개인화된 전문가 그룹을 활용한 추천 시스템 (Personalized Expert-Based Recommendation)

  • 정연오;이성우;이지형
    • 한국지능시스템학회논문지
    • /
    • 제23권1호
    • /
    • pp.7-11
    • /
    • 2013
  • 전문가의 지식을 기반으로 한 추천시스템에 대한 다양한 연구가 최근 활발히 진행되고 있다. 지금까지의 전문가 기반 추천 시스템이 공통된 전문가 그룹의 지식을 바탕으로 모두에게 아이템을 추천하였다면, 본 논문에서는 개인의 필요와 전문가에 대한 관점을 반영한 개인화된 전문가 그룹의 지식을 기반으로 한 추천 시스템을 제안한다. 개인화된 전문가 그룹을 찾는 과정이 제안하는 추천 시스템에서 가장 중요한 부분이다. 이를 위해 개인화된 전문가를 효율적으로 찾아내는 지지 벡터 머신(SVM) 기반 기법을 제안한다. 추천 시스템에서 널리 사용되는 k 근접이웃 알고리즘과의 비교를 통하여서 개인화된 전문가를 기반으로 한 협업 필터링 추천 시스템의 효용성을 입증한다.

kNN 알고리즘에서의 속성 가중치 자동계산 방법 (an Automatic Calculation Method of Feature Weights in k Nearest Neighbor Algorithms)

  • 이강일;이창환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.423-426
    • /
    • 2005
  • 기억기반학습의 일종인 최근접 이웃(k nearest neighbor) 알고리즘은 과거의 데이터들 중에서 새로운 개체와 유사한 데이터들을 이용해서 새로운 개체의 목적 값을 예측하는 것이다. 이 경우 속성의 가중치를 계산하는 방식은 kNN의 성능을 결정하는 중요한 요소가 된다. 본 논문에서는 기존의 다른 이론들과 달리 정보이론에서 사용되는 엔트로피 개념을 이용해서 속성의 가중치를 이론적이고, 효과적으로 계산하는 새로운 방법을 제시하고자한다. 제안된 방법은 각 속성이 목적속성에 제공하는 정보의 양에 따라 가중치를 자동으로 계산하여 kNN의 성능을 향상시킨다. 마지막으로 이러한 방식의 성능을 다수의 실험을 통해 비교하였다.

  • PDF