• 제목/요약/키워드: nearest-neighbor analysis

검색결과 254건 처리시간 0.028초

LSI 기법을 이용한 전자상거래 추천자 시스템의 시뮬레이션 분석 (Simulation Study on E-commerce Recommender System by Use of LSI Method)

  • 권치명
    • 한국시뮬레이션학회논문지
    • /
    • 제15권3호
    • /
    • pp.23-30
    • /
    • 2006
  • 추천자 시스템은 전자상거래 사이트에서 고객의 상품 구매 정보를 수집하여 고객에 대한 예상 구매 상품을 추천하는 목적으로 개발되었다. 본 연구는 대형 전자상거래 사이트에서 고객의 상품 구매 이력이 활용 가능한 경우에 전통적인 통계기법인 군집분석 및 고객 간의 상품 구매 상관성을 이용하는 기존 추천자 시스템(협력적 필터링 기법)과 문서 검색에서 사용되는 LSI분석에 기반한 협업 필터링 기법을 상품 추천에 적용하여 각 기법의 상품 추천 효율성을 비교 분석하였다. 문서-용어 행렬과 유사한 구조를 가지는 고객-상품 구매 행렬에 문서 검색에 사용되는 LSI 분석법은 고객의 상품구매 경향을 원 상품 수보다 축소된 차원의 변환 상품을 통하여 파악함으로써 목표고객에 대한 인접고객군의 생성 노력을 현저히 감소시킬 수 있어 결과적으로 실시간으로 적용되는 추천자 알고리즘의 효율성을 개선할 수 있을 것으로 기대할 수 있다. 가상적인 고객-상품 구매 리스트를 대상으로 실행한 시뮬레이션 실험 결과에서도 알고리즘의 효율성 평가측도인 recall과 정확도 및 F1에서 LSI 기반 협력적 필터링 기법이 기존의 방법보다 우수한 결과를 나타내었다. 시뮬레이션 결과, 인접고객 군의 크기가 일정한 수준에 이르면 그 크기를 증가시키더라도 알고리즘의 효율성은 별로 개선되지 않으며 또한 추천 상품 수가 일정 수준에 도달하면 추천 정확도가 낮아지는 정도에 비해 recall의 개선도는 별 변화가 없는 것으로 나타나고 있다. 추천자 시스템을 구현하는 용도에 따라 이러한 정보는 유용하게 사용될 수 있다고 판단된다.

  • PDF

Prefetch R-tree: 디스크와 CPU 캐시에 최적화된 다차원 색인 구조 (Prefetch R-tree: A Disk and Cache Optimized Multidimensional Index Structure)

  • 박명선
    • 정보처리학회논문지D
    • /
    • 제13D권4호
    • /
    • pp.463-476
    • /
    • 2006
  • R-tree는 일반적으로 트리 노드의 크기를 디스크 페이지의 크기와 같게 함으로써 I/O 성능이 최적화 되도록 구현한다. 최근에는 주메모리 환경에서 CPU 캐시 성능을 최적화하는 R-tree의 변형이 개발되었다. 이는 노드의 크기를 캐시 라인 크기의 수 배로 하고 MBR에 저장되는 키를 압축하여 노드 하나에 더 많은 엔트리를 저장함으로써 성능을 높였다. 그러나, 디스크 최적 R-tree와 캐시 최적 R-tree의 노드 크기 사이에는 수십-수백 바이트와 수-수십 킬로바이트라는 큰 차이가 있으므로, I/O 최적 R-tree는 캐시 성능이 나쁘고 캐시 최적 R-tree는 디스크 I/O 성능이 나쁜 문제점을 가지고 있다. 이 논문에서는 CPU 캐시와 디스크 I/O에 모두 최적인 R-tree, PR-tree를 제안한다. 캐시 성능을 위해 PR-tree 노드의 크기를 캐시 라인 크기보다 크게 만든 다음 CPU의 선반입(prefetch) 명령어를 이용하여 캐시 실패 횟수를 줄이고, 트리 노드를 디스크 페이지에 낭비가 적도록 배치함으로써 디스크 I/O 성능도 향상시킨다. 또한, 이 논문에서는 PR-tree에서 검색 연산을 수행하는데 드는 캐시 실패 비용을 계산하는 분석 방법을 제시하고, 최적의 캐시와 I/O 성능을 보이는 PR-tree를 구성하기 위해, 가능한 크기의 내부 단말 노드, 중간 노드를 갖는 PR-tree 생성하여 성능을 비교하였다. PR-tree는 디스크 최적 R-tree보다 삽입 연산은 3.5에서 15.1배, 삭제 연산은 6.5에서 15.1배, 범위 질의는 1.3에서 1.9배, k-최근접 질의는 2.7에서 9.7배의 캐시 성능 향상이 있었다. 모든 실험에서 매우 작은 I/O 성능 저하만을 보였다.

사례기반추론을 이용한 초기단계 공사비 예측 방법: 속성 가중치 산정을 중심으로 (Schematic Cost Estimation Method using Case-Based Reasoning: Focusing on Determining Attribute Weight)

  • 박문서;성기훈;이현수;지세현;김수영
    • 한국건설관리학회논문집
    • /
    • 제11권4호
    • /
    • pp.22-31
    • /
    • 2010
  • 프로젝트 초기단계에서 산정된 공사비는 발주자의 중요한 의사결정에 영향을 미치므로 그 중요성이 강조되고 있지만, 정보의 부족으로 인하여 주로 견적전문가의 경험과 지식에 의존하여 진행된다. 이것은 현재 문제와 가장 유사한 과거 사례를 선택하여 사용하는 사례기반추론으로 발전되었다. 사례기반추론 모델의 예측 성능은 속성 가중치의 산정 결과에 많은 영향을 받으므로, 정확한 속성 가중치의 산정이 요구된다. 기존의 연구는 수학적 방법 또는 전문가의 주관적 판단을 이용하는 방법을 사용한다. 본 연구는 기존 연구의 문제점을 보완하기 위해 유전자 알고리즘을 이용한 사례기반추론 공사비 예측 모델을 제안한다. 공사비 예측 모델은 최근이웃 조회 방법의 과정에 의해 추출한 사례의 공사비 정보를 이용하여 예측 대상의 공사비를 산정한다. 검증 결과 AACE에서 정의한 견적시기별 예측 정확도와 표준화 회귀계수 동일가중치를 사용한 방법보다 높은 오차율을 나타내었다. 따라서 본 연구는 유전자 알고리즘을 도입하여 예측 성능을 향상시키고, 사례기반추론 방법을 사용하여 사용자가 이해하기 용이한 해결책 도출과정을 제시하였다는데 그 의미가 있다.

베이지안 망에 기초한 불임환자 임상데이터의 분석 (Bayesian Network-Based Analysis on Clinical Data of Infertility Patients)

  • 정용규;김인철
    • 정보처리학회논문지B
    • /
    • 제9B권5호
    • /
    • pp.625-634
    • /
    • 2002
  • 본 논문에서는 베이지안 망을 기초로 불임환자의 임상 데이터에 대한 다양한 분석 실험을 전개하였다. 이 실험을 통해 임신여부에 영향을 주는 요인들간의 상호의존성을 분석해보고, 또 NBN, BAN, GBN 등 제약조건이 다른 다양한 유형의 베이지안 망 분류기들의 분류성능을 서로 비교해보았다. 그리고 우리는 이와 같은 실험을 통해 임신가능여부(Clin)에 직접적인 영향을 미치는 중요한 요인들로 증상(IND), 약물치료법(stimulation), 여성의 나이(FA), 미세조작 난자의 수(ICT), Wallace 사용여부(ETM) 등 5개의 특성들을 가려낼 수 있었고, 이 요인들간의 상호 의존성도 찾아낼 수 있었다. 또 서로 다른 유형의 베이지안 망 분류기들 중에서 요인들간의 상호의존관계를 허용하는 좀 더 일반적인 BAN과 GBN 등이 그렇지 못한 NBN에 비해 상대적으로 더 높은 분류 성능을 보여준다는 것을 확인하였다. 또 결정트리와 k-최근접 이웃과 같은 다른 분류기들과의 성능 비교를 통해, 임상 데이터의 특성상 확률적 표현과 추론에 기초한 베이지안 망 분류기들이 보다 높은 성능을 보여준다는 사실도 확인할 수 있었다. 또 본 논문에서는 클래스 노드의 Markov blanket에 속한 특성들로 특성집합을 축소하는 것을 제안하고, 실험을 통해 이 특성 축소방법이 베이지안 망 분류기들의 성능을 높여 줄 수 있는지 알아보았다.

비유사도-기반 분류를 위한 차원 축소방법의 비교 실험 (A Comparative Experiment on Dimensional Reduction Methods Applicable for Dissimilarity-Based Classifications)

  • 김상운
    • 전자공학회논문지
    • /
    • 제53권3호
    • /
    • pp.59-66
    • /
    • 2016
  • 이 논문에서는 비유사도-기반 분류(dissimilarity-based classifications: DBC)를 효율적으로 수행할 수 있는 차원 축소 방법들을 비교 평가한 실험 결과를 보고한다. DBC에선 분류를 위해 대상 물체를 측정한 결과 값들(특징 요소들의 집합)을 이용하는 대신에 각 대상 물체들 사이의 비유사도를 측정하여 분류한다. 현재 DBC와 관련된 이슈들 중의 하나는 대규모 데이터를 취급할 경우에 비유사도 공간의 차원이 고차원으로 되는 문제가 있다. 이 문제를 해결하기 위하여 현재 프로토타입 선택(prototype selection: PS)방법이나 차원 축소(dimension reduction: DR)방법을 이용하고 있다. PS는 전체 학습 데이터에서 프로토타입을 추출하여 비유사도 공간을 구성하는 방법이고, DR은 전체 학습 데이터로 먼저 비유사도 공간을 구성한 다음 이 공간의 차원을 축소하는 방법이다. 이 논문에서는 PS이나 DR 대신에, 학습 데이터에 대한 주성분 분석으로 적절한 차원의 고유 공간 (Eigen space: ES)을 구성한 다음, 이 고유 공간으로 매핑 된 벡터들 사이의 $l_p$-놈(norm) 거리를 비유사도 거리로 측정하여 이용하는 DBC를 제안한다. 인터넷에 공개된 인공 및 실세계 데이터를 이용하여 최 근방 이웃 분류규칙으로 ES에서 수행한 DBC의 분류 성능을 측정한 결과, 고유공간의 차원을 적절하게 선정하였을 경우 PS와 DR를 이용한 DBC보다 분류 성능이 더 향상되었음을 확인하였다.

패치 특징 코어세트 기반의 흉부 X-Ray 영상에서의 병변 유무 감지 (Leision Detection in Chest X-ray Images based on Coreset of Patch Feature)

  • 김현빈;전준철
    • 인터넷정보학회논문지
    • /
    • 제23권3호
    • /
    • pp.35-45
    • /
    • 2022
  • 현대에도 일부 소외된 지역에서는 의료 인력의 부족으로 인해 위·중증 환자에 대한 치료가 지연되는 경우가 많다. 의료 데이터에 대한 분석을 자동화하여 의료 서비스의 접근성 문제 및 의료 인력 부족을 해소하고자 하는 연구가 계속되고 있다. 컴퓨터 비전 기반의 진료 자동화는 훈련 목적에 대한 데이터 수집 및 라벨링 작업에서 많은 비용이 요구된다. 이러한 점은 희귀질환이나 시각적으로 뚜렷하게 정의하기 어려운 병리적 특징 및 기전을 구분하는 작업에서 두드러진다. 이상 탐지는 비지도 학습 전략을 채택함으로써 데이터 수집 비용을 크게 절감할 수 있는 방법으로 주목된다. 본 논문에서는 기존의 이상 탐지 기법들을 기반으로, 흉부 X-RAY 영상에 대해 이상 탐지를 수행하는 방법을 다음과 같이 제안한다. (1) 최적 해상도로 샘플링된 의료 영상의 색상 범위를 정규화한다. (2) 무병변 영상으로부터 패치 단위로 구분된 중간 수준 특징 집합을 추출하여 그 중 높은 표현력을 가진 일부 특징 벡터들을 선정한다. (3) 최근접 이웃 탐색 알고리즘을 기반으로 미리 선정된 무병변(정상) 특징 벡터들과의 차이를 측정한다. 본 논문에서는 PA 방식으로 촬영된 흉부 X-RAY 영상들에 대한 제안 시스템의 이상 탐지 성능을 세부 조건에 따라 상세히 측정하여 제시한다. PadChest 데이터세트로부터 추출한 서브세트에 대해 0.705 분류 AUROC를 보임으로써 의료 영상에 대한 이상 탐지 적용의 효과를 입증하였다. 제안 시스템은 의료 기관의 임상 진단 워크플로우를 개선하는 데에 유용하게 사용될 수 있으며, 의료 서비스 접근성이 낮은 지역에서의 조기 진단을 효율적으로 지원할 수 있다.

추천시스템관련 학술논문 분석 및 분류 (A Literature Review and Classification of Recommender Systems on Academic Journals)

  • 박득희;김혜경;최일영;김재경
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.139-152
    • /
    • 2011
  • 1990년대 중반에 협업 필터링의 출현으로 인하여 추천시스템에 관련된 연구가 늘어나게 되었다. 협업 필터링의 출현 이후 내용 기반 필터링, 협업 필터링과 내용 기반 필터링이 혼합된 하이브리드 필터링 등 새로운 기법들이 출현함으로써 2000년대에는 추천시스템의 연구가 눈에 띄게 증가하였다. 하지만 현재까지 추천시스템에 관련된 문헌들에 대한 리뷰와 분류가 체계적으로 되어있지 않다. 이와 같은 문제에 대한 해결방안으로써, 본 연구에서는 2001년부터 2010년도까지의 추천시스템에 관련된 문헌들 중 MIS Journal Ranking의 125개의 저널에서 추천시스템(Recommender system, Recommendation system), 협업 필터링(Collaborative Filtering), 내용 기반 필터링(Content based Filtering), 개인화 시스템(Personalized system) 등의 5가지 키워드로 제한하여 조사하였다. 총 37개의 저널에서 논문을 검색하였으며, 검색되어진 논문을 분석한 결과 추천시스템과 관련이 없는 논문을 제외한 총 187개의 논문을 선정하여 분석하였다. 이 연구에서는 그러나 컨퍼런스 논문, 석사, 박사학위 논문, 영어로 작성되지 않은 논문, 완성되지 않은 논문 등은 제외하였다. 본 연구에서는 187개의 논문을 분석하여 2001년부터 2010년까지의 각각의 년도 별 추천시스템의 연구에 대한 동향 분석, Journal별 추천시스템의 게재 분류, 추천시스템 어플리케이션의 사용 분야(책, 문서, 이미지, 영화, 음악, 쇼핑, TV 프로그램, 기타)별 분류 및 분석, 추천시스템에 사용된 데이터마이닝 기술(연관 규칙, 군집화, 의사 결정나무, 최근접 이웃 기법, 링크 분석 기법, 신경망, 회귀분석, 휴리스틱 기법)별 분류 및 분석을 수행하였다. 따라서 본 연구에서 제안한 각각의 분류 및 분석 결과들을 통하여 현재까지 추천시스템의 연구에 대한 연구 동향을 파악 할 수 있었으며, 분석결과를 통해 추천시스템에 관심이 있는 연구자와 전문가에게 미래의 추천시스템의 연구에 대한 가이드라인을 제시 할 수 있을 것이라고 기대한다.

Ensemble of Nested Dichotomies 기법을 이용한 스마트폰 가속도 센서 데이터 기반의 동작 인지 (Ensemble of Nested Dichotomies for Activity Recognition Using Accelerometer Data on Smartphone)

  • 하으뜸;김정민;류광렬
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.123-132
    • /
    • 2013
  • 최근 스마트 폰에 다양한 센서를 내장할 수 있게 되었고 스마트폰에 내장된 센서를 이용항 동작 인지에 관한 연구가 활발히 진행되고 있다. 스마트폰을 이용한 동작 인지는 노인 복지 지원이나 운동량 측정. 생활 패턴 분석, 운동 패턴 분석 등 다양한 분야에 활용될 수 있다. 하지만 스마트 폰에 내장된 센서를 이용하여 동작 인지를 하는 방법은 사용되는 센서의 수에 따라 단일 센서를 이용한 동작인지와 다중 센서를 이용한 동작인지로 나눌 수 있다. 단일 센서를 이용하는 경우 대부분 가속도 센서를 이용하기 때문에 배터리 부담은 줄지만 다양한 동작을 인지할 때에 특징(feature) 추출의 어려움과 동작 인지 정확도가 낮다는 문제점이 있다. 그리고 다중 센서를 이용하는 경우 대부분 가속도 센서와 중력센서를 사용하고 필요에 따라 다른 센서를 추가하여 동작인지를 수행하며 다양한 동작을 보다 높은 정확도로 인지할 수 있지만 다수의 센서를 사용하기 때문에 배터리 부담이 증가한다는 문제점이 있다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 스마트 폰에 내장된 가속도 센서를 이용하여 다양한 동작을 높은 정확도로 인지하는 방법을 제안한다. 서로 다른 10가지의 동작을 높을 정확도로 인지하기 위해 원시 데이터로부터 17가지 특징을 추출하고 각 동작을 분류하기 위해 Ensemble of Nested Dichotomies 분류기를 사용하였다. Ensemble of Nested Dichotomies 분류기는 다중 클래스 문제를 다수의 이진 분류 문제로 변형하여 다중 클래스 문제를 해결하는 방법으로 서로 다른 Nested Dichotomy 분류기의 분류 결과를 통해 다중 클래스 문제를 해결하는 기법이다. Nested Dichotomy 분류기 학습에는 Random Forest 분류기를 사용하였다. 성능 평가를 위해 Decision Tree, k-Nearest Neighbors, Support Vector Machine과 비교 실험을 한 결과 Ensemble of Nested Dichotomies 분류기를 사용하여 동작 인지를 수행하는 것이 가장 높은 정확도를 보였다.

교통사고 데이터의 마이닝을 위한 연관규칙 학습기법과 서브그룹 발견기법의 비교 (Comparison of Association Rule Learning and Subgroup Discovery for Mining Traffic Accident Data)

  • 김정민;류광렬
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.1-16
    • /
    • 2015
  • 교통사고의 원인을 규명하고 미래의 사고를 방지하기 위한 노력의 일환으로 데이터 마이닝 기법을 이용한 교통 데이터 분석의 연구가 이루어지고 있다. 하지만 기존의 교통 데이터를 이용한 마이닝 연구들은 학습된 결과를 사람이 이해하기 어려워 분석에 많은 노력이 필요하다는 문제가 있었다. 본 논문에서는 많은 속성들로 표현된 교통사고 데이터로부터 유용한 패턴을 발견하기 위해 규칙 학습 기반의 데이터 마이닝 기법인 연관규칙 학습기법과 서브그룹 발견기법을 적용하였다. 연관규칙 학습기법은 비지도 학습 기법의 하나로 데이터 내에서 동시에 많이 등장하는 아이템(item)들을 찾아 규칙의 형태로 가공해 주며, 서브그룹 발견기법은 사용자가 지정한 대상 속성이 결론부에 나타나는 규칙을 학습하는 지도학습 기반 기법으로 일반성과 흥미도가 높은 규칙을 학습한다. 규칙 학습 시 사용자의 의도를 반영하기 위해서는 하나 이상의 관심 속성들을 조합한 합성 속성을 만들어 규칙을 학습할 수 있다. 규칙이 도출되고 나면 후처리 과정을 통해 중복된 규칙을 제거하고 유사한 규칙을 일반화하여 규칙들을 더 단순하고 이해하기 쉬운 형태로 가공한다. 교통사고 데이터를 대상으로 두 기법을 적용한 결과 대상 속성을 지정하지 않고 연관규칙 학습기법을 적용하는 경우 사용자가 쉽게 알기 어려운 속성 사이의 숨겨진 관계를 발견할 수 있었으며, 대상 속성을 지정하여 연관규칙 학습기법과 서브그룹 발견기법을 적용하는 경우 파라미터 조정에 많은 노력을 기울여야 하는 연관규칙 학습기법에 비해 서브그룹 발견기법이 흥미로운 규칙들을 더 쉽게 찾을 수 있음을 확인하였다.

사례기반 추론기법과 인공신경망을 이용한 서비스 수요예측 프레임워크 (A Hybrid Forecasting Framework based on Case-based Reasoning and Artificial Neural Network)

  • 황유섭
    • 지능정보연구
    • /
    • 제18권4호
    • /
    • pp.43-57
    • /
    • 2012
  • 제조업에 있어서 판매 후 서비스 건수와 내용 등은 향후 서비스 제공을 위한 자원배분의 효율성 증진과 서비스 품질 향상을 위해서도 매우 중요한 정보이다. 따라서 기업들은 향후 발생하는 판매 후 서비스에 대해 정확히 예측하고 그에 따라 적절히 대처하는 능력을 확보할 필요성이 제조업을 중심으로 증가하고 있다. 그러나 실제로 이들 기업들이 활용하고 있는 서비스 수요예측 방법들은 전통적인 통계적인 예측기법이거나, 시뮬레이션을 기반한 기법들이다. 예를 들면, 전통적인 통계적인 예측기법으로는 회귀분석(regression analysis)의 경우, 다양한 제품모델에 대한 판매 후 서비스 발생 패턴이 선형적인 관계가 매우 적음에도 불구하고 선형으로 가정하여 추정한다는 점과 적정한 회귀식을 가정하여야 되며, 이러한 가정이 실제 경영환경에서는 매우 어렵다는 점 등이 기존의 예측기법들의 한계점으로 지적되고 있다. 본 연구에서는 디지털 TV 모델을 생산 판매 하는 A사의 사례연구를 통하여 최근 인공지능연구에서 각광을 받고 있는 사례기반추론(case-based reasoning; CBR) 기법을 활용한 서비스 수요예측 프레임워크를 제안하고자 한다. 또한, 사례기반추론에서 핵심적인 역할 중 하나인 유사 사례추출 방법에 있어서 가장 일반적인 nearest-neighbor 방법 이외의 유사 사례추출 방법을 제안하고자 한다. 특히, 본 연구에서 제안하는 유사 사례추출 방법은 인공신경망(artificial neural network)을 활용한 자기조직화지도(Self-Organizing Maps : SOM) 군집화 기법을 활용한 유사 사례추출 방식으로 이를 활용한 서비스 수요예측 프레임워크에 구현하고, 실제 기업의 판매 후 서비스 데이터를 활용하여 본 연구에서 제안하는 서비스 수요 예측 프레임워크의 유효성을 실증적으로 검증하고자 한다.