• 제목/요약/키워드: 최근접 이웃

검색결과 187건 처리시간 0.027초

온라인 리뷰 분석을 통한 상품 평가 기준 추출: LDA 및 k-최근접 이웃 접근법을 활용하여 (Product Evaluation Criteria Extraction through Online Review Analysis: Using LDA and k-Nearest Neighbor Approach)

  • 이지현;정상형;김준호;민은주;여운영;김종우
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.97-117
    • /
    • 2020
  • 상품 평가 기준은 상품에 대한 속성, 가치 등을 표현한 지표로써 사용자나 기업이 상품을 측정하고 파악할 수 있게 한다. 기업이 자사 제품에 대한 객관적인 평가와 비교를 수행하기 위해서는 적절한 기준을 선정하는 것이 필수적이다. 이때, 평가 기준은 소비자들이 제품을 실제로 구매 및 사용 후 평가할 때 고려하는 제품의 특징을 반영하여야 한다. 그러나 기존에 사용되던 평가 기준은 제품마다 상이한 소비자의 의견을 반영하지 못하고 있다. 기존 연구에서는 소비자 의견이 반영된 온라인 리뷰를 통해 상품의 특징, 주제를 추출하고 이를 평가기준으로 사용했다. 하지만 여전히 상품과 연관성이 낮은 평가 기준이 추출되거나 부적절한 단어가 정제되지 않는 한계가 있다. 본 연구에서는 이를 극복하기 위해 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 기법으로 리뷰로부터 평가 기준 후보군을 추출하고 이를 k-최근접 이웃 접근법(k-Nearest Neighbor Approach, k-NN)을 이용해 정제하는 모델을 개발하고 검증했다. 제시하는 방법은 준비 단계와 추출 단계로 이루어진다. 준비 단계에서는 워드임베딩(Word Embedding) 모델과 평가 기준 후보군을 정제하기 위한 k-NN 분류기를 생성한다. 추출 단계에서는 k-NN 분류기와 언급 비율을 이용해 평가 기준 후보군을 정제하고 최종 결과를 도출한다. 제안 모델의 성능 평가를 위해 명사 빈도 추출 모델, LDA 빈도 추출 모델, 실제 전자상거래 사이트가 제공하는 평가 기준을 세 비교 모델로 선정했다. 세 모델과의 비교를 위해 설문을 진행하고 점수화하여 결과를 검정했다. 30번의 검정 결과 26번의 결과에서 제안 모델이 우수함을 확인했다. 본 연구의 제안 모델은 전자상거래 사이트에서 리뷰 특성을 반영한 상품군 별 차원을 도출하는데 활용될 수 있고 이를 기초로 인사이트 발굴을 위한 리뷰 분석 및 활용에 크게 기여할 것이다.

위성영상과 머신러닝 모델을 이용한 폭염기간 고해상도 기온 추정 연구 (A Study for Estimation of High Resolution Temperature Using Satellite Imagery and Machine Learning Models during Heat Waves)

  • 이달근;이미희;김보은;유정흠;오영주;박진이
    • 대한원격탐사학회지
    • /
    • 제36권5_4호
    • /
    • pp.1179-1194
    • /
    • 2020
  • 본 연구에서는 지상기상센서가 설치되지 않은 미 관측지점의 기온정보를 추정하기 위하여 K-최근접 이웃, 랜덤 포레스트, 신경망 알고리즘을 대상으로 위성영상을 이용하여 기온자료를 산출하고 그 정확성을 평가·분석하고자 하였다. 위성영상자료는 2019년에 취득된 Landsat-8과 MODIS Aqua/Terra을 이용하였으며, 기상자료는 기상청과 산림청의 AWS/ASOS 자료를 이용하였다. 또한 추정 정확도를 향상시키기 위하여 수치표면 모델, 일사량, 경사방향, 경사도를 생성하여 이용하였다. 머신러닝 알고리즘 정확도 비교는 10-fold 교차검증을 통하여 R2(결정계수) 및 RMSE(평균제곱근오차)의 통계량을 계산하여 대상지역별 추정결과를 비교하였다. 그 결과 신경망 알고리즘이 R2=0.805, RMSE=0.508로 세 알고리즘 중 가장 안정적인 결과를 나타내었다. 신경망 알고리즘을 구축된 위성영상 데이터셋에 적용하여 2019년 6월부터 9월까지의 평균기온 지도를 생성할 수 있었으며 세밀한 기온 정보를 관측할 수 있음을 확인하였다. 연구 성과는 폭염 대응 정책, 열섬완화 연구 등 국가재난안전 관리에 활용 될 수 있을 것으로 기대된다.

북 마크 자동 분류를 위한 학습 에이전트 (A Learning Agent for Automatic Bookmark Classification)

  • 김인철;조수선
    • 정보처리학회논문지B
    • /
    • 제8B권5호
    • /
    • pp.455-462
    • /
    • 2001
  • 웹은 이제 인터넷의 중요한 서비스중의 하나가 되었다. 웹 공간을 탐색할 때 사용자들은 항해하는 동한 만나는 흥미 있는 사이트들을 기록하기 위해 북 마크 기능을 이용한다. 북 마크 기능을 이용할때 겪는 문제중의 하나가 거듭된 새로운 북 마크의 추가로 인해 북 마크 리스트의 길이가 길어지면 북 마크 리스트가 일관성 있는 구성을 잃어버리게 되어 실제적인 도움을 주기 어렵다는 것이다. 사용자가 북 마크 파일을 효율적이고 체계적으로 유지하기 위해서는 북 마크 파일에 추가되는 새로운 북 마크들을 카테고리별로 분류하여 신규 폴더를 찾아 삽입해주어야 한다. 본 논문에서는 대응되는 웹 문서들을 다운 받아 내용을 분서함으로써 자동으로 북 마크를 분류하는 BClassifier라 불리는 학습에이전트를 소개한다. BClassifier 에이전트를 위한 훈련 예의 주된 공급원은 바로 사용자가 명시적으로 이미 주제에 따라 몇 개의 북 마크 폴더들로 분류해놓은 북 마크들이다. 여기에 주제 카테고리들을 확대하고 이들에 대한 훈련 문서들을 확보하기 위해 추가적으로 Yahoo 사이트의 최상휘 카테고리들로부터 웹 문서들을 수집하여 훈련 예에 포함시킨다. BClassifier 에이전트는 잘 알여진 확률기반의 분류 기술이나 나이브 베이지안 학습 방법을 채용하고 있다. 본 논문에서는 BClassifier 에이전트에 관한 몇 가지 실험 결과를 소개하고 평가한다. 나이브 베이지안 방법과 k-최근접 이웃 방법, TFIDF 등과 같은 서로 다른 학습 방법들과 비교 실험 결과도 제시한다.

  • PDF

이미지 데이터베이스에서 매개변수를 필요로 하지 않는 클러스터링 및 아웃라이어 검출 방법 (A Parameter-Free Approach for Clustering and Outlier Detection in Image Databases)

  • 오현교;윤석호;김상욱
    • 전자공학회논문지CI
    • /
    • 제47권1호
    • /
    • pp.80-91
    • /
    • 2010
  • 이미지 데이터가 증가함에 따라 효율적인 검색을 위해서 이미지 데이터를 구조화해야 할 필요성이 증가하고 있다. 이미지 데이터를 구조화하기 위한 대표적인 방법으로는 클러스터링이 있다. 그러나 기존 클러스터링 방법들은 클러스터링을 수행하기 전에 매개변수로서 클러스터의 개수를 사용자로부터 제공 받아야 되는 어려움이 있다. 본 논문에서는 클러스터의 개수를 사용자에게 제공 받지 않고 이미지 데이터를 클러스터링 하는 방안에 대해서 논의 한다. 제안하는 방안은 객체들 간의 상호 연관관계를 이용하여 매개변수 없이 데이터의 감추어진 구조나 패턴을 찾아내는 방법인 Cross-Association을 기반으로 한다. 이미지 데이터 클러스터링에 Cross-Association을 적용하기 위해서는 먼저 이미지 데이터를 그래프로 변환해야 한다. 그런 후에 생성된 그래프를 Cross-Association에 적용시키고 그 결과를 클러스터링 관점에서 해석한다. 본 논문에서는 또한 Cross-Association을 기반으로 계층적 클러스터링 하는 방법과 아웃라이어 검출 방법을 제안한다. 실험을 통해서 제안하는 방법의 우수성을 규명하고 이미지 데이터를 클러스터링 하는데 적절한 k-최근접 이웃검색에서의 k값과 더 나은 그래프 생성 방법이 무엇인지를 제시한다.

마이크로어레이 자료의 사전 처리 순서에 따른 검색의 일치도 분석 (A Concordance Study of the Preprocessing Orders in Microarray Data)

  • 김상철;이재휘;김병수
    • 응용통계연구
    • /
    • 제22권3호
    • /
    • pp.585-594
    • /
    • 2009
  • 마이크로어레이 실험의 실험자들은 원 측정치인 영상을 조사하여 통계적 분석이 가능한 자료의 형태로 변환하는데 이러한 과정을 흔히 사전 처리라고 부른다. 마이크로어레이의 사전 처리는 불량 영상의 제거(filtering), 결측치의 대치와 표준화로 세분되어질 수 있다. 표준화 방법과 결측치 대치 방법 각각에 대하여서는 많은 연구가 보고되었으나, 사전 처리를 구성하는 원소들간의 적정한 순서에 대하여서는 연구가 미흡하다. 표준화 방법과 결측치 대치 방법 중 어느 것이 먼저 실시되어야 하는지에 대하여서 아직 알려진 바가 없다. 본 연구는 사전 처리 순서에 대한 탐색적 시도로서 대장암과 위암을 대상으로 실시한 두 조의 cDNA 마이크로어레이 실험 자료를 이용하여 사전 처리를 구성하는 원소들간의 다양한 순서에 따라 검색된 특이 발현 유전자 군이 어떻게 변화하는지를 분석하고 있다. 즉, 결측치대치와 표준화의 여러가지 방법들의 조합에 따라 검색된 특이 발현 유전자 군이 얼마나 일치적인가를 확인하고자 한다. 결측치 대치 방법으로는 K 최근접 이웃 방법과 베이지안 주성분 분석을 고려하였고, 표준화 방법으로는 전체 표준화, 블럭별 국소(within-print tip group) 평활 표준화 그리고 분산 안정화를 유도하는 표준화 방법을 적용하였다. 따라서 사전 처리를 구성하는 두개 원소가 각각 2개 수준과 3개 수준을 가지고 있고, 두개 원소의 순열에 따른 모든 가능한 사전 처리 개수 수는 12개가 된다. 본 연구에서는 12개 사전 처리 방법 각각에 따라 정상 조직과 암 조직간 특이적으로 발현하는 유전자 군을 검색하였고, 사전 처리 순서를 바꾸었을때 유전자 군이 얼마나 일치적으로 유지되는지를 파악하고 있다. 표준화 방법으로 분산 안정화 표준화를 사용할 경우는 사전 처리 순서에 따라 특이 발현 유전자 군이 다소 민감하게 변하는 것을 보이고 있다.

위치 검색 지도 서비스를 위한 k관심지역 검색 기법 (k-Interest Places Search Algorithm for Location Search Map Service)

  • 조성환;이경주;유기윤
    • 한국측량학회지
    • /
    • 제31권4호
    • /
    • pp.259-267
    • /
    • 2013
  • 최근 인터넷의 발달과 더불어 지리정보시스템(GIS, Geographic Information System)에 대한 인식이 저변 확대되면서 일반인들도 위치 검색 기능을 제공하는 웹GIS를 쉽게 이용할 수 있게 되었다. 현재 서비스되고 있는 모든 위치 검색 기능은 사용자가 하나의 검색어를 입력하고 그에 대한 결과를 보여주는 서비스에 한정되어 있다. 하지만 사용자의 검색 목적이 다양해짐에 따라, 여러 가지 행위를 동시에 할 수 있는 장소를 검색하는 서비스는 없었다. 예를들어, 점심을 먹은 후, 은행에서 업무를 보고, 영화 한 편을 보고자 할 때 이러한 관심 지역(POI, Point of Interest)들이 모여 있는 장소를 필요로 할 수 있다. 따라서 본 논문에서는 사용자로부터 여러 장소를 입력받아 입력된 장소가 모여 있는 곳을 검색해주는 k-IPS 기법을 제안하고자 한다. 여기서 k는 다양한 행위를 할 수 있는 관심의 개수이다. 이 방법은 최소경계사각형(MBR, Minimum Bounding Rectangle)의 계층적 트리 구조인 $R^*$-tree 색인 기법을 이용하여 공간을 분할하고, 기존 공간 Join 연산의 성능 개선을 위하여 $R^*$-tree간의 겹치는 영역 추출하는 재귀적 공간 Join 연산을 구현하였다. k-IPS 기법의 성능 평가는 159개의 다양한 검색어 집합을 구성하여 k=2,3,4,6에 대한 검색 결과를 확인하였다. 실험 결과의 약 90%에 대해서 예상한대로 k개의 검색어 장소가 모여 있는 위치를 얻을 수 있었고, k=2,3,4의 처리 시간은 0.1초 이내의 응답을 얻을 수 있었다. k-IPS 서비스를 통하여 현대인의 순차적 생활 패턴에 맞춘 검색 서비스가 가능할 것으로 판단된다.

베이지안 망에 기초한 불임환자 임상데이터의 분석 (Bayesian Network-Based Analysis on Clinical Data of Infertility Patients)

  • 정용규;김인철
    • 정보처리학회논문지B
    • /
    • 제9B권5호
    • /
    • pp.625-634
    • /
    • 2002
  • 본 논문에서는 베이지안 망을 기초로 불임환자의 임상 데이터에 대한 다양한 분석 실험을 전개하였다. 이 실험을 통해 임신여부에 영향을 주는 요인들간의 상호의존성을 분석해보고, 또 NBN, BAN, GBN 등 제약조건이 다른 다양한 유형의 베이지안 망 분류기들의 분류성능을 서로 비교해보았다. 그리고 우리는 이와 같은 실험을 통해 임신가능여부(Clin)에 직접적인 영향을 미치는 중요한 요인들로 증상(IND), 약물치료법(stimulation), 여성의 나이(FA), 미세조작 난자의 수(ICT), Wallace 사용여부(ETM) 등 5개의 특성들을 가려낼 수 있었고, 이 요인들간의 상호 의존성도 찾아낼 수 있었다. 또 서로 다른 유형의 베이지안 망 분류기들 중에서 요인들간의 상호의존관계를 허용하는 좀 더 일반적인 BAN과 GBN 등이 그렇지 못한 NBN에 비해 상대적으로 더 높은 분류 성능을 보여준다는 것을 확인하였다. 또 결정트리와 k-최근접 이웃과 같은 다른 분류기들과의 성능 비교를 통해, 임상 데이터의 특성상 확률적 표현과 추론에 기초한 베이지안 망 분류기들이 보다 높은 성능을 보여준다는 사실도 확인할 수 있었다. 또 본 논문에서는 클래스 노드의 Markov blanket에 속한 특성들로 특성집합을 축소하는 것을 제안하고, 실험을 통해 이 특성 축소방법이 베이지안 망 분류기들의 성능을 높여 줄 수 있는지 알아보았다.

화재정보 확인과 대피자 위치추적을 위한 서버 독립형 시스템 개발 (Development of a Server-independent System to Identify and Communicate Fire Information and Location Tracking of Evacuees)

  • 이치주;이태관
    • 한국건축시공학회지
    • /
    • 제21권6호
    • /
    • pp.677-687
    • /
    • 2021
  • 화재가 발생했을 때, 대피자가 화재 위치와 규모 등의 화재정보, 그리고 출구 위치와 대피자 스스로의 위치를 확인할 수 있다면, 신속하게 대피할 수 있을 것이다. 본 연구에서는 화재정보를 대피자에게 전송하고 대피자의 위치를 확인할 수 있는 시스템을 개발하였다. 선행연구를 통하여 시스템 개발에 필요한 요구사항을 네 가지 도출하였다. 요구사항에는 시스템이 작동하는데 필요한 전력이 크지 않아야 하며, 화재정보를 송·수신하기 위해서 필요한 거리 제한과 추가 장비, 그리고 중앙 서버가 없어도 시스템이 작동할 수 있어야 한다는 것이 포함된다. 이와 같은 요구사항을 기반으로, 본 연구에서는 건물 화재정보를 대피자의 모바일 기기로 전송할 수 있고, 대피자의 위치를 추적할 수 있는 서버 독립형 시스템을 개발하였다. 개발된 시스템은 화재정보를 전송하는 장치와 화재정보를 수신하고 대피자 위치를 추적할 수 있는 모바일 기기의 어플리케이션으로 구성된다. 화재에 의해서 중앙 서버가 손상되어도 대피자는 개발된 시스템을 사용하여 화재 위치와 규모, 출구의 위치와 대파자의 위치를 확인할 수 있으므로, 인명피해를 감소시키는데 기여할 수 있을 것이다. 또한, 실내위치추적에 사용되는 fingerprint 알고리듬의 사용성 향상을 위한 이론적 기초로도 활용될 수 있을 것이다. Fingerprint 사용을 위한 데이터베이스를 구축할 때에 소요되는 노력과 비용을 감소시키는 방법을 제안했기 때문이다.

패치 특징 코어세트 기반의 흉부 X-Ray 영상에서의 병변 유무 감지 (Leision Detection in Chest X-ray Images based on Coreset of Patch Feature)

  • 김현빈;전준철
    • 인터넷정보학회논문지
    • /
    • 제23권3호
    • /
    • pp.35-45
    • /
    • 2022
  • 현대에도 일부 소외된 지역에서는 의료 인력의 부족으로 인해 위·중증 환자에 대한 치료가 지연되는 경우가 많다. 의료 데이터에 대한 분석을 자동화하여 의료 서비스의 접근성 문제 및 의료 인력 부족을 해소하고자 하는 연구가 계속되고 있다. 컴퓨터 비전 기반의 진료 자동화는 훈련 목적에 대한 데이터 수집 및 라벨링 작업에서 많은 비용이 요구된다. 이러한 점은 희귀질환이나 시각적으로 뚜렷하게 정의하기 어려운 병리적 특징 및 기전을 구분하는 작업에서 두드러진다. 이상 탐지는 비지도 학습 전략을 채택함으로써 데이터 수집 비용을 크게 절감할 수 있는 방법으로 주목된다. 본 논문에서는 기존의 이상 탐지 기법들을 기반으로, 흉부 X-RAY 영상에 대해 이상 탐지를 수행하는 방법을 다음과 같이 제안한다. (1) 최적 해상도로 샘플링된 의료 영상의 색상 범위를 정규화한다. (2) 무병변 영상으로부터 패치 단위로 구분된 중간 수준 특징 집합을 추출하여 그 중 높은 표현력을 가진 일부 특징 벡터들을 선정한다. (3) 최근접 이웃 탐색 알고리즘을 기반으로 미리 선정된 무병변(정상) 특징 벡터들과의 차이를 측정한다. 본 논문에서는 PA 방식으로 촬영된 흉부 X-RAY 영상들에 대한 제안 시스템의 이상 탐지 성능을 세부 조건에 따라 상세히 측정하여 제시한다. PadChest 데이터세트로부터 추출한 서브세트에 대해 0.705 분류 AUROC를 보임으로써 의료 영상에 대한 이상 탐지 적용의 효과를 입증하였다. 제안 시스템은 의료 기관의 임상 진단 워크플로우를 개선하는 데에 유용하게 사용될 수 있으며, 의료 서비스 접근성이 낮은 지역에서의 조기 진단을 효율적으로 지원할 수 있다.

빅데이터 전처리 기반의 실시간 사용자 선호 데이터 추천을 위한 개선된 스카이라인 질의 기법 (An Improved Skyline Query Scheme for Recommending Real-Time User Preference Data Based on Big Data Preprocessing)

  • 김지현;김종완
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권5호
    • /
    • pp.189-196
    • /
    • 2022
  • 스카이라인 질의(Skyline Query)는 객체의 다중 속성을 기준으로 사용자 선호에 적합한 대상을 탐색하는 기법이다. 기존 스카이라인 질의는 탐색 결과를 일괄처리(batch processing)로 반환하지만, 대화형 앱이나 모바일 환경의 등장으로 실시간 탐색 결과의 필요성이 증가하였다. 스카이라인을 위한 온라인 알고리즘(online algorithm)은 객체의 반환 속도를 향상해 실시간으로 선호 객체를 제공한다. 하지만 객체 탐색 과정에서 기존에 탐색한 영역을 재방문하여 반복 비교하는 불필요한 연산 시간이 소요된다. 본 논문은 온라인 알고리즘에서 불필요한 탐색 시간을 제거하여 스카이라인 질의 결과를 실시간으로 제공하기 위한 스카이라인 온라인 전처리 알고리즘을 제안한다. 제안 기법은 기존의 온라인 알고리즘에서 전처리를 수행함으로써 반복적으로 재탐색 되는 영역을 미리 제거하여 탐색 성능을 향상하였다. 실험 결과, 기존 온라인 알고리즘과 비교 시 이산 데이터 집합의 표준 분포, 편향 분포, 양의 상관 및 음의 상관분포에서 향상된 성능을 보였다. 제안 기법은 비교 대상을 최소화하여 탐색 성능을 향상하므로 모바일 장치의 사용이 증가하는 현실에서 사용자들에게 신속한 서비스를 제공할 수 있는 새로운 기준이 될 것이다.