• 제목/요약/키워드: Data Clustering

검색결과 2,747건 처리시간 0.028초

사상체질 진단검사를 위한 데이터마이닝 알고리즘 연구 (Data mining Algorithms for the Development of Sasang Type Diagnosis)

  • 홍진우;김영인;박소정;김병철;엄일규;황민우;신상우;김병주;권영규;채한
    • 동의생리병리학회지
    • /
    • 제23권6호
    • /
    • pp.1234-1240
    • /
    • 2009
  • This study was to compare the effectiveness and validity of various data-mining algorithm for Sasang type diagnostic test. We compared the sensitivity and specificity index of nine attribute selection and eleven class classification algorithms with 31 data-set characterizing Sasang typology and 10-fold validation methods installed in Waikato Environment Knowledge Analysis (WEKA). The highest classification validity score can be acquired as follows; 69.9 as Percentage Correctly Predicted index with Naive Bayes Classifier, 80 as sensitivity index with LWL/Tae-Eum type, 93.5 as specificity index with Naive Bayes Classifier/So-Eum type. The classification algorithm with highest PCP index of 69.62 after attribute selection was Naive Bayes Classifier. In this study we can find that the best-fit algorithm for traditional medicine is case sensitive and that characteristics of clinical circumstances, and data-mining algorithms and study purpose should be considered to get the highest validity even with the well defined data sets. It is also confirmed that we can't find one-fits-all algorithm and there should be many studies with trials and errors. This study will serve as a pivotal foundation for the development of medical instruments for Pattern Identification and Sasang type diagnosis on the basis of traditional Korean Medicine.

공간적 자기상관성의 정도에 따른 MAUP에서의 스케일 효과 연구 - LBSNS 데이터를 중심으로 - (A Study on Scale Effects of the MAUP According to the Degree of Spatial Autocorrelation - Focused on LBSNS Data -)

  • 이영민;권필;유기윤;허용
    • 대한공간정보학회지
    • /
    • 제24권1호
    • /
    • pp.25-33
    • /
    • 2016
  • 포인트 속성의 위치 기반 소셜 네트워크 서비스(Location-Based Social Network Services, LBSNS) 데이터를 멀티스 케일의 타일맵상에 효과적으로 시각화하기 위해서는 격자 기반으로 군집화하여 표현해야 할 필요성이 있다. 이때 격자의 크기 및 개수를 결정해야 하는데, 이에 대한 기준은 정해진 것이 없으며 데이터의 종류와 분석 목적에 따라 달라지므로 연구자의 주관이 개입될 수밖에 없다. 이때 연구 결과에 영향을 끼치는 공간단위 임의성의 문제(Modifiable Areal Unit Problem, MAUP)가 발생한다. 본 연구에서는 LBSNS 중 지오태깅(geotagging)된 트위터(Twitter) 데이터를 대상으로 하여 이러한 MAUP의 영향을 스케일 효과(scale effect)의 측면에서 탐색해 보고자 하였다. 이를 위해 공간오차모델(spatial error model)을 이용하여 데이터의 공간적 자기상관성(spatial autocorrelation)의 정도를 조절하였으며, 이에 대해 격자의 크기를 달리함에 따른 공간적 자기상관성의 변화를 Moran's I를 통해 분석하였다. 실험 결과, 원 데이터에는 양의 공간적 자기상관성이 존재하는 것을 확인하였으며, 이러한 경우에는 공간오차모델의 공간자기회귀계수(spatial autoregressive coefficient)의 값이 증가할수록 공간적 자기상관성이 감소하는 것을 알 수 있었다. 이러한 특성을 이용하여 트위터 데이터의 공간적 자기상관성의 강도를 5단계로 조절하였으며, 각 단계에 대하여 격자의 크기를 9단계로 나누어 각각에서의 Moran's I를 계산하였다. 그 결과, 합역 수준이 높아질수록 공간적 자기상관성이 증가하다가 격자의 크기가 600m에서 1,000m 사이일 때 감소하는 것을 알 수 있었으며, 공간적 자기상관성이 강할수록 MAUP에서의 스케일 효과는 감소하는 경향이 있는 것을 확인하였다.

Development of big data based Skin Care Information System SCIS for skin condition diagnosis and management

  • Kim, Hyung-Hoon;Cho, Jeong-Ran
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권3호
    • /
    • pp.137-147
    • /
    • 2022
  • 피부상태의 진단과 관리는 뷰티산업종사자와 화장품산업종사자에게 그 역할을 수행함에 있어서 매우 기초적이며 중요한 기능이다. 정확한 피부상태 진단과 관리를 위해서는 고객의 피부상태와 요구사항을 잘 파악하는 것이 필요하다. 본 논문에서는 피부상태 진단 및 관리를 위해 소셜미디어의 빅데이터를 사용하여 피부상태 진단 및 관리를 지원하는 빅데이터기반 피부관리정보시스템 SCIS를 개발하였다. 개발된 시스템을 사용하여 텍스트 정보 중심의 피부상태 진단과 관리를 위한 핵심 정보를 분석하고 추출할 수 있다. 본 논문에서 개발된 피부관리정보시스템 SCIS는 빅데이터 수집단계, 텍스트전처리단계, 이미지전처리단계, 텍스트단어분석단계로 구성되어 있다. SCIS는 피부진단 및 관리에 필요한 빅데이터를 수집하고, 텍스트 정보를 대상으로 핵심단어의 단순빈도분석, 상대빈도분석, 동시출현분석, 상관성분석을 통해 핵심단어 및 주제를 추출하였다. 또한 추출된 핵심단어 및 정보를 분석하고 산포도, NetworkX, t-SNE 및 클러스터링 등의 다양한 시각화 처리를 함으로써 피부상태 진단 및 관리에 있어 이를 효율적으로 사용할 수 있도록 하였다.

사회연결망분석과 인공신경망을 이용한 추천시스템 성능 예측 (Predicting the Performance of Recommender Systems through Social Network Analysis and Artificial Neural Network)

  • 조윤호;김인환
    • 지능정보연구
    • /
    • 제16권4호
    • /
    • pp.159-172
    • /
    • 2010
  • 협업필터링 추천은 다양한 분야에서 활용되고 있지만 트랜잭션 데이터의 성격에 따라 추천 성능에 현저한 차이를 보이고 있다. 기존 연구에서는 이러한 추천 성능의 차이가 나타나는 이유에 대한 설명을 구체적으로 제시하지 못하고 있고 이에 따라 추천 성능의 예측 또한 연구된 바가 없다. 본 연구는 사회네트워크분석과 인공신경망 모형을 이용하여 협업필터링 추천시스템의 성능을 예측하고자 한다. 본 연구의 목적을 달성하기 위해 국내 백화점의 트랜잭션 데이터를 기반으로 형성되는 고객간 사회 네트워크의 구조적 지표를 측정한 후 이를 기반으로 인공신경망 모형을 구축하고 검증한다. 본 연구는 협업필터링 추천 성능을 예측할 수 있는 새로운 모형을 제시하였다는 점에서 그 의의가 있으며 이를 통해 기업들의 협업필터링 추천시스템 도입에 대한 의사결정에 도움을 줄 수 있을 것으로 기대된다.

하이브리드 인공신경망 모형을 이용한 부도 유형 예측 (Bankruptcy Type Prediction Using A Hybrid Artificial Neural Networks Model)

  • 조남옥;김현정;신경식
    • 지능정보연구
    • /
    • 제21권3호
    • /
    • pp.79-99
    • /
    • 2015
  • 부도 예측은 회계와 재무 분야에서 꾸준히 연구되고 있는 분야이다. 초기에는 주로 다중판별분석(multiple discriminant analysis)와 로짓 분석(logit analysis)과 같은 통계적 방법을 이용하였으나, 1990년대 이후에는 경영 분야의 분류 문제를 위해 많은 연구자들이 인공신경망(back-propagation neural network), 사계기반추론(case-based reasoning), 서포트 벡터 머신(support vector machine) 등과 같은 인공지능을 통한 접근법을 이용하여 통계적 방법보다 분류 성과 측면에서 우수함을 입증해왔다. 기존의 기업의 부도에 관한 연구에서 많은 연구자들이 재무비율을 이용하여 부도 예측 모형을 구축하는 것에 초점을 맞추어왔다. 부도예측에 관한 연구가 꾸준히 진행되고 있는 반면, 부도의 세부적인 유형을 예측하여 제시하는 것에 대한 연구는 미흡한 실정이었다. 따라서 본 연구에서는 수익성, 안정성, 활동성 지표를 중심으로 국내 비외감 건설업 기업들의 부도 여부뿐만 아니라 부도의 세부적인 유형까지 예측 가능한 모형을 개발하고자 한다. 본 연구에서는 부도 유형을 예측하기 위해 두 개의 인공신경망 모형을 결합한 하이브리드 접근법을 제안하였다. 첫 번째 인공신경망 모형은 부도예측을 위한 역전파 인공신경망을 이용한 모형이며, 두 번째 인공신경망 모형은 부도 데이터를 몇 개의 유형으로 분류하는 자기조직화지도(self-organizing map)을 이용한 모형이다. 실험 결과를 통해 정의된 5개의 부도 유형인 심각한 부도(severe bankruptcy), 안정성 부족(lack of stability), 활동성 부족(lack of activity), 수익성 부족(lack of profitability), 회생 가능한 부도(recoverable bankruptcy)는 재무 비율에 따라 유형별로 상이한 특성을 갖는 것을 확인할 수 있었다. 본 연구 결과를 통해 신용 평가 분야의 연구자와 실무자들이 기업의 부도의 유형에 대한 유용한 정보를 얻을 것으로 기대한다.

EST Analysis system for panning gene

  • Hur, Cheol-Goo;Lim, So-Hyung;Goh, Sung-Ho;Shin, Min-Su;Cho, Hwan-Gue
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2000년도 International Symposium on Bioinformatics
    • /
    • pp.21-22
    • /
    • 2000
  • Expressed sequence tags (EFTs) are the partial segments of cDNA produced from 5 or 3 single-pass sequencing of cDNA clones, error-prone and generated in highly redundant sets. Advancement and expansion of Genomics made biologists to generate huge amount of ESTs from variety of organisms-human, microorganisms as well as plants, and the cumulated number of ESTs is over 5.3 million, As the EST data being accumulate more rapidly, it becomes bigger that the needs of the EST analysis tools for extraction of biological meaning from EST data. Among the several needs of EST analyses, the extraction of protein sequence or functional motifs from ESTs are important for the identification of their function in vivo. To accomplish that purpose the precise and accurate identification of the region where the coding sequences (CDSs) is a crucial problem to solve primarily, and it will be helpful to extract and detect of genuine CD5s and protein motifs from EST collections. Although several public tools are available for EST analysis, there is not any one to accomplish the object. Furthermore, they are not targeted to the plant ESTs but human or microorganism. Thus, to correspond the urgent needs of collaborators deals with plant ESTs and to establish the analysis system to be used as general-purpose public software we constructed the pipelined-EST analysis system by integration of public software components. The software we used are as follows - Phred/Cross-match for the quality control and vector screening, NCBI Blast for the similarity searching, ICATools for the EST clustering, Phrap for EST contig assembly, and BLOCKS/Prosite for protein motif searching. The sample data set used for the construction and verification of this system was 1,386 ESTs from human intrathymic T-cells that verified using UniGene and Nr database of NCBI. The approach for the extraction of CDSs from sample data set was carried out by comparison between sample data and protein sequences/motif database, determining matched protein sequences/motifs that agree with our defined parameters, and extracting the regions that shows similarities. In recent future, in addition to these components, it is supposed to be also integrated into our system and served that the software for the peptide mass spectrometry fingerprint analysis, one of the proteomics fields. This pipelined-EST analysis system will extend our knowledge on the plant ESTs and proteins by identification of unknown-genes.

  • PDF

과학기술 전거데이터 시스템에서의 해외 학술논문 저자 식별요소 추출 (Extraction of Author Identification Elements of Overseas Academic Papers on Authority Data System for Science and Technology)

  • 최현미;이석형;김광영;김환민
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 춘계학술대회
    • /
    • pp.711-713
    • /
    • 2013
  • 페이스북, 트위터, 등의 소셜 네트워크의 확산으로 전 세계의 다양한 인적정보를 접할 수 있다. 과학기술 분야에서도 많은 인적정보가 있지만 과학기술자 정보가 체계적으로 정리되지 않아 협력 연구 파트너, 등 업무에 적합한 연구자를 찾기 어려운 문제점이 있다. 이런 문제점을 해결하고자 학술문헌 저자를 중심으로 과학기술 전거데이터를 구축하고 있다. 이 논문에서는 1994년부터 2012년까지 수집한 해외 학술논문 저자명 전거데이터를 구축하기 위하여 수백만건의 학술논문에서 저자 식별 요소를 추출한다. 저자 식별요소는 한글, 영문, 한문(일본어 포함)을 대상으로 저자명, 소속기관명, 학술지명, 발행년도, 키워드, 공저자와 공저자 소속기관, 등이 있다. 이 언어별 식별정보를 기반으로 해외 학술논문 정보에서 저자 식별 정보를 추출하여 데이터베이스를 구축하였다. 향후, 이 추출된 정보를 기반으로 저자 식별 정보를 클러스터링하고 수정, 편집하여 연구자에 대한 학술정보 활동내역을 정리할 예정이다. 구축될 해외 학술논문 전거 데이터는 연구 협력 파트너 찾기, 과제 심사위원 추천, 등 연구자 정보의 활용도를 높여 연구자 커뮤니티를 활성화시키는데 유용하게 사용될 수 있다.

  • PDF

아시아-오세아니아 지역의 MODIS 지면피복분류 개선 (Improvement of MODIS land cover classification over the Asia-Oceania region)

  • 박지열;서명석
    • 대한원격탐사학회지
    • /
    • 제31권2호
    • /
    • pp.51-64
    • /
    • 2015
  • 본 연구에서는 MODerate resolution Imaging Spectroradiometer (MODIS) 지면피복 분류자료(MCD12Q1)에서 분류오류로 판단되는 화소들을 재분류함으로써 분류 정확도를 개선하였다. 최근 12년(2001-2012)간의 MODIS 지면피복 분류자료에서 지면피복 유형이 3개 이상으로 분류된 화소는 분류상에 오류가 있다고 판단하여 지면피복 재분류 화소로 선정하였다. 지면피복 재분류를 위해 공간해상도는 1 km이고 시간주기는 8일인 MODIS Normalized Difference Vegetation Index (NDVI) 자료를 이용하였다. NDVI 자료 중 구름 등으로 오염된 화소를 보정하기 위해 시 공간 연속성을 이용한 보정기법인 Correction based on Spatial and Temporal Continuity (CSaTC) 기법을 이용하였다. 보정된 NDVI 자료를 1개월 주기로 합성한 후 분류 오류로 판단된 화소들에 대해 Iterative Self-Organizing Data Analysis (ISODATA) 기법으로 군집화를 수행하였다. 각 군집별 식생 계절변동 특성을 고려하여 지면피복을 분류한 후 정상으로 판정된 MODIS 지면피복과 합성하여 최종 지면피복 재분류 자료를 산출하였다. 분류 정확도는 GPS를 이용한 현장관측 자료와 유럽우주국의 지상검증참조자료 등 총 138개 지상 관측자료를 이용하여 검증을 수행하였다. 2012년 MODIS 지면피복 분류자료의 정확도는 약 68%이었으나 본 연구에서 재분류한 지면피복자료의 정확도는 약 74%로 나타나 일부 화소들에서 분류 정확도가 개선되었다.

K-means clustering analysis and differential protection policy according to 3D NAND flash memory error rate to improve SSD reliability

  • Son, Seung-Woo;Kim, Jae-Ho
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권11호
    • /
    • pp.1-9
    • /
    • 2021
  • 3D-NAND 플래시 메모리는 평면적 구조인 2D-NAND 셀을 적층하는 방식으로 단위 면적당 고용량을 제공한다. 하지만 적층 공정의 특성상 각 레이어별 또는 물리적인 셀 위치에 따라 오류 발생 빈도가 달라질 수 있는 문제가 있다. 이와 같은 현상은 플래시 메모리의 쓰기/지우기(P/E) 횟수가 증가할수록 두드러진다. SSD와 같은 대부분의 플래시 기반 저장장치는 오류 교정을 위하여 ECC를 사용한다. 이 방법은 모든 플래시 메모리 페이지에 대하여 고정된 데이터 보호 강도를 제공하므로 물리적 위치에 따라 오류 발생률이 각기 다르게 나타나는 3D NAND 플래시 메모리에서는 한계를 보인다. 따라서 본 논문에서는 오류 발생률 차이를 보이는 페이지와 레이어를 K-means 머신러닝 알고리즘을 통해 군집으로 분류하고, 각 군집마다 차별화된 데이터 보호강도를 적용한다. 본 논문에서는 페이지와 레이어별로 오류 발생률이 현저하게 달라지는 내구성 테스트가 끝난 시점에서 측정된 오류 발생 횟수를 바탕으로 페이지와 레이어를 분류하고 오류에 취약한 영역에 대해서는 스트라이프에 패리티 데이터를 추가하여 차별화된 데이터 보호 강도 제공을 예시로 보인다. 본 논문에서는 기존의 ECC 또는 RAID 방식의 데이터 보호 구조와 비교하여 제안하는 차별화된 데이터 보호정책이 3D NAND 플래시 메모리의 신뢰성과 수명향상에 기여할 수 있음을 보인다.

도서 대출데이터를 활용한 남녀 노령자의 독서 주제 분석 (Analysis of Reading Domian of Men and Women Elderly Using Book Lending Data)

  • 조재인
    • 한국도서관정보학회지
    • /
    • 제50권1호
    • /
    • pp.23-41
    • /
    • 2019
  • 본 연구는 도서의 대출정보를 활용해 가중네트워크(PFNET :PathFinder Network) 분석을 수행함으로써 특수 계층으로서 남녀 노령자에 의해 자주 읽히는 도서의 주제와 특성을 이해하고 이들의 독서 양태가 일반 성인 남녀와 어떠한 차이를 보이는지 확인하였다. 이를 위해 남녀 노령자와 일반 성인 남녀로 구성된 4개 집단을 대상으로 도서관 빅데이터의 인기 대출도서를 기반으로 동시대출도서 행렬을 산출하고 이를 활용해 네트워크 분석을 수행하였다. 또한 PNNC(Parallel Nearest Neighbor Clustering) 알고리즘으로 대출도서 군집을 형성한 후 대출도서에 계산된 중심성지수를 기반으로 피어슨 상관분석(Pearson Correlation Analysis)을 수행해 집단간의 상관성을 파악하였다. 그 결과 자기계발, 재태크, 육아 등 다양한 분야의 도서를 대출하는 일반 성인 남녀에 비해 노령자 계층은 한국현대소설에 집중된 독서 활동을 하는 것으로 나타났으며, 특정 인기 저자의 저작에 집중된 도서 대출 경향을 보였다. 한편 여성 노령자가 일본소설, 영미소설을 포함해 상대적으로 다양한 분야를 대출하는 반면 남성 노령자는 극단적으로 한국대하소설에 집중하는 경향을 나타냈다. 상관분석에서도 남성 노령자는 성인 남성과 r=-0.222의 약한 음의 상관성을 보였으며, 다른 모든 집단과도 음의 방향성을 보여 대출 도서의 중심성이 반대 경향을 가지는 것으로 분석되었다.