• 제목/요약/키워드: Distributed data mining

검색결과 110건 처리시간 0.024초

데이터 마이닝 결정나무를 이용한 포렌식 영상의 분류 (Forensic Image Classification using Data Mining Decision Tree)

  • 이강현
    • 전자공학회논문지
    • /
    • 제53권7호
    • /
    • pp.49-55
    • /
    • 2016
  • 디지털 포렌식 영상은 여러 가지 영상타입으로 위 변조되어 유통되는 심각한 문제가 대두되어 있다. 이러한 문제를 해결하기 위하여, 본 논문에서는 포렌식 영상의 분류 알고리즘을 제안한다. 제안된 알고리즘은 여러 가지 영상타입의 그레이 레벨 co-occurrence 행렬의 특성 중에서 콘트라스트와 에너지 그리고 영상의 엔트로피로 21-dim.의 특징벡터를 추출하고, 결정나무 플랜에서 분류학습을 위하여 PPCA를 이용하여 2-dim.으로 차원을 축소한다. 포렌식 영상의 분류 테스트는 영상 타입들의 전수조합에서 수행되었다. 실험을 통하여, TP (True Positive)와 FN (False Negative)을 검출하고, 제안된 알고리즘의 성능평가에서 민감도 (Sensitivity)와 1-특이도 (1-Specificity)의 AUROC (Area Under Receiver Operating Characteristic) 커브 면적은 0.9980으로 'Excellent(A)' 등급임을 확인하였다. 산출된 최소평균 판정에러 0.0179에서 분류할 포렌식 영상타입이 모두 포함되어 분류 효율성이 높다.

Development of SNP marker set for marker-assisted backcrossing (MABC) in cultivating tomato varieties

  • Park, GiRim;Jang, Hyun A;Jo, Sung-Hwan;Park, Younghoon;Oh, Sang-Keun;Nam, Moon
    • 농업과학연구
    • /
    • 제45권3호
    • /
    • pp.385-400
    • /
    • 2018
  • Marker-assisted backcrossing (MABC) is useful for selecting offspring with a highly recovered genetic background for a recurrent parent at early generation unlike rice and other field crops. Molecular marker sets applicable to practical MABC are scarce in vegetable crops including tomatoes. In this study, we used the National Center for Biotechnology Information- short read archive (NCBI-SRA) database that provided the whole genome sequences of 234 tomato accessions and selected 27,680 tag-single nucleotide polymorphisms (tag-SNPs) that can identify haplotypes in the tomato genome. From this SNP dataset, a total of 143 tag-SNPs that have a high polymorphism information content (PIC) value (> 0.3) and are physically evenly distributed on each chromosome were selected as a MABC marker set. This marker set was tested for its polymorphism in each pairwise cross combination constructed with 124 of the 234 tomato accessions, and a relatively high number of SNP markers polymorphic for the cross combination was observed. The reliability of the MABC SNP set was assessed by converting 18 SNPs into Luna probe-based high-resolution melting (HRM) markers and genotyping nine tomato accessions. The results show that the SNP information and HRM marker genotype matched in 98.6% of the experiment data points, indicating that our sequence analysis pipeline for SNP mining worked successfully. The tag-SNP set for the MABC developed in this study can be useful for not only a practical backcrossing program but also for cultivar identification and F1 seed purity test in tomatoes.

블록체인에서 대용량 컴퓨팅 공격 보호 기술 (Protection Technologies against Large-scale Computing Attacks in Blockchain)

  • 이학준;원동호;이영숙
    • 융합보안논문지
    • /
    • 제19권2호
    • /
    • pp.11-19
    • /
    • 2019
  • 블록체인은 중앙신뢰 기관의 개입 없이 분산 컴퓨팅 환경에서 데이터를 관리하는 기술이다. 블록체인의 보안성, 효율성, 응용성으로 인하여 현재 금융 분야뿐만 아니라 제조, 문화, 공공 등 다양한 분야에서 블록체인 기술이 활용되고 있다. 그동안 블록체인에서 공격자는 51% 이상의 해시 파워를 갖출 수 없다고 여겨졌지만 최근 이에 대한 공격과 피해사례가 발생하고 있으며, 이기적인 채굴자 공격을 포함한 대용량 컴퓨팅 능력을 갖춘 공격의 빈도가 증가하고 있다. 또한, 일반 컴퓨터와 차원이 다른 성능을 발휘하는 양자컴퓨터의 발전은 블록체인의 새로운 위협이 되고 있다. 본 논문에서는 블록체인 특징과 합의 알고리즘에 대해 소개하고 컴퓨팅 연산력을 이용한 블록체인 공격기법을 설명한다. 그리고, 대용량 컴퓨팅 환경 구축방법과 양자 컴퓨터를 사용하는 공격 알고리즘이 블록체인 보안성에 미치는 영향을 분석한다. 마지막으로, 블록체인의 보안성을 향상하기 위한 대용량 컴퓨팅 공격 보호 기술 및 앞으로의 발전 방향을 제시한다.

블록체인 네트워크의 지속 가능성을 위한 확장성 기반 에너지 모델 (A Scalability based Energy Model for Sustainability of Blockchain Networks)

  • 전승현;정복래
    • 산업융합연구
    • /
    • 제21권8호
    • /
    • pp.51-58
    • /
    • 2023
  • 최근 블록체인은 트릴레마를 해결하기 위해 이상적인 분산 신뢰 네트워크를 설계하려고 노력했다. 그러나 일부 국가간 분쟁으로 에너지 분배의 불균형이 발생했고, 현재 비트코인과 같은 블록체인 네트워크가 거래와 채굴을 위해 엄청난 에너지를 소비하고 있다. 기존 연구인 데이터 볼륨 기반 신뢰 모델은 루빈 방식의 신뢰 모델보다 증가하는 블록체인 크기를 더 잘 평가했다. 본 논문에서는 성장하는 블록체인 네트워크의 존속시간, 블록체인 크기 및 거래를 위해 소모된 에너지를 고려하여 블록체인 네트워크의 지속 가능성을 평가하는 확장성 기반 에너지 모델을 제안한다. 또한 수학적 분석을 통해 제안 모델과 기존 모델에 대한 만족도와 최적의 블록체인 크기를 비교한다. 그러므로 제안된 확장성 기반 에너지 모델은 트릴레마를 해결하고 지속 가능성을 검증하는 적절한 블록체인 네트워크를 선택할 수 있는 평가 툴을 제공할 것이다.

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.

MapReduce 환경에서 재그룹핑을 이용한 Locality Sensitive Hashing 기반의 K-Nearest Neighbor 그래프 생성 알고리즘의 개선 (An Improvement in K-NN Graph Construction using re-grouping with Locality Sensitive Hashing on MapReduce)

  • 이인희;오혜성;김형주
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권11호
    • /
    • pp.681-688
    • /
    • 2015
  • k-Nearest Neighbor(k-NN)그래프는 모든 노드에 대한 k-NN 정보를 나타내는 데이터 구조로써, 협업 필터링, 유사도 탐색과 여러 정보검색 및 추천 시스템에서 k-NN그래프를 활용하고 있다. 이러한 장점에도 불구하고 brute-force방법의 k-NN그래프 생성 방법은 $O(n^2)$의 시간복잡도를 갖기 때문에 빅데이터 셋에 대해서는 처리가 곤란하다. 따라서, 고차원, 희소 데이터에 효율적인 Locality Sensitive Hashing 기법을 (key, value)기반의 분산환경인 MapReduce환경에서 사용하여 k-NN그래프를 생성하는 알고리즘이 연구되고 있다. Locality Sensitive Hashing 기법을 사용하여 사용자를 이웃후보 그룹으로 만들고 후보내의 쌍에 대해서만 brute-force하게 유사도를 계산하는 two-stage 방법을 MapReduce환경에서 사용하였다. 특히, 그래프 생성과정 중 유사도 계산하는 부분이 가장 많은 시간이 소요되므로 후보 그룹을 어떻게 만드는 것인지가 중요하다. 기존의 방법은 사이즈가 큰 후보그룹을 방지하는데 한계점이 있다. 본 논문에서는 효율적인 k-NN 그래프 생성을 위하여 사이즈가 큰 후보그룹을 재구성하는 알고리즘을 제시하였다. 실험을 통해 본 논문에서 제안한 알고리즘이 그래프의 정확성, Scan Rate측면에서 좋은 성능을 보임을 확인하였다.

이질성 학습을 통한 문서 분류의 정확성 향상 기법 (Improving the Accuracy of Document Classification by Learning Heterogeneity)

  • 윌리엄;현윤진;김남규
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.21-44
    • /
    • 2018
  • 최근 인터넷 기술의 발전과 함께 스마트 기기가 대중화됨에 따라 방대한 양의 텍스트 데이터가 쏟아져 나오고 있으며, 이러한 텍스트 데이터는 뉴스, 블로그, 소셜미디어 등 다양한 미디어 매체를 통해 생산 및 유통되고 있다. 이처럼 손쉽게 방대한 양의 정보를 획득할 수 있게 됨에 따라 보다 효율적으로 문서를 관리하기 위한 문서 분류의 필요성이 급증하였다. 문서 분류는 텍스트 문서를 둘 이상의 카테고리 혹은 클래스로 정의하여 분류하는 것을 의미하며, K-근접 이웃(K-Nearest Neighbor), 나이브 베이지안 알고리즘(Naïve Bayes Algorithm), SVM(Support Vector Machine), 의사결정나무(Decision Tree), 인공신경망(Artificial Neural Network) 등 다양한 기술들이 문서 분류에 활용되고 있다. 특히, 문서 분류는 문맥에 사용된 단어 및 문서 분류를 위해 추출된 형질에 따라 분류 모델의 성능이 달라질 뿐만 아니라, 문서 분류기 구축에 사용된 학습데이터의 질에 따라 문서 분류의 성능이 크게 좌우된다. 하지만 현실세계에서 사용되는 대부분의 데이터는 많은 노이즈(Noise)를 포함하고 있으며, 이러한 데이터의 학습을 통해 생성된 분류 모형은 노이즈의 정도에 따라 정확도 측면의 성능이 영향을 받게 된다. 이에 본 연구에서는 노이즈를 인위적으로 삽입하여 문서 분류기의 견고성을 강화하고 이를 통해 분류의 정확도를 향상시킬 수 있는 방안을 제안하고자 한다. 즉, 분류의 대상이 되는 원 문서와 전혀 다른 특징을 갖는 이질적인 데이터소스로부터 추출한 형질을 원 문서에 일종의 노이즈의 형태로 삽입하여 이질성 학습을 수행하고, 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식의 규칙 선별 기반의 앙상블 준지도학습을 제안함으로써 문서 분류의 성능을 향상시키고자 한다.

Kriging Analysis for Spatio-temporal Variations of Ground Level Ozone Concentration

  • Gorai, Amit Kumar;Jain, Kumar Gourav;Shaw, Neha;Tuluri, Francis;Tchounwou, Paul B.
    • Asian Journal of Atmospheric Environment
    • /
    • 제9권4호
    • /
    • pp.247-258
    • /
    • 2015
  • Exposure of high concentration of ground-level ozone (GLO) can trigger a variety of health problems including chest pain, coughing, throat irritation, asthma, bronchitis and congestion. There are substantial human and animal toxicological data that support health effects associated with exposure to ozone and associations have been observed with a wide range of outcomes in epidemiological studies. The aim of the present study is to estimate the spatial distributions of GLO using geostatistical method (ordinary kriging) for assessing the exposure level of ozone in the eastern part of Texas, U.S.A. GLO data were obtained from 63 U.S. EPA's monitoring stations distributed in the region of study during the period January, 2012 to December, 2012. The descriptive statistics indicate that the spatial monthly mean of daily maximum 8 hour ozone concentrations ranged from 30.33 ppb (in January) to 48.05 (in June). The monthly mean of daily maximum 8 hour ozone concentrations was relatively low during the winter months (December, January, and February) and the higher values observed during the summer months (April, May, and June). The higher level of spatial variations observed in the months of July (Standard Deviation: 10.33) and August (Standard Deviation: 10.02). This indicates the existence of regional variations in climatic conditions in the study area. The range of the semivariogram models varied from 0.372 (in November) to 15.59 (in April). The value of the range represents the spatial patterns of ozone concentrations. Kriging maps revealed that the spatial patterns of ozone concentration were not uniform in each month. This may be due to uneven fluctuation in the local climatic conditions from one region to another. Thus, the formation and dispersion processes of ozone also change unevenly from one region to another. The ozone maps clearly indicate that the concentration values found maximum in the north-east region of the study area in most of the months. Part of the coastal area also showed maximum concentrations during the months of October, November, December, and January.

텍스트 분석을 활용한 정보의 수요 공급 기반 뉴스 가치 평가 방안 (A Method for Evaluating News Value based on Supply and Demand of Information Using Text Analysis)

  • 이동훈;최호창;김남규
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.45-67
    • /
    • 2016
  • 최근 정보 유통의 주요 매체인 인터넷 뉴스와 SNS의 매체 간 특성 차이를 주목한 많은 연구가 있었음에도 불구하고, 양 매체의 차이를 정보의 수요 및 공급 관점에서 파악한 연구는 상대적으로 매우 부족하다. 일반적으로 새로운 정보는 언론사의 뉴스 기사를 통해 대중에게 노출되고, 대중은 이러한 기사에 대한 의견 또는 추가정보를 SNS를 통해 공유함으로써 해당 정보를 수용함과 동시에 확산시킨다. 이러한 측면에서 언론사가 뉴스를 제공하는 행위를 정보의 공급으로 파악할 수 있으며, 대중은 SNS를 통해 이에 대한 관심을 능동적으로 나타냄으로써 해당 정보에 대한 소비 수요를 표출하는 것으로 이해할 수 있다. 이는 상품 및 서비스의 가격이 수요와 공급의 관계에 의해 결정되는 것과 유사한 원리로, 정보의 가치를 정보 수요와 정보 공급의 관계에 기반을 두어 측정할 수 있음을 시사한다. 본 연구에서는 정보 공급의 대표 매체로 인터넷 뉴스 기사를, 정보 수요를 나타내는 대표 매체로 트위터를 선정하고, 특정 이슈에 대한 뉴스의 정보로서의 가치를 이와 관련된 트위터의 양으로 평가하는 뉴스가치지수(NVI, News Value Index)를 고안하여 제시한다. 구체적으로 제안 방법론은 각 이슈별로 NVI를 도출하고 이를 통해 시간의 흐름에 따른 정보 가치의 변화를 시각화하여 나타낸다. 또한 본 연구에서는 제안 방법론의 실무 적용 가능성을 평가하기 위해 인터넷 뉴스 387,018건과 트윗 31,674,795건에 대한 실험을 수행하였다. 그 결과 대부분의 이슈가 전체 정보 시장의 평균 가치에 수렴하는 형태로 변화함을 알 수 있었으며, 꾸준히 평균 이상의 가치를 가지며 정보 시장을 장악하는 등 특이한 양상을 보이는 흥미로운 이슈도 존재함을 파악할 수 있었다.

기간별 이슈 매핑을 통한 이슈 생명주기 분석 방법론 (Analyzing the Issue Life Cycle by Mapping Inter-Period Issues)

  • 임명수;김남규
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.25-41
    • /
    • 2014
  • 최근 스마트 기기를 통해 소셜미디어에 참여하는 사용자가 급격히 증가하고 있다. 이에 따라 빅데이터 분석에 대한 관심이 높아지고 있으며 최근 포털 사이트에서 검색어로 자주 입력되거나 다양한 소셜미디어에서 자주 언급되는 단어에 대한 분석을 통해 사회적 이슈를 파악하기 위한 시도가 이루어 지고 있다. 이처럼 다량의 텍스트를 통해 도출된 사회적 이슈의 기간별 추이를 비교하는 분석을 이슈 트래킹이라 한다. 하지만 기존의 이슈 트래킹은 두 가지 한계를 가지고 있다. 첫째, 전통적 방식의 이슈 트래킹은 전체 기간의 문서에 대해 일괄 토픽 분석을 실시하고 각 토픽의 기간별 분포를 파악하는 방식으로 이루어지므로, 새로운 기간의 문서가 추가되었을 때 추가된 문서에 대해서만 분석을 추가 실시하는 것이 아니라 전체 기간의 문서에 대한 분석을 다시 실시해야 한다는 실용성 측면의 한계를 갖고 있다. 둘째, 이슈는 끊임 없이 생성되고 소멸될 뿐 아니라, 때로는 하나의 이슈가 둘 이상의 이슈로 분화하고 둘 이상의 이슈가 하나로 통합되기도 한다. 즉, 이슈는 생성, 변화(병합, 분화), 그리고 소멸의 생명주기를 갖게 되는데, 전통적 이슈 트래킹은 이러한 이슈의 가변성을 다루지 않았다는 한계를 갖는다. 본 연구에서는 이러한 한계를 극복하기 위해 대상 기간 전체의 문서를 한꺼번에 분석하는 방식이 아닌 세부 기간별 문서에 대해 독립적인 분석을 수행하고 이를 통합할 수 있는 방안을 제시하였으며, 이를 통해 새로운 이슈가 생성되고 변화하며 소멸되는 전체 과정을 규명하였다. 또한 실제 인터넷 뉴스에 대해 제안 방법론을 적용함으로써, 제안 방법론의 실무 적용 가능성을 분석하였다.