• Title/Summary/Keyword: 대용량 분류

Search Result 243, Processing Time 0.036 seconds

Layout System for Large-Scale Photo Classification (대용량 디지털 사진 분류 및 레이아웃 시스템 개발)

  • Jang, Chuljin;Kim, Hyong-Jun;Cho, Hwan-Gue
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.98-101
    • /
    • 2009
  • 디지털 카메라의 사용이 일반화됨에 따라 수많은 디지털 사진들이 새롭게 생성되고 있다. 수많은 사진을 사용자가 직접 분류하고 앨범화하는 것은 많은 노력과 시간이 소요되는 불편한 작업이 되고 있다. 최근 들어서는 카메라의 높은 보급률로 인해 하나의 행사에 있어서도 여러대의 카메라가 사용되는 등 대용량 사진을 효과적으로 분류하고 시각화할 수 있는 방법의 필요성이 증가하고 있다. 개인적인 사진 관리에 있어서 뿐만 아니라 여러명의 촬영한 사진의 분류 및 제 3 자에게 사진이 촬영된 내용을 소개하기 위한 목적 등 다양한 방면에서 사진 클러스터링 및 시각화와 관련된 기법이 사용될 수 있다. 본 논문에서는 이와 관련된 이전 연구들을 살펴보고 개발중인 사진 분류 및 시각화 시스템의 프로토타입을 소개하며 기존 방법들과 차별화되는 사진 처리 기법에 대해서 살펴본다.

The implementation of efficient pattern classification system using the gene algorithm (유전자 알고리즘을 이용한 효율적인 패턴 분류 시스템 구현)

  • 이호현;최용호;서원택;조범준
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2002.11b
    • /
    • pp.792-795
    • /
    • 2002
  • 현재 많은 관심의 대상이 되고 있는 데이터 마이닝은 대용량의 데이터베이스로부터 일정한 패턴을 분류하여 지식의 형태로 추출하는 작업이다. 데이터 마이닝의 대표적인 기법인 군집화는 군집내의 유사성을 최대화하고 군집들간의 유사성을 최소화 시키도록 데이터 집합을 분할하는 것이다. 데이터 마이닝에서 군집화는 대용량 데이터를 다루기 때문에 원시 데이터에 대한 접근 횟수를 줄이고 알고리즘이 다루어야 할 데이터 구조의 크기를 줄이는 군집화 기법이 활발하게 사용된다. 그런데 기존의 군집화 알고리즘은 잡음에 매우 민감하고, local minima에 반응한다. 또한 사전에 군집의 개수를 미리 결정해야 하고, initialization 값에 따라 군집의 성능이 좌우되는 문제점이 있다. 본 연구에서는 유전자 알고리즘을 이용하여 자동으로 군집의 개수를 결정하는 LONGEPRO 알고리즘을 제안하고, 여기서 제시하는 적합도 함수의 최적화된 군집을 찾아내여 조금더 효율적인 알고리즘을 만들어 대용량 데이터를 다루는 데이터 마이닝에 적용해 보려 한다.

  • PDF

Prescriptive Analytics System Design Fusing Automatic Classification Method and Intellectual Structure Analysis Method (자동 분류 기법과 지적 구조 분석 기법을 융합한 처방적 분석 시스템 구현 방안 연구)

  • Jeong, Do-Heon
    • Journal of the Korean Society for information Management
    • /
    • v.34 no.4
    • /
    • pp.33-57
    • /
    • 2017
  • This study aims to introduce an emerging prescriptive analytics method and suggest its efficient application to a category-based service system. Prescriptive analytics method provides the whole process of analysis and available alternatives as well as the results of analysis. To simulate the process of optimization, large scale journal articles have been collected and categorized by classification scheme. In the process of applying the concept of prescriptive analytics to a real system, we have fused a dynamic automatic-categorization method for large scale documents and intellectual structure analysis method for scholarly subject fields. The test result shows that some optimized scenarios can be generated efficiently and utilized effectively for reorganizing the classification-based service system.

Boosting Algorithms for Large-Scale Data and Data Batch Stream (대용량 자료와 순차적 자료를 위한 부스팅 알고리즘)

  • Yoon, Young-Joo
    • The Korean Journal of Applied Statistics
    • /
    • v.23 no.1
    • /
    • pp.197-206
    • /
    • 2010
  • In this paper, we propose boosting algorithms when data are very large or coming in batches sequentially over time. In this situation, ordinary boosting algorithm may be inappropriate because it requires the availability of all of the training set at once. To apply to large scale data or data batch stream, we modify the AdaBoost and Arc-x4. These algorithms have good results for both large scale data and data batch stream with or without concept drift on simulated data and real data sets.

Classification of large-scale data and data batch stream with forward stagewise algorithm (전진적 단계 알고리즘을 이용한 대용량 데이터와 순차적 배치 데이터의 분류)

  • Yoon, Young Joo
    • Journal of the Korean Data and Information Science Society
    • /
    • v.25 no.6
    • /
    • pp.1283-1291
    • /
    • 2014
  • In this paper, we propose forward stagewise algorithm when data are very large or coming in batches sequentially over time. In this situation, ordinary boosting algorithm for large scale data and data batch stream may be greedy and have worse performance with class noise situations. To overcome those and apply to large scale data or data batch stream, we modify the forward stagewise algorithm. This algorithm has better results for both large scale data and data batch stream with or without concept drift on simulated data and real data sets than boosting algorithms.

Convolution Neural Network for Malware Detection (합성곱 신경망(Convolution Neural Network)를 이용한 악성코드 탐지 방안 연구)

  • Choi, Sin-Hyung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.166-168
    • /
    • 2018
  • 새롭게 변형되는 대규모 악성코드들을 신속하게 탐지하기 위하여 인공지능 딥러닝을 이용한 악성코드 탐지 기법을 제안한다. 대용량의 고차원 악성코드를 저차원의 이미지로 변환하고, 딥러닝 합성곱신경망(Convolution Neural Network)을 통해 이미지의 악성코드 패턴을 학습하고 분류하였다. 본 논문에서는 악성코드 분류 모델의 성능을 검증하기 위하여 악성코드 종류별 분류 실험과 악성코드와 정상코드 분류 실험을 실시하였고 각각 97.6%, 87%의 정확도로 악성코드를 구별해 내었다. 본 논문에서 제안한 악성코드 탐지 모델은 차원 축소를 통해 10,868개(200GB)의 대규모 데이터에 대하여 10분 이내의 학습시간이 소요되어 새로운 악성코드 학습 및 대용량 악성코드 탐지를 신속하게 처리 가능함을 보였다.

Article Analytic and Summarizing Algorithm by facilitating TF-IDF based on k-means (TF-IDF를 활용한 k-means 기반의 효율적인 대용량 기사 처리 및 요약 알고리즘)

  • Jang, Minseo;OH, Sujin;Kim, Ung-Mo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.271-274
    • /
    • 2018
  • 본 논문에서는 뉴스기사 데이터를 활용하여 대규모 뉴스기사를 소주제로 분류하는 군집 분석 방법을 제안한다. 또한, 분류된 뉴스기사를 사용자가 빠르게 이해하고 접할 수 있도록 핵심 문장을 추출하여 제공하는 방법을 제안한다. 분석 데이터는 포털 사이트 점유율 1위인 네이버의 경제 분야 뉴스기사를 크롤링하여 수집한다. 뉴스기사의 분석을 위해 전 처리를 통해 특수문자, 조사, 어미, 구두점 등의 불 용어 처리를 수행한다. 또한, k-means 알고리즘을 이용하여 대용량의 뉴스기사를 주제 별로 분류하는 것을 진행하며 그것을 토대로 핵심 문장을 추출한다. 추출된 핵심 문장은 분류된 뉴스기사의 주제를 나타내며 사용자에게 빠르게 정보를 전달하기 위해 활용한다. 본 논문의 연구 내용이 여러 언론사 사이트에 반영되면 사이트 품질과 사용자 만족도 향상에 기여할 수 있을 것으로 보인다.

Web Image Classification using Semantically Related Tags and Image Content (의미적 연관태그와 이미지 내용정보를 이용한 웹 이미지 분류)

  • Cho, Soo-Sun
    • Journal of Internet Computing and Services
    • /
    • v.11 no.3
    • /
    • pp.15-24
    • /
    • 2010
  • In this paper, we propose an image classification which combines semantic relations of tags with contents of images to improve the satisfaction of image retrieval on application domains as huge image sharing sites. To make good use of image retrieval or classification algorithms on huge image sharing sites as Flickr, they are applicable to real tagged Web images. To classify the Web images by 'bag of visual word' based image content, our algorithm includes training the category model by utilizing the preliminary retrieved images with semantically related tags as training data and classifying the test images based on PLSA. In the experimental results on the Flickr Web images, the proposed method produced the better precision and recall rates than those from the existing method using tag information.

Travel Time Prediction Algorithm for Trajectory data by using Rule-Based Classification on MapReduce (맵리듀스 환경에서 규칙 기반 분류화를 이용한 궤적 데이터 주행 시간 예측 알고리즘)

  • Kim, JaeWon;Lee, HyunJo;Chang, JaeWoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.11a
    • /
    • pp.798-801
    • /
    • 2014
  • 여행 정보 시스템(ATIS), 교통 관리 시스템 (ITS) 등 궤적 기반 서비스에서, 서비스 품질을 향상시키기 위해서는 주어진 궤적 질의에 대한 정확한 주행시간을 예측하는 것이 필수적이다. 이를 위한 대표적인 공간 데이터 분석 기법으로는 데이터 분류에서 높은 정확도를 보장하는 규칙 기반 분류화 기법이 존재한다. 그러나 기존 규칙 기반 분류화 기법은 단일 컴퓨터 환경만을 고려하기 때문에, 대용량 공간 데이터 처리에 적합하지 않은 문제점이 존재한다. 이를 해결하기 위해, 본 연구에서는 맵리듀스 환경에서 규칙 기반 분류화를 이용한 궤적 데이터 주행 시간 예측 알고리즘을 개발하고자 한다. 제안하는 알고리즘은 첫째, 맵리듀스를 이용하여 대용량 공간 데이터를 병렬적으로 분석함으로써, 활용도 높은 궤적 데이터 규칙을 생성한다. 이를 통해 대용량 공간 데이터 기반의 규칙 생성 시간을 감소시킨다. 둘째, 그리드 구조 기반의 지도 데이터 분할을 통해, 사용자 질의처리 시 탐색 성능을 향상시킨다. 즉, 주행 시간 예측을 위한 규칙 그룹을 탐색 시 질의를 포함하는 그리드 셀만을 탐색하기 때문에, 질의처리 성능이 향상된다. 마지막으로 맵리듀스 구조에 적합한 질의처리 알고리즘을 설계하여, 효율적인 병렬 질의처리를 지원한다. 이를 위해 맵 함수에서는 선정된 그리드 셀에 대해, 질의에 포함된 도로 구간에서의 주행 시간을 병렬적으로 측정한다. 아울러 리듀스 함수에서는 출발 시간 및 구간별 주행 시간을 바탕으로 맵 함수의 결과를 병합함으로써, 최종 결과를 생성한다. 이를 통해 공간 빅데이터 분석을 통한 주행 시간 예측 기법의 처리 시간 및 결과 정확도를 향상시킨다.

A Study on Automated Fingerprint Identification System for Large Fingerprint Database (대용량 지문 데이터베이스에 대한 자동 지문 인식 시스템 개발에 관한 연구)

  • Sul, Seung-Jin;Roh, Kyung-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05c
    • /
    • pp.1929-1932
    • /
    • 2003
  • 자동 지문 인식시스템은 대부분의 사용자 인증 과정을 처리하기 위해 사용하는 아이디/비밀번호 방법의 보안상 결점인 비밀번호 유출로 인한 보안 위협을 근본적으로 제거할 수 있다. 그러나 아직까지 수십만에서 수천만 건에 이른 대용량 지문 검색, 서버에 대한 성능이 입증된 것이 없으며 본 연구에서는 지문분류, 대용량 지문 검색, 다중서버, 다중쓰레드. 인증서버 기술을 갖는 대용량 자동 지문 인식 시스템을 연구하였다. 그리고 10만개의 지문 데이터를 기준으로 지문 검색에 대한 성능을 실험하였다.

  • PDF