• Title/Summary/Keyword: 대용량 분류

Search Result 243, Processing Time 0.027 seconds

An Approach of Scalable SHIF Ontology Reasoning using Spark Framework (Spark 프레임워크를 적용한 대용량 SHIF 온톨로지 추론 기법)

  • Kim, Je-Min;Park, Young-Tack
    • Journal of KIISE
    • /
    • v.42 no.10
    • /
    • pp.1195-1206
    • /
    • 2015
  • For the management of a knowledge system, systems that automatically infer and manage scalable knowledge are required. Most of these systems use ontologies in order to exchange knowledge between machines and infer new knowledge. Therefore, approaches are needed that infer new knowledge for scalable ontology. In this paper, we propose an approach to perform rule based reasoning for scalable SHIF ontologies in a spark framework which works similarly to MapReduce in distributed memories on a cluster. For performing efficient reasoning in distributed memories, we focus on three areas. First, we define a data structure for splitting scalable ontology triples into small sets according to each reasoning rule and loading these triple sets in distributed memories. Second, a rule execution order and iteration conditions based on dependencies and correlations among the SHIF rules are defined. Finally, we explain the operations that are adapted to execute the rules, and these operations are based on reasoning algorithms. In order to evaluate the suggested methods in this paper, we perform an experiment with WebPie, which is a representative ontology reasoner based on a cluster using the LUBM set, which is formal data used to evaluate ontology inference and search speed. Consequently, the proposed approach shows that the throughput is improved by 28,400% (157k/sec) from WebPie(553/sec) with LUBM.

화상 정보의 DB 구축과 검색 요소

  • 안용남
    • Journal of the Korean Society for information Management
    • /
    • v.8 no.2
    • /
    • pp.108-124
    • /
    • 1991
  • 정보량이 많은 사진과 같은 화상 정보는 대용량을 갖고 있는 광 디스크에 축적시켜 DB를 구축하고 이는 컴퓨터를 이용해 고속 검색할 수 있다. 사진 DB 구축은 사진의 양, 구 축 목적, 이용 대상, 활용 방법 등에 따라 방법을 달리할 수 있으며 이의 검색 요소에는 촬 영 행위, 촬영 조건, 표제, 주제의 4가지 요소가 있고 그 중 가장 중요시되는 주제 요소에는 감각 정보, 주제 분류, 키워드가 있다.

  • PDF

A Sliding Window-based Multivariate Stream Data Classification (슬라이딩 윈도우 기반 다변량 스트림 데이타 분류 기법)

  • Seo, Sung-Bo;Kang, Jae-Woo;Nam, Kwang-Woo;Ryu, Keun-Ho
    • Journal of KIISE:Databases
    • /
    • v.33 no.2
    • /
    • pp.163-174
    • /
    • 2006
  • In distributed wireless sensor network, it is difficult to transmit and analyze the entire stream data depending on limited networks, power and processor. Therefore it is suitable to use alternative stream data processing after classifying the continuous stream data. We propose a classification framework for continuous multivariate stream data. The proposed approach works in two steps. In the preprocessing step, it takes input as a sliding window of multivariate stream data and discretizes the data in the window into a string of symbols that characterize the signal changes. In the classification step, it uses a standard text classification algorithm to classify the discretized data in the window. We evaluated both supervised and unsupervised classification algorithms. For supervised, we tested Bayesian classifier and SVM, and for unsupervised, we tested Jaccard, TFIDF Jaro and Jaro Winkler. In our experiments, SVM and TFIDF outperformed other classification methods. In particular, we observed that classification accuracy is improved when the correlation of attributes is also considered along with the n-gram tokens of symbols.

A Fingerprint Identification System using Large Database (대용량 DB를 사용한 지문인식 시스템)

  • Cha, Jeong-Hee;Seo, Jeong-Man
    • Journal of the Korea Society of Computer and Information
    • /
    • v.10 no.4 s.36
    • /
    • pp.203-211
    • /
    • 2005
  • In this paper, we propose a new automatic fingerprint identification system that identifies individuals in large databases. The algorithm consists of three steps; preprocessing, classification, and matching, in the classification. we present a new classification technique based on the statistical approach for directional image distribution. In matching, we also describe improved minutiae candidate pair extraction algorithm that is faster and more accurate than existing algorithm. In matching stage, we extract fingerprint minutiaes from its thinned image for accuracy, and introduce matching process using minutiae linking information. Introduction of linking information into the minutiae matching process is a simple but accurate way, which solves the problem of reference minutiae pair selection in comparison stage of two fingerprints quickly. This algorithm is invariant to translation and rotation of fingerprint. The proposed system was tested on 1000 fingerprint images from the semiconductor chip style scanner. Experimental results reveal false acceptance rate is decreased and genuine acceptance rate is increased than existing method.

  • PDF

Effective Image Clustering Using Shock Graphsm (쇼크 그래프를 이용한 효과적인 영상 군집화)

  • Jang, Seok-Woo;Khanam, Solima;Paik, Woo-Jin
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2011.01a
    • /
    • pp.249-252
    • /
    • 2011
  • 본 논문에서는 쇼크(shock) 그래프 기반의 뼈대 특징을 이용하여 모양 정보를 분류하기 위해 그래프 편집 거리(edit cost) 기반의 k-means 군집화 알고리즘을 적용하는 방법을 제안한다. 본 논문에서 제안된 방법에서는 먼저 질의 영상과 대상 데이터베이스 영상으로부터 뼈대 기반의 쇼크 그래프를 추출한 후 종점(end points)과 분기점(branch points)을 가중치를 이용하여 적응적으로 선택한다. 그런 다음, 두 영상 사이의 편집 거리를 구하여 이를 k-means 군집화 알고리즘의 거리 척도로 적용함으로써 대용량의 영상을 보다 효과적으로 분류한다. 성능을 평가하기 위해서 제안된 알고리즘을 MPEG-7 데이터베이스에 적용하였으며, 그 결과 제안된 영상 분류 방법이 기존의 영상 분류 방법에 비해서 보다 효과적으로 모양 기반의 영상을 분류하였음을 확인하였다.

  • PDF

Flickr Image Classification using SIFT Algorism (SIFT 알고리즘을 이용한 플리커 이미지 자동분류)

  • Jang, Hyun-Woong;Cho, Soo-Sun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1394-1396
    • /
    • 2013
  • 플리커와 같은 대용량 영상저장 및 공유 사이트가 인기를 끌면서 이미지 정보의 양은 점점 늘어나고 있고 사용자들은 정확한 이미지 정보 검색을 요구하고 있다. 태그기반의 이미지 검색에서 정확도를 높이기 위하여 태그들의 의미적 연관성을 이용하는 등 다양한 연구가 진행되고 있다. 본 논문에서는 특징점 추출에 기반하여 이미지를 분류하는데 뛰어난 성능을 가진 SIFT알고리즘을 사용하여 플리커 이미지를 분류하는 방법을 제안한다. 위키피디아 의미 연관성을 이용해 태그 정보로 1차 분류된 데이터베이스에 SIFT알고리즘을 사용해본 결과 기존의 SURF를 사용한 연구보다 높은 정확성을 보이는 것을 확인하였다. 따라서 이 방법을 통하여 다양한 이미지를 더욱 정확하게 분류할 수 있을 것으로 기대한다.

Korean Named Entity Recognition using ManiFL (ManiFL을 이용한 한국어 개체명 인식)

  • Kim, Wansu;Shin, Joon-choul;Park, Seoyeon;Ock, CheolYoung
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.633-636
    • /
    • 2021
  • 개체명 인식은 주어진 문장 안의 고유한 의미가 있는 단어들을 인명, 지명, 단체명 등의 미리 정의된 개체의 범주로 분류하는 문제이다. 최근 연구에서는 딥 러닝, 대용량 언어 모델을 사용한 연구들이 활발하게 연구되어 높은 성능을 보이고 있다. 하지만 이러한 방법은 대용량 학습 말뭉치와 이를 처리할 수 있는 높은 연산 능력을 필요로 하며 모델의 실행 속도가 느려서 실용적으로 사용하기 어려운 문제가 있다. 본 논문에서는 얕은 기계 학습 기법을 적용한 ManiFL을 사용한 개체명 인식 시스템을 제안한다. 형태소의 음절, 품사 정보, 직전 형태소의 라벨만을 자질로 사용하여 실험하였다. 실험 결과 F1 score 기준 90.6%의 성능과 초당 974 문장을 처리하는 속도를 보였다.

  • PDF

Study on Building Science Cloud Testbed for Massive Astronomical Applications (대용량 천문 응용 수행을 위한 사이언스 클라우드 테스트베드 구축 연구)

  • Kim, Joo-Hyun;Kwon, Oh-Kyoung;Jung, Yong-Whan;Kwak, Jae-Hyuck;Kim, Sang-Wan;Yoon, Jun-Weon;Hahm, Jae-Gyoon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06b
    • /
    • pp.25-28
    • /
    • 2011
  • 최근 사이언스 컴퓨팅 분야에서 대용량 데이터가 발생하고 있고 컴퓨팅 자원들의 수요도 급증하고 있다. 이로 인해 클라우드 컴퓨팅 기술의 필요성이 중요시되고 있고 전 세계적으로 급속히 발전하고 있다. 천문 연구 분야에서 관측기기의 발전으로 대용량의 천문 데이터가 생산되고 있다. 이를 처리하기 위하여 다양한 클라우드 컴퓨팅 기술을 이용한 데이터 분석 환경이 요구되고 있다. 이러한 환경을 구축하기 위해서는 가상 인프라 자원을 효율적으로 관리할 수 있어야 한다. 현재 가상 인프라 자원을 관리하기 위해 오픈 소스를 개발하는 프로젝트들이 활발히 진행되고 있다. 본 논문에서는 오픈 소스인 Eucalyptus와 OpenNebula의 기능적인 측면을 크게 10가지로 분류하여 장단점을 비교 분석하였고 OpenNebula의 세 가지 특징인 중앙 집중화된 구조, live migration과 suspend/resume 기능, 커스터마이징 기능이 대용량 천문 응용 수행을 위한 환경을 구축하는데 반드시 필요하기 때문에 OpenNebula를 채택하였다. OpenNebula를 사용해 구축한 사이언스 클라우드 테스트베드는 NFS 서버의 별도 구성을 통한 성능 개선, 하이브리드 클라우드 컴퓨팅 환경 구축, B클래스 사설 네트워크 구성, GUI 기반 사이언스 클라우드 테스트베드 관리 및 모니터링 기능의 4가지 특징을 가지고 있다. 앞으로도 천문 연구자들에게 안정적인 서비스를 제공하기 위하여 관련 연구를 계속할 것이다.

Classifying DNA Chip Data of Particle Swarm Optimization Algorithm (PSO(Particle Swarm Optimization) Algorithm의 DNA Chip 데이터 Classification)

  • Choi, Ok-Ju;Meang, Bo-Yeon;Lee, Yoon-Kyung;Lee, Min-Soo;Yoon, Kyong-Oh;Choi, Hye-Yeon;Kim, Dae-Hyun;Lee, Keun-Il
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.64-67
    • /
    • 2008
  • DNA Chip을 이용한 실험은 그 결과에 대하여 대용량의 정보를 쏟아내고 있다. 이러한 데이터를 분석하는 다양한 기법 중, 미리 정해진 클래스에 데이터를 해당하는 클래스로 분류하는 기법인 분류화를 수행하여 의도한 목표를 위한 규칙을 찾아내고자 한다. 본 논문에서는 이를 위해 DNA Chip과 같은 방대한 양의 정보 분석에 대하여 적합한 생태계 모방 알고리즘인 PSO Algorithm을 사용하여 분류 규칙을 발견하여 이를 데이터에 적용, 분류하는 연구를 기술하고 있다.

  • PDF

A Study on Work Semantic Categories for Natural Language Question Type Classification and Answer Extraction (자연어 질의유형 판별과 응답 추출을 위한 어휘 의미 체계에 관한 연구)

  • Yoon Sung-Hee
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.5 no.6
    • /
    • pp.539-545
    • /
    • 2004
  • For question answering system that extracts an answer and output to user‘s natural language question, a process of question type classification from user’s natural language query is very important. This paper proposes a question and answer type classifier using the interrogatives and word semantic categories instead of complicated classifying rules and huge dictionaries. Synonyms and postfix information are also used for question type classification. Experiments show that the semantic categories are helpful for question type classifying without interrogatives.

  • PDF