• 제목/요약/키워드: Preprocessed data

검색결과 188건 처리시간 0.066초

Smith-Waterman 정렬 알고리즘을 이용한 온라인 필기체 숫자인식 (Online Handwritten Digit Recognition by Smith-Waterman Alignment)

  • 문원호;최연석;이상걸;차의영
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권9호
    • /
    • pp.27-33
    • /
    • 2011
  • 본 논문에서는 필기체 문자의 Convex-Concave한 곡선 특징을 문자로 변환하고 추출된 문자를 Smith-Waterman 정렬 알고리즘을 이용하여 온라인 필기체 숫자 인식 방법을 제안한다. 필기체 숫자 인식을 위한 입력 데이터는 시간에 순서적인 좌표로 순서화하고 전처리의 입력데이터로 적용된다. 필기자의 개성이 표현된 필기체 문자는 크기, 회전, 곡선 비율이 다양한 형태로 나타난다. 따라서 본 논문에서는 곡선의 Convex-Concave 특징을 이용하여 크기, 회전에 강인한 특징을 추출한다. 추출된 특징은 문자로 변환하고 Smith-Waterman 정렬 알고리즘의 입력데이터로 적용한다. 본 논문에서는 실시간 필기체 숫자를 대상으로 실험한 결과, 오류역전파 신경 회로망을 적용한 것과 비교하여 제안된 방법이 좋은 성능을 보였다.

신경회로망을 이용한 인쇄체 한글 문자의 인식 (The Recognition of Printed Korean Characters by a Neural Network)

  • 김상우;전윤호;최종호
    • 대한전자공학회논문지
    • /
    • 제27권2호
    • /
    • pp.65-72
    • /
    • 1990
  • 이 논문에서는 인쇄체 한글문자 인식에 있어서 신경회로망의 적용가능성을 알아 보았다. 한글 문자수의 과다와 그들 사이의 유사성, 많은 입력 영상 데이타 등으로 인하여 신경회로망을 한글인식에 적용시키는데는 많은 난점이 따른다. 한글 문자의 이진영상은 신경회로망의 입력으로 사용하기에는 그 데이타 수가 너무 많으므로 입력 영상으로부터 DC 성분을 추출하여 이것을 신경회로망의 입력으로 사용하기 위한 전처리과정을 두었다. 출력층은 한글의 특성에 맞도록 구성하였다. 한글인식에 도입된 신경회로망은 다층인식자이고, 적용된 훈련방법은 BEP 알고리듬을 한글인식에 적절하도록 변형시킨 형태이다. 이 방법을 통하여 정위치에 있는 2,300개 이상의 문자를 인식할 수 있었다. 이 결과로부터 신경회로망을 이용한 인쇄체 한글문자 인식은 적절한 방법임을 알 수 있다.

  • PDF

머신러닝 기반 골프 퍼팅 방향 예측 모델을 활용한 중요 변수 분석 방법론 (Method of Analyzing Important Variables using Machine Learning-based Golf Putting Direction Prediction Model)

  • Kim, Yeon Ho;Cho, Seung Hyun;Jung, Hae Ryun;Lee, Ki Kwang
    • 한국운동역학회지
    • /
    • 제32권1호
    • /
    • pp.1-8
    • /
    • 2022
  • Objective: This study proposes a methodology to analyze important variables that have a significant impact on the putting direction prediction using a machine learning-based putting direction prediction model trained with IMU sensor data. Method: Putting data were collected using an IMU sensor measuring 12 variables from 6 adult males in their 20s at K University who had no golf experience. The data was preprocessed so that it could be applied to machine learning, and a model was built using five machine learning algorithms. Finally, by comparing the performance of the built models, the model with the highest performance was selected as the proposed model, and then 12 variables of the IMU sensor were applied one by one to analyze important variables affecting the learning performance. Results: As a result of comparing the performance of five machine learning algorithms (K-NN, Naive Bayes, Decision Tree, Random Forest, and Light GBM), the prediction accuracy of the Light GBM-based prediction model was higher than that of other algorithms. Using the Light GBM algorithm, which had excellent performance, an experiment was performed to rank the importance of variables that affect the direction prediction of the model. Conclusion: Among the five machine learning algorithms, the algorithm that best predicts the putting direction was the Light GBM algorithm. When the model predicted the putting direction, the variable that had the greatest influence was the left-right inclination (Roll).

A Supervised Feature Selection Method for Malicious Intrusions Detection in IoT Based on Genetic Algorithm

  • Saman Iftikhar;Daniah Al-Madani;Saima Abdullah;Ammar Saeed;Kiran Fatima
    • International Journal of Computer Science & Network Security
    • /
    • 제23권3호
    • /
    • pp.49-56
    • /
    • 2023
  • Machine learning methods diversely applied to the Internet of Things (IoT) field have been successful due to the enhancement of computer processing power. They offer an effective way of detecting malicious intrusions in IoT because of their high-level feature extraction capabilities. In this paper, we proposed a novel feature selection method for malicious intrusion detection in IoT by using an evolutionary technique - Genetic Algorithm (GA) and Machine Learning (ML) algorithms. The proposed model is performing the classification of BoT-IoT dataset to evaluate its quality through the training and testing with classifiers. The data is reduced and several preprocessing steps are applied such as: unnecessary information removal, null value checking, label encoding, standard scaling and data balancing. GA has applied over the preprocessed data, to select the most relevant features and maintain model optimization. The selected features from GA are given to ML classifiers such as Logistic Regression (LR) and Support Vector Machine (SVM) and the results are evaluated using performance evaluation measures including recall, precision and f1-score. Two sets of experiments are conducted, and it is concluded that hyperparameter tuning has a significant consequence on the performance of both ML classifiers. Overall, SVM still remained the best model in both cases and overall results increased.

헬스케어 분야 빅데이터 분석을 위한 개체명 사전구축에 새로운 역 N-Gram 적용 연구 (A Study on Applying Novel Reverse N-Gram for Construction of Natural Language Processing Dictionary for Healthcare Big Data Analysis)

  • 이경현;백락준;김우수
    • 문화기술의 융합
    • /
    • 제10권3호
    • /
    • pp.391-396
    • /
    • 2024
  • 본 연구에서는 헬스케어 분야에 특화된 개체명 사전을 구축하기 위해 기존 N-Gram 방식의 한계를 극복하고 성능을 향상하게 시키기 위해 새로운 역 N-Gram 방식을 제안하였다. 제안된 역 N-Gram 방식은 헬스케어 관련 빅데이터의 복잡한 언어적 특성을 더 정밀하게 분석하고 처리할 수 있다. 제안된 방식의 효율성 검증을 위해 매년 1월에 개최되는 소비자 가전 전시회(Consumer Electronics Show: CES) 기간 동안 발표된 헬스케어 및 디지털 헬스케어 관련 빅데이터를 수집하기 위하여 뉴스를 대상으로 2010년 1월 1일부터 31일, 그리고 2024년 1월 1일부터 31일까지 언급된 2,185건의 뉴스 제목 및 요약문을 파이썬 프로그래밍언어로 새로운 역 N-Gram 방식을 구현하여 전처리한 결과, 헬스케어 분야에서의 자연어 처리를 위한 사전이 안정적으로 구축되었음을 확인할 수 있었다.

웹 로그에서의 Apriori 알고리즘 기반 사용자 액세스 패턴 발견 (User Access Patterns Discovery based on Apriori Algorithm under Web Logs)

  • 염종림;정석태
    • 한국정보전자통신기술학회논문지
    • /
    • 제12권6호
    • /
    • pp.681-689
    • /
    • 2019
  • 웹 사용 패턴 발견은 웹 로그 데이터를 사용하는 고급 수단이며 웹 로그 데이터 마이닝에 데이터 마이닝 기술을 적용한 특정 응용이다. 교육 분야에서 데이터 마이닝 (DM)은 데이터 마이닝 기술을 교육 데이터 (대학의 웹 로그, e-러닝, 적응형 하이퍼미디어 및 지능형 튜터링시스템 등)에 적용한다. 따라서 교육 연구 문제를 해결하기 위해 이러한 유형의 데이터를 분석하는 것이 목표이다. 본 논문에서는 대학의 웹 로그 데이터가 데이터 마이닝의 연구 대상으로 사용되어 진다. 데이터베이스 OLAP 기술을 사용하여 웹 로그 데이터가 데이터 마이닝에 사용될 수 있는 데이터 형식으로 사전 처리되고 그 처리 결과가 MSSQL에 저장된다. 동시에 처리 된 웹 로그 레코드를 기반으로 기본 데이터 통계 및 분석이 완료된다. 또한 웹 사용 패턴 마이닝의 Apriori Algorithm 및 구현 프로세스를 소개하고 Python 개발 환경에서 Apriori Algorithm 프로그램을 개발했다. 그런 다음 Apriori Algorithm의 성능을 보이고 웹 사용자 액세스 패턴의 마이닝을 실현했다. 이 연구 결과는 교육 시스템 개발에 패턴을 적용하는데 중요한 이론적 의미를 갖는다. 다음 연구로는 분산 컴퓨팅 환경에서 Apriori Algorithm의 성능 향상을 연구하는 것이다.

CT 전처리 기법을 이용하여 조명변화에 강인한 얼굴인식 시스템 설계 (Design of Robust Face Recognition System with Illumination Variation Realized with the Aid of CT Preprocessing Method)

  • 진용탁;오성권;김현기
    • 한국지능시스템학회논문지
    • /
    • 제25권1호
    • /
    • pp.91-96
    • /
    • 2015
  • 본 연구는 조명변화에 강인한 CT 전처리 기법 기반 개선된 얼굴인식 시스템을 소개한다. 전처리 알고리즘으로 CT알고리즘은 조명이 없는 환경에서도 얼굴의 지역적인 특징만을 추출한다. 얼굴의 지역적인 특징 추출을 가능하게 해준다. 처리된 데이터는 $(2D)^2$ 기반 대표적인 차원축소 알고리즘인 PCA를 사용하여 특징을 추출하였다. 전처리 알고리즘을 통한 특징 데이터는 제안한 방사형 기저함수 신경회로망의 입력으로 사용하였다. 방사형 기저함수 신경회로망의 은닉층은 FCM으로 구성하였고, 연결가중치는 1차 선형식을 사용하였다. 또한 ABC 알고리즘을 이용하여 제안된 분류기의 파라미터, 즉 입력의 수, 퍼지 클러스터링의 퍼지화 계수를 최적화 한다. 본 연구는 제안된 시스템의 성능 평가를 위해 Yale Face database B와 CMU PIE database로 실험하였다.

식쌍성의 극심시각 관측을 위한 소형 반자동 망원경 관측시스템의 구성 (A CONSTRUCTION OF A SEMI-AUTOMATIC TELESCOPE FOR ECLIPSE TIMING OBSERVATIONS OF ECLIPSING BINARY STARS)

  • 이충욱;박성수;김천휘;변용익
    • Journal of Astronomy and Space Sciences
    • /
    • 제20권2호
    • /
    • pp.143-152
    • /
    • 2003
  • 식쌍성 극심시각의 체계적인 측광관측을 위하여 충북대학교 교내에 소형 반자동 망원경 관측시스템을 구축하였다. 이 시스템은 Paramount GT-1100s 독일식 마운트와 Celestron 14 광학계, 그리고 SBIG ST-8 CCD 카메라로 구성되었다. 한편, 관측시스템의 제어는 OBSTOOL이라는 소프트웨어에 의하여 이루어지는데, 이는 상용소프트웨어인 The Sky와 MaximDL에서 지원하는 COM(Component Object Model)을 이용하여 망원경과 CCD 카메라를 제어하도록 개발하였다. 이 시스템은 광전관측방법과 유사하게 망원경을 변광성, 비교성, 검토성 등으로 이동시키며 관측을 수행한다. 또한, 효율적인 자료처리를 위하여 작성한 Perl 스크립트로 관측 자료를 날짜별, 관측시야별, 필터별로 분류하고, IRAF소프트웨어를 이용하여 관측 영상의 전처리작업 등을 수행하도록 하였다. 또한, 이 시스템으로 관측한 식쌍성들의 식부근 광도곡선을 제시한다.

GSIS의 그리드 분석 기법에 의한 소하천 정비 우선순위 결정 (Determination of the Improvement Priority in a Small River Using GRID Analysis Technology of GSIS)

  • 양인태;최영재;오명진
    • 한국측량학회지
    • /
    • 제18권3호
    • /
    • pp.233-240
    • /
    • 2000
  • 소하천은 지역주민에게 아름다운 경관과 놀이공간 및 휴식장소를 제공할 뿐만 아니라 중요 용수원이자 배수로로 활용되는 지역주민의 가장 밀접한 생활공간의 일부이며 수변의 각종 식물이나 동물이 인간과 가장 조화롭게 공존하는 공간이라 할 수 있다. 이런 소하천에 대한 정비 계획을 수립하는데 여러 가지의 방향과 모델이 제시 되어왔으나, 소하천은 다양한 변화와 많은 재원이 투입해야 하는 어려움이 있다. 소하천 정비계획은 일반하천의 정비계획과 달리 관할구역내 모든 소하천을 대상으로 일시에 수립해야 하는 계획으로 정비 우선순위 결정이 선행되어야 한다. 현재 소하천 우선순위 결정을 실시한 지역은 아직 미미한 편이며, 처리를 했다 할지라도 처리 작업이 모두 수작업으로 많은 시간이 소요되고 있다. 그러므로 지리정보시스템은 공간 자료의 분석과 관리를 위한 도구로, 소하천에 대한 정비 우선순위 결정을 위해 사용된다면 많은 도움을 줄 수 있을 것이다. 이 연구의 목적은 지형공간정보체계를 사용함으로써 소하천 정비에 있어 효율적인 우선순위 결정을 위한 것으로 소하천의 빈번한 우선순위 결정인자 변화에 신속히 대응할 수 있도록 하였다.

  • PDF

블럭정렬과 VF형 산술부호에 의한 오류제어 기능을 갖는 데이터 압축 (Data Compression Capable of Error Control Using Block-sorting and VF Arithmetic Code)

  • 이진호;조숙희;박지환;강병욱
    • 한국정보처리학회논문지
    • /
    • 제2권5호
    • /
    • pp.677-690
    • /
    • 1995
  • 본 논문에서는 블럭정렬과 선두 이동법에 의해 처리된 계열을 VF(Variable to Fixed)형 산술부호로 압축하는 방법을 제시한다. 길이 N으로 분해된 부분열을 1기호씩 순회시킨 후 사전식 순서로 정렬한다. 순회정렬된 부분열은 국소적으로 유사기호가 밀 집되기 때문에 이 성질을 활용하기 위하여 선두 이동법을 적용한다. 이와 같이 전처리 된 계열에 대해 오류전파를 1 부호어 이내로 제한할 수 있는 VF형 산술부호 로 엔트 로피 부호화한다. VF형 산술부호의 효율은 고정 크기의 부호어 집합을 어떻게 분할하 는가가 관건이다. 제안하는 VFAC(VF Arithmetic Code)는 새로 설정되는 정보원 기호에 대하여 완전분할을 이루게 하고, 반복적인 그레이 변환을 이용하여 발생기호의 확률을 효과적으로 나타낸다. 제안 방식의 성능을 컴퓨터 시뮬레이션을 통하여 엔트로피, 압 축율 및 처리속도의 측면에서 기존의 방식과 비교 분석한다.

  • PDF