• 제목/요약/키워드: 데이타 전처리

검색결과 60건 처리시간 0.023초

슬라이딩 윈도우 기반 다변량 스트림 데이타 분류 기법 (A Sliding Window-based Multivariate Stream Data Classification)

  • 서성보;강재우;남광우;류근호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권2호
    • /
    • pp.163-174
    • /
    • 2006
  • 분산 센서 네트워크에서 대용량 스트림 데이타를 제한된 네트워크, 전력, 프로세서를 이용하여 모든 센서 데이타를 전송하고 분석하는 것은 어렵고 바람직하지 않다. 그러므로 연속적으로 입력되는 데이타를 사전에 분류하여 특성에 따라 선택적으로 데이타를 처리하는 데이타 분류 기법이 요구된다. 이 논문에서는 다차원 센서에서 주기적으로 수집되는 스트림 데이타를 슬라이딩 윈도우 단위로 데이타를 분류하는 기법을 제안한다. 제안된 기법은 전처리 단계와 분류단계로 구성된다. 전처리 단계는 다변량 스트림 데이타를 포함한 각 슬라이딩 윈도우 입력에 대해 데이타의 변화 특성에 따라 문자 기호를 이용하여 다양한 이산적 문자열 데이타 집합으로 변환한다. 분류단계는 각 윈도우마다 생성된 이산적 문자열 데이타를 분류하기 위해 표준 문서 분류 알고리즘을 이용하였다. 실험을 위해 우리는 Supervised 학습(베이지안 분류기, SVM)과 Unsupervised 학습(Jaccard, TFIDF, Jaro, Jaro Winkler) 알고리즘을 비교하고 평가하였다. 실험결과 SVM과 TFIDF 기법이 우수한 결과를 보였으며, 특히 속성간의 상관 정도와 인접한 각 문자 기호를 연결한 n-gram방식을 함께 고려하였을 때 높은 정확도를 보였다.

웹 마이닝을 위한 입력 데이타의 전처리과정에서 사용자구분과 세션보정 (User Identification and Session completion in Input Data Preprocessing for Web Mining)

  • 최영환;이상용
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권9호
    • /
    • pp.843-849
    • /
    • 2003
  • 웹 이용 마이닝은 거대한 웹 로그들을 이용하여 웹 사용자의 이용 패턴을 분석하는 데이타 마이닝 기술이다. 이러한 웹 이용 마이닝 기술을 사용하기 위해서는 전처리 과정 중의 사용자와 세션을 정확하게 구분해야 하는데, 표준 웹 로그 형식의 로그 파일만으로는 완전히 구분할 수 없다. 사용자와 세션을 구분하기 위해서는 로컬캐시, 방화벽, ISP, 사용자 프라이버시, 쿠키 등과 같은 많은 문제들이 있지만, 이 문제를 해결하기 위한 명확한 방법은 아직 없다. 특히, 로컬캐시 문제는 웹 마이닝 시스템의 입력으로 사용되는 사용자 세션을 구분하는데 가장 어려운 문제이다 본 연구에서는 참조 로그와 에이전트 로그, 그리고 액세스 로그 둥의 서버측 클릭스트림 데이타만을 이용하여 로컬캐시 문제를 해결하고, 사용자 세션을 구분하고 세션을 보정하는 휴리스틱 방법을 제안한다.

웹 사용 데이타와 하이퍼링크 구조를 통합한 웹 네비게이션 마이닝 (Web Navigation Mining by Integrating Web Usage Data and Hyperlink Structures)

  • 구흠모;최중민
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권5호
    • /
    • pp.416-427
    • /
    • 2005
  • 웹 네비게이션 마이닝은 웹 접근 로그 데이타를 분석하여 웹을 항해하는 패턴을 발견하는 기법이다. 하지만 사용자들은 웹을 항해할 때 정상적인 계층적 경로를 따르지 않는 경우가 많기 때문에 웹 접근 로그 데이타에는 웹 항해 패턴 발견에 장애가 되는 잡음 정보가 많이 포함된다. 결과적으로 웹 접근 로그 데이타만을 이용한 기존의 웹 네비게이션 마이닝은 이런 잡음을 해결하기 위한 전처리 과정의 복잡성 등으로 인하여 웹 항해 패턴을 효율적으로 발견하는 데 좋은 성능을 보여주지 못했다. 이런 문제를 해결하기 위해 본 논문에서는 웹 접근 로그 데이타 외에 웹의 하이퍼링크 구조 정보를 함께 이용하여 웹 네비게이션 패턴을 효율적으로 발견하는 기법을 제시하였다. 웹 사이트의 계층적인 하이퍼링크 구조로부터 생성된 WebTree라 불리는 구조를 이용하여 웹 접근 로그 데이타에 포함된 비정상적인 경로에 대한 잡음을 효율적으로 제거하였다. 이 기법을 이용해 구현된 SPMiner(Sequence Pattern Miner) 시스템은 로그 데이타와 하이퍼링크 계층구조를 함께 이용함으로써 전처리의 오버헤드를 현저히 감소시켰고 결과적으로 효율적으로 네비게이션 패턴을 찾아주고 이를 추천에 이용할 수 있는 기반을 제시하였다.

전역적 범주화를 위한 샘플 분할 포인트를 이용한 점진적 기법 (An Incremental Method Using Sample Split Points for Global Discretization)

  • 한경식;이수원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권7호
    • /
    • pp.849-858
    • /
    • 2004
  • 대부분의 교사학습 알고리즘은 수치형 변수 처리의 어려움을 해결하기 위해 전처리 단계에서 연속형 변수를 범주형으로 변환시킨 후 적용된다. 이러한 전처리 단계를 전역적 범주화라 하며 빈즈(Bins)라는 클래스 분포 리스트를 이용한다. 그러나 대부분의 전역적 범주화 기법은 단일 빈즈를 필요로 하기 때문에 데이타가 대용량이고 범주화를 수행할 변수의 범위가 매우 클 경우, 단일 빈즈를 생성하기 위해 많은 정렬 및 병합을 수행해야한다. 또한, 기존의 방법은 일괄처리 방식으로 범주화를 수행하기 때문에 새로운 데이타가 추가되면 이 데이타가 반영된 범주를 생성하기 위해 처음부터 범주화를 다시 수행해야한다. 본 논문은 이러한 문제점을 해결하기 위해 샘플 분할 포인트를 추출하고 이로부터 범주화를 수행하는 기법을 제안한다. 본 논문의 접근 방법은 단일 빈즈를 생성하기 위한 병합이 필요 없기 때문에 대용량 데이타에 대한 범주화를 수행할 때 효율적이다. 본 연구에서는 실제 데이타와 가상의 데이타를 이용하여 기존의 방법과 비교 실험하였다.

임상문서표준규격내 검사실 용어의 LOINC 매핑을 위한 LMOF 전처리 도구 (The LMOF Preprocessing Tool for Mapping Laboratory Vocabulary to LOINC in Clinical Document Architecture)

  • 도형호;김일곤;이성기;곽연식
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제35권4호
    • /
    • pp.158-165
    • /
    • 2008
  • LOINC(Logical Observation Identifiers Names and Codes)는 Regenstrief Institute에서 제공하는 병원 검사 명칭 및 임상용어를 위한 표준체계이다. 평생전자건강진료정보에서 검사결과의 교류는 매우 중요한 영역 중 하나이며, 이를 위해서는 현재 각 병원의 표준화되지 않은 검사 명칭을 표준화하는 일이 시급하다. 본 논문에서는 병원의 로컬데이타베이스를 Regenstrief에서 제공하는 LOINC 검색 매핑도구인 RELMA(Regenstrief LOINC Mapping Assistant)가 요구하는 LMOF(Local Master Observation File) 포맷으로 미리 전처리 해주는 도구를 개발함으로써, LOINC 매핑작업을 보다 효율적으로 할 수 있는 해결책을 제시한다. 제안한 도구를 이용하여 로컬데이타베이스를 전처리 한 후 RELMA로 검색하였을 때, 인터페이스 측면에서 기존 전처리하지 않고 RELMA를 사용한 방법에 비해서 사용자의 편의성이 향상되었고 검색되는 키워드가 15% 감소하는 검색의 효율성을 가져올 수 있었다.

전처리에 의한 비트 맵 한글 폰트의 압축 방법 (Preprocessing Method for the Compression of Bitmapped Hangul Fonts)

  • 우정원;김홍배;조경연;이정현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.231-234
    • /
    • 1994
  • 개인용 컴퓨터의 확산과 함께 사용자 인터페이스도 많은 발전을 하여 비데오 디스플레이의 경우 다양한 서체의 글자에 대한 지원이 필요하게 되었다. 한편 비데오 디스플레이의 경우 사용자의 입력에 대하여 빠른 응답으로써 표현되어야 하므로 복잡한 계산 과정을 갖지 않는 폰트를 이용하여야 한다. 여러 가지 종류의 폰트중에서 이에 적합한 폰트는 비트 맵 폰트이나, 비트 맵 폰트는 그 특성상 모든 종류의 서체에 대하여 각각의 데이타를 따로 가지고 있어야 하므로 저장 매체의 용량이 많이 필요하다. 그러므로 이에 대하여 비트 맵 폰트를 압축하여 저장한 다음 사용시에 하드웨어에 의하여 빠르게 복원함으로써 사용자의 입력에 대하여 빠른 응답으로 대처하는 방법에 대한 연구가 이루어지고 있다. 본 논문에서는 간단한 하드웨어를 이용하여 압축 이전에 폰트를 전처리함으로써 기존의 압축을 개선하기 위한 전처리 방법을 제안한다.

  • PDF

웹 사용 마이닝의 정확도 향상을 위한 인기도 기반 전진 참조 기법 (Popularity-weighted Forward Reference Scheme for High Accuracy in Web Usage Mining)

  • 조현웅;김유성
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.133-135
    • /
    • 2001
  • 웹 사용 마이닝의 단계중 패턴 발전을 위해 초기 데이타를 정제하는 전처리 과정은 매우 중요한 작업이다. 전처리 과정의 결과가 높은 정확도를 가지고 있다면 마이닝의 결과 역시 보다 정확한 결과를 생성한다는 것은 여러 연구를 통해 널리 알려진 사실이다. 본 논문에서는 전처리 과정중 내용 페이지를 구분하기 위해 자주 이용되는 기법중 하나인 최대 전진 참조(M.F.R : Maximal Forward Reference) 기법을 개선한 인기도 기반 전진 참조(P.F.R : Popularity-weighted Forward Reference) 기법을 제안하고 예제를 통해 두 기법의 결과를 비교하였다. 그 결과 최대 전진 참조 기법에서 발생할 수 있는 오류를 극복한 인기도 기반 기법이 좀더 정확한 내용 페이지 구분이 가능하여 웹 사용 마이닝 단계에서 유용하게 활용 할 수 있음을 보였다.

  • PDF

개별요소 프로그램 UDEC의 소개 (Universal Distinct Element Code)

  • 이선구;변광욱
    • 전산구조공학
    • /
    • 제4권1호
    • /
    • pp.42-43
    • /
    • 1991
  • 균열성암반의 모형화 기술은 계속적으로 보완발전되어 UDEC이 개발되었으며, 현재 UDEC의 최신판은 블록 내부를 다시 유한차분요소로 분할하여 블록의 소성거동(Mohr-Coulomb Model) 및 쪼개짐을 고려할 수 있고, 절리면에서의 유체흐름 및 유압의 발생, 그리고 열응력 해석 등 평면변형 문제의 정적해석과 지진 및 폭발하중을 고려한 동적해석이 가능하다. UDEC은 전처리 기능이 뛰어나 최소한의 입력데이타로써 전체 모형의 데이타를 자동생성시키며 절리면의 통계학적 자동생성 및 터널형상의 자동생성도 가능하다. UDEC은 실용적인 보강요소를 구비하여 Rock Bolt 뿐만 아니라 그라우트를 고려한 Cable Bolt를 모형화할 수 있으며 국부적인(Key Block)보강으로써 불연속체 전체의 안정을 검토할 수 있다.

  • PDF

지식기반 영상개선을 위한 지문영상의 품질분석 (Fingerprint Image Quality Analysis for Knowledge-based Image Enhancement)

  • 윤은경;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권7호
    • /
    • pp.911-921
    • /
    • 2004
  • 지문영상으로부터 특징점을 정확하게 추출하는 것은 효과적인 지문인식 시스템의 구축에 매우 중요하다. 하지만 지문영상의 품질에 따라 특징점 추출의 정확도가 달라지기 때문에 지문인식 시스템에서의 영상 전처리 과정은 시스템의 성능에 크게 영향을 미친다. 본 논문에서는 지문영상으로부터 명암값의 평균 및 분산, 블록 방향성 차, 방향성 변화도, 융선과 골의 두께 비율 등의 5가지 특징을 추출하고 계층적 클러스터링 알고리즘으로 클러스터링하여 영상의 품질 특성을 분석한 후 습성(oily), 보통(neutral), 건성(dry)의 특성에 적합하게 영상을 개선하는 지식기반 전처리 방법을 제안한다. NIST DB 4와 인하대학교 데이타를 이용하여 실험한 결과, 클러스터링 기법이 영상의 특성을 제대로 구분함을 확인할 수 있었다. 또한 제안한 방법의 성능 평가를 위해 품질 지수와 블록 방향성 차이를 측정하여 일반적인 전처리 방법보다 지식기반 전처리 방법이 품질 지수와 블록 방향성 차이를 향상시킴을 확인할 수 있었다.

상용 데이타 마이닝 도구를 사용한 정량적 연관규칙 마이닝 (Mining Quantitative Association Rules using Commercial Data Mining Tools)

  • 강공미;문양세;최훈영;김진호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권2호
    • /
    • pp.97-111
    • /
    • 2008
  • 상용 데이타 마이닝 도구에서는 기본적으로 이진 속성에 대한 연관규칙 마이닝만을 지원한다. 그러나, 일반적인 트랜잭션 데이타베이스는 이진 속성 뿐 아니라 정량적 속성을 포함한다. 이에 따라, 본 논문에서는 상용 데이타 마이닝 도구를 사용하여 정량적 연관규칙을 마이닝하는 체계적인 접근법을 제안한다. 이를 위해, 우선 상용 데이타 마이닝 도구를 사용하여 정량적 연관규칙을 찾아내기 위한 전체적인 프레임워크를 제안한다. 제안한 프레임워크는 정량적 속성을 이진 속성으로 변환하는 전처리 과정과 마이닝된 이진 연관규칙을 다시 정량적 연관규칙으로 변환하는 후처리 과정으로 구성된다. 다음으로, 전처리 과정을 위한 구간 분할의 개념을 제시하고, 기존의 평균 및 중앙치 기반 양분할 기법과 동일 너비 및 동일 깊이 기반 다분할 기법을 구간 분할의 개념으로 정형적으로 재정의한다. 그런데, 이들 기존 분할 기법은 속성 값의 분포를 고려하지 않은 문제점이 있다. 본 논문에서는 이를 해결하기 위하여 표준편차 최소화 기법을 제안한다. 표준편차 최소화 기법은 이웃한 속성 값의 표준편차 변화가 작다면 동일한 구간에 포함시키고, 표준편차 변화가 크다면 다른 구간으로 분할하는 매우 직관적인 분할 기법이다. 또한, 후처리 과정으로는 이진 연관규칙들을 통합하고 이를 다시 정량적 연관규칙으로 변환하는 방법을 제안한다. 마지막으로, 다양한 실험을 통하여 제안한 프레임워크가 바르게 동작함을 보이고, 표준편차 최소화 기법이 다른 기법에 비하여 우수함을 입증한다. 이 같은 결과를 볼 때, 제안한 프레임워크는 일반 사용자가 상용 데이타 마아닝 도구를 사용하여 정량적 연간규칙을 쉽게 마이닝 할 수 있는 매우 실용적인 접근법이라 생각한다.