• 제목/요약/키워드: 데이터 클리닝

검색결과 20건 처리시간 0.029초

SQL 기반 RFID 클리닝 모듈 설계 (Design of SQL Based RFID Cleaning Module)

  • 윤희성;김동균;이상정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.1088-1091
    • /
    • 2007
  • RFID 기술의 상용화를 저해하는 한 요소인 태그 인식률 문제를 보완하기 위한 클리닝 모듈을 설계한다. 클리닝 모듈은 RFID 리더로부터 원본 데이터를 클리닝 모듈을 통해 애플리케이션에서 사용 가능한 수준의 정보로 가공한다. 클리닝 모듈의 성능을 확인하기 위해 태그의 논리적인 구역을 정하고 태그의 이동을 추적한다. 실험결과를 통해 클리닝 모듈 적용 전후를 비교하여 모듈의 성능을 평가한다.

Cleaning Noises from Time Series Data with Memory Effects

  • Cho, Jae-Han;Lee, Lee-Sub
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권4호
    • /
    • pp.37-45
    • /
    • 2020
  • 딥러닝의 개발 프로세스는 대량의 수작업이 요구되는 반복적인 작업으로 그 중 학습 데이터 전처리는 매우 큰 비용이 요구되며 학습 결과에 중요한 영향을 주는 단계이다. AI의 알고리즘 연구 초기에는 주로 데이터 과학자들에 의해 완벽하게 정리하여 제공된 공개 DB형태의 학습데이터를 주로 사용하였다. 실제 환경에서 수집된 학습 데이터는 주로 센서들의 운영 데이터이며 필연적으로 노이즈가 많이 발생할 수 있다. 따라서 노이즈를 제거하기 위한 다양한 데이터 클리닝 프레임워크와 방법들이 연구되었다. 본 논문에서는 IoT환경에서 발생 될 수 있는 센서 데이터와 같은 시계열 데이터에서 노이즈를 감지하고 제거하는 방법을 제안하였다. 이 방법은 선형회귀 방법을 사용하여 시스템이 반복적으로 노이즈를 찾아내고, 이를 대체할 수 있는 데이터를 제공하여 학습데이터를 클리닝한다. 제안된 방법의 효과를 검증하기 위해서 본 연구에서 시뮬레이션을 수행하여, 최적의 클리닝 결과를 얻을 수 있는 인자들의 결정 방법을 확인하였다.

로그 구조 파일 시스템의 파일 단편화 해소를 위한 클리닝 기법 (An Efficient Cleaning Scheme for File Defragmentation on Log-Structured File System)

  • 박종규;강동현;서의성;엄영익
    • 정보과학회 논문지
    • /
    • 제43권6호
    • /
    • pp.627-635
    • /
    • 2016
  • 로그 구조 파일 시스템에서는 쓰기 작업을 처리할 때 새로운 블록들이 순차적으로 할당된다. 그러나, 다수의 프로세스가 번갈아가며 동기적 쓰기 작업을 요청할 경우, 파일 시스템 상에서는 각 프로세스가 생성한 파일이 단편화될 수 있다. 이 파일 단편화는 읽기 요청을 처리할 때 다수의 블록 I/O를 발생시키기 때문에 읽기 성능을 저하시킨다. 게다가, 미리 읽기 기능은 한 번에 요청되는 데이터의 양을 증가시킴으로써 성능 저하를 더욱 심화시킨다. 이에, 본 논문에서는 파일 단편화 문제를 해결하기 위해 로그구조 파일 시스템의 새로운 클리닝 기법을 제안한다. 제안 기법은 로그 구조 파일 시스템의 클리닝 과정 중 유효 데이터 블록을 아이노드 번호 순으로 정렬함으로써 한 파일의 데이터 블록들을 인접하게 재배치한다. 실험 결과, 제안한 클리닝 기법이 클리닝 전에 비해 약 60%의 파일 단편화를 제거하였고, 그 결과로 미리 읽기 기능을 적용했을 때 읽기 성능을 최고 21%까지 향상시키는 것을 확인하였다.

플래시 메모리 파일 시스템을 위한 순수도 기반 페이지 할당 기법에 대한 연구 (A Study of Purity-based Page Allocation Scheme for Flash Memory File Systems)

  • 백승재;최종무
    • 정보처리학회논문지A
    • /
    • 제13A권5호
    • /
    • pp.387-398
    • /
    • 2006
  • 본 논문에서는 플래시 메모리 파일 시스템을 위한 새로운 페이지 할당 기법을 제안한다. 제안된 기법은 순수도를 고려하여 페이지를 할당하며, 이때 순수도는 플래시 메모리에서 유효한 페이지와 유효하지 않은 페이지가 공존하는 블록의 비율로 정의된다. 순수도는 플래시 메모리 파일 시스템의 블록 클리닝(block cleaning) 비용, 구체적으로 블록 클리닝을 수행할 때 복사해야할 페이지와 삭제해야할 블록의 양을 결정한다. 제안된 기법은 순수도를 향상시키기 위해 빈번하게 변경되는 데이터와 그렇지 않은 데이터를 구분하고, 이들을 서로 다른 블록에 할당한다 데 이터의 구분은 데이터의 속성 등의 정적 특성과 수행 시 변경 횟수 등의 동적 특성을 모두 고려한다 제안된 기법은 내장형 보드와 YAFFS 상에 구현되었으며, 성능 분석 결과 기존 YAFFS에 비해 최대 15.4초 (평균 7.8초) 블록 클리닝 시간을 단축시켰다. 또한 이용율이 증가함에 따라 제안된 기법이 더욱 좋은 성능을 제공하였다.

데이터 품질 관리 : CRM을 사례로 연산자와 매칭기법 중심 (Data Quality Management: Operators and a Matching Algorithm with a CRM Example)

  • 심준호
    • 한국전자거래학회지
    • /
    • 제8권3호
    • /
    • pp.117-130
    • /
    • 2003
  • CRM 과 같은 전자상거래응용시스템에서 동일한 데이터의 중복이나 불일치는 종종 일어나며 이는 바람직하지 못하다. 데이터 품질 관리란 데이터들간의 비 일치와 중복을 발견하고 제거함을 목적으로 한다. 통상적인 데이터 품질관리 프로세스는 클리닝, 매칭, 통합의 세 단계를 거친다. 본 논문에서는 일반적인 데이터 품질 관리를 각 단계별로 필요한 연산자들을 정의한다. 특히 실제적 인 시스템 구현에서 필요한 매칭 단계에서 사용하는 거리함수와 매칭 알고리즘을 제안하며, 마지막으로 관련 연구를 제시한다.

  • PDF

LFS의 쓰기 성능 최적화를 위한 세그먼트 공간 재활용 기법 (A Segment Space Recycling Scheme for Optimizing Write Performance of LFS)

  • 오용석;김은삼;최종무;이동희;노삼혁
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권12호
    • /
    • pp.963-967
    • /
    • 2009
  • LFS(Log-structured File System)는 쓰기 요청을 세그먼트 버퍼에 모으고, 세그먼트 단위로 순차 기록함으로써 무작위 쓰기에서도 최적의 성능을 보여준다. 그러나 디스크의 공간이 유한하여, LFS는 여유 세그먼트를 생성하는 클리닝을 수행해야 한다. 파일 시스템의 사용률이 증가함에 따라 세그먼트 클리닝 비용이 급격히 증가하는 단점이 있다. 본 논문에서는 LPS의 쓰기 성능 최적화를 위한 세그먼트 공간 재활용 기법을 설명한다. 이 기법은 유효 세그먼트를 재활용하여 여유 공간을 생성하는 방법으로 빈 세그먼트가 없이 쓰기요청을 처리 할 수 있다. 따라서 높은 비용의 클리닝 동작 없이, 데이터를 세그먼트 내 여유공간에 동적 재배치하여 쓰기요청을 처리한다. 또한 효율적인 세그먼트 공간 재활용을 위해 데이터 및 세그먼트의 지역성을 고려하는 분류기법을 설명한다. 실험 결과에서 이 기법은 파일 시스템의 사용률이 90%인 경우에도 기존 WOLF 기법을 사용한 LFS 보다 HDD에서 1.9배, SSD에서 1.6배의 성능향상을 보여준다.

플래쉬 메모리를 위한 클리닝 정책 설계 및 구현 (Design and Implementation of Cleaning Policy for Flash Memory)

  • 임대영;윤기철;김길용
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.217-219
    • /
    • 2001
  • 플래쉬 메모리는 데이터 저장 및 변경이 가능한 비휘발성 메모리로 가벼운 무게, 낮은 전력 소모, 충격에 대한 저항성과 빠른 데이터 처리 능력 때문에 이동형 컴퓨터 시스템에서 사용하기에 적당하다. 그러나 플래쉬 메모리는 덮어쓰기(update-in-place)가 불가능하고 각 메모리 셀에 대해 초기화 작업(erasing operation)의 수가 제한되어 있다. 이러한 단점들을 고려하여 세그먼트의 데이터 중 유효 데이터의 비율과 hot 데이터(가까운 시간 안에 update가 될 것이라는 예상되는 data)의 수, 세그멘트가 초기화되었던(easing) 횟수 등을 고려한 새로운 초기화 기법(cleaning policy)을 제안하고자 한다.

소방공무원을 위한 외상후스트레스장애(PTSD) 웹기반교육 개발 (Development of PTSD Web-based learning)

  • 김지희
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2009년도 추계학술발표논문집
    • /
    • pp.212-213
    • /
    • 2009
  • 본 연구의 목적은 소방공무원이 현장에서 겪는 충격 스트레스로 발생하는 외상 후 스트레스장애 (posttraumatic stress disorder, PTSD) 분석을 통해 위기상황 스트레스 해소 교육 프로그램 기초 자료를 제시하고자 하는 데 있다. 연구 목적을 달성하기 위하여 독립변인(업무부담감, 스트레스, 스트레스 대응) 3개, 매개변인(현장충격 스트레스) 1개, 종속변인(신체적 증상)으로 구성하여 영향력을 파악하였다. 본 연구 대상자는 전국 970명 소방공무원으로 2007년 3월부터 12월까지 구조화된 설문지를 이용하여 조사하였다. 자료분석은 SPSS 14.0과 구조방정식 모형인 AMOS 7.0 통계패키지를 사용하였으며, 정확한 코딩데이터의 입력확인을 위해 데이터클리닝(data cleaning) 작업을 실시하였다. 가설검증을 위하여 구조방정식 모형분석을 실시한 결과, 업무부담감, 스트레스, 현장충격 스트레스가 낮고, 스트레스 대응이 높을 때 신체적 증상이 낮아지는 것으로 나타났다. 서울소방학교와 공동으로 총 10개 차시로 웹기반 교육을 구성하였으며, 2010년 1월부터 소방공무원 전체를 대상으로 웹기반 교육을 실시하고자 한다.

  • PDF

RFID 상황인식 시스템을 위한 UPnP 서비스 (UPnP Services for RFID Context-Aware System)

  • 김동균;전병찬;이상정
    • 한국정보통신학회논문지
    • /
    • 제12권11호
    • /
    • pp.2005-2014
    • /
    • 2008
  • 본 논문에서는 UPnP를 이용하여 RFID 서비스 발견 및 제어를 할 수 있는 상황인식 서비스 시스템을 제안한다. 제안된 시스템은 자원이 부족한 RFID 태그의 서비스를 위한 미들웨어 플랫폼으로 UPnP를 적용한다. UPnP를 적용하여 시스템을 구축하면 상황인식 서비스의 개발이 용이하며 별도의 설정 없이도 RFID 디바이스 서비스를 제공받을 수 있다. 또한, RFID의 상황인식 데이터의 신뢰도를 높이기 위하여 SQL 기반의 클리닝 (cleaning) 모듈을 설계하고 구현한다. 제안 개발된 클리닝 모듈을 적용하여 RFID 시스템의 태그에 대한 순수 인식률을 $60{\sim}80%$ 정도에서 98% 이상으로 향상 시켰다. 제안된 UPnP 기반 RFID 상황인식 서비스 검증을 위하여 물류서비스에 대한 상황인식 시나리오를 제시하고, RFID 서비스 아키텍처 와 UPnP 서비스 발견 플랫폼을 구현하였다. 또한, 구현된 시나리오상에서 UPnP 서비스 광고 메시지의 네트워크 혼잡 기여도와 RFID 시스템의 태그에 대한 순수 인식률을 실험하고 분석하여 제안된 방식의 타당성을 검증한다.

효율적인 유사문자열 검색을 위한 역리스트 탐색 기법 (Efficient Approximate String Searches with Inverted Lists through Search Range Reduction)

  • 이은석;김종익
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1310-1313
    • /
    • 2011
  • 유사문자열 검색이란 문자열 집합에서 주어진 문자열과 유사한 문자열들을 검색하는 것으로 정보검색, 데이터 클리닝 등의 분야에서 활용되고 있다. 효율적인 유사문자열 검색을 위해 사전에 문자열 집합에 대한 역리스트를 구성하고 문자열이 주어졌을 때, 주어진 문자열에 관련된 역리스트를 병합하여 유사도 기준을 만족하는 문자열을 찾는다. 이때 비용을 줄이기 위해 일부의 역리스트만 병합하고 나머지 역리스트에 대해서는 이진탐색을 하는 방법이 있다. 본 논문에서는 역리스트를 이진탐색할 때, 불필요한 탐색구간을 제거하여 역리스트 탐색 비용을 줄이는 방법을 제안한다.