• 제목/요약/키워드: data cleansing

검색결과 76건 처리시간 0.023초

데이터웨어하우스에서 이질적 형태를 가진 데이터의 추출을 위한 Extraction Transformation Transportation(ETT) 시스템 설계 및 구현 (Extraction Transformation Transportation (ETT) system Design and implementation for extracting heterogeneous Data on Data Warehouse)

  • 여성주;왕지남
    • 산업경영시스템학회지
    • /
    • 제24권67호
    • /
    • pp.49-60
    • /
    • 2001
  • Data warehouse(DW) manages all information in a Enterprise and also offers the specific information to users. However, it might be difficult to develope an effective DW system due to varieties in computing facilities, data base, and operating systems. The heterogeneous system environments make it harder to extract data and to provide proper information to usesr in real time. Also commonly occurred is data inconsistency of non-integrated legacy system, which requires an effective and efficient data extraction flow control as well as data cleansing. We design the integrated automatic ETT(Extraction Transformation Transportation) system to control data extraction flow and suggest implementation methodology. Detail analysis and design are given to specify the proposed ETT approach with a real implementation.

  • PDF

컴포넌트 기반 샤모아 데이터 정제 도구 개발 (Development of a Component-Based Chamois Data Cleansing Tool Suits)

  • 김은희;최병주
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.310-312
    • /
    • 2003
  • 샤모아 지식공학 시스템(Chamois Knowledge Engineering System)은 대용량의 데이터 소스로부터 의미 있는 지식을 추출하는 시스템이다. 이러한 지식공학 시스템에서 데이터 소스의 품질을 보장하는 일은 매우 중요하다. 본 논문에서는 샤모아 지식공학 시스템에서의 데이터 정제관련 컴포넌트의 구조 및 동작에 대해 기술한다. 또한 이들 컴포넌트들이 동작할 수 있는 컴포넌트 프레임웍의 기능 및 동작에 대해 기술한다. 구현한 데이터 정제 관련 컴포넌트는 컴포넌트 기반의 시스템에서 데이터의 정제를 통해 신뢰성 있는 데이터를 제공하고, 이를 통해 개발하고자 하는 시스템의 품질을 향상 시킬 수 있다.

  • PDF

숫자 기호화를 통한 신경기계번역 성능 향상 (Symbolizing Numbers to Improve Neural Machine Translation)

  • 강청웅;노영헌;김지수;최희열
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권6호
    • /
    • pp.1161-1167
    • /
    • 2018
  • 기계 학습의 발전은 인간만이 할 수 있었던 섬세한 작업들을 기계가 할 수 있도록 이끌었고, 이에 따라 많은 기업체들은 기계 학습 기반의 번역기를 출시하였다. 현재 상용화된 번역기들은 우수한 성능을 보이지만 숫자 번역에서 문제가 발생하는 것을 발견했다. 번역기들은번역할문장에 큰숫자가 있을경우종종숫자를잘못번역하며, 같은문장에서숫자만바꿔번역할 때문장의구조를 완전히바꾸어 번역하기도 한다. 이러한 문제점은오번역의 가능성을 높이기 때문에해결해야 될 사안으로여겨진다. 본 논문에서는 Bidirectional RNN (Recurrent Neural Network), LSTM (Long Short Term Memory networks), Attention mechanism을 적용한 Neural Machine Translation 모델을 사용하여 데이터 클렌징, 사전 크기 변경을 통한 모델 최적화를 진행 하였고, 최적화된 모델에 숫자 기호화 알고리즘을 적용하여 상기 문제점을 해결하는 번역 시스템을 구현하였다. 본논문은 데이터 클렌징 방법과 사전 크기 변경, 그리고 숫자 기호화 알고리즘에 대해 서술하였으며, BLEU score (Bilingual Evaluation Understudy score) 를 이용하여 각 모델의 성능을 비교하였다.

고품질 데이터를 지원하는 교통데이터 웨어하우스 구축 기법 (An Integrated Framework for Data Quality Management of Traffic Data Warehouses)

  • 황재일;박승용;나연묵
    • 한국공간정보시스템학회 논문지
    • /
    • 제10권4호
    • /
    • pp.89-95
    • /
    • 2008
  • 본 논문에서는 교통데이터 웨어 하우스에서 데이터 품질 관리를 위한 통합기법을 제안한다. 고속도로 교통관리시스템(FTMS)과 우회도로 교통정보시스템(ARTIS) 으로부터 대용량 교통데이터를 수집하여 데이터 웨어하우스를 구축하기 위한 방안을 기술하고, 다양한 분석을 위한 고품질 교통데이터를 제공하기 위한 통합 데이터 품질관리 기법을 제안하고 구현 평가한다. 제안된 통합 데이터 품질관리 기법을 활용하면 연구자들에게 검증된 고품질 교통데이터를 제공할 수 있고, 데이터처리와 평가를 위한 별도의 비용을 절감할 수 있을 것으로 기대된다.

  • PDF

영유아 체온 데이터 기반 빅데이터 분석 및 학습을 위한 데이터 수집 시스템 구현 (Implementation of a data collection system for big data analysis and learning based on infant body temperature data)

  • 이현섭;허경용
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.577-578
    • /
    • 2021
  • 최근 다양한 분야에서 인공지능 시스템이 활용되고 있다. 인공지능의 결정 알고리즘의 정확도는 학습량과 학습데이터의 정확도에 기인한다. 학습량의 경우 인공지능 성능에 결정적인 영향을 미치기 때문에 많은 양의 데이터가 필요하다. 학습데이터의 정확도는 여러 정제 단계를 거치면서 보정할 수 있으나 분석 이외의 자원 소모를 추가로 가져온다. 본 논문에서는 영유아의 체온 데이터를 기반으로 향후 나타날 수 있는 병증 및 유아의 상태 변화를 분석하는 시스템 구축을 위한 데이터 수집 시스템에 대하여 제안한다. 제안된 시스템은 기존 빅데이터 분석 및 학습 데이터 구축에서 서버 시스템의 자원 소모를 최소화할 수 있을 것으로 사료 된다.

  • PDF

Development and Comparison of Data Mining-based Prediction Models of Building Fire Probability

  • 홍성관;정승렬
    • 인터넷정보학회논문지
    • /
    • 제19권6호
    • /
    • pp.101-112
    • /
    • 2018
  • A lot of manpower and budgets are being used to prevent fires, and only a small portion of the data generated during this process is used for disaster prevention activities. This study develops a prediction model of fire occurrence probability based on data mining in order to more actively use these data for disaster prevention activities. For this purpose, variables for predicting fire occurrence probability of various buildings were selected and data of construction administrative system, national fire information system, and Korea Fire Insurance Association were collected and integrated data set was constructed. After appropriate data cleansing and preprocessing, various data mining methodologies such as artificial neural network, decision trees, SVM, and Naive Bayesian were used to develop a prediction model of the fire occurrence probability of buildings. The most accurate model among the derived models is Linear SVM model which shows 68.42% as experimental data and 63.54% as verification data and it is the best model to predict fire occurrence probability of buildings. As this study develops the prediction model which uses only the set values of the specific ranges, future studies may explore more opportunites to use various setting values not shown in this study.

치과 진료실 감염방지 실천에 관한 연구 (A study on the implementation of infection control at dental offices)

  • 우승희;곽정숙;주온주;임근옥
    • 한국치위생학회지
    • /
    • 제9권3호
    • /
    • pp.282-293
    • /
    • 2009
  • The purpose of this study was to examine the degree of infection control implemented at dental offices and factors affecting it in an attempt to help promote the health of dental health care workers. The subjects in this study were 180 medical personnels who worked at dental offices in the region of South Jeolla Province. A self-administered survey was conducted from April 1 to May 30, 2008, and the collected data were analyzed. The findings of the study were as follows: 1. As for the implementation of infection control at the dental offices, what the health care workers investigated did the most was post-treatment hand washing(95.0), a constant separation of infectious wastes(94.4), wearing rubber gloves all the time during medical instrument cleansing(92.8) and pre-treatment hand washing(91.7). 2. In regard to the implementation of infection control at the dental offices, what the dental personnels did the least was drying their hands with air(5.0), wearing goggles in times of treatment(23.3), receiving regular education on infection control(26.7) and putting sterilizers to a performance test on a regular basis(43.9). 3. The dental health care workers were significantly different according to age in the management of contagious diseases(p=0.005). Their career made a significant difference to the management of contagious diseases(p=0.000) and instrument cleansing/sterilization(p=0.043). The service area made a significant difference to wearing and managing personal protective clothes (p=0.040) and waste management(p=0.040). 4. Concerning the relationship between the acquisition of dental hygienist certificate and the practice of infection control, whether the dental health care workers were certified or not made no significant difference to that. 5. As to the correlation among the factors affecting the prevention and management of contagious diseases, there was a positive correlation among hand washing(r=0.379), wearing and managing personal protective clothes(r=0.349), instrument cleansing/sterilization(r=0.323) and waste management(r=0.388). All the factors made a statistically significant difference to the prevention and management of contagious diseases(p<0.01).

  • PDF

LOD 클라우드에서의 연결정책 기반 동일개체 심층검색 및 정제 시스템 구현 (Implementation of Policy based In-depth Searching for Identical Entities and Cleansing System in LOD Cloud)

  • 김광민;손용락
    • 인터넷정보학회논문지
    • /
    • 제19권3호
    • /
    • pp.67-77
    • /
    • 2018
  • 본 연구에서는 동일연결트리플들을 생성하는 대신 각 LOD마다 연결정책을 수립, 공개하고 검색 시점에서 참조하는 방식으로 개체간의 동일성을 파악하는 방안과 이러한 연결정책을 명세하기 위한 어휘를 제안하였다. 또한, 연졀정책이 운영되는 환경에서 여러 LOD들에 걸친 심층검색이 실질적으로 진행되는 것을 확인하기 위하여 PISC(Policy based In-depth Searching and Cleansing)을 구현하였으며 이를 Github에 공개하였다. LOD 클라우드는 여러 LOD들의 자발적인 참여로 이루어짐에 따라 검색된 개체들의 동일성에 대한 평가가 필요하다. 이에, PISC는 개체간 동일성 평가를 통하여 사용자가 요구한 동일수준 이상의 개체들로 정제된 검색결과를 제공한다. 검색결과로는 RDF로 모델링된 개체별 상세 검색내용과 이에 대한 의미적 구조인 온톨로지를 함께 제공된다. PISC에 대한 실험은 DBpedia의 5개 LOD를 대상으로 진행하였으며 소스와 타겟 RDF 트리플 목적어의 유사도를 0.9 정도로 요구할 경우 검색결과가 적절한 확장률과 포함률을 가지는 것으로 확인하였다. 또한, 연결정책에는 3개 이상의 타겟LOD를 명세할 경우 동일성이 충분히 검증된 개체들을 확보할 수 있는 것으로 확인하였다.

데이터웨어하우스를 위한 XMDR 기반의 데이터 정제시스템 설계 (Design of data cleansing system based on XMDR for Datawarehouse)

  • 송홍율;첸드 아유시;정계동;최영근
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.180-182
    • /
    • 2010
  • 데이터웨어하우스는 기업의 정책을 결정하는데 사용하고 있다. 그러나, 새로운 시스템이 추가되면 데이터 통합 측면에서 시스템간의 여러 가지 이질적인 특성으로 인해 많은 비용과 시간이 필요로 하게 된다. 따라서, 이러한 이질적인 특성을 해결하기 위해 데이터 구조의 이질성 및 데이터 표현의 이질성은 XMDR(eXtended Master Data Registry)를 이용하여 추상화된 쿼리를 생성하고, XMDR에 맞게 쿼리를 분리함으로써 이질성을 해결한다. 특히 본 논문에서는 XMDR을 이용하여 분산 시스템 통합시 로컬시스템의 영향을 최소화하고, 데이터웨어하우스의 정보를 실시간으로 생성하기 위해 분산된 환경에서 데이터 통합을 위한 표준화된 정보를 제공한다. 또한, 기존 시스템의 변경 없이 데이터를 통합하여 비용과 시간을 절감하고, 실시간 데이터 추출 및 정제 작업을 통해 일관성있는 실시간 정보를 생성하여 정보의 품질을 향상시킬수 있도록 한다.

대장내시경 전처치 융합관리프로그램의 효과 (The Effect of Bowel Preparation Convergence Program for Colonoscopy)

  • 강원숙;김주성
    • 한국융합학회논문지
    • /
    • 제9권1호
    • /
    • pp.473-483
    • /
    • 2018
  • 본 연구목적은 대장내시경 전처치 융합관리프로그램의 효과를 확인하기 위함이다. 비동등성 대조군 시차설계에 따라 대장내시경 검진예정자 75명을 연구대상으로 하였다. 실험군에게는 동영상교육, 걷기운동 및 전화상담모니터링으로 구성한 대장내시경 전처치 융합관리프로그램을 적용하였다. 자료는 구조화된 질문지와 대장내시경 관찰을 통해 수집하였으며 SPSS 21.0 program을 이용하여 분석하였다. 연구결과 실험군의 대장정결제 복용이행도와 검사만족도는 대조군보다 높았고(p=.002; p=.001), 검사난이도와 검사불편감은 유의하게 낮았다(p=.002; p=.001). 대장정결도와 검진소요시간에는 두 집단 간 유의한 차이가 있었으나 식이요법이행도는 차이가 없었다((p<.001; p=.001; p=.108). 따라서 대장내시경 전처치 융합관리프로그램은 대장내시경검사를 위한 효과적인 간호중재방안으로 활용될 수 있으며 향후 임상실무에서 다양한 진단적 검사를 위한 융합중재개발이 요구된다.