• 제목/요약/키워드: 데이터 정제

검색결과 470건 처리시간 0.023초

질의 재구성 기반의 XQuery 질의 정제 (XQuery query Refinement Based on Query Rewriting)

  • 최성일;박종현;강지훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.62-65
    • /
    • 2006
  • XML은 웹 상에서 데이터의 표현과 교환을 위한 표준이다. XQuery는 XML 질의를 위한 W3C 표준으로서 XML 문서를 효율적으로 검색하기 위해서 W3C에서 제안한 표준질의어이다. XQuery가 등장하면서, 이를 빠르게 처리하기 위한 연구가 많이 진행 중이며, 이 연구 중 한 분야는 XQuery 질의를 정제하는 것이다. 사용자에 따라 다양하게 작성되는 XQuery 질의들은 정제되어 있지 않을 수 있다. 질의의 불필요한 연산이나 표현을 제거하여 간결하게 만드는 것은 질의를 효율적으로 처리하게 하여 성능을 향상시키는데 도움을 준다. 이에 대한 이전의 연구들은 XML 데이터의 저장구조나 시스템에 의존적인 질의 정제방법을 사용하므로 이들 방법을 일반적인 XQuery 질의 정제로 볼 수는 없다. 그러나 우리의 정제방법은 XQuery 질의를 기반으로 하여 일반적인 상황에서도 질의의 정제가 가능하므로 XQuery를 입력으로 하는 다른 시스템에서 우리의 방법으로 입력 질의를 정제하여 효율적으로 질의를 처리할 수 있다. 본 논문에서는 XQuery 질의를 효율적으로 처리하기 위하여 두가지 정제방법을 제안한다. 첫째는 불필요한 연산이나 표현을 제거하는 방법이고, 둘째는 질의의 순서를 재배치하는 방법이다. 이 방법들을 통하여 질의를 보다 빠르고 효율적으로 처리하도록 한다. 끝으로, 우리는 성능평가를 통하여 우리의 정제방법의 효율성을 입증한다.

  • PDF

데이터 정제를 통한 딥러닝 기반의 유저 맞춤형 음식추천시스템 (User-specific Food Recommended System Using Data Cleaning)

  • 김균엽;강상우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.578-581
    • /
    • 2020
  • 제품을 추천하는 기능은 사용자의 콘텐츠 또는 제품 소비량에 직결되기에 다양한 인터넷 플랫폼에서 많은 관심을 받고 있다. 이러한 제품 추천 시스템의 성능은 다양한 머신러닝 알고리즘과 딥러닝의 발전에 의해 성능을 비약적으로 개선되어왔다. 하지만 여느 딥러닝과 머신러닝 알고리즘과 마찬가지로 추천 시스템들의 성능은 빅데이터의 품질에 따라 매우 민감한 영향을 받는다. 본 논문에서는 모바일 배달 플랫폼에서 사용자들의 리뷰 데이터들을 통해 딥러닝과 빅데이터를 사용하여 음식을 추천하는 방법을 제안한다. 또한 사용자들의 리뷰 데이터들을 정제하여 데이터의 품질을 높이는 과정을 추가하여 그 결과가 성능에 얼마만큼 영향을 미치는 지를 실험을 통하여 분석한다.

  • PDF

TCP/IP 소켓을 이용한 원격 측정 장치의 실험 데이터 통합 관리 시스템 개발 (Management System for Experimental Data In Remote Measurement Device Using TCP/IP Socket)

  • 김선영;조환규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(B)
    • /
    • pp.397-400
    • /
    • 2010
  • 최근의 과학 실험은 그 규모나 내용에 있어서 점차 대형화되는 동시에 복잡해지고 있다. 이로 인하여 다양한 측정 장비로부터 도출된 실험 결과를 효율적으로 분석, 관리, 종합하는 도구의 필요성이 커지고 있다. 본 논문에서는 원격 측정 장치로부터 서로 다른 포맷의 실험 데이터를 자동 수집한 후 이중 정제한 데이터들만 추출하여 웹에서 시각화하는 실험 데이터 통합 관리 시스템을 제안한다. 먼저 원격 측정 장치의 데이터를 자동으로 수집하기 위해 폴링 서버를 설계하여 장치마다 폴링 에이전트를 도입하였다. 이를 통해 관리자가 각 측정 장치에 직접 접근하지 않고도 데이터를 수집할 수 있다. 폴링으로 확보한 데이터는 파싱을 통해 정제하고, 이들 데이터로 데이터베이스를 구축한다. 정제한 데이터는 시각화하여 사용자가 웹에서 쉽게 파악할 수 있다. 데이터 폴링은 TCP/IP Socket을 통해 수행하므로 보편적으로 사용하는 FTP 방식에 비해 데이터 확보 시 신뢰성을 높일 수 있으며, 폴링 여부 판단 시에는 동기식, 실제 폴링 시에는 비동기식 통신 방법을 사용하여 폴링의 효율을 높였다. 본 시스템을 활용하여 사용자의 임의적인 데이터 접근을 최소화하였고 데이터의 전송, 저장, 관리를 자동화함으로써 편의성을 높였다. 본 시스템을 활용하여 원격 실험 장치로부터 데이터를 확보할 때의 정확성과 폴링 및 파싱 속도를 실험을 통해 측정하였고, 그 결과 폴링 시 100%의 정확도와 정상 포맷의 데이터에 대해서 100%의 파싱 결과를 보임으로써 본 시스템이 원격 장치의 실험 데이터를 통합 관리할 때 적합함을 알 수 있었다. 추후 데이터의 속성에 따라 클러스터링 할 예정이며 클러스터링에 따른 시각화 서비스를 제공할 계획이다.

  • PDF

도메인 변화에 강건한 사전학습 표 언어모형 (Domain-agnostic Pre-trained Language Model for Tabular Data)

  • 조상현;최제훈;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.346-349
    • /
    • 2021
  • 표 기계독해에서는 도메인에 따라 언어모형에 필요한 지식이나 표의 구조적인 형태가 변화하면서 텍스트 데이터에 비해서 더 큰 성능 하락을 보인다. 본 논문에서는 표 기계독해에서 이러한 도메인의 변화에 강건한 사전학습 표 언어모형 구축을 위한 의미있는 표 데이터 선별을 통한 사전학습 데이터 구축 방법과 적대적인 학습 방법을 제안한다. 추출한 표 데이터에서 구조적인 정보가 없이 웹 문서의 장식을 위해 사용되는 표 데이터 검출을 위해 Heuristic을 통한 규칙을 정의하여 HEAD 데이터를 식별하고 표 데이터를 선별하는 방법을 적용했으며, 구조적인 정보를 가지는 일반적인 표 데이터와 엔티티에 대한 지식 정보를 가지는 인포박스 데이터간의 적대적 학습 방법을 적용했다. 기존의 정제되지 않는 데이터로 학습했을 때와 비교하여 데이터를 정제하였을 때, KorQuAD 표 데이터에서 f1 3.45, EM 4.14가 증가하였으며, Spec 표 질의응답 데이터에서 정제하지 않았을 때와 비교하여 f1 19.38, EM 4.22가 증가한 성능을 보였다.

  • PDF

한의학에서의 사상체질판별함수 개발에 관한 연구 (II) - 도수분석에 의한 변수선택 -

  • 김규곤;조민형
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2004년도 춘계학술대회
    • /
    • pp.69-77
    • /
    • 2004
  • 본 논문에서는 한방병원에서 사상체질분류검사설문지를 이용하여 사상체질을 진단할 때 진단의 정확도를 향상시키기 위한 사상체질분류함수를 개발하기 위하여 데이터마이닝에서의 판별분석모형을 이용한다. 데이터 정제 과정에서 양질의 데이터를 확보하기 위한 기준은 상반되는 설문의 응답 패턴과 체질별 설문의 응답 비율을 이용하며, 변수선택의 기준은 도수분석의 비율차이검정과 선형판별함수의 계수를 이용한다.

  • PDF

비즈니스 인텔러전스를 위한 지능적 웹 로거 (An Intelligent Web Logger for Business Intelligence)

  • 임윤선;정안모;김명
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.271-273
    • /
    • 2001
  • 웹 로그는 웹 서버를 통해 이루어지는 작업들에 관한 기록으로써, OLAP이나 데이터 마이닝과 같은 비즈니스 인텔리전스 기술로 분석되어 고부가가치 창출에 사용되는 중요한 자료이다. 웹 로그에는 파일 이름과 같은 물리적인 데이터가 저장되는데 이러한 데이터는 분석에 사용되기 전에 정제과정을 통해 의미 있는 데이터로 변환되거나 불필요한 경우에는 삭제된다. 웹 로그 데이터의 분량을 적정선으로 유지하면서 데이터 정제 작업의 일부가 해결되도록 하는 방법으로 웹로그 생성단계에서 시스템이 제공하는 필터를 쓸 수 있다. 그러나, 필터로는 웹 페이지의 내용이 동적으로 변경되는 경우 그 상황을 즉시 반영하기가 쉽지 않다. 본 연구에서는 웹 로그가 ‘지능적 웹 로거’를 통해 생성되도록 하여 이러한 문제를 해결하였다. ‘지능적 웹 로거’를 통해 불필요한 데이터의 생성을 막고, 물리적인 데이터를 신속하게 의미 있는 데이터로 변환하도록 하였다. 웹 페이지의 변경 내용을 웹 로그 생성에 즉시 반영하여 의미 있는 데이터 생성에 이용함으로써, 웹 로그 생성 후에 실행되던 데이터 정제작업 자체를 단순화시켰고, 웹사이트 관리자가 편리한 사용자 인터페이스로 로그 규칙을 만들어 적용할 수 있도록 하였다.

  • PDF

일반적인 다각형 모양의 질의 윈도우를 이용한 공간 선택 질의의 정제 전략 (A Refinement Strategy for Spatial Selection Queries with Generally Shaped Query Window)

  • 유준범;정진완
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.52-54
    • /
    • 2001
  • 공간 선택 질의에 사용되는 질의 윈도우로는 직사각형이 주로 사용된다. 하지만, 최근에는 GIS 등과 같은 응용 프로그램들이 성능 향상으로 인해 보다 다양한 종류의 응용이 등장하고 있으므로, 직사각형뿐만 아니라 임의의 다각형 형태의 질의 윈도우에도 적합한 정제 단계 수행 전략에 대해 고려해 볼 필요가 있다. 이러한 전략으로는 기존의 공간 조인에서와 같이 plane-sweep 알고리즘을 이용하는 방법이 일반적이다. 하지만, 공간 데이터와 질의 위도우의 특성을 관찰해보면, 일반적으로 질의 윈도우가 공간 데이터보다 훨씬 간단한 모양으로 구성되어 있음을 알 수 있으므로, 본 논문에서는 이러한 상황에 보다 적합한 정제 단계 수행 방법을 제시하고 있으며, 실험을 통하여 제시한 방법의 우수성을 입증하고 있다.

  • PDF

클라우드 환경에서 XMDR-DAI를 이용한 데이터 정제 시스템 (Data Cleaning System using XMDR-DAI in Cloud)

  • 문석재;정계동;이종용;최영근
    • 디지털융복합연구
    • /
    • 제12권2호
    • /
    • pp.263-270
    • /
    • 2014
  • 클라우드 환경에서 비즈니스 인텔리전스를 위한 DW(Data Warehouse)는 기업 내에 데이터를 의사결정, 기업 정책을 결정하는데 사용하고 있다. 그러나 클라우드 환경에서 새로운 시스템이 추가되면 데이터 통합 측면에서 시스템간의 여러 가지 이질적인 특성으로 인해 많은 비용과 시간이 필요로 하게 된다. 따라서 본 논문에서는 클라우드 환경에서 비즈니스 인텔리전스를 위한 데이터 정제 시스템을 제안한다. 제안 시스템은 XMDR-DAI를 이용하여 분산된 시스템을 통합할 때 로컬 시스템의 영향을 최소화하고, DW의 정보를 실시간으로 생성하기 위해 데이터 통합을 위한 표준화된 정보를 제공한다. 또한 기존 시스템의 변경 없이 데이터를 통합하여 비용과 시간을 절감하고, 실시간 데이터 추출 및 정제 작업을 통한 일관성 있는 실시간 정보를 생성하여 정보의 품질의 향상시킬 수 있도록 한다.

비즈니스 서비스간의 오류 정제를 위한 데이터 제약조건 자동 설정 기법 (An Automatic Setting Method of Data Constraints for Cleansing Data Errors between Business Services)

  • 이정원
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권3호
    • /
    • pp.161-171
    • /
    • 2009
  • 본 논문에서는 SOA(Service-Oriented Architecture)를 기반으로 서비스간에 상호 작용하는 데이터의 품질 관리를 위한 오류 정제 서비스를 대상으로 데이터 제약조건 설정 시 인간 개입을 최소화하기 위한 기법을 제안한다. 단, 실세계에서 통용되는 일반적인 데이터를 모두 다루는 것은 불가능하므로 비즈니스 도메인에서 자주 사용되는 CRM(Customer Relationship Management)과 ERP(Enterprise Resource Planning) 서비스와 같이 고객 주문 정보 및 처리에 관련된 데이터를 대상으로 한다. 이를 위해, 컴포지션 되는 서비스간의 상호 작용하는 데이터를 의미적으로 확장하여 확장-엘리먼트 벡터를 생성하고 이를 기반으로 의사결정 트리(decision tree) 학습 방법을 적용하여 제약조건 설정을 자동화하기 위한 규칙 기반 시스템을 구축한다. 이 시스템을 오류정제 서비스에 삽입한 결과, 비즈니스 분야의 공개된 서비스로부터 데이터 학습을 통해 제약조건 설정을 41% 넘게 자동화 할 수 있음을 보였다.

한의학에서의 사상체질판별함수 개발에 관한 연구 (I) - 크론박 알파 계수에 의한 변수선택 -

  • 김규곤;최승배
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2004년도 춘계학술대회
    • /
    • pp.61-68
    • /
    • 2004
  • 본 논문에서는 한방병원에서 사상체질분류검사설문지를 이용하여 사상체질을 진단할 때 진단의 정확도를 향상시키기 위한 사상체질분류함수를 개발하기 위하여 데이터마이닝에서의 판별분석모형을 이용한다. 데이터 정제 과정에서 불성실한 응답자를 제거시키기 위한 기준은 상반되는 설문의 응답 패턴과 체질별 설문의 응답 비율을 이용하며, 변수선택의 기준은 상관분석의 크론박 알파 계수와 선형판별함수의 계수를 이용한다.

  • PDF