• Title/Summary/Keyword: 데이터 정제

Search Result 466, Processing Time 0.028 seconds

User-specific Food Recommended System Using Data Cleaning (데이터 정제를 통한 딥러닝 기반의 유저 맞춤형 음식추천시스템)

  • Kim, Gyun-Yeop;Kang, Sang-Woo
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.578-581
    • /
    • 2020
  • 제품을 추천하는 기능은 사용자의 콘텐츠 또는 제품 소비량에 직결되기에 다양한 인터넷 플랫폼에서 많은 관심을 받고 있다. 이러한 제품 추천 시스템의 성능은 다양한 머신러닝 알고리즘과 딥러닝의 발전에 의해 성능을 비약적으로 개선되어왔다. 하지만 여느 딥러닝과 머신러닝 알고리즘과 마찬가지로 추천 시스템들의 성능은 빅데이터의 품질에 따라 매우 민감한 영향을 받는다. 본 논문에서는 모바일 배달 플랫폼에서 사용자들의 리뷰 데이터들을 통해 딥러닝과 빅데이터를 사용하여 음식을 추천하는 방법을 제안한다. 또한 사용자들의 리뷰 데이터들을 정제하여 데이터의 품질을 높이는 과정을 추가하여 그 결과가 성능에 얼마만큼 영향을 미치는 지를 실험을 통하여 분석한다.

  • PDF

Management System for Experimental Data In Remote Measurement Device Using TCP/IP Socket (TCP/IP 소켓을 이용한 원격 측정 장치의 실험 데이터 통합 관리 시스템 개발)

  • Kim, Seon-Yeong;Cho, Hwan-Gue
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06b
    • /
    • pp.397-400
    • /
    • 2010
  • 최근의 과학 실험은 그 규모나 내용에 있어서 점차 대형화되는 동시에 복잡해지고 있다. 이로 인하여 다양한 측정 장비로부터 도출된 실험 결과를 효율적으로 분석, 관리, 종합하는 도구의 필요성이 커지고 있다. 본 논문에서는 원격 측정 장치로부터 서로 다른 포맷의 실험 데이터를 자동 수집한 후 이중 정제한 데이터들만 추출하여 웹에서 시각화하는 실험 데이터 통합 관리 시스템을 제안한다. 먼저 원격 측정 장치의 데이터를 자동으로 수집하기 위해 폴링 서버를 설계하여 장치마다 폴링 에이전트를 도입하였다. 이를 통해 관리자가 각 측정 장치에 직접 접근하지 않고도 데이터를 수집할 수 있다. 폴링으로 확보한 데이터는 파싱을 통해 정제하고, 이들 데이터로 데이터베이스를 구축한다. 정제한 데이터는 시각화하여 사용자가 웹에서 쉽게 파악할 수 있다. 데이터 폴링은 TCP/IP Socket을 통해 수행하므로 보편적으로 사용하는 FTP 방식에 비해 데이터 확보 시 신뢰성을 높일 수 있으며, 폴링 여부 판단 시에는 동기식, 실제 폴링 시에는 비동기식 통신 방법을 사용하여 폴링의 효율을 높였다. 본 시스템을 활용하여 사용자의 임의적인 데이터 접근을 최소화하였고 데이터의 전송, 저장, 관리를 자동화함으로써 편의성을 높였다. 본 시스템을 활용하여 원격 실험 장치로부터 데이터를 확보할 때의 정확성과 폴링 및 파싱 속도를 실험을 통해 측정하였고, 그 결과 폴링 시 100%의 정확도와 정상 포맷의 데이터에 대해서 100%의 파싱 결과를 보임으로써 본 시스템이 원격 장치의 실험 데이터를 통합 관리할 때 적합함을 알 수 있었다. 추후 데이터의 속성에 따라 클러스터링 할 예정이며 클러스터링에 따른 시각화 서비스를 제공할 계획이다.

  • PDF

Domain-agnostic Pre-trained Language Model for Tabular Data (도메인 변화에 강건한 사전학습 표 언어모형)

  • Cho, Sanghyun;Choi, Jae-Hoon;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.346-349
    • /
    • 2021
  • 표 기계독해에서는 도메인에 따라 언어모형에 필요한 지식이나 표의 구조적인 형태가 변화하면서 텍스트 데이터에 비해서 더 큰 성능 하락을 보인다. 본 논문에서는 표 기계독해에서 이러한 도메인의 변화에 강건한 사전학습 표 언어모형 구축을 위한 의미있는 표 데이터 선별을 통한 사전학습 데이터 구축 방법과 적대적인 학습 방법을 제안한다. 추출한 표 데이터에서 구조적인 정보가 없이 웹 문서의 장식을 위해 사용되는 표 데이터 검출을 위해 Heuristic을 통한 규칙을 정의하여 HEAD 데이터를 식별하고 표 데이터를 선별하는 방법을 적용했으며, 구조적인 정보를 가지는 일반적인 표 데이터와 엔티티에 대한 지식 정보를 가지는 인포박스 데이터간의 적대적 학습 방법을 적용했다. 기존의 정제되지 않는 데이터로 학습했을 때와 비교하여 데이터를 정제하였을 때, KorQuAD 표 데이터에서 f1 3.45, EM 4.14가 증가하였으며, Spec 표 질의응답 데이터에서 정제하지 않았을 때와 비교하여 f1 19.38, EM 4.22가 증가한 성능을 보였다.

  • PDF

한의학에서의 사상체질판별함수 개발에 관한 연구 (II) - 도수분석에 의한 변수선택 -

  • Kim, Gyu-Gon;Jo, Min-Hyeong
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 2004.04a
    • /
    • pp.69-77
    • /
    • 2004
  • 본 논문에서는 한방병원에서 사상체질분류검사설문지를 이용하여 사상체질을 진단할 때 진단의 정확도를 향상시키기 위한 사상체질분류함수를 개발하기 위하여 데이터마이닝에서의 판별분석모형을 이용한다. 데이터 정제 과정에서 양질의 데이터를 확보하기 위한 기준은 상반되는 설문의 응답 패턴과 체질별 설문의 응답 비율을 이용하며, 변수선택의 기준은 도수분석의 비율차이검정과 선형판별함수의 계수를 이용한다.

  • PDF

An Intelligent Web Logger for Business Intelligence (비즈니스 인텔러전스를 위한 지능적 웹 로거)

  • Lim, Yoon-Sun;Jeong, An-Mo;Kim, Myung
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.271-273
    • /
    • 2001
  • 웹 로그는 웹 서버를 통해 이루어지는 작업들에 관한 기록으로써, OLAP이나 데이터 마이닝과 같은 비즈니스 인텔리전스 기술로 분석되어 고부가가치 창출에 사용되는 중요한 자료이다. 웹 로그에는 파일 이름과 같은 물리적인 데이터가 저장되는데 이러한 데이터는 분석에 사용되기 전에 정제과정을 통해 의미 있는 데이터로 변환되거나 불필요한 경우에는 삭제된다. 웹 로그 데이터의 분량을 적정선으로 유지하면서 데이터 정제 작업의 일부가 해결되도록 하는 방법으로 웹로그 생성단계에서 시스템이 제공하는 필터를 쓸 수 있다. 그러나, 필터로는 웹 페이지의 내용이 동적으로 변경되는 경우 그 상황을 즉시 반영하기가 쉽지 않다. 본 연구에서는 웹 로그가 ‘지능적 웹 로거’를 통해 생성되도록 하여 이러한 문제를 해결하였다. ‘지능적 웹 로거’를 통해 불필요한 데이터의 생성을 막고, 물리적인 데이터를 신속하게 의미 있는 데이터로 변환하도록 하였다. 웹 페이지의 변경 내용을 웹 로그 생성에 즉시 반영하여 의미 있는 데이터 생성에 이용함으로써, 웹 로그 생성 후에 실행되던 데이터 정제작업 자체를 단순화시켰고, 웹사이트 관리자가 편리한 사용자 인터페이스로 로그 규칙을 만들어 적용할 수 있도록 하였다.

  • PDF

A Refinement Strategy for Spatial Selection Queries with Generally Shaped Query Window (일반적인 다각형 모양의 질의 윈도우를 이용한 공간 선택 질의의 정제 전략)

  • 유준범;정진완
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.52-54
    • /
    • 2001
  • 공간 선택 질의에 사용되는 질의 윈도우로는 직사각형이 주로 사용된다. 하지만, 최근에는 GIS 등과 같은 응용 프로그램들이 성능 향상으로 인해 보다 다양한 종류의 응용이 등장하고 있으므로, 직사각형뿐만 아니라 임의의 다각형 형태의 질의 윈도우에도 적합한 정제 단계 수행 전략에 대해 고려해 볼 필요가 있다. 이러한 전략으로는 기존의 공간 조인에서와 같이 plane-sweep 알고리즘을 이용하는 방법이 일반적이다. 하지만, 공간 데이터와 질의 위도우의 특성을 관찰해보면, 일반적으로 질의 윈도우가 공간 데이터보다 훨씬 간단한 모양으로 구성되어 있음을 알 수 있으므로, 본 논문에서는 이러한 상황에 보다 적합한 정제 단계 수행 방법을 제시하고 있으며, 실험을 통하여 제시한 방법의 우수성을 입증하고 있다.

  • PDF

Data Cleaning System using XMDR-DAI in Cloud (클라우드 환경에서 XMDR-DAI를 이용한 데이터 정제 시스템)

  • Moon, Seok-Jae;Jeong, Kye-Dong;Lee, Jong-Yong;Cho, Young-Keun
    • Journal of Digital Convergence
    • /
    • v.12 no.2
    • /
    • pp.263-270
    • /
    • 2014
  • In cloud environment, business intelligence data warehouse is used for decision making and enterprise policy. But if new system is added in cloud environment, much cost and time is needed due to heterogenous characteristics in data integration. This paper suggests a data cleaning system for business intelligence in cloud environment. The proposed system minimizes the effect of local system when it integrates distributed system using XMDR-DAI. And this system provides standardized information to generate information of data warehouse in real time. Also the proposed system saves cost and time by integrating the data without a change of existed system. And it can improve quality of information by generating coherent information through data extraction and cleaning work in real time.

An Automatic Setting Method of Data Constraints for Cleansing Data Errors between Business Services (비즈니스 서비스간의 오류 정제를 위한 데이터 제약조건 자동 설정 기법)

  • Lee, Jung-Won
    • Journal of the Korea Society of Computer and Information
    • /
    • v.14 no.3
    • /
    • pp.161-171
    • /
    • 2009
  • In this paper, we propose an automatic method for setting data constraints of a data cleansing service, which is for managing the quality of data exchanged between composite services based on SOA(Service-Oriented Architecture) and enables to minimize human intervention during the process. Because it is impossible to deal with all kinds of real-world data, we focus on business data (i.e. costumer order, order processing) which are frequently used in services such as CRM(Customer Relationship Management) and ERP(Enterprise Resource Planning). We first generate an extended-element vector by extending semantics of data exchanged between composite services and then build a rule-based system for setting data constraints automatically using the decision tree learning algorithm. We applied this rule-based system into the data cleansing service and showed the automation rate over 41% by learning data from multiple registered services in the field of business.

한의학에서의 사상체질판별함수 개발에 관한 연구 (I) - 크론박 알파 계수에 의한 변수선택 -

  • Kim, Gyu-Gon;Choi, Seung-Bae
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 2004.04a
    • /
    • pp.61-68
    • /
    • 2004
  • 본 논문에서는 한방병원에서 사상체질분류검사설문지를 이용하여 사상체질을 진단할 때 진단의 정확도를 향상시키기 위한 사상체질분류함수를 개발하기 위하여 데이터마이닝에서의 판별분석모형을 이용한다. 데이터 정제 과정에서 불성실한 응답자를 제거시키기 위한 기준은 상반되는 설문의 응답 패턴과 체질별 설문의 응답 비율을 이용하며, 변수선택의 기준은 상관분석의 크론박 알파 계수와 선형판별함수의 계수를 이용한다.

  • PDF

Development of Efficient Address Cleaning System for CRM (CRM 위한 효율적인 주소 정제 시스템 개발)

  • Park, Gyu-Jin;Song, Won-Mun;Kim, Eun-Ju;Kim, Myeong-Won;Han, Young-Jin;Rim, Young-Gun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06c
    • /
    • pp.313-318
    • /
    • 2007
  • 최근 기업들은 인터넷, 이벤트 등의 다양한 매체를 통해 방대한 양의 고객 주소 데이터를 수집하고 있다. 이렇게 수집된 고객 주소 데이터는 DM발송 등을 통한 마케팅 및 캠페인에 활용함으로써 서비스의 질을 향상시키고, 고객의 충성도를 높인다. 그러나 사용자가 입력한 주소의 일부는 띄어쓰기가 정확하지 않은 주소, 정보가 누락된 주소, 오타가 있는 주소, 구주소 등의 입력으로 주소의 표준 형태를 갖지 않거나 일관성이 없다. 또한 2007년 4월부터 부분시행예정인 신주소 체계를 위해 기존의 주소를 적절히 변환해야만 한다. 본 논문에서는 부정확하거나 불완전한 주소를 표준 형태의 정확한 주소로 변경하는 효율적인 주소 정제 시스템을 제안하고 개발한다. 본 시스템은 먼저 입력 주소의 유니코드 분석을 통한 한글 입력 오류 교정과 해쉬테이블을 이용한 건물명의 표준 형태 변환을 수행한다. 이 과정이 완료된 주소들은 주소 트리 모델 구축을 통해 띄어쓰기가 부정확한 주소의 처리, 역주소테이블(inverted address table)을 이용한 누락 주소의 처리(enrichment), 구주소에 대한 트리 모델을 생성한 신주소 변환 처리 등의 프로세스를 통해 정제하게 된다. 실험을 위해 오타와 띄어쓰기, 누락된 정보가 있는 주소를 생성하여 타 정제 시스템과 성능을 비교하였다. 생성된 데이터를 비교한 결과 기존 주소 정제 시스템의 오류율 7.5% 보다 제안된 방법으로 개발된 본 시스템의 오류율이 0.45%로 낮음을 확인하였다.

  • PDF