• 제목/요약/키워드: 데이터 항목

검색결과 1,278건 처리시간 0.033초

사전기반 항목명 표준화 시스템 설계 및 구현 (Design and Implementation of Dictionary-based Column Name Standardization System)

  • 신수미;문영수
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.621-624
    • /
    • 2021
  • 최근 빅데이터에 대한 관심이 높아지면서 분석을 위해 필요한 데이셋의 표준화에 대한 중요성이 강조되고 있다. 데이터 표준화를 위해서는 업무 처리에 필요한 모든 데이터의 명명 규칙을 규정하고 그 기준에 따라 표준 명칭을 부여하여야 한다. 본 연구에서는 사전을 기반으로 하는 항목명 표준화 시스템을 제안하였다. 제안한 시스템은 공개된 표준단어사전을 활용하여 유의어를 포함한 참조 사전을 구축하고 이를 기반으로 표준사전을 구축하여 표준 항목명을 제공한다. 기 구축된 데이터셋의 항목명을 입력하거나 사용자가 원하는 새로운 항목명을 입력하면 항목명 표준화 시스템은 표준화된 한글 항목명과 영문 항목명, 그리고 테이블 설계에 사용하는 영문 약어명을 출력한다. 본 연구에서 제안한 시스템을 테이블 설계에 활용하거나 기 구축된 데이터셋을 표준화하는데 적용하면 일관된 데이터 해석이나 관리가 가능할 것으로 기대된다.

  • PDF

스트림 데이터에서 회귀분석에 기반한 빈발항목 예측 (Frequent Items Mining based on Regression Model in Data Streams)

  • 이욱현
    • 한국콘텐츠학회논문지
    • /
    • 제9권1호
    • /
    • pp.147-158
    • /
    • 2009
  • 최근 스트림데이터 환경의 데이터 모델은 데이터의 양이 아주 크고 연속적이며 무한하다. 이에 반해 제한된 용량의 디스크나 메모리 등을 이용해서 질의 처리나 데이터 분석을 처리한다. 이러한 환경에서 트랜잭션 데이터베이스에 대한 전통적인 빈발패턴탐사는 불가능하다고 할 수 있다. 왜냐하면, 연속적으로 들어오는 스트림 데이터에 대해 어떤 항목집합이 빈발항목인지 아닌지에 대한 정보를 계속적으로 유지 관리하기가 어렵기 때문이다. 본 논문에서는 연속적으로 들어오는 스트림 데이터에 회귀모델을 적용하여 빈발 항목들을 예측할 수 있는 방법을 제안한다. 스트림 데이터로부터 회귀모델을 생성함으로써 불확실한 항목들에 대한 예측 모델로 사용할 수 있다. 다양한 실험을 통하여 제안하는 방법이 스트림 데이터 환경의 데이터에 효율적으로 사용될 수 있음을 보인다.

데이터 스트림에서 시간을 고려한 상대적인 빈발항목 탐색 (Finding the Time Sensitive Frequent Itemsets in Data Streams)

  • 박태수;전석주;이주홍;박상호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.145-147
    • /
    • 2005
  • 최근 들어 저장장치의 발전과 네트워크의 발달로 인하여 대용량의 데이터가 매우 빠르게 증가되고 있다. 또한, 대용량의 데이터에 내재되어 있는 정보를 빠른 시간 내에 처리하여 새로운 지식을 창출하려는 요구가 증가하고 있다. 연속적이고 빠르게 증가하는 데이터를 지칭하는 데이터 스트림에서 데이터 마이닝 기법을 이용하여 시간이 흐름에 따라 변하고, 무한적으로 증가하는 데이터 스트림에서의 빈발항목을 찾는 연구가 활발하게 진행되고 있다. 하지만 기존의 연구들은 시간의 흐름에 따른 빈발항목 탐색방법을 적절히 제시하지 못하고 있으며 단지 집계를 이용하여 빈발항목을 탐색하고 있다. 본 논문에서는 데이터 스트림에서 시간적 측면을 고려하여 상대적인 빈발항목을 탐색하기 위한 새로운 알고리즘을 제안한다. 논문에서 제안하는 알고리즘의 성능은 다양한 실험을 통해서 검증된다.

  • PDF

이용자 인식조사를 기반으로 한 참고정보원 메타데이터 항목 제안에 관한 연구 (A Study for Suggesting Online Reference Resources' Metadata Elements Based on the Users' Perceptions)

  • 노영희
    • 한국비블리아학회지
    • /
    • 제21권2호
    • /
    • pp.81-96
    • /
    • 2010
  • 본 연구에서는 이용자 인식조사를 기반으로 하여 온라인 참고정보원용 메타데이터 항목을 제안하고 있다. 설문을 통해 4 관종의 사서들에게 17개 메타데이터 각각의 항목에 대한 필요성에 대해서 물었다. 또한 지난 2년 동안 운영되어온 시스템에의 메타데이터 입력현황과 이용자 인식조사 결과를 비교하였다. 이용자 인식조사와 시스템 입력비율을 기반으로, 17개의 메타데이터 항목 중 정보원 제목, 설명, 주제분야, 출판사, 유형, 식별자, 언어, 범위, 소장위치, 태그 항목은 반드시 포함되어야 할 항목으로 최종적으로 제안할 수 있었다. 또한 제작자와 저작권의 데이터가 실제 시스템에 입력된 비율은 각각 20.20%, 18.30%였으나, 설문응답자들은 각각 82.15%, 82.77%로 이 항목이 필요하다고 응답하였다. 따라서 이 두 개의 항목도 포함시키는 것이 적합하다고 본다. 다만, 시스템에의 입력비율이 3% 이하였던 형태, 원정보원, 날짜, 관련정보원, 기여자 항목에 대해 설문응답자의 거의 70% 이상이 이 모든 항목이 필요하다고 응답하였으므로 이에 대해서는 추가적인 연구가 진행되어야 한다고 본다.

연관 규칙 탐사 응용을 위한 한 번 읽기에 의한 최대 크기 빈발항목 추정기법 (Approximation of Frequent Itemsets with Maximum Size by One-scan for Association Rule Mining Application)

  • 한갑수
    • 정보처리학회논문지D
    • /
    • 제15D권4호
    • /
    • pp.475-484
    • /
    • 2008
  • 최근에는 데이터를 획득 및 처리하는 방법의 향상으로 인하여 연속적이고 실시간으로 발생되는 데이터를 처리하는 응용이 증가하고 있다. 그러한 응용에서 연관규칙을 추출하기 위해서는 새로운 방식을 사용하여 빈발항목집합을 찾아내야 한다. 기존의 빈발항목을 발견하는 방식에서는 전체 데이터베이스를 반복적으로 읽으면서 처리해야 한다. 그러나 실시간이고 연속적으로 발생하는 데이터를 처리하는 응용에서는 반복적으로 여러 번 데이터를 읽을 수 없기 때문에 일정 구간의 데이터를 한 번만 읽고 처리해야 한다. 따라서 본 논문에서는 입력되는 데이터 구간을 한 번만 읽고 최대 빈발항목 집합의 크기와 해당 빈발항목을 추정함으로써 필요한 연관규칙탐사를 가능하게 하는 빈발항목 추정 기법을 제안한다.

빈발 항목과 의미있는 희소 항목을 포함한 이미지 데이터 연관 규칙 마이닝 (Association Rules Mining on Image Data with Recurrent Items and Significant Rare Items)

  • 송임영;석상기
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (하)
    • /
    • pp.1359-1362
    • /
    • 2003
  • 최근 인터넷과 웹 기술의 발전 그리고 이를 기반으로 하는 다양한 멀티미디어 컨텐츠가 홍수를 이루고 있지만 멀티미디어 데이터에서 체계적으로 연관 규칙을 마이닝 하는 연구는 초기 단계이다. 본 논문에서는 이미지 프로세싱 분야 및 내용 기반 이미지 검색에 대한 기존 연구를 바탕으로 이미지 데이터 저장소에 저장된 재생성 항목과 희소하게 발생하지만 상대적으로 특정 항목과 높은 비율로 동시에 나타나는 희소 항목을 포함한 내용기반의 이미지 연관 규칙을 찾아내기 위한 탐사 기법을 제안한다 실험 결과 제안된 알고리즘은 기존의 재생성 항목만을 고려한 알고리즘보다 희소 항목을 포함하여 연관 규칙을 탐사하므로 같은 종류의 이미지가 모여 있는 저장소에서 이미지 오브젝트간의 연관 관계를 발견하는 이미지 데이터 마이닝에 효과적이다.

  • PDF

스트림 데이터 환경에서 배치 가중치를 이용하여 사용자 특성을 반영한 빈발항목 집합 탐사 (Discovering Frequent Itemsets Reflected User Characteristics Using Weighted Batch based on Data Stream)

  • 서복일;김재인;황부현
    • 한국콘텐츠학회논문지
    • /
    • 제11권1호
    • /
    • pp.56-64
    • /
    • 2011
  • 스트림데이터는 무한하고 연속적인 특성을 지니고 있기 때문에 전체 데이터를 기반으로 빈발 항목 집합을 탐사하는 것은 어렵다. 이 때문에 데이터의 특성과 사용자의 특성을 반영한 특수한 데이터마이닝 방법이 필요하다. 이 논문에서는 사용자가 최근에 발생한 데이터에 더 많은 관심이 있다는 특성을 반영하여 빈발 항목을 탐사하는 FIMWB 방법을 제안한다. FIMWB는 과거 데이터의 발생 시점과 현재 시점과의 시간 간격에 따라 가변적인 가중치를 배치에 부여하여 최신 데이터에 더 많은 관심과 중요성을 반영한다. FP-Digraph는 FIMWB를 통해 탐사된 빈발 항목으로 그래프를 구성하여 빈발 항목 집합을 탐사한다. 실험 결과로 FIMWB 방법이 불필요한 항목의 생성을 감소시키고 트리기반(FP-Tree)의 빈발 항목 집합 탐사에 비해 제안하는 FP-Digraph 방법이 스트림 데이터 환경에 더 적합함을 알 수 있다.

수량 연관규칙 생성을 위한 데이터의 지역성을 고려한 효과적인 알고리즘 제안 (An Efficient Algorithm Using the locality of Data for Mining Quantitative Association Rules)

  • 이혜정;박원환;박두순
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 춘계학술발표대회논문집
    • /
    • pp.126-129
    • /
    • 2003
  • 최근 대용량의 데이터베이스로부터 연관규칙을 발견하여 이를 활용하는 단계에서 이러한 연관규칙을 수량항목에도 적용할 수 있도록 확장하는 연구가 소개되고 있다. 본 논문에서는 수량 항목을 이진항목으로 변환하기 위하여 빈발구간 항목집합(Large Interval Itemsets)을 생성할 때 수량 항목이 특정 영역에 집중하여 발생하거나 골고루 분포되어 있지 않은 경우, 이러한 지역성(locality)을 고려하여 빈발구간 항목집합을 생성하는 방법을 제안한다. 이 방법은 기존의 방법보다 많은 수의 세밀한 빈발구간 항목들을 생성할 수 있을 뿐만 아니라 의미 있는 구간을 중심으로 빈발구간 항목들이 순서대로 생성되기 때문에 세밀도를 판단하여 활용할 수 있으며, 원 데이터가 가지고 있는 특성의 손실을 최소화할 수 있는 특징이 있다 또한 인구센서스등 실 데이터를 사용한 성능평가를 통하여 기존의 방법보다 우수함을 보였다.

  • PDF

데이터 스트림 빈발항목 마이닝의 프라이버시 보호를 위한 더미 데이터 삽입 기법 (Dummy Data Insert Scheme for Privacy Preserving Frequent Itemset Mining in Data Stream)

  • 정재열;김기성;정익래
    • 정보보호학회논문지
    • /
    • 제23권3호
    • /
    • pp.383-393
    • /
    • 2013
  • 데이터 스트림 마이닝 기술은 실시간으로 발생하는 데이터를 분석하여 유용한 정보를 얻는 기술이다. 데이터 스트림 마이닝 기술 중에서 빈발항목 마이닝은 전송되는 데이터들 중에서 어떤 항목이 빈발한지 찾는 기술이며, 찾은 빈발항목들은 다양한 분야에서 패턴분석이나 마케팅의 목적으로 사용된다. 기존에 제안된 데이터 스트림 빈발항목 마이닝은 악의적인 공격자가 전송되는 데이터를 스니핑할 경우 데이터 제공자의 실시간 정보가 노출되는 문제점을 가지고 있다. 이러한 문제는 전송되는 데이터에서 원본 데이터를 구별 못하게 하는 더미 데이터 삽입 기법을 통해 해결가능하다. 본 논문에서는 더미 데이터 삽입 기법을 이용한 프라이버시 보존 데이터 스트림 빈발항목 마이닝 기법을 제안한다. 또한, 제안하는 기법은 암호화 기법이나 다른 수학적 연산이 요구되지 않아 연산량 측면에서 효과적이다.

수량 연관규칙 탐사를 위한 빈발구간 항목집합 생성방법 (A Large-Interval Itemsets Generation Method for Mining Quantitative Association Rules)

  • 박원환;박두순;유기형;손진곤
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2001년도 추계학술발표논문집
    • /
    • pp.402-407
    • /
    • 2001
  • 대용량의 데이터베이스로부터 연관규칙을 발견하고자 하는 연구가 활발하며, 수량 데이터의 항복에도 적용할 수 있도록 이들 방법을 확장하는 연구가 최근에 소개되고 있다. 본 논문에서는 수량 데이터 항목을 이진 항목으로 변환하기 위하여 빈발구간 항목집합을 생성할 때, 수량 데이터 항목의 정의 영역 내에서 특정 영역에 집중하여 발생하는 특성인 지역성을 이용하는 방법을 제안한다. 이 방법은 기존의 방법보다 많은 수의 세밀한 빈발구간 항목들을 생성할 수 있을 뿐만 아니라 세밀의 정도를 판단하여 활용할 수 있는 생성순서 정보도 포함하고 있어, 원 데이터가 가지고 있는 특성의 손실을 최소화한 수 있는 특징이 있다. 성능평가를 통하여 기존의 방법보다 우수함을 보였다.

  • PDF