• 제목/요약/키워드: 데이터 항목

검색결과 1,281건 처리시간 0.025초

데이터 스트림에서 가중치 지지도 기반 빈발 패턴 추출 방법 (An Efficient Method for Mining Frequent Patterns based on Weighted Support over Data Streams)

  • 김영희;김원영;김응모
    • 한국산학기술학회논문지
    • /
    • 제10권8호
    • /
    • pp.1998-2004
    • /
    • 2009
  • 다양한 저장 장치의 발달과 네트워크의 발전은 대용량의 데이터를 연속적으로 빠르게 생성한다. 데이터 스트림에서의 데이터 마이닝은 처리 시간 및 메모리 사용에 제한적이다. 또한 생성된 데이터를 한 번의 스캔으로 유용한 패턴을 발견할 수 있어야 하고 정보 변화 가능성이 큰 데이터 속성을 갖는 경우 최근의 정보를 반영한 빠른 분석이 가능해야 한다. 기존의 지지도 기반 마이닝 방법들은 일정 기간 동안 미리 정의된 지지도 이상의 빈발 항목에 대하여만 고려하므로 중요도가 높은 항목들을 간과하는 문제점을 가지고 있다. 본 논문에서는 시간의 변화에 따른 가변성을 고려하여 가중치 지지도를 갖는 데이터 항목들에 대하여 보다 의미 있는 정보를 제공하기 위한 효율적인 빈발패턴 추출 방법을 제안하고자 한다. 제안된 WSFI-Mine(Weighted Support Frequent Itemsets Mine) 방법은 DCT(Data Stream Closed Pattern Tree) 데이터 구조를 이용하여 패쇄 빈발 항목을 탐사한다. 제안된 알고리즘은 DSM-FI와 THUI-Mine 알고리즘과 지지도 변화에 따른 성능을 비교하였고 그 결과 비교 알고리즘 보다 수행 시간이 우수함을 보였고, 빈발 항목을 생성하는 후보 항목의 수를 줄이므로 메모리 사용량을 효율적으로 사용할 수 있음을 보였다.

한정된 메모리 공간에서 데이터 스트림의 빈발항목 최적화 방법 (Finding Frequent Itemsets Over Data Streams in Confined Memory Space)

  • 김민정;신세정;이원석
    • 정보처리학회논문지D
    • /
    • 제15D권6호
    • /
    • pp.741-754
    • /
    • 2008
  • 지속적으로 확장되는 데이터 스트림에 대한 데이터 마이닝 수행과정에서는 메모리 사용량을 가용한 범위 내로 제한하는 것이 중요한 요소이다. 본 논문에서는 데이터 스트림 환경에서 한정된 메모리 공간을 이용하여 빈발 항목집합을 탐색하는데 효과적인 프라임 패턴 트리(Prime pattern tree: PPT)구조를 제안한다. 프라임 패턴 트리는 기존의 전위 트리 구조와 비교하여 항목집합들을 하나의 노드로 관리함으로써 트리의 크기를 크게 줄일 수 있는 장점이 있다. 또한, 전지 임계값 $S_{\delta}$에 따라 노드를 병합하거나 분리하여 동적으로 트리의 크기와 결과 집합의 정확도를 마이닝 수행 중에 조절 할 수 있다. $S_{\delta}$값이 크면 한 노드에서 관리되는 항목집합의 수가 증가하게 되고, 출현 빈도수를 추정해야 하기 때문에, $S_{\delta}$값이 작을수록 결과집합의 정확도가 높다. 이처럼 PPT에는 트리의 크기와 정확도의 trade-off 가 존재한다. PPT의 이러한 특성에 기반하여, 데이터 스트림에서 갑자기 데이터 집합에 변화가 생겨 빈발항목이 될 가능성이 높은 항목들이 많이 출현하는 경우에도 마이닝을 지속적으로 수행할 수 있도록 지원한다. 본 논문에서는 프라임 패턴 트리를 이전 연구에서 제안한 데이터 스트림에서 최근 빈발 항목 탐색 방법인 estDec 방법에 적용하여 한정된 작은 양의 메모리 공간을 이용하여 온라인 데이터 스트림에서 빈발항목을 탐색하는 방법을 제시한다. 또한, 가용 메모리 범위에서 최적의 메모리를 사용하여 최적의 마이닝 결과를 얻을 수 있도록 하는 메모리 사용량에 대한 적응적 방법을 제시한다. 끝으로, 여러 실험을 통한 효율성 검증을 통해 제안된 방법의 여러 특성을 확인한다.

종교유적 건축물 정보의 메타데이터 구성과 온톨로지 구축 (Construction of Metadata Format and Ontology for Religious architecture heritage Information)

  • 정희선;김희순;송현숙;이명희
    • 한국도서관정보학회지
    • /
    • 제44권1호
    • /
    • pp.5-26
    • /
    • 2013
  • 표준화된 메타데이터 구성은 문화유산정보의 효율적인 검색을 위해서 중요하지만 현실적으로 메타데이터는 각 객체가 속한 집단의 목적이나 자원의 속성에 따라 다양하게 표현되고 있다. 본 연구에서는 서울시 종교유적 건축물 데이터베이스 구축에 적합한 메타데이터 항목 구성을 위하여 국내외의 대표적인 문화유산정보 분야의 6종의 메타데이터 포맷을 비교하여 18개의 메타데이터 항목을 구성하였다. 종교유적 건축물 메타데이터 항목에 근거하여 서울시 소재 72개 종교유적 건축물에 대하여 건축물 부분, 스토리텔링 부분, 참고자료 및 관련 자료의 세부분으로 이루어진 데이터베이스를 구축하였다. CIDOC-CRM에 한국의 종교문화유산 정보에 필요한 항목을 추가하여 구성한 수정모형을 이용한 온톨로지를 설계하고, 수동 말뭉치 구축 프로그램을 개발하여 원문 텍스트로부터 개체명 및 이벤트를 부착하였다.

시간에 따른 가변성을 고려한 상대적인 빈발항목 탐색방법 (Search Method of the time sensitive frequent itemsets)

  • 박태수;이주홍;박선
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.97-100
    • /
    • 2005
  • 최근 유비쿼터스 컴퓨팅 및 인터넷 서비스에 대한 관심이 증대되면서, 대용량의 데이터에 내재되어 있는 정보를 빠른 시간 내에 처리하여 새로운 지식을 창출하려는 요구가 증가하고 있다. 데이터 마이닝 기법을 이용하여 데이터 스트림에서 빈발항목을 탐색하는 기존의 연구는 시간을 고려하지 않고 단순히 집계를 통하여 빈발항목을 탐색하기 때문에 정확성을 보장하지 못한다. 따라서 본 논문에서는 데이터 스트림에서 시간적 측면을 고려하여 상대적인 빈발항목을 탐색하기 위한 새로운 알고리즘을 제안하고자 한다. 논문에서 제안하는 알고리즘의 성능은 다양한 실험을 통해서 검증된다.

  • PDF

MPEG-2 표준을 위한 오류 데이터 분류 (The Taxonomy of Dirty Data for MPEG-2 TS)

  • 곽태희;최병주
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.691-693
    • /
    • 2001
  • DASE(Digital TV Application Software Environment)는 데이터 방송을 위한 국제 표준으로 MPEG-2 TS(Moving Picture Experts Group-2 Transport Stream) 형식의 데이터를 처리한다. 소스코드 대신 입력 데이터 명세 정보만을 공개하는 특성상 DASE 시스템의 오류를 테스트하기 위해서는 테스트 데이터에 오류를 삽입하는 방법이 적합하고 이를 위해 MPEG-2 표준을 위한 오류 항목을 개발이 요구된다. 본 논문에서는 관계형 데이터 베이스를 위한 데이터 분류인 Kim’s et al 분류를 근거로 하여 MPEG-2 표준을 위한 오류 항목을 개발하였다. 이는 DASE 시스템의 오류 삽입 테스트 기법에 유용하게 사용될 수 있을 것이다.

  • PDF

데이터 스트림에서 개방 데이터 마이닝 기반의 빈발항목 탐색 (Finding Frequent Itemsets based on Open Data Mining in Data Streams)

  • 장중혁;이원석
    • 정보처리학회논문지D
    • /
    • 제10D권3호
    • /
    • pp.447-458
    • /
    • 2003
  • 기존의 데이터 마이닝 방법들은 기본적으로 지식 발견의 대상이 되는 데이터 집합이 마이닝 작업 시작 이전에 명확히 정의되는 것으로 가정하며 이러한 가정은 고정적으로 정의된 특정 데이터 집합에 내재된 정보 추출이 데이터 마이닝의 목적이 될 때 유효하다. 또한, 기존의 데이터 마이닝 방법들은 대용량의 데이터 집합에 대한 마이닝 결과를 얻는데 있어서 상당한 처리 시간을 요구한다. 따라서, 새로운 트랜잭션 데이터가 지속적으로 추가되는 데이터 스트림에서 추가된 트랜잭션의 정보들을 포함하는 최신의 마이닝 결과를 최대한 빠른 시간 안에 얻기를 기대하는 실시간 처리 환경에서는 기존의 데이터 마이닝 방법을 적용하는 것이 거의 불가능하다. 이러한 목적에 부합하기 위해서 본 논문에서는 새로운 데이터 마이닝 개념인 개방 데이터 마이닝을 제안한다. 개방 데이터 마이닝에서는 새로운 트랜잭션이 발생함에 따라 이전에 발생한 트랜잭션들에 대한 마이닝 결과가 새롭게 갱신되며 따라서 확장된 전체 트랜잭션 집합에 대한 마이닝 결과를 빠르게 얻을 수 있다. 이러한 방법을 효과적으로 구현하기 위해서는 새롭게 출현한 항목에 대한 지연추가와 이전 데이터 집합에 출현한 항목들 중에서 중요하지 않는 항목에 대한 전지작업이 병행되어야 한다. 논문에서 제안하는 알고리즘은 알고리즘의 특성을 파악하기 위한 일련의 다양한 실험을 통해서 검증된다.

보건 데이터 활용에 관한 연구(II) (A study of the Health Data Application)

  • 임기영;조은희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (하)
    • /
    • pp.1213-1216
    • /
    • 2001
  • 정규분포 등의 가정이 곤란한 복잡한 밀도 분포에 대해 데이터의 선험적인 지식 없이 해석하기 위해 다수의 항목이 되고 복잡한 밀도 분포를 가진 데이터를 보다 소수의 단순한 밀도 분포가 되는 그룹으로 분류하는 방법을 나타내었고 데이터를 그룹으로 분류하는데 표본에 의한 분류와 항목에 의한 분류를 할 수 있다. 선험지식을 사용하지 않고 데이터를 분류하면 Parzen의 창함수에 의한 추정과 대수우도에 의한 평가함수를 사용하는 것으로 복잡한 형상을 가진 밀도분포도 선험지식 없이 해석이 가능하다. 표본의 밀도 분포와 항목의 밀도분포를 나타내기 위하여 다수의 밀도 분포의 합과 곱의 형으로 전개하는 방법을 보였고 제안하는 방법을 의도적으로 생성한 데이터에 적용하여 원래의 밀도분포에 따라 분류결과를 얻을 수 있었다.

  • PDF

전자기록물의 메타데이터 추출 및 비교 검증 기술 연구 (Extracting and Validating Metadata in Electronic Records)

  • 최주호;이재영
    • 한국기록관리학회지
    • /
    • 제12권1호
    • /
    • pp.7-32
    • /
    • 2012
  • 전자기록물의 이관할 때, 전자기록물의 필수 메타데이터의 검증과 실제 문서에 있는 메타데이터를 이용한 검증도 중요하다. 본 연구에서는 전자기록물에 포함된 다양한 형식의 전자파일 중에서 본문파일에서 메타데이터를 추출하고 항목별로 분류한 후 이관되는 메타데이터 항목과 비교 검증을 위한 기술 개발을 연구하였다. 해외에서 개발된 추출 도구와 달리 국내 전자결재 형식을 감안하여 첨부된 본문파일에서 메타데이터를 추출하는 기술을 개발하였으며, 기록물 문서 메타항목에 저장된 원 메타데이터와 추출 메타데이터간 비교 검증을 수행하는 도구를 개발하였다.

공공기관 빅데이터 시스템 구축 시 고려해야 할 측정항목에 관한 연구 (A Study on the Necessary Factors to Establish for Public Institutions Big Data System)

  • 이광수;권정인
    • 디지털융복합연구
    • /
    • 제19권10호
    • /
    • pp.143-149
    • /
    • 2021
  • 초연결 지능정보사회에 빠른 진입으로 빅데이터 기반의 자원관리 등을 위한 빅데이터시스템 구축의 필요성을 대두되면서, 공공기관에서 빅데이터시스템 구축을 추진하고 있는 실정이다. 이에, 본 연구는 공공기관 현실에 맞는 빅데이터시스템 구축 시 고려해야할 측정항목을 도출하고자 한다. 고등교육기관 통합정보시스템 구축의 환경요인 측정항목에 선행연구를 기반으로 빅데이터 관련연구들의 성공요인들과 공공기관 빅데이터 시스템 구축의 특성을 분석·결합하였다. 연구방법으로는 빅데이터 전문가들을 대상으로 델파이 방법등을 사용하여 빅데이터 특성이 반영된 19개 측정항목을 도출하였으며, 이를 빅데이터시스템에 구축하고자 하는 공공기관에 성공적으로 적용하기 위한 방안을 제언하였다. 본 연구결과가 공공기관에서 성공적인 빅데이터시스템 구축의 기초 자료로 활용되기를 기대한다.

항목집합의 거리를 이용한 다중데이터베이스 클러스터링 (A MultiDatabase Clustering using Distance of Itemsets)

  • 김진현;박성련;윤성대
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (하)
    • /
    • pp.1567-1570
    • /
    • 2003
  • 장바구니 데이터들로 구성된 다중데이터베이스를 마이닝 하기 위한 선처리 작업으로는 Ideal&Goodness 기법이 있으며, Ideal&Goodness기법은 유사한 항목이 존재하는 데이터베이스간의 식별이 불가능하다는 단점이 있다. 그러므로 본 논문에서 제안하는 기법은 항목으로만 구성된 집합을 생성하여 데이터베이스간의 거리를 측정하고 항목집합간의 식별능력을 향상시키기 위하여 항목과 지지도를 갖는 항목 데이터 집합을 생성하고 지지도에 대한 확률을 계산한 후, 이를 비교 연산하여 가중치를 계산한다. 본 논문에서는 장바구니 분석을 위한 선처리 단계로써 활용 가능한 클러스터링 기법을 제안하며 성능평가를 통하여 데이터베이스간의 우수한 식별 능력을 보인다.

  • PDF