• 제목/요약/키워드: 데이터 항목

검색결과 1,281건 처리시간 0.026초

내용 기반의 멀티미디어 데이터 연관규칙 마이닝에 대한 연구 (A Study on Data Association-Rules Mining of Content-Based Multimedia)

  • 김진옥;황대준
    • 정보처리학회논문지D
    • /
    • 제9D권1호
    • /
    • pp.57-64
    • /
    • 2002
  • 컴퓨터 처리기술과 저장기술 그리고 인터넷 등의 영향으로 멀티미디어 데이터의 양은 급속하게 증가하지만 체계적인 멀티미디어 데이터간의 연관규칙을 마이닝하는 연구는 초기 단계이다. 본 논문은 이미지 프로세싱 분야 및 내용기반 이미지 검색에 대한 기존 연구를 바탕으로 대형 영상 데이터 저장소에 저장된 이미지 데이터에서 재생성되는 항목간의 연관규칙을 찾으며 공간적 관계로 내용기반의 연관규칙을 마이닝하는 알고리즘을 제안한다. 제안된 연관규칙 탐색 알고리즘은 이미지의 색상, 질감, 모양 등 내용기반의 영상속성을 오브젝트 항목으로 하고 오브젝트가 이미지에서 재생성될 때를 이용하여 이미지간의 연관규칙을 찾고 오브젝트들이 이미지에서 차지하고 있는 공간적 위치관계를 통해 드러나지 않는 이미지간의 연관규칙을 마이닝한다. 본 논문의 재생성 항목을 고려한 연관규칙 알고리즘은 Apriori 알고리즘보다 빈번한 항목 집합을 찾아내는데 더 높은 성능을 갖는다는 것을 실험을 통하여 보여준다. 제안된 알고리즘은 동일한 정보원으로부터 받은 멀티미디어 데이터간의 연관성을 탐색하는데 특히 효과적이며 다양한 관련 응용분야에 적용할 수 있다.

큐보이드 전위트리를 이용한 빙산질의 처리 (Iceberg Query Evaluation Technical Using a Cuboid Prefix Tree)

  • 한상길;양우석;이원석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권3호
    • /
    • pp.226-234
    • /
    • 2009
  • 무한한 데이터 스트림을 저장하는 것은 거의 불가능하기 때문에 데이터 스트림 환경에서 빙산질의를 수행하기 위해서는 새로운 데이터 구조와 알고리즘이 요구된다. 본 논문에서는 데이터 스트림 환경에서 빙산질의를 처리하기 위해 전위트리 구조에 기반한 규보이드 전위트리(Euboid prefix tree)를 제안한다. 큐보이드 전위트리는 빙산질의에 사용된 그룹항목으로 이루어진 항목집합만을 트리에서 관리하므로 전위트리보다 적은 메모리를 사용한다. 1-항목 관리를 통해서 빈발하지 않은 항목을 트랜잭션에서 제거함으로써 갱신 시 불필요하게 소요되는 시간을 줄일 수 있다. 또한 다중 빙산질의에서 공통적으로 사용된 그룹속성에 따라 노드를 공유함으로써 적은 메모리를 사용하여 효율적으로 다중 빙산질의를 처리할 수 있는 방법을 제안한다. 큐보이드 전위트리는 무한히 연속적으로 생성되는 데이터에 대하여 빙산질의를 처리하는데 있어서 메모리 사용량과 처리시간을 효과적으로 줄이며, 이를 여러 실험을 통해 확인하였다.

트랜잭션이 없는 시계열 데이터로 부터 가상 트랜잭션을 이용한 데이터 마이닝 (Mining Time Series Data With Virtual Transaction)

  • 김민수;이준섭;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.31-34
    • /
    • 2001
  • 대용량의 데이터들로부터 사용자가 원하는 데이터를 찾기 위하여 많은 데이터 마이닝 기술들이 연구되어 실제 응용프로그램에서 많이 적용되고 있다. 이러한 데이터 마이닝의 기술 중 연관규칙은 항목들의 집합으로 표현되는 트랜잭션에서 각 항목간의 연관성을 찾는데 사용된다. 그러나 실세계에는 트랜잭션이 없이 일련의 이벤트만 시간에 따라서 발생하는 데이터들이 많이 존재한다. 이러한 시계열 이벤트 데이터들로부터 다양한 가상 트랜잭션을 생성하는 기법들을 제시한다. 이러한 가상 트랜잭션 데이터로 변환된 시계열 데이터에 연관규칙, 순차패턴, 주기패턴과 관련된 여러 가지 알고리즘을 바로 적용 함으로서 유용한 규칙들을 발견해 낼 수 있다.

  • PDF

에세이 자동 평가 모델 성능 향상을 위한 데이터 증강과 전처리 (Data Augmentation and Preprocessing to Improve Automated Essay Scoring Model)

  • 고강희;김도국
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.327-332
    • /
    • 2023
  • 데이터의 품질과 다양성은 모델 성능에 지대한 영향을 끼친다. 본 연구에서는 Topic을 활용한 데이터 전처리와 BERT 기반 MLM, T5, Random Masking을 이용한 증강으로 데이터의 품질과 다양성을 높이고자 했으며, 이를 KoBERT 기반 에세이 자동 평가 모델에 적용했다. 데이터 전처리만 진행했을 때, Quadratic Weighted Kappa Score(QWK)를 기준으로 모델이 에세이의 모든 평가 항목에 대해 베이스라인보다 더욱 높은 일치도를 보였으며 평가항목별 일치도의 평균을 기준으로 0.5368029에서 0.5483064(+0.0115035)로 상승했다. 여기에 제안하는 증강 방식을 추가 할 경우 MLM, T5, Random Masking 모두 성능 향상 효과를 보였다. 특히, MLM 데이터 증강 방식을 추가로 적용하였을 때 최종적으로 0.5483064에서 0.55151645(+0.00321005)으로 상승해 가장 높은 일치도를 보였으며, 에세이 총점으로 QWK를 기준으로 성능을 평가하면 베이스라인 대비 0.4110809에서 0.4380132(+0.0269323)로의 성능 개선이 있었다.

  • PDF

임산공학 분야 연구데이터 관리를 위한 메타데이터 설계에 관한 연구 (A Study on the Design of Metadata for Research Data Management in Forestry Engineering)

  • 김주섭;한연중;유원재;김선태
    • 한국문헌정보학회지
    • /
    • 제54권4호
    • /
    • pp.169-194
    • /
    • 2020
  • 최근 많은 학문 분야에서 해당 분야에서 생산되는 데이터를 관리하기 위한 메타데이터를 개발하고 있다. 범용적인 분야를 넘어서 특정 학문 분야를 지원하기 위한 메타데이터는 해당 분야의 연구데이터를 검색, 관리, 공유 및 재사용을 위한 필수한 것으로 여겨지고 있다. 따라서 본 연구에서는 임산공학에서 생산되는 연구데이터를 관리하기 위한 메타데이터 항목을 도출하였다. 메타데이터 항목을 도출하기 위하여 FGDC-CSDGM, ISO 19115, NEFIS, INSPIRE, ANZLIC, DataCite 4.3 그리고 TTA,KO-10.0976 등 7개 메타데이터를 대상으로 매핑작업을 진행하였다. 연구 결과, 필수 6개, 권고 13개 그리고 선택 요소 9개가 도출되었다. 도출된 메타데이터는 임산공학 분야의 연구데이터를 체계적으로 관리하기 위한 항목으로 활용될 수 있을 것이다.

항목 계층 구조에 기반한 빈발 항목 집합 나열 방법 (Item Hierarchy based Frequent Itemset Ordering Method)

  • 김준우;강현경
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2013년도 춘계 종합학술대회 논문집
    • /
    • pp.301-302
    • /
    • 2013
  • 연관 규칙 탐사는 이산적인 항목들을 포함하는 트랜잭션 데이터에 존재하는 항목 간 동시 발생 관계를 찾아내는 데 그 목적을 두고 있다. 연관 규칙은 {전항}${\rightarrow}${후항}의 형태를 갖고, 전, 후항은 모두 사전에 정의된 지지도 하한을 만족하는 빈발 항목 집합으로 구성된다. 연관 규칙 탐사에서 문제가 되는 것은 일반적으로 탐사되는 빈발 항목 집합의 개수가 많아지면서 규칙의 개수도 많아지고, 이들 사이에 중복성이 존재한다는 점이다. 따라서 단순히 지지도나 신뢰도 순으로 빈발 항목 집합이나 규칙을 나열하기보다는 항목들의 연관성을 고려하는 것이 분석자에게 보다 도움이 될 수 있다. 본 논문에서는 이를 위하여 연관 규칙 탐사와 함께 계층 군집 분석을 실시하여 항목들 간 연관성을 정리하고, 이를 토대로 빈발 항목 집합들을 나열하는 방법을 제안하고자 한다.

  • PDF

신경망에 기반한 개인화 기술 (A Personalization Technology Based on Neural Networks)

  • 김종수;도영아;류정우;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.28-30
    • /
    • 2001
  • 현 인터넷상에서 취향에 맞는 항목(상품) 정보를 사용자에게 추천해 주는 개인화 기술은 대부분 특정 사용자와 유사한 선호도를 갖는 다른 사용자들의 특정 항목에 대한 선호도를 바탕으로 항목의 선호도를 추정하는 협력적 추천 기술을 적용하고 있다. 이중 최근접 이웃 방법은 적용하기가 용이한 반면 항목간의 가중치를 고려하지 못함으로써 추천의 정확도가 크게 떨어지는 문제점이 있다. 연관규칙 방법은 다른 항목에 대한 선호도 자료로부터 데이터 마이닝 기법을 적용하여 항목 선호에 대한 연관규칙을 추출하고 그 규칙을 사용하여 어떤 항목의 선호도를 추정한다. 따라서 항목들 간의 중요도가 연관규칙의 지지도나 신뢰도 등으로 나타난다고 할 수 있으나, 단순히 항목들간의 연관관계 즉 표면적인 연관관계에 의하여 선호도를 결정함으로써 항목들간의 어떤 내용적인 공통성 또는 어떤 상위개념에 의한 선호도가 고려되지 않음으로써 역시 정확도가 떨어지는 문제점이 있다. 본 논문에서는 추천의 정확도를 향상시키기 위한 신경망 추천 방법에 대해 분석하고, 내용기반 추천과 협력적 추천을 병합한 신경망 추천 방법을 제안한다. 또한, 다른 협력적 추천 방법과의 비교를 통하여 본 추천 방법의 장점과 성능의 우수함을 보인다.

  • PDF

이미지 데이터베이스 구축을 위한 데이터항목 속성 연구 (A Study of Image Attributes for Image Database)

  • 곽철완;이은철
    • 한국문헌정보학회지
    • /
    • 제32권2호
    • /
    • pp.169-187
    • /
    • 1998
  • 본 연구의 목적은 이미지데이터베이스 구축에 필요한 데이터항목 속성을 파악하기 위해 이미지정보에 대해 이용자가 사용하는 어휘는 무엇이며, 어떻게 구분되며. 그 사이에 어떠한 관련성이 존재하는가를 파악하는 것이다. 22명의 대학생을 대상으로 5종류의 이미지을 가지고 실험을 한 결과, 이미지가 포함하고 있는 내용, 이미지의 크기 등이 사용하는 어휘의 수를 결정하는데 많은 영향을 미치고 있었다. 그리고, 이미지 내용을 설명하는데 필요한 데이터항목 속성은 실제의미, 내적의미, 시간 혹은 지리적 공간, 그리고 각 범주의 관련성이 중요한 것으로 나타났다.

  • PDF

모바일 컴퓨팅 환경에서 실시간 데이터베이스 시스템을 위한 확장된 이타적 로킹 기법 (An Extended Altruistic Locking for Real-Time Database Systems in Mobile Computing Systems)

  • 강은영;김세윤;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 추계학술발표논문집(상)
    • /
    • pp.161-164
    • /
    • 2004
  • 모바일 컴퓨팅 환경에서 실시간 데이터베이스 시스템의 트랜잭션 처리시 2PL-HP 방법은 성능이 우수한 스케줄링 기법이다. 그러나 2PL-HP 방법은 높은 우선순위를 갖는 트랜잭션의 선행처리를 항상 보장하기 때문에 낮은 우선순위를 갖는 트랜잭션은 철회 및 블로킹이 불가피하여 기아(starvation) 현상을 초래한다. 본 논문은 이러한 기아 현상으로 인한 낮은 우선순위를 갖는 트랜잭션의 기다림과 철회를 최소화 하기 위해 이타적 잠금 기법에 우선 순위 기법과 2 버전 기법을 이용하였다. 데이터항목을 점유한 트랜잭션이 더 이상 그 데이터항목을 필요로 하지 않을 때 그 데이터항목을 기부함으로 우선순위가 낮은 트랜잭션들의 불필요한 재 시작 및 기다림을 방지한다. 이로써 마감시간 초과비율과 재시작 비율을 감소 시킬 수 있어 시스템의 처리율을 향상 시킬 수 있다.

  • PDF

ASP모델을 위한 감리 프로세스 (An audit process of the ASP model)

  • 문영준;임춘성;안재근
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (하)
    • /
    • pp.1163-1166
    • /
    • 2002
  • ASP서비스는 사용기업의 데이터를 외부의 데이터센터에 위치시키고, 데이터에 대한 사용권만을 제공하는 극단적인 외주 형태의 서비스이다. 따라서 ASP서비스는 보안문제와 서비스 제공업체의 신뢰성 문제가 어떤 형태의 정보시스템보다 크게 부각된다. 이러한 ASP서비스에 대한 신뢰성과 효율성 확보를 위한 감리 프로세스는 필수적일 것이다. 본 논문에서는 ASP서비스에 대한 감리 프로세스를 제안한다. 우선, 기존의 정보시스템 감리의 정의를 통하여 ASP감리의 정의를 도출하고, ASP프레임워크를 제안하며, 제안된 프레임워크에 따른 통제항목을 설정한다. 마지막으로 검증단계에서 ASP감리 프레임워크를 기존의 정보시스템 감리 프레임워크와 비교분석하고, ASP서비스 수명주기 세부활동 별 통제항목의 중요도를 산출한 설문을 통해서 통제항목의 타당성을 검증한다.

  • PDF