• Title/Summary/Keyword: 데이터 항목

Search Result 1,293, Processing Time 0.029 seconds

A Hierarchical Clustering Algorithm Using Extended Sequence Element-based Similarity Measure (확장된 시퀀스 요소 기반의 유사도를 이용한 계층적 클러스터링 알고리즘)

  • Oh, Seung-Joon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.11 no.5 s.43
    • /
    • pp.321-327
    • /
    • 2006
  • Recently there has been enormous growth in the amount of commercial and scientific data. Such datasets consist of sequence data that have an inherent sequential nature. However, only a few of the existing clustering algorithms consider sequentiality. This study presents a similarity measure and a method for clustering such sequence datasets. Especially, we present an extended concept of the measure of similarity, which considers various conditions. Using a splice dataset, we show that the quality of clusters generated by our proposed clustering algorithm is better than that of clusters produced by traditional clustering algorithms.

  • PDF

Behavior analysis of entrance applicants using web log data (웹 로그데이터를 이용한 대학입시 지원자 행태 분석)

  • Choi, Seung-Bae;Kang, Chang-Wan;Cho, Jang-Sik
    • Journal of the Korean Data and Information Science Society
    • /
    • v.20 no.3
    • /
    • pp.493-504
    • /
    • 2009
  • The web log data analysis is to analysis traces which visitors remain while they drop by a web-site. Ultimately it can help to obtain a lot of useful information that can efficiently manage homepage and perform CRM(customer relationship management) using obtained information. In this paper, we provide a basic information to manage efficiently homepage of D university and to establish strategy for invitation of new pupil, as analyzing web log data for D university.

  • PDF

Analysis of Requirements for Real-time Monitoring Item based on Big Data Environment (빅데이터 환경의 실시간 서버 감시항목 도출을 위한 요구사항 분석)

  • Lim, Bock-Chool;Kim, Soon-Gohn
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.11a
    • /
    • pp.745-746
    • /
    • 2014
  • 서버 성능 모니터링은 통합된 정보시스템의 모든 구성요소의 효율적인 활동능력을 부여하고, 성능에 관계된 모든 상태를 감시하여, 최적의 서비스 품질과 정보 시스템 장원의 효율성을 유지 및 제고시키는 것이다. 현재 일반적으로 통용되는 방식은 에이전트 기반의 클라이언트가 데이터를 중앙 서버에 전송하는 것이다. 데이터 량이 급속하게 증가하는 빅 데이터 환경에서 실시간 데이터 수집 및 분석, 처리를 위해 서버 성능 모니터링의 지침 및 상용/오픈 솔루션을 분석하고 비교한다. 결과를 토대로 실제 서비스의 감시 이력과 장애 이력을 통하여 실시간 모니터링이 필요한 감시항목을 도출한다.

An Effective Reduction of Association Rules using a T-Algorithm (T-알고리즘을 이용한 연관규칙의 효과적인 감축)

  • Park, Jin-Hee;Chung, Hwan-Mook
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.19 no.2
    • /
    • pp.285-290
    • /
    • 2009
  • An association rule mining has been studied to find hidden data pattern in data mining. A realization of fast processing method have became a big issue because it treated a great number of transaction data. The time which is derived by association rule finding method geometrically increase according to a number of item included data. Accordingly, the process to reduce the number of rules is necessarily needed. We propose the T-algorithm that is efficient rule reduction algorithm. The T-algorithm can reduce effectively the number of association rules. Because that the T-algorithm compares transaction data item with binary format. And improves a support and a confidence between items. The performance of the proposed T-algorithm is evaluated from a simulation.

An Algorithm for reducing the search time of Frequent Items (빈발 항목의 탐색 시간을 단축하기 위한 알고리즘)

  • Yun, So-Young;Youn, Sung-Dae
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.15 no.1
    • /
    • pp.147-156
    • /
    • 2011
  • With the increasing utility of the recent information system, the methods to pick up necessary products rapidly by using a lot of data has been studied. Association rule search methods to find hidden patterns has been drawing much attention, and the Apriori algorithm is a major method. However, the Apriori algorithm increases search time due to its repeated scans. This paper proposes an algorithm to reduce searching time of frequent items. The proposed algorithm creates matrix using transaction database and search for frequent items using the mean number of items of transactions at matrix and a defined minimum support. The mean number of items of transactions is used to reduce the number of transactions, and the minimum support to cut down on items. The performance of the proposed algorithm is assessed by the comparison of search time and precision with existing algorithms. The findings from this study indicated that the proposed algorithm has been searched more quickly and efficiently when extracting final frequent items, compared to existing Apriori and Matrix algorithm.

Evaluation Category Selection For Automated Essay Evaluation of Korean Learner (한국어 학습자 작문 자동 평가를 위한 평가 항목 선정)

  • Kwak, Yong-Jin
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.270-271
    • /
    • 2017
  • 본 연구는 한국어 학습자 작문의 자동 평가 시스템 개발의 일환으로, 자동 평가 결과에 대한 설명과 근거가 될 수 있는 평기 기준 범주를 선정하기 위한 데이터 구축과 선정 방법을 제시한다. 작문의 평가 기준의 영역과 항목은 평가체계에 대한 이론적 연구에 따라 다양하다. 이러한 평가 기준은 자동 평가에서는 식별되기 어려운 경우도 있고, 각각의 평가 기준이 적용되는 작문 오류의 범위도 다양하다. 그러므로 본 연구에서는 자동 평가 기준 선정의 문제는 다양한 평가 기준에 중 하나를 선정하는 분류의 문제로 보고, 학습데이터를 구축, 기계학습을 통해 자동 작문 평가에 효과적인 평가 기준을 선정 가능성을 제시한다.

  • PDF

고객 데이터베이스 구축 - 마케팅 목적을 상세히 파악하라

  • Korea Database Promotion Center
    • Digital Contents
    • /
    • no.11 s.66
    • /
    • pp.50-55
    • /
    • 1998
  • 데이터베이스를 어떤 형태로 구축해야 하는가에 대해서 획일적으로 적용되는 정답은 없다. 단 한가지 공통으로 적용되는 점은 귀사의 마케팅 목적을 상세히 살펴보면 귀사에 필요한 고객정보 항목을 찾을 수 있다는 것이다. 어떤 정보 항목들을 데이터베이스로 구축할 것인가? 얼마나 많은 수의 고객(테이블에서의 Record)을 축적할 것인가?등의 정보의 규모 및 심도의 문제는 전적으로 마케팅 목적에 달려 있다. 목적을 확정하지 않고 무조건 데이터를 축적하여 둔다든가 무작정 많은 고객 데이터를 축적하는 것은 흔히 범하는 실수이다.

  • PDF

A Weight Distance-based Clustering for MultiDatabase Mining (다중데이터베이스 마이닝에서 가중치 거리를 이용한 클러스터링)

  • 김진현;윤성대
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.695-697
    • /
    • 2003
  • 다중데이터베이스 마이닝에서 하나의 데이터 집합을 형성하는 작업은 많은 부하가 따른다. 그러므로, 본 논문에서는, 가중치 거리를 이용한 클러스터링을 통해 관련성이 높은 데이터베이스를 식별하는 기법을 제안한다. 제안한 기법은 빈발한 항목으로 구성된 데이터 집합을 생성하여 데이터베이스 사이의 유사성과 거리를 측정하고 데이터베이스간의 거리에 대한 식별성을 향상시키기 위하여 최다 빈발항목에 대한 비교 연산을 통해 가중치를 산출한다. 그리고 성능평가를 통하여 제안한 기법이 Ideal&Goodness 기법보다 다중데이터베이스의 트랜잭션 데이터베이스에 대한 식별 능력이 우수함을 알 수 있었다.

  • PDF

Privacy-Preserving Kth Element Score over Vertically Partitioned Data on Multi-Party (다자 간 환경에서 수직 분할된 데이터에서 프라이버시 보존 k번째 항목의 score 계산)

  • Hong, Jun Hee;Jung, Jay Yeol;Jeong, Ik Rae
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.24 no.6
    • /
    • pp.1079-1090
    • /
    • 2014
  • Data mining is a technique to get the useful information that can be utilized for marketing and pattern analysis by processing the data that we have. However, when we use this technique, data provider's personal data can be leaked by accident. To protect these data from leakage, there were several techniques have been studied to preserve privacy. Vertically partitioned data is a state called that the data is separately provided to various number of user. On these vertically partitioned data, there was some methods developed to distinguishing kth element and (k+1) th element by using score. However, in previous method, we can only use on two-party case, so in this paper, we propose the extended technique by using paillier cryptosystem which can use on multi-party case.

Negatively attributable and pure confidence for generation of negative association rules (음의 연관성 규칙 생성을 위한 음의 기여 순수 신뢰도의 제안)

  • Park, Hee-Chang
    • Journal of the Korean Data and Information Science Society
    • /
    • v.23 no.5
    • /
    • pp.939-948
    • /
    • 2012
  • The most widely used data mining technique is to explore association rules. This technique has been used to find the relationship between items in a massive database based on the interestingness measures such as support, confidence, lift, etc. Association rules are frequently used by retail stores to assist in marketing, advertising, floor placement, and inventory control.In general, association rule technique generates the rule, 'If A, then B.', whereas negative association rule technique generates the rule, 'If A, then not B.', or 'If not A, then B.'. We can determine whether we promote other products in addition to promote its products only if we add negative association rules to existing association rules. In this paper, we proposed the negatively attributable and pure confidence to overcome the problems faced by negative association rule technique, and then we checked three conditions for interestingness measure. The comparative studies with negative confidence, negatively pure confidence, and negatively attributable and pure confidence are shown by numerical examples. The results show that the negatively attributable and pure confidence is better than negative confidence and negatively pure confidence.