• Title/Summary/Keyword: 데이터 항목

Search Result 1,281, Processing Time 0.026 seconds

A Study on WT-Algorithm for Effective Reduction of Association Rules (효율적인 연관규칙 감축을 위한 WT-알고리즘에 관한 연구)

  • Park, Jin-Hee;Pi, Su-Young
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.20 no.5
    • /
    • pp.61-69
    • /
    • 2015
  • We are in overload status of information not just in a flood of information due to the data pouring from various kinds of mobile devices, online and Social Network Service(SNS) every day. While there are many existing information already created, lots of new information has been created from moment to moment. Linkage analysis has the shortcoming in that it is difficult to find the information we want since the number of rules increases geometrically as the number of item increases with the method of finding out frequent item set where the frequency of item is bigger than minimum support in this information. In this regard, this thesis proposes WT-algorithm that represents the transaction data set as Boolean variable item and grants weight to each item by making algorithm with Quine-McKluskey used to simplify the logical function. The proposed algorithm can improve efficiency of data mining by reducing the unnecessary rules due to the advantage of simplification regardless of number of items.

Proposition of negatively pure association rule threshold (음의 순수 연관성 규칙 평가 기준의 제안)

  • Park, Hee-Chang
    • Journal of the Korean Data and Information Science Society
    • /
    • v.22 no.2
    • /
    • pp.179-188
    • /
    • 2011
  • Association rule represents the relationship between items in a massive database by quantifying their relationship, and is used most frequently in data mining techniques. In general, association rule technique generates the rule, 'If A, then B.', whereas negative association rule technique generates the rule, 'If A, then not B.', or 'If not A, then B.'. We can determine whether we promote other products in addition to promote its products only if we add negative association rules to existing association rules. In this paper, we proposed the negatively pure association rules by negatively pure support, negatively pure confidence, and negatively pure lift to overcome the problems faced by negative association rule technique. In checking the usefulness of this technique through numerical examples, we could find the direction of association by the sign of the negatively pure association rule measure.

Canonical correlation between body information and lipid-profile: A study on the National Health Insurance Big Data in Korea

  • Jo, Han-Gue;Kang, Young-Heung
    • Journal of the Korea Society of Computer and Information
    • /
    • v.26 no.1
    • /
    • pp.201-208
    • /
    • 2021
  • This study aims to provide the relevant basis upon which prediction of dyslipidemia should be made based on body information. Using the National Health Insurance big data (3,312,971 people) canonical correlation analysis was performed between body information and lipid-profile. Body information included age, height, weight and waist circumference, while the lipid-profile included total cholesterol, triglycerides, HDL cholesterol and LDL cholesterol. As a result, when the waist circumference and the weight are large, triglycerides increase and HDL cholesterol level decreases. In terms of age, weight, waist circumference, and HDL cholesterol, the canonical variates (the degree of influence) were significantly different according to sex. In particular, the canonical variate was dramatically changed around the forties and fifties in women in terms of weight, waist circumference, and HDL cholesterol. The canonical correlation results of the health care big data presented in this study will help construct a predictive model that can evaluate an individual's health status based on body information that can be easily measured in a non-invasive manner.

A Study of the DSSAD Data Elements Derivation through Autonomous Driving Data Analysis on Expressways (자동차 전용도로 자율주행 데이터 분석을 통한 DSSAD 기록항목 도출)

  • Seunghwa Hyun;Jinwoo Son;Youngchul Oh;Byungyong You
    • The Journal of The Korea Institute of Intelligent Transport Systems
    • /
    • v.23 no.3
    • /
    • pp.97-106
    • /
    • 2024
  • The Data Storage System for Automated Driving(DSSAD) is a system that records driving information of Lv.4 or higher autonomous vehicles and is different from EDR that records car information in emergency situations. The study of DSSAD recordings is important for responding to various events that may occur in the future commercialization of Lv.4 autonomous vehicles. Therefore, in this study, we conducted a expressway automated driving demonstration and analyzed the collected data to derive the recording elements of DSSAD. During our two-year demonstration of autonomous driving on expressways, we collected and analyzed instances of disengagement. Our findings indicate that 51.6% of disengagement on expressways occurred during lane changes. From the study, we have identified DSSAD record elements for analyzing disengagement situations. Furthermore, implications of future research direction of disengagement analysis were presented.

Discovery of Association Rules Based on Data of Quantitative Attribute and Time Series (수량적 속성과 시계열 분석에 의한 연관규칙 탐사)

  • 양신모;정광호;김진수;최성용;이정현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.175-177
    • /
    • 2003
  • 연관규칙은 데이터 안에 존재하는 항목들간의 종속 관계를 찾아내는 것이다. 기존의 연구에서는 연관규칙 탐사 과정에서 발견항목 자체에만 관심을 두고 연구되어 왔다. 즉, 연관규칙 생성을 위한 후보 항목은 수량을 배제한 항목 대 수량비가 1:1인 상태에서 규칙을 발견하는 연구였다. 이것은 항목의 구매 수량에 관계없이 같은 가중치로 규칙을 발견하는 문제점을 갖고 있다. 두 번째 문제점은 연관규칙은 시간적 연장선상에서 발견되는 규칙이라 할 수 있다. 즉, 규칙을 발견하는 과정에서 모든 자료를 동일한 시간적 가중치를 두어 취급하는 것이다. 본 논문에서는 각각의 아이템을 (아이템, 수량)의 묶음 단위로 후보항목을 만들어 수량적 속성이 포함된 아이템 대 수량 비 1:n의 관계에서 규칙을 발견하는 방법을 제안한다. 또한 과거의 자료들을 이용하여 예측할 때 모든 자료를 동일하게 취급하기보다는 최근의 자료에 더 큰 비중을 주는 예측법을 사용하여 연관규칙 발견의 신뢰성을 높인다. 성능평가는 기존의 알고리즘과 비교하여 제안한 알고리즘의 성능향상 및 타당성을 보인다.

  • PDF

A Method for Frequent Itemsets Mining from Data Stream (데이터 스트림 환경에서 효율적인 빈발 항목 집합 탐사 기법)

  • Seo, Bok-Il;Kim, Jae-In;Hwang, Bu-Hyun
    • The KIPS Transactions:PartD
    • /
    • v.19D no.2
    • /
    • pp.139-146
    • /
    • 2012
  • Data Mining is widely used to discover knowledge in many fields. Although there are many methods to discover association rule, most of them are based on frequency-based approaches. Therefore it is not appropriate for stream environment. Because the stream environment has a property that event data are generated continuously. it is expensive to store all data. In this paper, we propose a new method to discover association rules based on stream environment. Our new method is using a variable window for extracting data items. Variable windows have variable size according to the gap of same target event. Our method extracts data using COBJ(Count object) calculation method. FPMDSTN(Frequent pattern Mining over Data Stream using Terminal Node) discovers association rules from the extracted data items. Through experiment, our method is more efficient to apply stream environment than conventional methods.

A Critical Review on Open, Useful, Reusable Government Data Index by OECD with Level of Domestic Open Government Data : Focusing on Comparison with Open Data Barometer (국내 공공데이터 개방수준을 통해서 본 OECD의 Open, Useful, Reusable Government Data Index에 대한 비판적 논의: Open Data Barometer와의 비교를 중심으로)

  • Seo, Hyung-Jun
    • Informatization Policy
    • /
    • v.24 no.2
    • /
    • pp.43-67
    • /
    • 2017
  • In 2015, Korea won the first place among 30 countries in Open, Useful, and Reusable (OUR) Data Index, which is an OECD's open government data indicator. On the other hand, Korea was ranked the 17th among 86 countries in Open Data Barometer (ODB) of World Wide Web Foundation. In this study, the research subject comes from two reasonable academic doubts on why the gap is wide between the two indicators of Korea and whether the OUR Data Index made proper evaluation on Korea's open government data. Based on the assumption that there may be some critical points in the measuring method of OUR Data Index, the study conducted a comparison of the two indicators. The result found that first, the two indicators almost had no correlation to each other; second, OUR Data Index had a more vague evaluation framework as well as less amount of government data for evaluation than ODB; third, while the government support takes a significant share in the OUR Data Index, it is considered as a mere input element; and fourth, the OUR Data Index does not evaluate the impact of open government data, whereas ODB includes the impact of open data on the government, economy, and society.

Data Structure Quality Management for efficient CRM (효율적인 CRM을 위한 데이터구조 품질관리 방안)

  • Lee, Sun-Hee
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.10c
    • /
    • pp.1-5
    • /
    • 2007
  • 고객 데이터 중심의 통합을 근간으로 하는 CRM을 추진하면서 데이터 품질은 필수적인 선결과제로 인식되고 있어, 데이터 품질 개선을 위해 데이터, 데이터구조, 데이터관리프로세스를 대상으로 활발한 연구가 진행되고 있다. 본 논문에서는 데이터 품질 개선을 위해 표준화를 통한 데이터구조에 대한 품질관리 모델을 제안하고, 제시한 모델을 적용하여 기존 시스템의 관리 항목을 현저히 감소시켜 데이터구조의 품질을 개선하고 데이터구조 표준화 관리 시스템을 통하여 지속적인 개선이 가능하도록 하였다.

  • PDF

A Methodology of Measuring Data Quality from Viewpoint of Software user (소프트웨어 사용자 관점의 데이터 품질 측정 방안)

  • 양자영;최병주
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.436-438
    • /
    • 2001
  • 소프트웨어 제품의 품질을 보증하는 일은 중요하며, 이를 위해서는 실제 소프트웨어 제품이 실행될 때 최적의 결과에 영향을 주는 데이터, 즉 데이터의 품질이 보증 되어야 한다. 그러나 대부분의 소프트웨어 품질 관련 연구에서는 소프트웨어 품질 측정에 대한 모형만을 제시할 뿐 데이터 품질에 대해서는 다루어지고 있지 있다. 본 논문에서는 데이터 품질 평가를 위하여 데이터 품질을 측정하는 메트릭을 제안한다. 제안한 메트릭은 전체 데이터베이스에서 오류 데이터가 발생한 비율과 데이터 사용 목적에 따라 데이터 항목마다 다른 가중치를 적용하여 구해진다. 본 논문에서 제안하는 데이터 품질 메트릭은 특히 데이터를 주로 처리하는 소프트웨어 시스템의 품질 측정에 기여할 수 있다.

  • PDF

Generating Technology of the Association Rule for Analysis of Audit Data on Intrusion Detection (침입탐지 감사자료 분석을 위한 연관규칙 생성 기술)

  • Soh, Jin;Lee, Sang-Hoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11b
    • /
    • pp.1011-1014
    • /
    • 2002
  • 최근 대규모 네트워크 데이터에 대한 패턴을 분석하기 위한 연구에 대하여 관심을 가지고 침입탐지 시스템을 개선하기 위해 노력하고 있다. 특히, 이러한 광범위한 네트워크 데이터 중에서 침입을 목적으로 하는 데이터에 대한 탐지 능력을 개선하기 위해 먼저, 광범위한 침입항목들에 대한 탐지 적용기술을 학습하고, 그 다음에 데이터 마이닝 기법을 이용하여 침입패턴 인식능력 및 새로운 패턴을 빠르게 인지하는 적용기술을 제안하고자 한다. 침입 패턴인식을 위해 각 네트워크에 돌아다니는 관련된 패킷 정보와 호스트 세션에 기록되어진 자료를 필터링하고, 각종 로그 화일을 추출하는 프로그램들을 활용하여 침입과 일반적인 행동들을 분류하여 규칙들을 생성하였으며, 생성된 새로운 규칙과 학습된 자료를 바탕으로 침입탐지 모델을 제안하였다. 마이닝 기법으로는 학습된 항목들에 대한 연관 규칙을 찾기 위한 연역적 알고리즘을 이용하여 규칙을 생성한 사례를 보고한다. 또한, 추출 분석된 자료는 리눅스 기반의 환경 하에서 다양하게 모아진 네트워크 로그파일들을 분석하여 제안한 방법에 따라 적용한 산출물이다.

  • PDF