• Title/Summary/Keyword: 함수데이터분석

Search Result 909, Processing Time 0.026 seconds

Supervised Feature Weight Optimization for Data Mining (데이터마이닝에서 교사학습에 의한 속성 가중치 최적화)

  • 강명구;차진호;김명원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.244-246
    • /
    • 2001
  • 최근 군집화와 분류기법이 데이터 마이닝에 중요한 도구로 많은 응용분야에 사용되고 있다. 따라서 이러한 기법을 이용하는데 있어서 각각의 속성의 중요도가 달라 중요하지 않은 속성에 의해 중요한 속성이 왜곡되거나 때로는 마이닝의 결과가 잘못되는 결과를 얻을 수 있으며, 또한 전체 데이터를 사용할 경우 마이닝 과정을 저하시키는 문제로 속성 가중치과 속성선택에 과한 연구가 중요한 연구의 대상이 되고 있다. 최근 연구되고 있는 알고리즘들은 사용자의 의도와는 상관없이 데이터간의 관계에만 의존하여 가중치를 설정하므로 사용자가 마이닝 결과를 쉽게 이해하고 분석할 수 없는 문제점을 안고 있다. 본 논문에서는 클래스 정보가 있는 데이터뿐 아니라 클래스 정보가 없는 데이터를 분석할 경우 사용자의 의도에 따라 학습할 수 있도록 각 가중치를 부여하는 속성가중치 알고리즘을 제안한다. 또한 사용자가 의도한 정보를 이용하여 속성간의 가장 최적화 된 가중치를 찾아주며, Cramer's $V^2$함수를 적합도 함수로 하는 유전자 알고리즘을 사용한다. 알고리즘의 타당성을 검증하기 위해 전자상거래상의 실험 데이터와 몇 가지 벤치마크 데이터를 이용하여 본 논문의 타당성을 보인다.

  • PDF

Execution of a functional Logic language using the Dataflow Graph Representation (데이터플로우 그래프 표현 방식을 이용한 함수 논리 언어의 실행)

  • Kim, Yong-Jun;Cheon, Suh-Hyun
    • The Transactions of the Korea Information Processing Society
    • /
    • v.5 no.9
    • /
    • pp.2435-2446
    • /
    • 1998
  • In this paper. We describe a dataflow model for efficient execution of a functional logic language and a method of translation a functional logic language into a dataflow graph. To explore parallelism and intelligent backtracking, we us model in which clause and function are represented as independent dataflow graph. The node denotes basic actions to be performed when the clause and function are executed. The dataflow mechanism allows an operation to be executed as soon as all its operands are available. Since the operations can never be executed earlier, a dataflow model is an excellent base for increasing execution speed. We did decrease a delay time with concurrent execution of dependency analysis and subgoal.

  • PDF

Applying an Aggregate Function AVG to OLAP Cubes (OLAP 큐브에서의 집계함수 AVG의 적용)

  • Lee, Seung-Hyun;Lee, Duck-Sung;Choi, In-Soo
    • Journal of the Korea Society of Computer and Information
    • /
    • v.14 no.1
    • /
    • pp.217-228
    • /
    • 2009
  • Data analysis applications typically aggregate data across many dimensions looking for unusual patterns in data. Even though such applications are usually possible with standard structured query language (SQL) queries, the queries may become very complex. A complex query may result in many scans of the base table, leading to poor performance. Because online analytical processing (OLAP) queries are usually complex, it is desired to define a new operator for aggregation, called the data cube or simply cube. Data cube supports OLAP tasks like aggregation and sub-totals. Many aggregate functions can be used to construct a data cube. Those functions can be classified into three categories, the distributive, the algebraic, and the holistic. It has been thought that the distributive functions such as SUM, COUNT, MAX, and MIN can be used to construct a data cube, and also the algebraic function such as AVG can be used if the function is replaced to an intermediate function. It is believed that even though AVG is not distributive, but the intermediate function (SUM, COUNT) is distributive, and AVG can certainly be computed from (SUM, COUNT). In this paper, however, it is found that the intermediate function (SUM COUNT) cannot be applied to OLAP cubes, and consequently the function leads to erroneous conclusions and decisions. The objective of this study is to identify some problems in applying aggregate function AVG to OLAP cubes, and to design a process for solving these problems.

Analysis of the ability to interpret and draw a graph of the function to high school students (고등학생의 함수의 모양 그리기와 해석하는 능력 분석)

  • An, Jong-Su
    • Journal of the Korean School Mathematics Society
    • /
    • v.15 no.2
    • /
    • pp.299-316
    • /
    • 2012
  • In this paper, we examine high school in order to know their ability for understanding about fundamental functions, such as polynomial, trigonometric, logarithm and exponential functions which have learned from high school. The result of this study shows as follows. More than half students are not able to draw shape of given functions, except polynomial. More students do not fully understand about function properties such as domain, codomain, range, maximum and minimum value.

  • PDF

Practical Guide to X-ray Spectroscopic Data Analysis (X선 기반 분광광도계를 통해 얻은 데이터 분석의 기초)

  • Cho, Jae-Hyeon;Jo, Wook
    • Journal of the Korean Institute of Electrical and Electronic Material Engineers
    • /
    • v.35 no.3
    • /
    • pp.223-231
    • /
    • 2022
  • Spectroscopies are the most widely used for understanding the crystallographic, chemical, and physical aspects of materials; therefore, numerous commercial and non-commercial software have been introduced to help researchers better handling their spectroscopic data. However, not many researchers, especially early-stage ones, have a proper background knowledge on the choice of fitting functions and a technique for actual fitting, although the essence of such data analysis is peak fitting. In this regard, we present a practical guide for peak fitting for data analysis. We start with a basic-level theoretical background why and how a certain protocol for peak fitting works, followed by a step-by-step visualized demonstration how an actual fitting is performed. We expect that this contribution is sure to help many active researchers in the discipline of materials science better handle their spectroscopic data.

Travel Time Prediction Algorithm for Trajectory data by using Rule-Based Classification on MapReduce (맵리듀스 환경에서 규칙 기반 분류화를 이용한 궤적 데이터 주행 시간 예측 알고리즘)

  • Kim, JaeWon;Lee, HyunJo;Chang, JaeWoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.11a
    • /
    • pp.798-801
    • /
    • 2014
  • 여행 정보 시스템(ATIS), 교통 관리 시스템 (ITS) 등 궤적 기반 서비스에서, 서비스 품질을 향상시키기 위해서는 주어진 궤적 질의에 대한 정확한 주행시간을 예측하는 것이 필수적이다. 이를 위한 대표적인 공간 데이터 분석 기법으로는 데이터 분류에서 높은 정확도를 보장하는 규칙 기반 분류화 기법이 존재한다. 그러나 기존 규칙 기반 분류화 기법은 단일 컴퓨터 환경만을 고려하기 때문에, 대용량 공간 데이터 처리에 적합하지 않은 문제점이 존재한다. 이를 해결하기 위해, 본 연구에서는 맵리듀스 환경에서 규칙 기반 분류화를 이용한 궤적 데이터 주행 시간 예측 알고리즘을 개발하고자 한다. 제안하는 알고리즘은 첫째, 맵리듀스를 이용하여 대용량 공간 데이터를 병렬적으로 분석함으로써, 활용도 높은 궤적 데이터 규칙을 생성한다. 이를 통해 대용량 공간 데이터 기반의 규칙 생성 시간을 감소시킨다. 둘째, 그리드 구조 기반의 지도 데이터 분할을 통해, 사용자 질의처리 시 탐색 성능을 향상시킨다. 즉, 주행 시간 예측을 위한 규칙 그룹을 탐색 시 질의를 포함하는 그리드 셀만을 탐색하기 때문에, 질의처리 성능이 향상된다. 마지막으로 맵리듀스 구조에 적합한 질의처리 알고리즘을 설계하여, 효율적인 병렬 질의처리를 지원한다. 이를 위해 맵 함수에서는 선정된 그리드 셀에 대해, 질의에 포함된 도로 구간에서의 주행 시간을 병렬적으로 측정한다. 아울러 리듀스 함수에서는 출발 시간 및 구간별 주행 시간을 바탕으로 맵 함수의 결과를 병합함으로써, 최종 결과를 생성한다. 이를 통해 공간 빅데이터 분석을 통한 주행 시간 예측 기법의 처리 시간 및 결과 정확도를 향상시킨다.

Design and Implementation of Distributed In-Memory DBMS-based Parallel K-Means as In-database Analytics Function (분산 인 메모리 DBMS 기반 병렬 K-Means의 In-database 분석 함수로의 설계와 구현)

  • Kou, Heymo;Nam, Changmin;Lee, Woohyun;Lee, Yongjae;Kim, HyoungJoo
    • KIISE Transactions on Computing Practices
    • /
    • v.24 no.3
    • /
    • pp.105-112
    • /
    • 2018
  • As data size increase, a single database is not enough to serve current volume of tasks. Since data is partitioned and stored into multiple databases, analysis should also support parallelism in order to increase efficiency. However, traditional analysis requires data to be transferred out of database into nodes where analytic service is performed and user is required to know both database and analytic framework. In this paper, we propose an efficient way to perform K-means clustering algorithm inside the distributed column-based database and relational database. We also suggest an efficient way to optimize K-means algorithm within relational database.

Fuzzy K-Nearest Neighbor Algorithm based on Kernel Method (커널 기반의 퍼지 K-Nearest Neighbor 알고리즘)

  • Choi Byung-In;Rhee Frank Chung-Hoon
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2005.11a
    • /
    • pp.267-270
    • /
    • 2005
  • 커널 함수는 데이터를 high dimension 상의 속성 공간으로 mapping함으로써 복잡한 분포를 가지는 데이터에 대하여 기존의 선형 분류 알고리즘들의 성능을 향상시킬 수 있다. 본 논문에서는 기존의 유클리디안 거리측정방법 대신에 커널 함수에 의한 속성 공간의 거리측정방법을 fuzzy K-nearest neighbor 알고리즘에 적용한 fuzzy kernel K-nearest neighbor(FKKNN) 알고리즘을 제안한다. 제시한 알고리즘은 데이터에 대한 적절한 커널 함수의 선택으로 기존 알고리즘의 성능을 향상 시킬 수 있다. 제시한 알고리즘의 타당성을 보이기 위하여 여러 데이터 집합에 대한 실험결과를 분석한다.

  • PDF

Monitoring and adaptive prediction of the dynamically changed information (동적으로 변화하는 정보에 대한 모니터링 및 적응적 변화 예측)

  • Park, Dae Wook;Lee, Won Suk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.230-232
    • /
    • 2007
  • 최근의 온라인 응용 환경에서는 다양한 종류의 데이터 스트림을 다루고 있으며 이러한 데이터 스트림은 빠른 속도로 무한히 생성되고 실시간의 빠른 처리를 필요로 한다. 따라서 데이터 스트림 실시간 처리 및 분석 작업에서는 데이터 스트림을 지속적으로 모니터링하여 앞으로의 변화와 이에 따른 부하를 예측하고 성능을 조절하는 일이 필요하다. 본 논문에서는 끊임없이 발생하는 데이터를 관찰하여 데이터가 발생하는 패턴을 찾아내고, 찾아낸 패턴을 기반으로 미래의 특정 시점에서 발생할 데이터 값을 미리 예측하는 효율적인 기법을 제안한다. 무한한 양의 데이터를 제한된 크기의 메모리 내에서 처리하여 현재부터 과거 특정시점까지 발생한 데이터의 패턴을 가장 정확히 일반화할 수 있는 함수를 찾아내고 그 함수를 기반으로 미래에 발생할 데이터의 값을 예측한다.

  • PDF

Derivation and Application of In uence Function in Discriminant Analysis for Three Groups (세 집단 판별분석 상황에서의 영향함수 유도 및 그 응용)

  • Lee, Hae-Jung;Kim, Hong-Gie
    • The Korean Journal of Applied Statistics
    • /
    • v.24 no.5
    • /
    • pp.941-949
    • /
    • 2011
  • The influence function is used to develop criteria to detect outliers in discriminant analysis. We derive the influence function of observations that estimate the the misclassification probability in discriminant analysis for three groups. The proposed measures are applied to the facial image data to define outliers and redo the discriminant analysis excluding the outliers. The study proves that the derived influence function is more efficient than using the discriminant probability approach.