• Title/Summary/Keyword: 데이터 일반화

Search Result 677, Processing Time 0.027 seconds

Rules for Control Propagation of Geospatial Data Generalization (공간데이터 일반화의 파급을 처리하기 위한 규칙)

  • Kang, He-Gyoung;Li, Ki-Joune
    • Journal of Korea Spatial Information System Society
    • /
    • v.4 no.1 s.7
    • /
    • pp.5-14
    • /
    • 2002
  • The generalization of geospatial data is an important way in deriving a new database from an original one. The generalization of a geospatial object changes not only its geometric and aspatial attributes but also results in propagation to other objects along their relationship. We call it generalization propagation of geospatial databases. Without proper handling of the propagation, it brings about an inconsistent database or loss of semantics. Nevertheless, previous studies in the generalization have focused on the derivation of an object by isolating it from others. And they have proposed a set of generalization operators, which were intended to change the geometric and aspatial attributes of an object. In this paper we extend the definition of generalization operators to cover the propagation from an object to others. In order to capture the propagation, we discover a set of rules or constraints that must be taken into account during generalization procedure. Each generalization operator with constraints is expressed in relational algebra and it can be converted to SQL statements with ease. A prototype system was developed to verify the correctness of extended operators.

  • PDF

Topological Consistency in Map Generalization (지도 일반화를 위한 위상적 일관성 유지)

  • 최신영;이성희;이기준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.158-160
    • /
    • 1998
  • 지도 제작에 있어서, 기존의 구축된 대축척의 원천 데이터로부터 소축척의 목적 데이터를 추출해 냄으로 데이터 구축을 중복되지 않고 효율적으로 할 수 있게 하는 것을 지도 일반화라고 한다. 초기의 선을 단순화하는 알고리즘 개발과 향상에 대한 연구로부터, 최근에는 자동화를 위한 지식 기반 일반화 및 데이터 품질에 대한 많은 관심과 연구가 진행되고 있다. 최근에 지리 정보 시스템의 발전으로 다양한 공간 분석이 필요하고, 그 성능 향상을 위하여 위상 정보를 구축하게 된다. 그러므로, 본 논문에서는 위상 정보를 가진 원천 데이터 베이스에서, 일반화 연산자가 적용됨으로 발생하게 되는 위상 데이터의 손실과 불일치를 해결하기 위하여 일반화 연산자들이 위상 정보에 미치는 영향과 이를 해결하기 위한 규칙들을 제시한다. 그리고, 지도 일반화 과정에서 위상 정보의 일관성을 유지한 목적 데이터 베이스를 구축하는 시스템을 구현하는 것이 본 논문의 목적이다.

A Design of Generalized View for the Visualization Layer of Performance Monitoring Tool (성능 감시기의 가시화충을 위한 일반화된 뷰의 설계)

  • 마대성;유진호;김병기
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10a
    • /
    • pp.756-758
    • /
    • 1998
  • 본 논문은 병렬 프로그램의 성능 분석을 위한 성능 감시기에 가시화층에 일반화된 뷰를 설계하고 구현하였다. 대부분의 성능 감시기는 하드웨어에 의존적인 특성화에 뷰를 제공함으로서 이식성이나 확장성이 부족하다. 일반화된 뷰를 제공하는 성능 감시기는 데이터 필터층에서 필터링된 성능 분석 데이터를 이용하여 프로그래머가 정의한 데이터의 범위에 따라 뷰를 스스로 확장할 수 있다. 또한 CallBack기능을 제공하여 관심 있는 데이터를 쉽게 볼 수 있다. 프로그래머는 성능 감시기의 일반화된 뷰를 이용하여 다양한 형태의 성능 분석 결과를 볼 수 있다.

  • PDF

Evaluating Korean Machine Reading Comprehension Generalization Performance using Cross and Blind Dataset Assessment (기계독해 데이터셋의 교차 평가 및 블라인드 평가를 통한 한국어 기계독해의 일반화 성능 평가)

  • Lim, Joon-Ho;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.213-218
    • /
    • 2019
  • 기계독해는 자연어로 표현된 질문과 단락이 주어졌을 때, 해당 단락 내에 표현된 정답을 찾는 태스크이다. 최근 기계독해 태스크도 다른 자연어처리 태스크와 유사하게 BERT, XLNet, RoBERTa와 같이 사전에 학습한 언어모델을 이용하고 질문과 단락이 입력되었을 경우 정답의 경계를 추가 학습(fine-tuning)하는 방법이 우수한 성능을 보이고 있으며, 특히 KorQuAD v1.0 데이터셋에서 학습 및 평가하였을 경우 94% F1 이상의 높은 성능을 보이고 있다. 본 논문에서는 현재 최고 수준의 기계독해 기술이 학습셋과 유사한 평가셋이 아닌 일반적인 질문과 단락 쌍에 대해서 가지는 일반화 능력을 평가하고자 한다. 이를 위하여 첫번째로 한국어에 대해서 공개된 KorQuAD v1.0 데이터셋과 NIA v2017 데이터셋, 그리고 엑소브레인 과제에서 구축한 엑소브레인 v2018 데이터셋을 이용하여 데이터셋 간의 교차 평가를 수행하였다. 교차 평가결과, 각 데이터셋의 정답의 길이, 질문과 단락 사이의 오버랩 비율과 같은 데이터셋 통계와 일반화 성능이 서로 관련이 있음을 확인하였다. 다음으로 KorBERT 사전 학습 언어모델과 학습 가능한 기계독해 데이터 셋 21만 건 전체를 이용하여 학습한 기계독해 모델에 대해 블라인드 평가셋 평가를 수행하였다. 블라인드 평가로 일반분야에서 학습한 기계독해 모델의 법률분야 평가셋에서의 일반화 성능을 평가하고, 정답 단락을 읽고 질문을 생성하지 않고 질문을 먼저 생성한 후 정답 단락을 검색한 평가셋에서의 기계독해 성능을 평가하였다. 블라인드 평가 결과, 사전 학습 언어 모델을 사용하지 않은 기계독해 모델 대비 사전 학습 언어 모델을 사용하는 모델이 큰 폭의 일반화 성능을 보였으나, 정답의 길이가 길고 질문과 단락 사이 어휘 오버랩 비율이 낮은 평가셋에서는 아직 80%이하의 성능을 보임을 확인하였다. 본 논문의 실험 결과 기계 독해 태스크는 특성 상 질문과 정답 사이의 어휘 오버랩 및 정답의 길이에 따라 난이도 및 일반화 성능 차이가 발생함을 확인하였고, 일반적인 질문과 단락을 대상으로 하는 기계독해 모델 개발을 위해서는 다양한 유형의 평가셋에서 일반화 평가가 필요함을 확인하였다.

  • PDF

Data Mining mechanism using Data Cube and Neural Network in distributed environment (분산환경에서 데이터 큐브와 신경망을 이용한 데이터마이닝기법)

  • 박민기;바비제라도;이재완
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2003.10a
    • /
    • pp.188-191
    • /
    • 2003
  • In this paper, we proposed data generalization and data cube mechanism for efficient data mining in distribute environment. We also proposed active Self Organization Map applying traditional Self Organization Map of Neural network for searching the most Informative data created from data cube after the generalization procedure and designed the system architecture for that.

  • PDF

A Study on Normalization of Oursourced Storage Auditing Scheme (외부 스토리지 무결성 검증 기법 일반화에 대한 연구)

  • Eun, Hasoo;Oh, Heekuck
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.882-885
    • /
    • 2013
  • 외부 스토리지 무결성 검증 기법이란, 외부에 저장된 사용자의 데이터가 손상되었는지 확인하는 기법으로써 2004년 Deswarte 등이 제안한 이래 꾸준히 연구되어왔다. 하지만, 대부분의 기법들이 준동형 해쉬를 이용한 기법으로서 데이터를 지수에 두고 연산을 하고 있다. 따라서 데이터의 크기가 커질수록 검증에 필요한 연산량이 늘게 된다. 이를 줄이기 위한 기법으로서 데이터를 블록단위로, 블록을 조각 단위로 나누어 연산 후, 결합하여 최종 증거를 생성하는 기법들이 제안되고 있다. 본 논문은 이들 기법을 일반화하고 정리해봄으로써 향후 외부 스토리지 검증기법의 연구 방향을 제시하는 것을 목표로 하고 있다. 이를 위해 본 논문에서는 외부 스토리지 무결성 기법의 일반화 모델을 세우고, 이를 이용해 최근에 제안된 Wang 등의 기법을 일반화하였다. 일반화된 Wang 등의 기법을 토대로 개선되어야 할 점을 분석하고, 향후 연구의 방향을 정리해본다.

Improvement of generalization of linear model through data augmentation based on Central Limit Theorem (데이터 증가를 통한 선형 모델의 일반화 성능 개량 (중심극한정리를 기반으로))

  • Hwang, Doohwan
    • Journal of Intelligence and Information Systems
    • /
    • v.28 no.2
    • /
    • pp.19-31
    • /
    • 2022
  • In Machine learning, we usually divide the entire data into training data and test data, train the model using training data, and use test data to determine the accuracy and generalization performance of the model. In the case of models with low generalization performance, the prediction accuracy of newly data is significantly reduced, and the model is said to be overfit. This study is about a method of generating training data based on central limit theorem and combining it with existed training data to increase normality and using this data to train models and increase generalization performance. To this, data were generated using sample mean and standard deviation for each feature of the data by utilizing the characteristic of central limit theorem, and new training data was constructed by combining them with existed training data. To determine the degree of increase in normality, the Kolmogorov-Smirnov normality test was conducted, and it was confirmed that the new training data showed increased normality compared to the existed data. Generalization performance was measured through differences in prediction accuracy for training data and test data. As a result of measuring the degree of increase in generalization performance by applying this to K-Nearest Neighbors (KNN), Logistic Regression, and Linear Discriminant Analysis (LDA), it was confirmed that generalization performance was improved for KNN, a non-parametric technique, and LDA, which assumes normality between model building.

Rules to control propagations in deriving spatial data models (공간데이터모델 유도에 따른 파급 처리 규칙)

  • 도순희;강혜경;이기준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.94-96
    • /
    • 2001
  • 기존의 대축척 지리정보 데이터베이스로 부터 새로운 소축적 지리정보 데이터베이스를 유도하는 방법 중의 하나는 일반화이다. 이는 대축적 공간데이터를 소축척에 적합하도록 변형시킨다. 즉, 일반화를 통해서 지리정보 데이터의 공간 및 비공간적 특성이 변형되고 그 결과 데이터 모델로 변하게 된다. 본 연구는 이러한 변형에 따른 파급효과를 제어할 수 있는 규칙들을 제시한다. 특히 여섯 가지 일반화 연산자들이 모델에 미치는 영향을 조사하여, 이를 바탕으로 모델 변형을 제어할 수 있는 규칙을 제시하였다.

  • PDF

Mining Generalized Fuzzy Quantitative Association Rules with Fuzzy Generalization Hierarchies (퍼지 일반화 계층을 이용한 일반화된 퍼지 정량 연관규칙 마이닝)

  • 한상훈;손봉기;이건명
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2001.05a
    • /
    • pp.8-11
    • /
    • 2001
  • 연관규칙 마이닝은 트랜잭션 데이터를 이루고 있는 항목간의 잠재적인 의존관계를 발견하는 데이터 마이닝의 한 분야이다. 정량 연관규칙이란 부류적 속성과 정량적 속성을 모두 포함한 연관규칙이다. 정량 연관규칙 마아닝을 위한 퍼지 기술의 응용, 정량 연관규칙 마이닝을 위한 일반화된 연관규칙 마이닝, 사용자의 관심도를 반영한 중요도 가중치가 있는 연관규칙 마이닝 등에 대한 연구가 이루어져 왔다. 이 논문에서는 중요도 가중치가 있는 일반화된 퍼지 정량 연관규칙 마이닝의 새로운 방법을 제안한다. 이 방법은 부류적 속성의 퍼지 개념 계층과 정량적 속성의 퍼지 언어항 일반화 계층을 일반화된 추출하기 위해 이용한다. 이것은 속성들의 수준별 일반화 계층과 속성의 중요도 가중치를 이용함으로써 사용자가 보다 융통성 있는 연관규칙을 마이닝할 수 있게 해준다.

  • PDF

Binary regression model using skewed generalized t distributions (기운 일반화 t 분포를 이용한 이진 데이터 회귀 분석)

  • Kim, Mijeong
    • The Korean Journal of Applied Statistics
    • /
    • v.30 no.5
    • /
    • pp.775-791
    • /
    • 2017
  • We frequently encounter binary data in real life. Logistic, Probit, Cauchit, Complementary log-log models are often used for binary data analysis. In order to analyze binary data, Liu (2004) proposed a Robit model, in which the inverse of cdf of the Student's t distribution is used as a link function. Kim et al. (2008) also proposed a generalized t-link model to make the binary regression model more flexible. The more flexible skewed distributions allow more flexible link functions in generalized linear models. In the sense, we propose a binary data regression model using skewed generalized t distributions introduced in Theodossiou (1998). We implement R code of the proposed models using the glm function included in R base and R sgt package. We also analyze Pima Indian data using the proposed model in R.