• Title/Summary/Keyword: 데이터 비만도

Search Result 10,410, Processing Time 0.043 seconds

A New Index Key Duplication method for Efficient Spatial Retrieval (효율적 공간 검색을 위한 새로운 색이 키 중복 기법)

  • 이경모;이충호;김성희;배해영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.261-263
    • /
    • 1999
  • 공간 DBMS는 공간 데이터와 비공간 데이터를 서로 다른 물리적인 페이지에 저장한다. 공간 질의의 효율적인 처리를 위해 공간 데이터에 대한 공간 색인을 생성하며, 성능 향상을 위하여 이를 클러스터링 색인으로 사용한다. 그러나, 공간 데이터에 대한 클러스터링 성질이 비공간 데이터 페이지에는 반영되지 않아 공간 데이터와 비공간 데이터는 서로 다른 물리적 순서를 갖는다. 이로 인해 공간 조건(Spatial Predicate)에 의해 선택된 공간 데이터는 물리적 인접성을 가지는 반면, 비공간 데이터는 물리적 인접성을 갖지 않는다. 즉, 공간 질의 처리 과정에서 비공간 데이터 페이지의 잦은 디스크 I/O를 유발한다. 본 논문에서는 효율적 공간 검색을 위한 색인 키 중복 기법을 제안한다. 제안한 기법은 공간 데이터의 색인 기값을 비공간 데이터 내에 중복시키고 공간, 비공간 데이터에 대해 각각의 공간 클러스터링 색인을 생성한다. 두 클러스터링 색인에 의해 공간 데이터와 마찬가지로 비공간 데이터도 공간 조건에 대한 클러스터링 성질을 유지할 수 있다. 질의 처리 과정에서 공간 조건에 의해 선택된 공간 객체들은 공간, 비공간 데이터들 모두 물리적 인접성을 가지게 되며, 비공간 데이터 페이지에 대한 디스크 액세스 횟수를 줄여 공간 검색의 성능을 향상시킬수 있다.

  • PDF

A Study on Reducing Data Obesity through Optimized Data Modeling in Research Support Database (연구지원 데이터베이스에서 최적화된 데이터모델링을 통한 데이터 비만도 개선에 관한 연구)

  • Kim, Hee-Wan
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.18 no.1
    • /
    • pp.119-127
    • /
    • 2018
  • The formal data used in the business is managed in a table form without normalization due to lack of understanding and application of data modeling. If the balance of the database design is destroyed, it affects the speed of response to the data query, and the data obesity becomes high. In this paper, it is investigated how data obesity improved through database design through optimized data modeling. The data query path was clearly visualized by square design through data modeling based on the relationship between object (data) and object, from the radial and task - oriented isolation design where data obesity is excessive. In terms of data obesity, the obesity degree of the current research support database was 57.2%, but it was 16.2% in the new research support database, and the data obesity degree was reducd by 40.5%. In addition, by minimizing redundancy of data, the database has been improved to ensure the accuracy and integrity of the data.

A Study on the Prediction of River Water Level Using Artificial Neural Network Theory and Unstructured Data (인공신경망 이론과 비정형데이터를 활용한 하천수위 예측에 관한 연구)

  • Lee, Jeongha;Hwang, SeokHwan
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2020.06a
    • /
    • pp.388-388
    • /
    • 2020
  • 매년 국지성호우 및 태풍으로 인해 하천 범람이나 저지대침수가 발생하고 있으며 이는 인명 피해 사례로 이어지기도 한다. 피해 발생을 최소화시키기 위해 강우와 유량과 같은 정형데이터로 홍수예보가 이뤄지고 있으나 기존의 정형데이터만 사용하다보니 도심지역이나 소규모 하천에서 인명 피해 예측에 어려움이 있다. 이를 보완하기 위해서는 인구의 유동성을 고려한 비정형데이터를 활용해야 한다. 최근 소셜 네트워크 서비스(SNS)의 사용자가 증가됨에 따라 텍스트나 사진과 같은 다양한 비정형데이터가 생성되고 있다. 이렇게 생성된 데이터는 다양한 분야에서 활용되고 있으며 특히 지진이나 홍수와 같은 재난 발생 시 유용한 데이터로 활용된 사례가 증가하고 있다. 이는 사람들이 GIS와 같은 위치정보나 시간 등을 포함한 다양한 정보를 포함하기 때문이다. 하지만 이렇게 생산된 비정형데이터를 기존 물리적 기반의 수문모형의 데이터로 활용하기에는 많은 한계점이 있다. 따라서 본 연구에서는 SNS 채널을 통해 생성된 비정형 데이터들을 인공신경망모형에 적용하여 하천수위를 예측하였다.

  • PDF

Analysis of similarity between industries based on unstructured data using topic modeling (토픽 모델링을 이용한 비정형 데이터 기반 산업간 유사도 분석)

  • Kim, Kyungwon;Park, Jongbin;Jung, Jongjin;Yoon, Kyoungro
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2018.11a
    • /
    • pp.180-182
    • /
    • 2018
  • 최근 빠르게 변화하는 산업 환경에서 뉴스 기사와 같은 비정형 데이터를 기반으로 산업 트랜드를 분석하기 위한 연구가 진행되고 있다. 뉴스와 같은 비정형 데이터를 기반으로 산업별 트랜드를 분석하기 위해서는 분석 대상 산업에 대한 많은 양의 시계열 데이터가 요구된다. 하지만, 수집된 비정형 데이터를 분류하면 산업별/기간별 일정하지 않은 데이터 분포를 보이거나, 특정 산업에 대해서는 특정 기간에 데이터가 존재하지 않은 경우가 발생하여 산업별 시계열 분석이 어려운 경우가 발생할 수 있다. 이에, 본 논문에서는 산업별/기간별 균일하지 못한 비정형 데이터의 분포를 보정하기 위한 방법으로 비정형 데이터 기반 산업간 유사도를 분석 기법을 제안한다. 산업별 유사도 분석을 위해 각 산업별 주요 키워드를 도출하고 토픽 모델링 기법을 이용하여 산업간 유사도 분석을 통해 산업별/기간별 비정형 데이터 부족현상을 보완하는 방법을 제시한다.

  • PDF

개인정보 비식별화 현황 및 비식별 조치 가이드라인 보완 연구

  • Jimin Son;Minho Shin
    • Review of KIISC
    • /
    • v.33 no.6
    • /
    • pp.89-109
    • /
    • 2023
  • 최근 AI와 로봇기술 등으로 개인정보를 포함한 데이터의 처리가 일상화됨에 따라 한국정부는 개인정보 비식별 조치 가이드라인 및 데이터 3법을 발표함으로써 개인정보 비식별화를 돕고자 하였다. 하지만 복잡한 비식별화 절차와 이의 효과에 대한 불명확함으로 기업들이 개인정보를 포함한 빅데이터의 활용에 어려움을 겪고, 동시에 시민단체나 소비자단체에서는 현 가이드라인에 따른 비식별화 절차가 개인정보를 보호하기에 충분하지 않다고 지적하고 있다. 본고에서는 비식별화 현황과 기술을 검토하고 현 가이드라인의 한계점을 보완 함으로써 데이터 활용 업체와 기관들의 정확한 비식별화를 돕고 빅데이터 활용의 활성화에 기여하고자 한다.

A Voxel Data Compression Using Skeleton (스켈레톤을 이용한 삼차원 체적소 데이터의 부호화)

  • 송인욱;김창수;이상욱
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.273-276
    • /
    • 2000
  • 3차원 영상은 2차원 영상에 비해 데이터량이 매우 방대하다. 따라서 3차원 데이터를 효율적으로 압축하는 것은 매우 중요하다. 현재까지 대부분의 연구는 데이터량이 체적소(voxel)에 비해 월등히 적은 메쉬(mesh)를 기반으로 하여 이루어져 왔다. 하지만, 메쉬를 이용한 데이터 압축의 경우 체적소에 비해 데이터 자체의 규칙성이 떨어져 체적소를 이용한 압축에 비해 압축 효율이 낮다. 그리고, 체적소 데이터를 이용할 경우, 이를 스켈레톤화 하여 데이터량을 더욱 줄일 수 있다. 따라서 본 논문에서는 3차원 체 적소 데이터의 규칙성과 스켈레톤을 이용한 압축 기법을 제안할 것이다.

  • PDF

A Study on the Data Modeling decreasing the Data Obesity (데이터 비만도를 개선한 데이터 모델링에 관한 연구)

  • Rhee, Hye Kyung;Kim, Hee Wan
    • Journal of Digital Convergence
    • /
    • v.11 no.11
    • /
    • pp.359-366
    • /
    • 2013
  • In this paper, we studied how the data obesity can affect in which the response speed of database gradually slows down. Our research is performed by analyzing how the game data infrastructure is well-formed. Although there are a variety of ways to evaluate to measure the level of infrastructure, we performed with real information system. We analyzed data obesity by comparing the entity-relationship models between the products of real game information system and newly modeled databases. We could find data obesity is over 60% among overall average of game information system. It shows that 45% higher than standard obesity which is 15%. In this paper, data redundancy rate after performing the procedure of the data modeling was 41% resulting in an improvement of 23% compared to 64% of an existing model.

Abnormal Data Augmentation Method Using Perturbation Based on Hypersphere for Semi-Supervised Anomaly Detection (준 지도 이상 탐지 기법의 성능 향상을 위한 섭동을 활용한 초구 기반 비정상 데이터 증강 기법)

  • Jung, Byeonggil;Kwon, Junhyung;Min, Dongjun;Lee, Sangkyun
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.32 no.4
    • /
    • pp.647-660
    • /
    • 2022
  • Recent works demonstrate that the semi-supervised anomaly detection method functions quite well in the environment with normal data and some anomalous data. However, abnormal data shortages can occur in an environment where it is difficult to reserve anomalous data, such as an unknown attack in the cyber security fields. In this paper, we propose ADA-PH(Abnormal Data Augmentation Method using Perturbation based on Hypersphere), a novel anomalous data augmentation method that is applicable in an environment where abnormal data is insufficient to secure the performance of the semi-supervised anomaly detection method. ADA-PH generates abnormal data by perturbing samples located relatively far from the center of the hypersphere. With the network intrusion detection datasets where abnormal data is rare, ADA-PH shows 23.63% higher AUC performance than anomaly detection without data augmentation and even performs better than the other augmentation methods. Also, we further conduct quantitative and qualitative analysis on whether generated abnormal data is anomalous.

Development of Land Compensation Cost Estimation Model : The Use of the Construction CALS Data and Linked Open Data (토지 보상비 추정 모델 개발 - 건설CALS데이터와 공공데이터 중심으로)

  • Lee, Sang-Gyu;Kim, Jin-Wook;Seo, Myeong-Bae
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.07a
    • /
    • pp.375-378
    • /
    • 2020
  • 본 연구는 토지 보상비의 추정 모델 개발을 위해서 건설 CALS (Continuous Acquisition & Life-cycle Support) 시스템의 내부데이터와 개별공시지가 및 표준지 공시지가 등의 외부데이터, 그리고 개발된 추정 모델의 고도화를 위한 개별공시가 데이터를 기반으로 생성된 데이터를 활용하였다. 이렇게 수집된 3가지 유형의 데이터를 분석하기 위해서 기존 선형 모델 또는 의사결정나무 (Tree) 기반의 모델상 과적합 오류를 제거할 경우 매우 유용한 알고리즘으로 Decision Tree 기반의 Xgboost 알고리즘을 데이터 분석 방법론으로 토지 보상비 추정 모델 개발에 활용하였다. Xgboost 알고리즘의 고도화를 위해 하이퍼파라미터 튜닝을 적용한 결과, 실제 보상비와 개발된 보상비 추정 모델의 MAPE(Mean Absolute Percentage Error) 범위는 19.5%로 확인하였다.

  • PDF

A study on the policy of de-identifying unstructured data for the medical data industry (의료 데이터 산업을 위한 비정형 데이터 비식별화 정책에 관한 연구)

  • Sun-Jin Lee;Tae-Rim Park;So-Hui Kim;Young-Eun Oh;Il-Gu Lee
    • Convergence Security Journal
    • /
    • v.22 no.4
    • /
    • pp.85-97
    • /
    • 2022
  • With the development of big data technology, data is rapidly entering a hyperconnected intelligent society that accelerates innovative growth in all industries. The convergence industry, which holds and utilizes various high-quality data, is becoming a new growth engine, and big data is fused to various traditional industries. In particular, in the medical field, structured data such as electronic medical record data and unstructured medical data such as CT and MRI are used together to increase the accuracy of disease prediction and diagnosis. Currently, the importance and size of unstructured data are increasing day by day in the medical industry, but conventional data security technologies and policies are structured data-oriented, and considerations for the security and utilization of unstructured data are insufficient. In order for medical treatment using big data to be activated in the future, data diversity and security must be internalized and organically linked at the stage of data construction, distribution, and utilization. In this paper, the current status of domestic and foreign data security systems and technologies is analyzed. After that, it is proposed to add unstructured data-centered de-identification technology to the guidelines for unstructured data and technology application cases in the industry so that unstructured data can be actively used in the medical field, and to establish standards for judging personal information for unstructured data. Furthermore, an object feature-based identification ID that can be used for unstructured data without infringing on personal information is proposed.