• 제목/요약/키워드: Structured Data

검색결과 3,973건 처리시간 0.039초

개념적 데이타 모델링을 위한 통합 데이타 모델 (A Unified Data Model for Conceptual Data Modeling)

  • 나연묵
    • 전기전자학회논문지
    • /
    • 제7권2호
    • /
    • pp.144-155
    • /
    • 2003
  • 본 논문에서는 객체 기술과 복잡한 구조적 데이터와 관련된 데이터베이스 구조를 효율적으로 표현하기 위한 통합 데이타 모델(UDM)이라고 하는 개념 데이터 모델을 제안한다. 이 모델은 E-R 모델, 의미 객체 모델, UML 등의 데이타 모델의 주요 기능을 데이타베이스 설계 관점에서 통합한 것이다. 이 모델은 시공간 멀티미디어 데이타의 복잡한 구조를 모델링하기 위해 제안된 객체-관계 모델을 단순화시키고 일부 기능을 확장시킨 버전이다. 이 모델은 현대적인 데이터베이스 응용의 주요한 의미적, 구조적인 정보의 표현을 지원하며, 관계, 객체-관계, 객체-지향, (반-)구조 데이터베이스 등 주요 논리적 데이터베이스 모델을 지원하도록 고안되었다. 데이터베이스 설계를 위한 도구로 통합 데이타 다이아그램(UDD)을 제안하며, 이 통합 데이타 모델로부터 논리적 뷰를 유도하기 위한 방법도 제안한다. 제안된 모델은 다양한 개념적 데이터베이스 설계를 위한 편리하고 실용적인 도구로 활용될 수 있다.

  • PDF

비전공자 대상 기초 데이터과학 실습 커리큘럼 (Curriculum of Basic Data Science Practices for Non-majors)

  • 허경
    • 실천공학교육논문지
    • /
    • 제12권2호
    • /
    • pp.265-273
    • /
    • 2020
  • 본 논문에서는 비전공자들을 위한 교양과목으로 적용할 수 있는 기초 데이터과학 실습 커리큘럼을 제안하고, 엑셀(스프레드시트) 데이터 분석 도구를 활용한 교육 방법을 제안하였다. 데이터 수집, 데이터 가공 및 데이터 분석을 위한 도구에는 엑셀, R, 파이썬, SQL(Structured Query Language) 등이 있다. R, 파이썬 및 SQL은 데이터 과학을 실습하는 데 있어, 프로그래밍 언어와 자료구조를 이해해야 한다. 반면에, 엑셀 도구는 비전공자들에게도 친숙한 데이터 분석도구로서, 프로그래밍 언어에 대한 학습 부담이 없다. 그리고 기초적인 데이터과학 실습을 엑셀로 진행하면, 데이터과학 이론을 습득하는 데 집중할 수 있는 장점이 있다. 본 논문에서는 한 학기 분량의 기초 데이터과학 실습 커리큘럼과 주별 엑셀 실습 내용을 제안하였다. 그리고, 교육 내용 실체를 실증하기위해, 엑셀 데이터분석 도구를 활용하여, 선형 회귀 분석(Linear Regression Analysis) 예제들을 제시하였다.

산업현장 실시간 센싱정보 활용/분석을 위한 빅데이터 플랫폼 (Big Data Platform for Utilizing and Analyzing Real-Time Sensing Information in Industrial Sites)

  • 이용환;서진형
    • 창의정보문화연구
    • /
    • 제6권1호
    • /
    • pp.15-21
    • /
    • 2020
  • 일반적인 산업현장에서의 빅 데이터 활용을 위해서는 먼저 산업현장의 설비, 공정, 환경 등에서 수집되는 정형화된 빅 데이터를 처리 및 저장하고, 비정형 데이터인 경우 비구조적 데이터로 저장하거나 정형 데이터로 변환하여 데이터베이스에 저장하여야 한다. 이러한 데이터베이스의 기본이 되는 데이터를 수집하기 위하여 본 논문에서는 산업현장의 계측정보, 환경 정보 등을 융합, 활용할 수 있는 개방형 IoT 표준기반의 빅데이터 수집 방안을 연구한다. 본 논문에서 제안된 빅 데이터 수집을 위한 플랫폼은 실시간 센싱 정보를 처리하기 위해 산업현장의 빅 데이터의 수집, 가공, 저장이 가능하며, 저장된 산업현장의 데이터를 활용 목적에 맞게 데이터를 처리 및 분석하는 다양한 빅 데이터 기술들을 적용할 수 있다.

Efficient Mining of Frequent Subgraph with Connectivity Constraint

  • Moon, Hyun-S.;Lee, Kwang-H.;Lee, Do-Heon
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2005년도 BIOINFO 2005
    • /
    • pp.267-271
    • /
    • 2005
  • The goal of data mining is to extract new and useful knowledge from large scale datasets. As the amount of available data grows explosively, it became vitally important to develop faster data mining algorithms for various types of data. Recently, an interest in developing data mining algorithms that operate on graphs has been increased. Especially, mining frequent patterns from structured data such as graphs has been concerned by many research groups. A graph is a highly adaptable representation scheme that used in many domains including chemistry, bioinformatics and physics. For example, the chemical structure of a given substance can be modelled by an undirected labelled graph in which each node corresponds to an atom and each edge corresponds to a chemical bond between atoms. Internet can also be modelled as a directed graph in which each node corresponds to an web site and each edge corresponds to a hypertext link between web sites. Notably in bioinformatics area, various kinds of newly discovered data such as gene regulation networks or protein interaction networks could be modelled as graphs. There have been a number of attempts to find useful knowledge from these graph structured data. One of the most powerful analysis tool for graph structured data is frequent subgraph analysis. Recurring patterns in graph data can provide incomparable insights into that graph data. However, to find recurring subgraphs is extremely expensive in computational side. At the core of the problem, there are two computationally challenging problems. 1) Subgraph isomorphism and 2) Enumeration of subgraphs. Problems related to the former are subgraph isomorphism problem (Is graph A contains graph B?) and graph isomorphism problem(Are two graphs A and B the same or not?). Even these simplified versions of the subgraph mining problem are known to be NP-complete or Polymorphism-complete and no polynomial time algorithm has been existed so far. The later is also a difficult problem. We should generate all of 2$^n$ subgraphs if there is no constraint where n is the number of vertices of the input graph. In order to find frequent subgraphs from larger graph database, it is essential to give appropriate constraint to the subgraphs to find. Most of the current approaches are focus on the frequencies of a subgraph: the higher the frequency of a graph is, the more attentions should be given to that graph. Recently, several algorithms which use level by level approaches to find frequent subgraphs have been developed. Some of the recently emerging applications suggest that other constraints such as connectivity also could be useful in mining subgraphs : more strongly connected parts of a graph are more informative. If we restrict the set of subgraphs to mine to more strongly connected parts, its computational complexity could be decreased significantly. In this paper, we present an efficient algorithm to mine frequent subgraphs that are more strongly connected. Experimental study shows that the algorithm is scaling to larger graphs which have more than ten thousand vertices.

  • PDF

빅데이터 분석 교육의 문제점과 개선 방안 -학생 과제 보고서를 중심으로 (Problems of Big Data Analysis Education and Their Solutions)

  • 최도식
    • 한국융합학회논문지
    • /
    • 제8권12호
    • /
    • pp.265-274
    • /
    • 2017
  • 본 논문은 빅데이터 분석 교육의 문제점을 고찰해 그 개선 방안을 제시한다. 빅데이터의 특성은 V3에서 V5로 진화하고 있다. 이에 빅데이터 분석 교육도 V5를 감안한 데이터 분석 교육이 되어야 한다. 작금 불확실성의 증대는 데이터 분석의 리스크를 증가시키기에 내적 외적 구조화/비구조화 데이터를 비롯해 교란 요인마저 분석할 때 데이터의 신뢰성은 증가될 수 있다. 그리고 평판분석을 활용할 때 범하기 쉬운 오류가 가변성과 불확실성에 대한 상황 인식이다. 가변성의 측면을 고려해, 다양한 변수와 옵션에 의한 불확실성의 상황을 인식하고 대비한 데이터 분석이 이뤄질 때 데이터에 대한 신뢰성과 정확성은 증가할 수 있다. 사회관계망 분석에서 학생들과 일반 연구자들이 주로 활용하는 것이 텍스톰과 노드엑셀의 노드 분석이다. 사화관계망 분석은 매개중심성에 의한 상황 분석을 통해 다크 데이터를 찾아 이상 현상을 감지하고 현 상황을 분석하여 유용한 의미를 얻고 미래를 예측할 수 있어야 한다.

Fusion of Sonar and Laser Sensor for Mobile Robot Environment Recognition

  • Kim, Kyung-Hoon;Cho, Hyung-Suck
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2001년도 ICCAS
    • /
    • pp.91.3-91
    • /
    • 2001
  • A sensor fusion scheme for mobile robot environment recognition that incorporates range data and contour data is proposed. Ultrasonic sensor provides coarse spatial description but guarantees open space with no obstacle within sonic cone with relatively high belief. Laser structured light system provides detailed contour description of environment but prone to light noise and is easily affected by surface reflectivity. Overall fusion process is composed of two stages: Noise elimination and belief updates. Dempster Shafer´s evidential reasoning is applied at each stage. Open space estimation from sonar range measurements brings elimination of noisy lines from laser sensor. Comparing actual sonar data to the simulated sonar data enables ...

  • PDF

텍스트 마이닝 기반의 온라인 상품 리뷰 추출을 통한 목적별 맞춤화 정보 도출 방법론 연구 (A Study on the Method for Extracting the Purpose-Specific Customized Information from Online Product Reviews based on Text Mining)

  • 김주영;김동수
    • 한국전자거래학회지
    • /
    • 제21권2호
    • /
    • pp.151-161
    • /
    • 2016
  • 개방, 공유, 참여를 특징으로 하는 웹 2.0 시대로 들어서면서 인터넷 사용자들의 데이터 생산 및 공유가 쉬워졌다. 이에 따른 데이터의 기하급수적인 증가와 함께 디지털 정보의 대부분인 비정형적 데이터(Unstructured Data)의 양도 증가하고 있다. 인터넷에서 정해진 형식 없이 자연어 형태로 만들어진 비정형 데이터 중, 특정 상품들에 대해 개인이 평가한 리뷰들은 해당 기업이나 해당 상품에 관심이 있는 잠재적 고객에게 필요한 데이터이다. 많은 양의 리뷰 데이터에서 상품에 대한 유용한 정보를 얻기 위해서는 데이터 수집, 저장, 전처리, 분석, 및 결론 도출의 과정이 필요하다. 따라서 본 연구는 R을 이용한 텍스트 마이닝(Text Mining) 기법을 사용하여 텍스트 형식의 비정형 데이터에서 자연어 처리 기술 및 문서 처리 기술을 적용하여 정형화된 데이터 값을 도출하는 방법에 대해 소개한다. 또한, 도출된 정형화된 리뷰 정보를 데이터 마이닝 기법에 적용하여 목적에 맞게 맞춤화된 리뷰 정보를 도출시키는 방안을 제시하고자 한다.

XML 데이타 색인을 위한 경로 분할 기법 (A Path Partitioning Technique for Indexing XML Data)

  • 김종익;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권3호
    • /
    • pp.320-330
    • /
    • 2004
  • XML에 대한 질의 언어는 데이타 그래프 내의 경로를 이용하여 질의를 표현한다. 특히, 경로에 패턴 (예를 들어, 정규식)을 사용함으로써, 데이타의 구조를 정확히 알지 못하더라도 질의가 가능하도록 한다. 이때, 패턴을 이용하는 질의는 데이타 그래프의 탐색범위를 크게 넓히게 된다. 기존의 XML색인 기법은 질의의 탐색범위를 줄이기 위해 데이타 그래프 내의 서로 동일한 경로들을 하나로 묶어 작은 크기의 색인 그래프를 생성하는 방법을 이용한다. 하지만 이러한 색인들은 많은 경우 색인의 크기가 데이터 그래프의 크기만큼 증가하게 되어 질의의 탐색범위를 줄이지 못하고, 따라서 효율적인 질의 처리를 보장하지 못한다. 본 논문에서는 데이타 내에 존재하는 모든 경로를 분할(partitioning)하고 질의 처리 시 질의에 맞는 분할 영역을 빠르게 찾아낼 수 있는 색인 그래프를 제안한다. 본 논문에서 제안하는 색인 그래프는 데이터 그래프의 크기와 상관없이 색인 그래프의 크기를 조절할 수 있다. 따라서 색인 그래프의 크기를 작게 구성함으로써 색인 그래프 탐색 비용을 크게 줄일 수 있다. 본 논문에서는, 실험을 통해 기존의 그래프 기반색인 기법들보다 본 논문의 색인 기법이 보다 효율적임을 보이고 색인의 크기 변화에 따른 성능 변화에 대해 알아본다.

Improvement of RocksDB Performance via Large-Scale Parameter Analysis and Optimization

  • Jin, Huijun;Choi, Won Gi;Choi, Jonghwan;Sung, Hanseung;Park, Sanghyun
    • Journal of Information Processing Systems
    • /
    • 제18권3호
    • /
    • pp.374-388
    • /
    • 2022
  • Database systems usually have many parameters that must be configured by database administrators and users. RocksDB achieves fast data writing performance using a log-structured merged tree. This database has many parameters associated with write and space amplifications. Write amplification degrades the database performance, and space amplification leads to an increased storage space owing to the storage of unwanted data. Previously, it was proven that significant performance improvements can be achieved by tuning the database parameters. However, tuning the multiple parameters of a database is a laborious task owing to the large number of potential configuration combinations. To address this problem, we selected the important parameters that affect the performance of RocksDB using random forest. We then analyzed the effects of the selected parameters on write and space amplifications using analysis of variance. We used a genetic algorithm to obtain optimized values of the major parameters. The experimental results indicate an insignificant reduction (-5.64%) in the execution time when using these optimized values; however, write amplification, space amplification, and data processing rates improved considerably by 20.65%, 54.50%, and 89.68%, respectively, as compared to the performance when using the default settings.

한의사의 성폭력피해자 진료경험에 대한 현상학적 질적 연구 (A Phenomenological Qualitative Study on the Traditional Korean Medical Doctor's Experience of Treating Victims of Sexual Violence)

  • 최유경
    • 대한예방한의학회지
    • /
    • 제25권3호
    • /
    • pp.73-88
    • /
    • 2021
  • Objectives : The purpose of this study is to explore the experiences of traditional korean medical doctors (TKMD) who have treated victims of sexual violence by collecting their qualitative data that cannot be obtained with statistical data. Methods : In-depth interviews were conducted with semi-structured questionnaires for each of 5 TKMDs who had experiences in treating sexual violence victims. For analysis, the interviews were recorded along with their facial expressions and actions during the interview process, and all collected data were analyzed by colaizzi's method. In each process, a 'phenomenological reduction' was applied. Results : The identity of TKMD's experience of treating sexual violence victims was structured into 25 themes, 9 theme clusters, and 4 categories. The 4 categories included 'Professionalism and sense of efficacy', 'Personal life experiences and mental trauma treatment experiences that are mutually influencing each other', 'Factors needed to increase TKMD's participation in treatment of sexual violence victims', 'Deriving the future strategy of traditional korean medicine'. Conclusions : This study derived the essence and meaning of TKMDs' experiences in treating sexual violence victims, and presented future directions of traditional korean medicine in this field. It is expected that the results of this study would be used as the basis for establishing the traditional korean medical support system for sexual violence victims in the context of the korean medical system.