• 제목/요약/키워드: Unstructured data

검색결과 717건 처리시간 0.021초

Data Dictionary 기반의 R Programming을 통한 비정형 Text Mining Algorithm 연구 (A study on unstructured text mining algorithm through R programming based on data dictionary)

  • 이종화;이현규
    • 한국산업정보학회논문지
    • /
    • 제20권2호
    • /
    • pp.113-124
    • /
    • 2015
  • 미리 선언된 구조를 이용하여 수집 저장된 정형적 데이터와는 달리 웹 2.0의 시대에서 일반 사용자들이 평상시에 사용하는 자연어 형태로 작성된 비정형 데이터 분석은 과거보다 훨씬 더 넓은 응용범위를 가지고 있다. 데이터 양이 폭발적으로 증가하고 있다는 특성뿐 만 아니라 인간의 감성이 그대로 표현된 특성을 가진 텍스트에서 의미 있는 정보를 추출하는 빅데이터 분석 기법을 텍스트마이닝(Text Mining)이라 하며 본 연구는 이를 주제로 하고 있다. 본 연구를 위해 오픈 소스인 통계분석용 소프트웨어 R 프로그램을 이용하였으며, 비정형 텍스트 문서를 웹 환경에서 수집, 저장, 전처리, 분석 작업과 시각화(Frequency Analysis, Cluster Analysis, Word Cloud, Social Network Analysis)작업 등의 과정에 관한 알고리즘 구현을 연구하였다. 특히, 연구자의 연구 영역 분석에 초점을 더욱 높이기 위해 Data Dictionary를 참조한 키워드 추출 기법을 사용하였다. 실제 사례에 적용한 R은 다양한 OS 구동, 일반적 언어와의 인터페이스 지원 등 통계 분석용 소프트웨어로써 매우 유용하다는 점을 발견할 수 있었다.

Machine Learning을 이용한 무기 체계(or 구성품) 고장 유형 식별 (Identify the Failure Mode of Weapon System (or equipment) using Machine Learning)

  • 박연경;이혜원;김상문
    • 한국산학기술학회논문지
    • /
    • 제19권8호
    • /
    • pp.64-70
    • /
    • 2018
  • 무기 체계(or 구성품) 개발은 한정된 개발기간과 비용 등의 제한으로 시험 횟수가 많지 않아, 고장관련 축적된 데이터의 규모도 적다. 그러나 운용 중 발생한 고장 및 정비내역은 많은 부분 전산 데이터로 관리하고 있기 때문에 이를 활용한 무기 체계(or 구성품)의 고장원인 분석은 가능하다. 다만 다양한 무기체계의 고장 및 정비내역 작성 규격이 각 군 별, 업체별 상이하고, 고장 원인의 구체적 내역은 비정형 텍스트 데이터로 기술되어 있기 때문에 이를 분석하는데 어려움이 있었다. 그러나 오늘날 빅데이터 처리 기술과 기계학습(Machine Learning) 알고리즘의 발전, HW연산 능력의 개선과 맞물려, 상기와 같은 비정형 데이터를 처리 할 수 있는 여러 가지 방법들이 시도 되고 있으며, 주요한 연구 분야로 활발히 연구되고 있다. 본 논문에서는 국방 무기 체계(or 구성품)의 고장/정비 관련 비정형 데이터를 기계학습 기법 중 하나인 doc2vec을 적용하여 고장사례 분석 방안에 대하여 제시한다.

Peer-to-Peer 환경에서 중복된 데이터의 갱신 전파 기법 (Update Propagation of Replicated Data in a Peer-to-Peer Environment)

  • 최민영;조행래
    • 한국통신학회논문지
    • /
    • 제31권4B호
    • /
    • pp.311-322
    • /
    • 2006
  • P2P(Peer-to-Peer) 시스템은 대용량의 데이터를 공유하는데 유용하며, 네트워크 구조에 따라 중앙 집중형, 구조적 분산형, 그리고 비구조적 분산형으로 분류된다. 이 중 Gnutella와 같은 비구조적 분산형 P2P 시스템은 확장성과 신뢰성 측면에서 장점을 갖지만, 참여하는 노드의 수가 증가함에 따라 데이터를 액세스하는 비용도 증가한다는 문제를 가진다. 데이터 중복을 이용하여 이러한 문제를 해결할 경우 중복된 데이터들의 일관성을 유지하기 위한 기법이 필요하다 본 논문에서는 특정 노드가 데이터를 갱신할 때 중복된 사본을 저장하고 있는 다른 노드에 전파하기 위한 새로운 갱신 전파 알고리즘을 제안한다. 제안한 알고리즘은 타임스탬프와 push/pull 개념을 조합하여 메시지의 전송 오버헤드를 줄일 수 있다는 장점을 갖는다.

비정형데이터 수집을 통한 드라마 시청률 연관어 분석 (Analysis of drama viewership related words through unstructured data collection)

  • 강선경;이현창;신성윤
    • 한국정보통신학회논문지
    • /
    • 제21권8호
    • /
    • pp.1567-1574
    • /
    • 2017
  • 본 논문에서는 드라마의 시청률에 영향을 미치는 연관어 분석을 위해 정형화된 데이터와 비정형화된 데이터를 분석하는 내용이다. 정형화된 데이터 수집은 각 방송사의 드라마정보, 인물정보, 방송정보, 시청률정보라는 4가지 영역에서 총 19가지항목을 수집하였다. 비정형데이터는 각 방송사에서 드라마별로 운영되고 있는 게시판과 방영전 블로그와 방영후 블로그로부터 크롤링기법을 이용하여 수집하였다. 수집된 정형데이터로부터 각 방송사별 4가지 영역별에 따른 차이를 비교한 결과 방송사별 서로 유사한 결과 값을 보이고 있었다. 그리고 각 방송사의 드라마별 게시판과 블로그에서 수집된 비정형데이터로부터 출현빈도의 상관관계 분석을 통해 관련 연관어를 7개 도출하였다. 도출된 연관어는 신뢰성 분석을 통해 이루어졌다.

항공안전 보고 데이터 텍스트 분석 기반 조성을 위한 비식별 처리 기술 적용 연구 (A Study on De-Identification Methods to Create a Basis for Safety Report Text Mining Analysis)

  • 황도빈;김영곤;심영민
    • 한국항공운항학회지
    • /
    • 제29권4호
    • /
    • pp.160-165
    • /
    • 2021
  • In order to identify and analyze potential aviation safety hazards, analysis of aviation safety report data must be preceded. Therefore, in consideration of the provisions of the Aviation Safety Act and the recommendations of ICAO Doc 9859 SMM Edition 4th, personal information in the reporting data and sensitive information of the reporter, etc. It identifies the scope of de-identification targets and suggests a method for applying de-identification processing technology to personal and sensitive information including unstructured text data.

비정렬격자를 이용한 프로펠러 성능 및 주위 유동해석 (Fully Unstructured Mesh based Computation of Viscous Flow around Marine Propellers)

  • 김민건;안형택;이진태;이홍기
    • 대한조선학회논문집
    • /
    • 제51권2호
    • /
    • pp.162-170
    • /
    • 2014
  • A CFD(Computational Fluid Dynamics) analysis is presented to predict hydrodynamic characteristics of a marine propeller. A commercial RANS(Reynolds Averaged Navier-Stokes equation) solver, namely FLUENT, is utilized in conjunction with fully unstructured meshes around rotating propeller. Mesh generation process is greatly accelerated by using fully unstructured meshes composed of both isotropic and anisotropic tetrahedral elements. The anisotropic tetrahedral elements were used in the flow domain near the blade and shaft, where the viscous effect is important, having complex shape yet resolving the thin boundary layers. For other regions, isotropic tetrahedral elements are utilized. Two different approaches simulating rotational effect of the propeller are employed, namely Moving reference frame technique for steady simulation, and Sliding mesh technique for unsteady simulation. Both approaches are applied to the propeller open water (POW) test simulation. The current results, which are thrust and torque coefficients, are compared with available experimental data.

CAD 형상 데이터를 이용한 비정렬 격자 자동 생성을 위한 격자셀 크기 지정 기법 (A NEW CELL SIZING METHOD FOR AUTOMATIC UNSTRUCTURED GRID GENERATION USING CAD SURFACE DATA)

  • 이봉주;김병수
    • 한국전산유체공학회:학술대회논문집
    • /
    • 한국전산유체공학회 2007년도 추계 학술대회논문집
    • /
    • pp.120-125
    • /
    • 2007
  • In this paper a new cell sizing method is proposed. The new method calculates cell size at a point using given size control elements directly without the aid of background grid as other cell sizing algorithms do. The calculation method and related definitions are described in detail, and typical cell sizing results are given.

  • PDF

변형되는 비정렬 격자계를 이용한 삼차원 비정상 점성 유동 계산 기법 개발 (Development of a 3-D Unsteady Viscous Flow Solver on Deforming Unstructured Meshes)

  • 김주성;권오준
    • 한국전산유체공학회지
    • /
    • 제9권2호
    • /
    • pp.52-61
    • /
    • 2004
  • In the present study, a solution algorithm for the computation of unsteady flows on unstructured meshes is presented. Dual time stepping is incorporated to achieve the second-order temporal accuracy while reducing errors associated with linearization and factorization. This allows any time step size, which is suitable for considering physical phenomena of interest. The Gauss-Seidel scheme is used to solve the linear system of equations. A special treatment based on spring analogy is made to handle meshes with high aspect-ratio cells. The present method was validated by comparing the results with experimental data and those obtained from rigid motion.

비정렬 유한 체적법을 이용한 횡류홴 유동장 해석 (Prediction of Cross Flow Fan Flow Using an Unstructured Finite Volume Method)

  • 강동진;배상수
    • 한국유체기계학회 논문집
    • /
    • 제8권3호
    • /
    • pp.7-15
    • /
    • 2005
  • A Navier-Stokes code has been developed to simulate the flow through a cross flow fan. It is based on an unstructured finite volume method and uses moving grid technique to model the rotation of the fan. A low Reynolds number turbulence model is used to calculate eddy viscosity. The basic algorithm is SIMPLE. Numerical simulations over a wide range of flow rate aye carried out to validate the code. Comparison of all numerical solutions with experimental data confirms the validity of the present code. Present numerical solutions show a noticeable improvement over a previous numerical method which is based on a model of body force to simulate the rotation of the impeller.

이차원 비정상 점성 유동 해석을 위한 비정렬 중첩격자기법 개발 (DEVELOPMENT OF AN UNSTRUCTURED OVERSET MESH METHOD FOR 2-D UNSTEADY VISCOUS FLOW ANALYSIS)

  • 정문승;권오준
    • 한국전산유체공학회:학술대회논문집
    • /
    • 한국전산유체공학회 2005년도 추계 학술대회논문집
    • /
    • pp.135-139
    • /
    • 2005
  • An unstructured overset mesh method has been developed for the simulation of unsteady viscous flow fields around multiple bodies in relative motion. For this purpose, a robust and fast search technique is proposed for both triangle and high-aspect quadrilateral cell elements. The interpolation boundary is defined for data communication between grid systems and an interpolation method is suggested for viscous and inviscid cell elements. This method has been applied to calculate the flow fields around 2-D airfoil including relative motion. Validation were made by comparing the predicted results with those of experiments or other researcher's numerical results. It was demonstrated that the present method is efficient and robust for the prediction of unsteady time-accurate flow fields involving multiple bodies in relative motion.

  • PDF