• 제목/요약/키워드: 비정형데이터

검색결과 583건 처리시간 0.027초

비정형 데이터셋 표준포맷 기반 국방 비정형 데이터셋 표준화 방안 제안 (Proposal of Standardization Plan for Defense Unstructured Datasets based on Unstructured Dataset Standard Format)

  • 황윤영;손지성
    • 인터넷정보학회논문지
    • /
    • 제25권1호
    • /
    • pp.189-198
    • /
    • 2024
  • 민간에서뿐 아니라 국방분야에서도 인공지능은 국방의 발전을 위해 꼭 도입되어야 하는 첨단기술로 받아들여지고 있으며, 특히 국방과학기술혁신의 핵심 과제로 인공지능이 선정되고, 데이터의 중요성이 확대되고 있다. 국방은 폐쇄적인 데이터 정책에서 데이터 공유·활성화로 방향을 전환하고 있으며, 국방의 발전을 위해 필요한 양질의 데이터를 확보하기 위한 노력을 기울이고 있다. 특히 AI·빅데이터의 고유한 특성이 반영될 수 있도록 관련 절차 개선 및 대량·양질의 데이터가 충분히 확보된 상태에서 연구개발이 시작될 수 있도록 데이터 확보를 위한 사업예산과 제도 검토를 추진하고 있다. 그러나 국방 차원의 정형데이터 및 비정형 데이터의 표준화·품질 기준 마련이 필요한 상황이나 지금까지 국방은 정형데이터의 표준화·품질 기준을 제안하고 있는 수준으로 이에 대한 보완이 필요하다. 본 논문에서는 국방 인공지능에서 가장 필요한 국방 비정형 데이터셋을 위한 비정형 데이터셋 표준포맷을 제안하고, 이를 바탕으로 국방 비정형 데이터셋 표준화 방안을 제안한다.

장비점검 일지의 비정형 데이터분석을 통한 고장 대응 효율화 사례 연구 (Unstructured Data Analysis using Equipment Check Ledger: A Case Study in Telecom Domain)

  • 주연진;김유신;정승렬
    • 인터넷정보학회논문지
    • /
    • 제21권1호
    • /
    • pp.127-135
    • /
    • 2020
  • 비정형 데이터의 수집, 분석 그리고 활용에 대한 필요성이 대두되고 있지만 여전히 비정형 데이터를 효과적으로 활용하지 못하고 있는 실정이다. 본 연구에서는 국내 유수 이동통신 기업의 통신 시설장비 점검 시스템에 기록된 비정형데이터를 분석하여 장비고장 대응과 예방에 적극 활용할 수 있는 기반을 만들고자 하였고, 약 220만 건의 작업일지 데이터를 텍스트 마이닝을 통해 구조화/정형화 하였다. 이를 위해 장비 고장과 관련된 4가지 분석 프레임, 고장인지, 고장원인, 고장대상, 조치결과를 구성하였고 분석 결과로는 크게 3가지의 효율화 방안과 관련한 인사이트를 얻을 수 있었다. 첫 번째로는 신속한 조치를 통한 시간 단축을 도모하고, 두 번째로는 고장장비 Unit 수요를 예측하고, 마지막으로 현장 출동의 최소화를 지원할 수 있을 것으로 기대되었다. 결론적으로, 본 사례연구는 통신시설 장비 고장 대응을 위해 데이터 분석 대상을 정형 데이터뿐만 아니라 장비일지라는 비정형 빅데이터로도 범위를 확장했으며, 이를 분석에 활용하기 위해 처음으로 텍스트 마이닝을 시도를 했다는데 의의를 가진다. 또한 N사는 정형 데이터 뿐 만아니라 년 80만 건씩 축적되던 비정형 데이터의 활용 가치를 확인할 수 있던 기회를 가졌으며, 향후 비정형 데이터의 활용 방안에 대한 발전방향 그리고 추후의 정형 데이터와의 연계 분석 방안 등에 대한 가이드를 확보할 수 있었다.

에지 컴퓨팅 환경에서의 상황인지 서비스를 위한 팻 클라이언트 기반 비정형 데이터 추상화 방법 (Fat Client-Based Abstraction Model of Unstructured Data for Context-Aware Service in Edge Computing Environment)

  • 김도형;문종혁;박유상;최종선;최재영
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권3호
    • /
    • pp.59-70
    • /
    • 2021
  • 최근 사물인터넷의 발전으로 사용자 주변 상황을 인지하여 맞춤형 서비스를 제공하는 상황인지 시스템에 대한 관심이 증가되고 있다. 기존의 상황인지 시스템은 사용자 주위에서 생성되는 데이터를 분석하여 사용자 주변 상황을 표현하는 상황 정보로 추상화하는 기술이 사용되었다. 하지만 증가하는 사용자의 서비스 요구 사항에 따라 다양한 종류의 비정형 데이터의 사용이 증가하고, 사용자 주변에서 수집되는 데이터의 양이 많아지면서 비정형 데이터의 처리와 상황인지 서비스의 제공에 어려움이 있다. 이러한 사항은 딥러닝 응용에서 비정형 구조의 입력 데이터가 많이 사용되는 데서 찾아볼 수 있다. 기존 연구에서는 에지 컴퓨팅 환경에서 다양한 딥러닝 모델을 활용해 비정형 데이터를 상황 정보로 추상화하는 연구가 진행되었으나, 수집-전처리-분석 등과 같은 추상화 과정 간의 종속성으로 인해 제한된 종류의 딥러닝 모델만이 적용 가능하기 때문에 시스템의 기능적 확장성이 고려되어야 한다. 이에 본 논문은 에지 컴퓨팅 환경에서 딥러닝 기술을 활용한 비정형 데이터 추상화 과정의 기능적 확장성을 고려한 비정형 데이터 추상화 방법을 제안한다. 제안하는 방법은 데이터 처리가 분산되어 있는 에지 컴퓨팅 환경에서 수집과 전처리 과정을 수행할 수 있는 팻 클라이언트 기술을 사용하여 추상화 과정의 수집-전처리 과정과 분석 과정을 분리하여 수행하는 것이다. 또한 분리된 추상화 과정을 관리하기 위해 수집-전처리 과정을 수행하는 데 필요한 정보를 팻 클라이언트 프로파일로 제공하고, 분석 과정에 필요한 정보를 분석 모델 설명 언어(AMDL) 프로파일로 제공한다. 두 가지 프로파일을 통해서 추상화 과정을 독립적으로 관리하여 상황인지 시스템의 기능적 확장성을 제공한다. 실험에서는 차량 출입 통제 알림 서비스를 위한 차량 이미지 인식 모델을 대상으로 팻 클라이언트 프로파일과 AMDL 프로파일의 예제를 통해 시스템의 기능적 확장성을 보이고, 비정형 데이터의 추상화 과정별 세부사항을 보인다.

빅데이터 분석방법을 이용한 예측모형의 신뢰도 향상에 관한 연구 (A Study of improving reliability on prediction model by analyzing method Big data)

  • 송민구;김선배
    • 디지털융복합연구
    • /
    • 제11권6호
    • /
    • pp.103-112
    • /
    • 2013
  • 전통적인 방식의 예측모형 구축에서 사용되는 데이터는 주로 데이터베이스에 잘 보관되어 있는 정형데이터를 사용하였다. 하지만 지금의 상황은 스마트 시대의 도래로 인한 통신수단의 획기적인 발달로 비정형 데이터가 전체데이터의 80%를 상회하는 현실이다. 이러한 현실에서 기존의 방법대로 정형데이터 만을 이용하여 예측모형을 개발하면 예측모형의 신뢰성에 문제가 있을 것이다. 즉 전체데이터의 80%에 해당하는 비정형(SNS, 페이스북, 트위트, 이미지, 동영상 등)과 반정형(로그데이터)데이터를 반드시 포함하여 모형을 구축해야 만이 신뢰성을 현실화 시킬 수 있을 것이다. 본 논문에서는 예측모형 개발시 빅데이타 방법론을 적용하여 예측 모형의 신뢰성을 높이고, 데이터를 이용하여 제안된 방법과 전통적인 방법의 예측모형의 신뢰도를 비교 분석 하였다.

비정형 콘크리트 패널의 생산데이터 자동생성을 위한 수학적 알고리즘 (Mathematical Algorithms for the Automatic Generation of Production Data of Free-Form Concrete Panels)

  • 김도영;김선국;손승현
    • 한국건축시공학회지
    • /
    • 제22권6호
    • /
    • pp.565-575
    • /
    • 2022
  • 최근 디지털 설계기술의 발전에 따라 건축가의 창의성을 극대화한 비정형 설계가 급증하고 있다. 그러나 다양한 비정형 곡면을 구현하기에는 많은 어려움이 발생하고 있다. 비정형 형상구현을 위한 패널분할은 mesh, developable surface, tessellation, subdivision 등의 분할기법이 적용된다. 비정형 패널의 제작 시 이러한 분할기법의 적용과정은 복잡하고 생산데이터 추출에 많은 인력과 시간이 투입된다. 따라서 비정형 건물의 설계 후 패널제작을 위한 생산데이터 추출과정을 빠르고 체계적으로 수행할 수 있는 알고리즘이 필요하다. 이에 본 연구는 빌딩모델, 생산장비 성능, 패턴정보를 종합적으로 고려하여 비정형 패널의 생산데이터 자동생성을 위한 수학적 알고리즘을 제시하는 것을 목적으로 한다. 이를 위해, 패널분할 시 수학적 알고리즘을 제시하였고, 비정형 곡면으로의 Mapping을 통해 CNC 장비를 위한 생산데이터를 추출하였다. 본 연구의 결과는 비정형 콘크리트 패널 생산을 위한 데이터 자동생성을 가능하게 하여 생산성 향상과 원가절감에 기여한다.

가상문서에서 질의 링크 처리를 위한 설계 및 구현 (A Design and Implementation for processing Query Links in Virtual Documents)

  • 강민구;김철수;강지훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.169-171
    • /
    • 2001
  • XML을 기반으로 하는 가상문서는 인터넷 상의 정보 공유를 가능하게 하여 새로운 지식을 생성할 수 있도록 한다. 가상문서에서는 비정형(텍스트, 이미지, 멀티미디어 데이터)과 준정형(HTML, XML) 데이터를 링크로 연결하여 정보를 제공하고 있다. HTML과 같은 기존의 웹 문서에서는 스크립트나 CGI 같은 것을 통하여 정형 데이터(데이터베이스)의 정보를 제공하고 있으므로 가상문서에서도 자연스럽게 정형 데이터를 연결하여 사용이 가능하다. 본 논문에서는 디지털 도서관 시스템에서 정형 데이터를 지원하기 위해 질의 링크를 포함하는 가상문서를 효율적으로 처리할 수 있도록 데이터베이스를 설계 및 구현하며, 데이터베이스 스키마 정보를 관리하여 필요한 데이터베이스를 검색하여 질의 링크의 생성을 돕도록 하였다.

  • PDF

비정형 공사감리문서 정보와 이항 로지스틱 회귀분석을 이용한 건축 현장 비용성과 평가 프레임워크 개발 (Cost Performance Evaluation Framework through Analysis of Unstructured Construction Supervision Documents using Binomial Logistic Regression)

  • 김창원;송태근;이기석;유위성
    • 한국건축시공학회지
    • /
    • 제24권1호
    • /
    • pp.121-131
    • /
    • 2024
  • 공사감리문서는 프로젝트의 수행과정을 제3의 독립적인 위치에서 모니터링한 종합적인 점검의견이라는 주요한 비정형 정보를 제공할 수 있다. 이와 같은 비정형 정보는 최근 분석방법론의 고도화에 따라 다양한 시사점을 제공할 수 있는 유의미한 자료로 평가받고 있다. 이에 본 연구는 건축공사의 최종 감리보고서 내 비정형 데이터를 대상으로 다양한 방법론을 활용하여 비용성과를 평가할 수 있는 프레임워크를 제시하였다. 세부적으로는 텍스트마이닝과 사회연결망분석을 통해 감리보고서 내 주요 키워드들을 도출하고, 해당 데이터들을 이항 로지스틱 회귀분석을 통해 분석하여 비용성과를 평가하였다. 그 결과, 감리보고서 내 비정형 데이터를 이용하여 추정된 비용성과 예측 정확도는 약 73% 수준으로 높게 도출되었다. 본 연구의 결과는 향후 건설산업에서 발생되는 다양한 비정형 데이터의 분석을 위한 기초자료로 활용이 가능할 것으로 예상된다.

IoT 환경에서 스트리밍 기반의 비정형 데이터 수집 프레임워크 설계 (Design of Streaming based Unstructured-Data Collecting Framework in IoT Environment)

  • 이후영;박구락;김동현
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2017년도 제55차 동계학술대회논문집 25권1호
    • /
    • pp.57-58
    • /
    • 2017
  • 사물인터넷 환경의 다양한 기기에서는 매초마다 시스템 로그 데이터, 온도, 습도, 조도 및 위치 정보 등과 같은 데이터를 지속적으로 생성한다. 이렇게 생성된 데이터는 기기 안에서 대부분 소멸되거나 수집된다 하더라도 시스템 개선의 일부 목적으로 활용하는데 그칠 뿐이다. 본 논문에서는 각각의 사물인터넷 기기에서 발생하는 비정형 데이터를 스트리밍 방식을 통해 수집 서버로 전송하고 이를 유연한 스키마 구조를 가지는 NoSQL 데이터베이스에 적재하는 프레임워크 설계를 제안한다. 이렇게 수많은 장비로부터 수집된 로그 및 센싱 데이터는 빅데이터 분석을 통해 산업의 현장에서 생산성 향상을 위해 사용할 수 있으며 공공의 목적으로 도심지의 교통문제 해소와 재난 및 재해 예측에 활용될 수 있다.

  • PDF

비정형 대용량 데이터 입력 및 출력 시스템 설계 및 구현 (Design and Implementation of Input and Output System for Unstructured Big Data)

  • 김창수;심규철;강병준;김경환;정회경
    • 한국정보통신학회논문지
    • /
    • 제18권2호
    • /
    • pp.387-393
    • /
    • 2014
  • 컴퓨터의 보급에 따라 비정형 대용량 데이터가 범람하고 이를 효율적으로 처리하기 노력이 요구되고 있다. 이에 본 논문에서는 오피스(office) 파일(아래한글, MS-Office 등)에 입력된 데이터를 바로 XML로 변환하고, 사용자가 XML 매핑 파일을 만들어서 워드프로세서에 입력 된 데이터를 바로 추출하여 데이터베이스에 저장하는 시스템을 제안하였다. 또한, 본 시스템은 워드프로세스에 양식을 미리 작성하여 필요한 데이터를 데이터베이스에서 조회하여 워드프로세서 문서를 응용프로그램에서 오피스 파일을 생성 할 수 있다. 이는 대용량의 비정형 데이터를 활용가능하게 할 것이다.

의료 비정형 텍스트 비식별화 및 속성기반 유용도 측정 기법 (De-identifying Unstructured Medical Text and Attribute-based Utility Measurement)

  • 노건;전종훈
    • 한국전자거래학회지
    • /
    • 제24권1호
    • /
    • pp.121-137
    • /
    • 2019
  • 비식별화는 데이터셋으로부터 개인정보를 제거함으로써 개인을 식별할 수 없도록 하는 방법으로, 정보를 수집, 가공, 저장, 배포하는 과정에서 발생할 수 있는 개인정보 노출 위험도를 낮추기 위해 사용한다. 그간 비식별화와 관련된 알고리즘, 모델 등의 관점에서 많은 연구가 이루어졌지만, 대부분은 정형 데이터를 대상으로 하는 제한적인 연구로, 비정형 데이터에 대한 고려는 상대적으로 많지 않은 실정이다. 특히 비정형 텍스트가 빈번히 사용되는 의료 분야의 경우에서는 개인 식별 정보들을 단순 제거함으로써 개인정보 노출 위험도는 낮추지만, 그에 따른 데이터 활용성이 떨어지는 점을 감수하는 실정이다. 본 연구는 개인정보 보호 이슈가 가장 중요하고 따라서 비식별화가 활발하게 연구되고 있는 의료분야 데이터 중 비정형 텍스트를 대상으로 k-익명성 보호모델을 적용한 비식별화 수행 방안을 제시하고, 비식별화 결과에 대한 새로운 유용도 측정 기법을 제안하여 이를 통해 직관적으로 데이터 활용성을 판단할 수 있도록 하는 것을 목표로 한다. 따라서 본 연구의 결과물이 의료 분야뿐만 아니라 비정형 텍스트가 활용되는 모든 산업 분야에서 활용될 경우, 개인 식별 정보가 포함된 비정형 텍스트의 활용도를 향상시킬 수 있을 것으로 기대한다.