• 제목/요약/키워드: 비정형데이터

검색결과 580건 처리시간 0.03초

고차원 매핑기법과 딥러닝 네트워크를 통한 정형데이터의 분류 (Classification of Tabular Data using High-Dimensional Mapping and Deep Learning Network)

  • 김경택;장원두
    • 사물인터넷융복합논문지
    • /
    • 제9권6호
    • /
    • pp.119-124
    • /
    • 2023
  • 최근 딥러닝은 다양한 분야에서 전통적인 기계학습에 비해 월등히 높은 성능을 보이고 있으며, 패턴인식을 위한 보편적인 방법으로 자리 잡아 가고 있다. 하지만, 이에 비해 정형데이터를 사용하는 분류 문제에서는 여전히 머신러닝 기법이 주류를 이루고 있다. 본 논문에서는 정형데이터를 고차원 텐서로 변환하는 네트워크 모듈을 제안하며, 이 모듈을 보편적인 딥러닝 네트워크와 함께 구성하여 정형데이터의 분류 문제에 적용하였다. 제안된 방법은 4종의 데이터셋을 활용하여 학습 및 검증되었으며, 제안된 방법은 90.22%의 평균 정확도를 달성하여, 최신 딥러닝 모델인 TabNet에 비해 2.55%p 높은 정확도를 보였다. 제안된 방법은 컴퓨터 비전 분야에서 높은 성능을 보이는 다양한 네트워크 구조를 정형데이터에 활용할 수 있다는 점에서 의미가 있다.

비정형 데이터를 활용한 가뭄평가 - 보령지역을 중심으로 - (Drought evaluation using unstructured data: a case study for Boryeong area)

  • 정진홍;박동혁;안재현
    • 한국수자원학회논문집
    • /
    • 제53권12호
    • /
    • pp.1203-1210
    • /
    • 2020
  • 가뭄은 다양한 수문학적 또는 기상학적 인자들이 복합적으로 작용하여 발생하기 때문에 가뭄의 사상을 정확히 평가하는 것은 어려운 일이나, 이를 정량적으로 해석하기 위해 다양한 가뭄지수들이 개발되어 왔다. 하지만 현재 활용중인 가뭄지수들은 단일변량의 부족량을 통해 산정되며, 복합적인 원인으로 발생하는 가뭄의 사상을 정확히 판단하지 못하는 문제가 있다. 단순 단일변량의 부족을 가뭄이라고 판단하기는 어렵기 때문이다. 최근에는 빅데이터 분석에서 많이 활용되고 있는 비정형 데이터를 활용하여 지수를 개발하는 연구들이 타 분야에서 진행되고 있으며 우수성이 입증되고 있다. 따라서 본 연구에서는 기존 가뭄지수에 활용 중인 기상 및 수문정보(강수량, 댐 유입량)에 각각 비정형 데이터(뉴스데이터)를 결합하여 가뭄지수를 산정하고, 산정된 가뭄지수의 검증을 통해 가뭄해석의 활용성을 평가하고자 한다. 결합가뭄지수 산정을 위해 Clayton Copula 함수를 활용하였으며, 매개변수 추정은 교정방법을 이용하였다. 분석결과, 기존의 가뭄지수(SPI, SDI)보다 비정형 데이터를 결합한 가뭄지수가 가뭄기간을 적절히 재현하는 것으로 나타났다. 또한 Receiver Operating Characteristic (ROC) score가 기존의 가뭄지수들보다 높게 산정되어 가뭄해석에 있어 활용성이 우수하였다. 본 연구에서 산정된 결합가뭄지수는 기존 단일변량 가뭄지수의 해석적 한계를 보완하고 비정형데이터를 활용한 가뭄지수의 활용성이 우수하다는 점에서 활용성이 높다고 판단된다.

문장 의도 분류와 개체명 인식을 활용한 개인정보 검출 및 비식별화 시스템 (Personal Information Detection and De-identification System using Sentence Intent Classification and Named Entity Recognition)

  • 서동국;김건우;김재영;이동호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.1018-1021
    • /
    • 2020
  • 최근 개인정보가 포함된 비정형 텍스트 문서들이 유출되거나 무분별하게 공개됨으로써 정보의 주체는 물론 기업들까지 피해를 받고 있다. 데이터를 공개 및 활용하기 위해 개인정보 검출 및 비식별화 과정이 필수적이지만 정형 데이터와는 달리 비정형 데이터의 경우 해당 과정을 자동으로 처리하는 데 한계가 있다. 이를 위해 딥러닝 모델들을 사용하여 자동화하려는 연구들이 있었지만 문장 내 단어의 모호성에 대한 고려 없이 단어 개체명 정보에만 의존하여 개인정보를 검출하는 형태로 진행되었다. 따라서 문장 내 단어들 중 식별 대상인 단어들도 비식별화 되어 데이터에 대한 유용성을 저해할 수 있다는 문제점을 남겼다. 본 논문에서는 문장의 의도 정보를 단어의 개체명 학습 과정에 부가적인 정보로 활용하는 개인정보 검출 모델과 개인정보 데이터의 유용성을 고려한 비식별화 기법을 제안한다.

국내 비정형건축의 디지털 기술적용에 관한 연구 (Digital Technologies for Freeform Building in Korea)

  • 유정원
    • 한국산학기술학회논문지
    • /
    • 제13권9호
    • /
    • pp.4259-4265
    • /
    • 2012
  • 본 논문은 최근 국내 비정형 건축설계에 적용된 디지털 기술들과 기술 적용과정에서 도출된 문제점 등을 분석함을 그 목적으로 하며, 이를 위하여 세 개의 국내 비정형 건축 사례를 선정하여 전문가 인터뷰와 문헌조사를 통하여 비정형 설계 및 시공을 위하여 적용된 디지털 기술들을 분석하였다. 그 결과 비정형 곡면을 위한 패널 최적화의 필요성, 파일 호환성 확보의 중요성, 비정형 건축의 복잡한 형상으로 인한 시공성 확보의 어려움, 패널 부재제작시 3D 데이터 수용의 어려움이 발견되었으며, 도출된 문제점에 대한 사례별 해결방안을 분석하여 보았다.

비정형데이터의 AI학습을 위한 영상/이미지 데이터 품질 향상 방법 (Method for improving video/image data quality for AI learning of unstructured data)

  • 김승희;류동주
    • 융합보안논문지
    • /
    • 제23권2호
    • /
    • pp.55-66
    • /
    • 2023
  • 최근 전세계적으로 사회 모든 분야에서 인공지능 학습용 데이터에 관한 선행연구를 기반으로, 인공지능 학습용 데이터의 가치를 높이고 고품질 데이터를 확보하고자 하는 움직임이 늘고 있다. 따라서, 고품질 데이터를 확보하기 위한 구축사업에서는 품질관리가 매우 중요하다. 이에, 본 논문에서는 인공지능 학습용 데이터를 구축할 시 고품질데이터 확보를 위한 품질관리와 그에 따른 구축공정별 개선방안을 제시하였다. 특히, 인공지능 학습을 위해 구축되는 비정형데이터는 데이터 품질의 80% 이상이 구축과정에서 결정된다. 본 논문에서는 비정형데이터 이미지/영상데이터에 대한 품질검사를 통해 구축단계에서의 획득, data cleaning, labeling 모델에서 발생된 검사절차 및 문제 요소를 해결함으로써 고품질 데이터 확보 방안을 제시하였으며, 제시한 방안을 토대로 인공지능 학습용 데이터 구축에 참여하는 연구단체와 사업자들에게 데이터의 품질편차를 극복하기 위한 대안이 될 것으로 기대된다.

불균형 정형 데이터를 위한 SMOTE와 변형 CycleGAN 기반 하이브리드 오버샘플링 기법 (A Hybrid Oversampling Technique for Imbalanced Structured Data based on SMOTE and Adapted CycleGAN)

  • 노정담;최병구
    • 경영정보학연구
    • /
    • 제24권4호
    • /
    • pp.97-118
    • /
    • 2022
  • 이미지와 같은 비정형 데이터의 불균형 클래스 문제 해결에 있어 생산적 적대 신경망(generative adversarial network)에 기반한 오버샘플링 기법의 우수성이 알려짐에 따라 다양한 연구들이 이를 정형 데이터의 불균형 문제 해결에도 적용하기 시작하였다. 그러나 이러한 연구들은 데이터의 형태를 비정형 데이터 구조로 변경함으로써 정형 데이터의 특징을 정확하게 반영하지 못한다는 점이 문제로 지적되고 있다. 본 연구에서는 이를 해결하기 위해 순환 생산적 적대 신경망(cycle GAN)을 정형 데이터의 구조에 맞게 재구성하고 이를 SMOTE(synthetic minority oversampling technique) 기법과 결합한 하이브리드 오버샘플링 기법을 제안하였다. 특히 기존 연구와 달리 생산적 적대 신경망을 구성함에 있어 1차원 합성곱 신경망(1D-convolutional neural network)을 사용함으로써 기존 연구의 한계를 극복하고자 하였다. 본 연구에서 제안한 기법의 성능 비교를 위해 불균형 정형 데이터를 기반으로 오버샘플링을 진행하고 그 결과를 SMOTE, ADASYN(adaptive synthetic sampling) 등과 같은 기존 기법과 비교하였다. 비교 결과 차원이 많을수록, 불균형 정도가 심할수록 제안된 모형이 우수한 성능을 보이는 것으로 나타났다. 본 연구는 기존 연구와 달리 정형 데이터의 구조를 유지하면서 소수 클래스의 특징을 반영한 오버샘플링을 통해 분류의 성능을 향상시켰다는 점에서 의의가 있다.

통신 환경에서 비정형적 구조를 갖는 데이터세트의 효과적인 제어 방법 (An Effective Control Scheme for Unstructued Dataset in the Communication Environments)

  • 배명남;최완;이동춘
    • 정보처리학회논문지C
    • /
    • 제9C권1호
    • /
    • pp.31-38
    • /
    • 2002
  • 교환기 시스템(Switching System)과 같은 통신 시스템에서는 제안된 이벤트들이 반드시 명시된 시간 제약 내에 완료되어야 한다. 따라서, 시스템에 유지되는 응용 데이터들은 빠른 접근이 가능해야 하며, 동시에 제한된 시간 내에 이벤트의 완료가 보장되어야 한다. 현재, 많은 데이터 시스템들이 사용되고 있지만, 이들은 정형화된 구조와 이에 대한 기본적인 연산들만을 제공하고 있다. 최근 통신 응용에서 데이터의 복잡성이 증가함으로서, 기존의 방식과는 달리, 비정형화된 구조의 표현이 가능하며, 이들에 대해 쉽게 접근 가능한 체계가 요구되고 있다. 이를 위해, 본 논문에서는 비정형화된 다중 응용 환경의 모델링에 적합한 데이터 모델을 소개한다. 모델은 데이터세트에 대한 빠른 접근과 필요한 데이터를 쉽게 추출할 수 있는 체계를 제공한다 추가로, 모델의 특징을 명확히 하기 위해 몇몇 세부 알고리즘을 함께 설명한다.

DW 어플라이언스를 통한 빅데이터 처리 기술 동향 분석 (Analysis of Trend for BigData Processing Technology by DW Appliance)

  • 최로환;박석천;심봉수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.904-907
    • /
    • 2013
  • 최근 정보통신기술이 하루가 다르게 발전함에 따라 하루에도 수많은 데이터가 흘러나오는 최근의 추세이다. 정형 데이터 뿐 아니라 비정형 데이터 분석까지 진행하는 최근의 추세에 맞춰 현 빅데이터 기술 동향을 분석한다. 빅데이터 시대를 맞아 기존의 데이터웨어하우스(DW)와 발전된 데이터웨어하우스(DW) 어플라이언스에 대해 분석하고 향후 발전 전망과 방향을 제시한다.

비정형 데이터를 활용한 감기 판단 사전 구축 (Constructing the Dictionary of Flue using unstructured data)

  • 김광민;남기훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1187-1190
    • /
    • 2015
  • 최근에 비정형 데이터의 잠재적 가치를 유용한 데이터로써 사용하려는 경우가 많아지고 있다. 특히 트위터는 사용자의 상태나 이벤트가 잘 나타나 있어서 하나의 사용자의 이벤트로서 간주될 수 있다. 본 논문은 트위터에서 발생하는 이벤트에 주목하여, 감기라는 이벤트를 트위터 내에서 추적하고자 한다. 추적을 위해서는 트위터를 판단할 필요가 있는데, 이를 위해 기존의 감성 사전 방식 중 하나인 통계적 사전 구축을 기반으로 키워드를 활용하여 감기 판단 사전을 구축하는 방식을 제안한다.