• 제목/요약/키워드: 비정형데이터

검색결과 580건 처리시간 0.033초

정형 데이터와 비정형 데이터를 동시에 고려하는 기계학습 기반의 직업훈련 중도탈락 예측 모형 (A Machine Learning-Based Vocational Training Dropout Prediction Model Considering Structured and Unstructured Data)

  • 하만석;안현철
    • 한국콘텐츠학회논문지
    • /
    • 제19권1호
    • /
    • pp.1-15
    • /
    • 2019
  • 직업훈련 교육 현장에서 느끼는 가장 큰 어려움 중 하나는 중도탈락 문제이다. 훈련과정마다 많은 수의 학생들이 중도탈락을 하게 되어 국가 예산 낭비 및 청년 취업률 개선에 장애 요인이 되고 있다. 본 연구에서는 중도탈락의 원인을 주로 분석한 기존 연구들과 달리, 각종 수강생 정보를 활용하여 사전에 중도탈락을 예측할 수 있는 기계학습 기반 모형을 제안하고자 한다. 특히 본 연구의 제안모형은 수강생 관련 정형 데이터 뿐 아니라 비정형 데이터인 강사의 상담일지 정보까지 동시에 고려하여 모형의 예측정확도를 제고하고자 하였다. 이 때 비정형 데이터에 대한 분석은 최근 주목받고 있는 텍스트 분석 기술인 Word2vec과 합성곱 신경망을 이용해 수행하였다. 국내 한 직업훈련기관의 실제 데이터에 제안모형을 적용해 본 결과, 정형데이터만을 사용하여 중도탈락을 예측할 때보다 비정형 데이터를 함께 고려했을 때 예측의 정확도가 최대 20%까지 향상됨을 확인할 수 있었다. 아울러, Support Vector Machine을 기반으로 정형 데이터와 비정형 데이터를 결합해 분석했을 때, 검증용 데이터셋 기준으로 90% 후반대의 높은 예측 정확도를 나타냄을 확인하였다.

비정형 파라메트릭 건축부재형성 및 BIM 데이터 변환 프로세스 모델에 관한 연구 (A Study on Evaluation Index of the Panelizing Optimization for Architectural Freeform Surfaces)

  • 유정원
    • 한국산학기술학회논문지
    • /
    • 제18권1호
    • /
    • pp.287-294
    • /
    • 2017
  • 국내 AEC 산업 분야에 2000 년대 중반부터 그 적극적인 도입이 시작된 BIM 기술은 최첨단 건축, 초대형 건축, 비정형 건축 등을 중심으로 그 도입이 가속화 되어 왔다. 건물 구축 기술의 부족으로 의해 완공률이 낮았던 비정형 건축물들이 BIM 기술의 도입으로 많은 구축 성공 사례가 생기면서 건축가들이 비정형 건축 설계에 활발히 도전하고 있다. 그러나 비정형 설계가 가능한 모델러들은 설계, 시공, 유지관리 등에서의 데이터 관리가 효율적인 BIM 데이터의 구축이 어렵다. 그러므로 본 연구에서는 비정형 모델러에서 생성된 건축 부재 데이터의 BIM 데이터로의 변환 프로세스를 제안하였다. 제안된 프로세스 모델은 비정형 건축 부재를 형성하기 위한 형성 조건 수신부, 건축부재 생성부, 그리고 BIM 데이터 생성부 세가지 부분으로 구성된다. 구체적으로는 NURBS 기반 모델러에서 비정형 슬라브, 기둥, 보 파라메트릭 건축 부재 형성과 BIM 도구로의 데이터 전이 및 BIM 건축 부재 데이터 형성을 위한 프로세스 모델을 제안하며, 이를 실현하기 위한 프로토타입 시스템이 구현되었다.

건설현장 정형·비정형데이터를 활용한 기계학습 기반의 건설재해 예측 모델 개발 (Development of Machine Learning-based Construction Accident Prediction Model Using Structured and Unstructured Data of Construction Sites)

  • 조민건;이동환;박주영;박승희
    • 대한토목학회논문집
    • /
    • 제42권1호
    • /
    • pp.127-134
    • /
    • 2022
  • 현재 국내 건설업에서는 꾸준히 증가하는 건설재해를 예방하기 위해 다양한 정책적 노력과 연구가 활발하게 진행되고 있다. 기존 연구에서 건설재해 예방을 위해 개발한 예측 모델의 경우, 주로 정형데이터만을 활용하였기에 건설현장의 다양한 특성을 충분히 고려하지 못한 예측 결과가 도출되었다. 따라서, 본 연구에서는 정형데이터와 텍스트 형식의 비정형데이터를 동시에 활용하여 건설현장의 특성을 충분히 고려할 수 있는 기계학습 기반 건설재해 사전 예측 모델을 개발하였다. 본 연구는 기계학습을 위해 건설공사 안전관리 종합정보망(CSI)의 최근 3년간 건설재해 데이터 6,826건을 수집하였다. 수집된 데이터 중 정형데이터의 학습은 5가지 알고리즘의 성능 분석을 통해 Decision forest 알고리즘을 사용하였고 비정형데이터의 학습은 BERT 언어모델을 사용하였다. 정형 및 비정형데이터를 동시에 활용한 건설재해 예측 모델의 성능 비교 결과, 정형데이터만을 활용한 경우보다 약 20 % 향상된 95.41 %의 예측정확도가 도출되었다. 본 연구 결과, 비정형데이터를 동시에 활용함으로써 예측 모델의 효과적인 성능 향상을 확인하였으며, 보다 정확한 예측을 통한 건설재해 저감을 기대할 수 있다.

뉴스 빅데이터 분석을 활용한 가뭄지수 재생산 (Reproduction of drought index using news big data analysis)

  • 정진홍;박동혁;안재현
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.386-386
    • /
    • 2020
  • 가뭄은 강수, 증발산, 대기온도, 토양수분 등 다양한 수문기상학적 인자들이 복합적으로 작용하여 발생되기 때문에 가뭄의 정확한 사상을 분석하는 것은 매우 어렵다. 또한 어떤 요인을 중심으로 고려하느냐에 따라 가뭄은 다양한 시각으로 정의되고 있다. 일정기간 평균 강수량보다 적은 강수로 인해 건조한 날이 지속되는 것, 즉 기상요소를 중심으로 가뭄을 정의하는 것을 기상학적 가뭄이라 하며, 작물의 생육에 필요한 수분을 중심으로 고려하는 것을 농업적 가뭄이라 한다. 또한 하천유량, 댐 저수량 등 전반적인 수자원 공급원의 부족을 수문학적 가뭄이라 한다. 이와 같이 다양하게 나타는 가뭄의 발생특성을 정량적으로 해석하기 위해 다양한 가뭄지수가 개발되어 왔다. 그러나 현재까지 개발된 가뭄지수들은 공통적으로 정형데이터를 활용하여 산정한다. 하지만 최근에는 비정형데이터를 활용하여 지수(Index)를 산정하거나, 재난관리에 적용하는 등 비정형 데이터의 활용이 급증하고 있다. 따라서 본 연구에서는 비정형 데이터(뉴스 데이터)를 활용하여 가뭄지수를 산정하고 기존의 가뭄지수들과의 상관성 분석을 실시 한 뒤, 지수결합을 통해 가뭄사상 분석의 새로운 방안을 제시하고자 하였다. 본 연구의 공간적범위는 2014~2015 충남서북부가뭄 지역 중 가장 큰 피해를 입었던 보령지역으로 선정하였으며 시간적범위는 2013~2016년으로 설정하였다. 비정형 데이터의 구축은 크롤링(Crawling)을 활용하여 네이버 뉴스의 기사를 수집하였으며 자료의 신뢰성을 위해 URL이 동일한 중복기사 및 '보령', '가뭄' 단어가 없는 기사는 제거하였다. 구축된 데이터를 기반으로 월별 빈도를 산출하고 표준점수(Z-score)로 환산하여 가뭄지수를 산정하였다. 산정된 가뭄지수가 어떤 가뭄의 유형(기상학적, 농업적, 수문학적)을 보이는지 확인하기 위해 기존의 가뭄지수들과 상관성분석을 실시하였으며, 가장 높은 상관성을 보이는 가뭄지수와 결합을 통해 새로운 가뭄 사상을 분석하였다. 본 연구에서 진행한 가뭄사상 분석은 향후 가뭄만이 아니라 다양한 재난분야에서 비정형 데이터를 활용한 분석의 기초로자료로 활용될 수 있을 것이다.

  • PDF

비정형 데이터의 계층적 군집화를 이용한 범죄 프로파일링 (Criminal Profiling Using Hierarchical Clustering of Unstructured Data)

  • 김용훈;정목동
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.335-338
    • /
    • 2016
  • 최근 디지털 정보들은 각종 매체에 저장되어 다양하게 활용되고 있다. 그 중 범죄관련 비정형데이터의 분석과 활용은 범죄수사에 유용한 자료로 활용될 수 있다. 그러나 기존의 범죄통계 자료의 분석 및 활용은 정형데이터를 이용한 제한적 접근에 그치고 있다. 따라서, 본 논문은 수사 자료 중 처리되지 못한 비정형데이터를 분석, 저장, 처리하여, 수사 자료로 활용할 수 있도록 정형데이터화 함으로 범죄 프로파일링에 도움이 될 것으로 기대된다.

비정형데이터 수집을 통한 드라마 시청률 연관어 분석 (Analysis of drama viewership related words through unstructured data collection)

  • 강선경;이현창;신성윤
    • 한국정보통신학회논문지
    • /
    • 제21권8호
    • /
    • pp.1567-1574
    • /
    • 2017
  • 본 논문에서는 드라마의 시청률에 영향을 미치는 연관어 분석을 위해 정형화된 데이터와 비정형화된 데이터를 분석하는 내용이다. 정형화된 데이터 수집은 각 방송사의 드라마정보, 인물정보, 방송정보, 시청률정보라는 4가지 영역에서 총 19가지항목을 수집하였다. 비정형데이터는 각 방송사에서 드라마별로 운영되고 있는 게시판과 방영전 블로그와 방영후 블로그로부터 크롤링기법을 이용하여 수집하였다. 수집된 정형데이터로부터 각 방송사별 4가지 영역별에 따른 차이를 비교한 결과 방송사별 서로 유사한 결과 값을 보이고 있었다. 그리고 각 방송사의 드라마별 게시판과 블로그에서 수집된 비정형데이터로부터 출현빈도의 상관관계 분석을 통해 관련 연관어를 7개 도출하였다. 도출된 연관어는 신뢰성 분석을 통해 이루어졌다.

텍스트 마이닝을 적용한 한국교통방송제보 비정형데이터의 분석 (Analysis of the Unstructured Traffic Report from Traffic Broadcasting Network by Adapting the Text Mining Methodology)

  • 노유진;배상훈
    • 한국ITS학회 논문지
    • /
    • 제17권3호
    • /
    • pp.87-97
    • /
    • 2018
  • 교통사고 관련 제보는 비정형 데이터로서 교통사고를 유발한 가해자나 피해자의 관점이 아닌, 교통사고 발생 지점과 구간, 시간대에 있었던 타 운전자의 관점에서 생성된 교통정보의 가치를 가지고 있다. 그러나, 비정형 데이터인 교통제보가 빅 데이터로서 교통사고 통계나 교통관련 연구에 활용되지 못하였으나, 텍스트 마이닝 기법을 활용한 본 연구를 통해 비정형의 빅 데이터를 시각화하고 해석하여, 기존의 정형 데이터에서 분석하지 못한 정보를 도출할 수 있었다. 그리고 교통사고 발생으로 인한 도로상 영향을 파악할 수 있었다. 이러한 분석으로 교통제보의 트랜드를 파악하고, 운전자가 제보하는 "도로명", "지점명", "시간대"를 추출하였으며, 교통사고 발생으로 다른 운전자에게 가장 많은 영향을 미치는 지점과 구간의 파악이 가능하였다. 향후 실제 교통사고 데이터와 결합하여 교통제보와의 상관성 분석 등을 통해 비정형 데이터의 활용방안을 모색할 계획이다.

크라우드 소싱 데이터를 적용한 홍수 피해지도 활용방안 연구 (A Study on the Utilization of Flood Damage Map with Crowdsourcing Data)

  • 이정하;황석환
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.310-310
    • /
    • 2022
  • 최근 통신의 발달로 인하여 웹(Web)상에는 다양한 데이터들이 실시간으로 생산되고 있으며 해당 내용은 다양한 산업에서 활용되고 있다. 특히 최근에는 재난과 관련 상황에서도 소셜 네트워크 서비스(SNS) 데이터가 활용되기도 하며 기존의 수치 계측 데이터가 아닌 하나의 센서 역할을 하는 개인의 비정형데이터의 업로드가 다양한 재난 모니터링 부분에 활용되고 있는 실정이다. 특히 홍수 등의 자연재해 발생 시 개개인의 업로드 한 웹 데이터에는 시간에 따른 인구의 유동성이나 간단한 위치 정보 등을 포함하여 실제 피해의 정도를 보다 빠르고 다양한 정보로 모니터링이 가능하다. 홍수 발생 시 일반적으로 활용하는 수문 데이터는 피해의 규모가 크게 예측되는 대하천 위주로 관측이 이루어지며 관측지역과 데이터의 양이 한정되어있어 비정형데이터를 함께 활용한 연구가 필요하다. 따라서 본 연구에서는 웹에 있는 비정형 데이터들을 추출해내는 웹 크롤러를 구성하고 해당 프로그램을 활용하여 추출한 데이터들에 대해 강우 사상과 공간적 패턴을 비교 분석하여 크라우드 소싱 데이터를 적용한 홍수 피해지도의 활용방안을 제시하고자 한다.

  • PDF

기업의 빅데이터 적용방안 연구 -A사, Y사 빅데이터 시스템 적용 사례- (Study on the Application Methods of Big Data at a Corporation -Cases of A and Y corporation Big Data System Projects-)

  • 이재성;홍성찬
    • 인터넷정보학회논문지
    • /
    • 제15권1호
    • /
    • pp.103-112
    • /
    • 2014
  • 지난 수년간 스마트 폰 같은 스마트 기기의 빠른 확산과 함께 인터넷과 SNS 등 소셜 미디어가 급성장함에 따라 개인 정보와 소비패턴, 위치 정보 등이 포함된 가치 있는 데이터가 매 순간 엄청난 양으로 생성되고 있으며, M2M (Machine to Machine)과 IoT (Internet of Things) 등이 활성화되면서 IT 및 생산인프라 자체도 다량의 데이터를 직접 생성하기 시작했다. 본 연구는 기업에서 활용할 수 있는 빅데이터의 대표적 유형인 정형 및 비정형 데이터의 적용사례를 고찰함으로써 데이터 유형에 따른적용 영역별 파급효과를 알아본다. 또한 일반적으로 알려져 있는 비정형 빅데이터는 물론 정형빅데이터를 활용하여 실제로 기업에 보다 나은 가치를 창출할 수 있는 방안을 알아보는 것을 목적으로 한다. 이에 대한연구 결과로 빅데이터의 기업내 활동이 나아갈 수 있는 지향점으로써 내 외부에서 발생하는 정형데이터와 비정형 데이터를 적절히 결합함으로써 분석의 효과를 극대화 할 수 있음을 보여 주었다.

SNS 비정형데이터 크롤링을 통한 드라마 시청률의 연관어 분석 (Analysis of related words of drama viewership through SNS unstructured data crawling)

  • 강선경;이현창;신성윤
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.169-170
    • /
    • 2017
  • 본 논문에서는 드라마의 시청률에 영향을 미치는 요소가 무엇인지를 파악하기 위해 정형화된 데이터와 비정형화된 데이터를 분석하기 위한 내용이다. 정형화된 데이터 수집은 각 방송사의 드라마 정보, 인물정보, 방송정보, 시청률정보라는 4가지 영역에서 총 19가지항목을 수집하였다. 비정형데이터를 수집하기 위해 각 방송사에서 드라마별로 운영되고 있는 게시판과 방영전블로그와 방영후블로그로부터 크롤링기법을 이용하여 수집하였다. 수집된 데이터로부터 방송사별 드라마 방영시간대, 방영시작시기, 장르, 방영요일에 따른 차이를 비교한 결과 방송사별 서로 유사한 것으로 나타났다.

  • PDF