• 제목/요약/키워드: Unstructured data analysis

검색결과 422건 처리시간 0.028초

Artificial intelligence approach for linking competences in nuclear field

  • Vincent Kuo;Gunther H. Filz;Jussi Leveinen
    • Nuclear Engineering and Technology
    • /
    • 제56권1호
    • /
    • pp.340-356
    • /
    • 2024
  • Bridging traditional experts' disciplinary boundaries is important for nuclear knowledge management systems. However, expert competences are often described in unstructured texts and require substantial human effort to link related competences across disciplines. The purpose of this research is to develop and evaluate a natural language processing approach, based on Latent Semantic Analysis, to enable the automatic linking of related competences across different disciplines and communities of practice. With datasets of unstructured texts as input training data, our results show that the algorithm can readily identify nuclear domain-specific semantic links between words and concepts. We discuss how our results can be utilized to generate a quantitative network of links between competences across disciplines, thus acting as an enabler for identifying and bridging communities of practice, in nuclear and beyond.

부산지역 교통관련 기사를 이용한 비정형 빅데이터의 정형화와 시각적 해석 (Structuring of unstructured big data and visual interpretation)

  • 이경준;노윤환;윤상경;조영석
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권6호
    • /
    • pp.1431-1438
    • /
    • 2014
  • 2013년 1월 1일부터 2013년 12월 31일까지의 부산지역지인 국제신문과 부산일보의 기사들 중 제목에 '부산'과 '교통'을 동시에 포함한 2889건의 기사 내용의 관계 또는 관련 있는 데이터에 내재되어 있는 의미 있는 패턴을 찾아내고자한다. 데이터마이닝 (datamining)의 일부인 텍스트마이닝(textmining)의 기법을 이용하여 사회네트워크분석 (SNA; social network analysis)을 실시하였다. 비정형 데이터의 정형화를 위해 빅데이터의 저장, 처리 및 분석을 위해 자바 기반의 오픈소스 프레임워크인 하둡 생태계 (Hadoop ecosystem)의 HDFS와 맵리듀스 (MapReduce)를 Linux (Ubuntu-12.04LTS) 환경에서 이용하였고, 기존의 R패키지에서 제공되는 사회 네트워크 분석보다 효율적인 시각화를 위해 각 노드 및 선에 비율에 따른 가중치를 주어 색상과 굵기로 해석할 수 있도록 새로운 알고리즘을 구현하였다.

스마트제조를 위한 머신러닝 기반의 설비 오류 발생 패턴 도출 프레임워크 (A Machine Learning Based Facility Error Pattern Extraction Framework for Smart Manufacturing)

  • 윤준서;안현태;최예림
    • 한국전자거래학회지
    • /
    • 제23권2호
    • /
    • pp.97-110
    • /
    • 2018
  • 4차 산업혁명 시대를 맞아, 제조 기업들은 생산성 향상을 위해 축적된 설비 데이터를 활용하여 스마트제조를 실현하는 것에 높은 관심을 두고 있다. 하지만 기존의 설비 데이터 분석 연구들은 주로 센서 데이터 등 정형 데이터를 대상으로 하여, 실제 큰 비중을 차지하고 있는 텍스트와 같은 비정형 데이터에 대한 분석 연구는 부족한 실정이다. 특히, 작업자가 수기로 작성한 텍스트 데이터를 활용한 사례는 매우 적었다. 따라서 본 논문에서는 작업자가 수기로 작성한 설비 오류 데이터를 분석하여 연관 규칙 마이닝을 통해 설비 오류 발생 패턴을 도출하는 프레임워크를 제안하고자 한다. 이때, 일반적인 텍스트 분석 기법과 같이 단어를 분석 기준으로 사용하는 경우 전문 용어에 해당하는 설비 오류의 의미를 표현하는 데에 한계가 있다는 점에 착안하여 구절을 추출하여 텍스트 분석 기준으로 사용하였다. 제안하는 프레임워크의 성능을 실제 사례를 통해 검증하였으며, 본 연구 결과를 활용하면 설비 오류를 예방하여 가동률을 높이고 나아가 제조 기업의 생산성 향상에 기여할 수 있을 것으로 기대한다.

오픈소스 ELK Stack 활용 정보보호 빅데이터 분석을 통한 보안관제 구현 (Security Operation Implementation through Big Data Analysis by Using Open Source ELK Stack)

  • 현정훈;김형중
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.181-191
    • /
    • 2018
  • IT발전과 함께 해킹 범죄는 지능화, 정교화 되고 있다. 침해대응에 있어 빅데이터 분석이란 정보보호 시스템에서 발생하는 정상로그 등 전체 로그를 수집, 저장, 분석 및 시각화하여 이상행위와 같은 특이점을 도출하는 것이다. 기존에 간과해왔던 데이터를 포함하는 전수 로그를 활용하여 사이버 침해의 초기단계에서부터 침해에 대한 이상 징후를 탐지 및 대응하고자 한다. 정보보호 시스템과 단말 및 서버 등에서 발생하는 비정형에 가까운 빅데이터를 분석하기 위해서 오픈소스 기술을 사용하였다. ELK Stack 오픈소스를 사용한다는 점은 해당 기관의 자체 인력으로 기업 환경에 최적화된 정보보호 관제 체계를 구축하는 것이다. 고가의 상용 데이터 통합 분석 솔루션에 의존할 필요가 없으며, 자체 인력으로 직접 정보보호 관제 체계를 구현함으로써 침해대응의 기술 노하우 축적이 가능하다.

SNS 비정형데이터 크롤링을 통한 드라마 시청률의 연관어 분석 (Analysis of related words of drama viewership through SNS unstructured data crawling)

  • 강선경;이현창;신성윤
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.169-170
    • /
    • 2017
  • 본 논문에서는 드라마의 시청률에 영향을 미치는 요소가 무엇인지를 파악하기 위해 정형화된 데이터와 비정형화된 데이터를 분석하기 위한 내용이다. 정형화된 데이터 수집은 각 방송사의 드라마 정보, 인물정보, 방송정보, 시청률정보라는 4가지 영역에서 총 19가지항목을 수집하였다. 비정형데이터를 수집하기 위해 각 방송사에서 드라마별로 운영되고 있는 게시판과 방영전블로그와 방영후블로그로부터 크롤링기법을 이용하여 수집하였다. 수집된 데이터로부터 방송사별 드라마 방영시간대, 방영시작시기, 장르, 방영요일에 따른 차이를 비교한 결과 방송사별 서로 유사한 것으로 나타났다.

  • PDF

사용자 관심 이슈 분석을 통한 추천시스템 성능 향상 방안 (Improving Performance of Recommendation Systems Using Topic Modeling)

  • 최성이;현윤진;김남규
    • 지능정보연구
    • /
    • 제21권3호
    • /
    • pp.101-116
    • /
    • 2015
  • 많은 기관들이 데이터에 기반을 둔 의사결정을 수행해 왔으며, 특히 수치자료를 비롯한 정형 데이터가 이러한 목적으로 널리 활용되어 왔다. 하지만 최근에는 스마트기기와 소셜미디어의 발달로 인해 다양한 형태를 가진 방대한 양의 정보가 생성, 공유, 저장되면서, 전통적인 정형 데이터 기반 의사결정으로부터 비정형 빅데이터 기반 의사결정으로 관심의 전환이 이루어지고 있다. 데이터 기반 의사결정의 대표적 분야인 추천시스템 분야에서도 성능 향상을 위해 비정형 데이터를 활용해야 한다는 필요성이 최근 꾸준히 제기되고 있다. 특히 사용자의 성향이나 선호도는 고객의 니즈와 직결되기 때문에, 비정형 데이터 분석을 통해 사용자의 성향을 파악하고 이를 통해 상품 추천 및 구매 예측의 정확도를 향상시키기 위한 노력이 매우 시급하게 이루어질 필요가 있다. 따라서 본 연구에서는 사용자의 성향을 측정하여 재구매 예측 정확도, 특히 카테고리별 재구매 예측 정확도를 높임으로써, 궁극적으로 추천시스템의 성능을 향상시킬 수 있는 방안을 제시한다. 구체적으로는 사용자의 일상적인 인터넷 사용 기록을 분석하여 고객이 조회하는 뉴스 기사의 이슈를 식별하고 다양한 이슈에 대한 고객의 관심을 계량화한 후, 이를 활용하여 고객의 카테고리별 재구매 여부를 예측하는 모델을 제안하고자 한다. 실제 웹 트랜잭션으로부터 도출된 인터넷 뉴스 조회 기록 및 쇼핑몰 구매 기록을 대상으로 실험을 수행한 결과, 고객의 과거 구매이력만을 활용한 카테고리 재구매 예측 모형에 비해 본 연구에서 제안한 모형, 즉 고객의 과거 구매이력과 관심 이슈를 모두 활용한 예측 모형의 정확도가 다소 우수한 것으로 나타났다.

소셜 미디어 데이터 분석을 활용한 빅데이터에 대한 인식 변화 비교 분석 (A Comparative Analysis of Cognitive Change about Big Data Using Social Media Data Analysis)

  • 윤유동;조재춘;허윤아;임희석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권7호
    • /
    • pp.371-378
    • /
    • 2017
  • 최근 모바일의 확산과 웹 서비스의 도입으로 온라인 상에 데이터가 급격히 증가하게 되어 다양한 분야에서 활용되고 있다. 특히, 빅데이터 분야에서 소셜 미디어의 등장은 축적되는 비정형 데이터의 양이 급격하게 증가하는 계기가 되었다. 이러한 비정형 데이터로부터 의미 있는 정보를 추출하기 위해 다양한 분야에서 빅데이터 기술에 대한 관심이 증가하고 있다. 빅데이터는 선진국을 중심으로 다양한 분야에서 핵심 자원으로서 중요성이 부각되고 있다. 그러나 빅데이터의 긍정적인 미래 전망과 함께 데이터의 침해 및 개인정보 보호에 대한 우려가 지속적으로 언급되고 있다. 이와 같이 긍정적인 시각과 부정적인 시각이 공존하는 빅데이터에 대해 사람들의 의견을 분석하는 연구는 현재 매우 부족한 상황이다. 이에 본 연구에서는 텍스트 마이닝을 활용하여 소셜 미디어에서 수집한 비정형 데이터를 기반으로 빅데이터에 대한 사람들의 인식 변화를 비교하였다. 텍스트 마이닝 결과, 국내 빅데이터에 대한 연도별 키워드와 함께 시간의 흐름에 따라 감소하는 긍정적인 의견과 증가하는 부정적인 의견이 관찰되었다. 그리고 이러한 분석 결과를 기반으로 국내 빅데이터에 대한 흐름을 예측할 수 있었다.

건설현장 정형·비정형데이터를 활용한 기계학습 기반의 건설재해 예측 모델 개발 (Development of Machine Learning-based Construction Accident Prediction Model Using Structured and Unstructured Data of Construction Sites)

  • 조민건;이동환;박주영;박승희
    • 대한토목학회논문집
    • /
    • 제42권1호
    • /
    • pp.127-134
    • /
    • 2022
  • 현재 국내 건설업에서는 꾸준히 증가하는 건설재해를 예방하기 위해 다양한 정책적 노력과 연구가 활발하게 진행되고 있다. 기존 연구에서 건설재해 예방을 위해 개발한 예측 모델의 경우, 주로 정형데이터만을 활용하였기에 건설현장의 다양한 특성을 충분히 고려하지 못한 예측 결과가 도출되었다. 따라서, 본 연구에서는 정형데이터와 텍스트 형식의 비정형데이터를 동시에 활용하여 건설현장의 특성을 충분히 고려할 수 있는 기계학습 기반 건설재해 사전 예측 모델을 개발하였다. 본 연구는 기계학습을 위해 건설공사 안전관리 종합정보망(CSI)의 최근 3년간 건설재해 데이터 6,826건을 수집하였다. 수집된 데이터 중 정형데이터의 학습은 5가지 알고리즘의 성능 분석을 통해 Decision forest 알고리즘을 사용하였고 비정형데이터의 학습은 BERT 언어모델을 사용하였다. 정형 및 비정형데이터를 동시에 활용한 건설재해 예측 모델의 성능 비교 결과, 정형데이터만을 활용한 경우보다 약 20 % 향상된 95.41 %의 예측정확도가 도출되었다. 본 연구 결과, 비정형데이터를 동시에 활용함으로써 예측 모델의 효과적인 성능 향상을 확인하였으며, 보다 정확한 예측을 통한 건설재해 저감을 기대할 수 있다.

텍스트 데이터 시각화를 위한 MVC 프레임워크 (A MVC Framework for Visualizing Text Data)

  • 최광선;정교성;김수동
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.39-58
    • /
    • 2014
  • 빅데이터의 중요성에 대한 인식이 확산되고, 관련한 기술이 발전됨에 따라, 최근에는 빅데이터의 처리와 분석의 결과를 어떻게 시각화할 것인지가 매우 관심 받는 주제로 부각되고 있다. 이는 분석된 결과를 보다 명확하고 효과적으로 전달하는 데에 있어서 데이터의 시각화가 매우 효과적인 방법이기 때문이다. 시각화는 분석 시스템과 사용자가 소통하기 위한 하나의 그래픽 사용자 인터페이스(GUI)를 담당하는 역할을 한다. 통상적으로 이러한 GUI 부분은 데이터의 처리나 분석의 결과와 독립될 수록 시스템의 개발과 유지보수가 용이하며, MVC(Model-View-Controller)와 같은 디자인 패턴의 적용을 통해 GUI와 데이터 처리 및 관리 부분 간의 결합도를 최소화하는 것이 중요하다. 한편 빅데이터는 크게 정형 데이터와 비정형 데이터로 구분할 수 있는데 정형 데이터는 시각화가 상대적으로 용이한 반면, 비정형 데이터는 시각화를 구현하기가 복잡하고 다양하다. 그럼에도 불구하고 비정형 데이터에 대한 분석과 활용이 점점 더 확산됨에 따라, 기존의 전통적인 정형 데이터를 위한 시각화 도구들의 한계를 벗어나기 위해 각각의 시스템들의 목적에 따라 고유의 방식으로 시각화 시스템이 구축되는 현실에 직면해 있다. 더욱이나 현재 비정형 데이터 분석의 대상 중 대부분을 차지하고 있는 텍스트 데이터의 경우 언어 분석, 텍스트 마이닝, 소셜 네트워크 분석 등 적용 기술이 매우 다양하여 하나의 시스템에 적용된 시각화 기술을 다른 시스템에 적용하는 것이 용이하지 않다. 이는 현재의 텍스트 분석 결과에 대한 정보 모델이 서로 다른 시스템에 적용될 수 있도록 설계되지 못하는 경우가 많기 때문이다. 본 연구에서는 이러한 문제를 해결하기 위하여 다양한 텍스트 데이터 분석 사례와 시각화 사례들의 공통적 구성 요소들을 식별하여 표준화된 정보 모델인 텍스트 데이터 시각화 모델을 제시하고, 이를 통해 시각화의 GUI 부분과 연결할 수 있는 시스템 모델로서의 시각화 프레임워크인 TexVizu를 제안하고자 한다.

잠재 의미 분석을 적용한 유사 특허 검색 서비스 시스템 (Similar Patent Search Service System using Latent Dirichlet Allocation)

  • 임현근;김재윤;정회경
    • 한국정보통신학회논문지
    • /
    • 제22권8호
    • /
    • pp.1049-1054
    • /
    • 2018
  • 유사 특허를 검색하는 방법으로 기존에는 키워드 검색 방법을 사용하고 최근에는 머신러닝을 활용한 자동분류 방법을 사용하고 있다. 키워드 검색은 데이터 정제를 통해 정형화된 데이터 분석 방법으로 단문일 경우 검색에서는 정확도는 높지만 문서와 같이 여러 단어로 이루어진 장문일 경우 문장에 내포된 의미 분석을 할 수 없었다. 의미 분석 단계에서의 자동 분류 방법은 비정형 데이터 분석 방법으로 여러 단어로 이루어진 문장을 분류하는데 사용되고 있다. 그 동안 두 가지 방법을 결합하여 유사 문서 검색을 하려는 시도가 있었지만 비정형 데이터와 정형 데이터의 동시 사용에는 분석하는 방법이 다르기 때문에 동시 적용에는 알고리즘 상의 문제가 있었다. 이에 본 논문에서는 문서에서 함축된 키워드를 검출하고 잠재 의미 분석(LDA) 방식을 사용하여 사람이 개입하지 않고 문서를 효율적으로 자동분류하고 유사 특허를 검색할 수 있는 방법을 연구하였다.