• 제목/요약/키워드: Unstructured data

검색결과 711건 처리시간 0.029초

재난 상황관리를 위한 재난안전정보 연계 서비스 방안 연구 : 지진을 중심으로 (A Study on Information Linkage Service for Disaster Situation Management : Focusing on Earthquake)

  • 유은지;심형섭
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.67-73
    • /
    • 2018
  • 최근 대규모 복합화된 형태로 나타나는 재난을 효과적으로 관리하기 위하여 기존 재난관리 담당자들이 재난 상황관리를 위해 참조하고 있는 재난 메뉴얼, 관련 법규 등의 비정형 텍스트 형태의 재난정보와 재난 유관기관 시스템에 구축되어 있는 정형의 다양한 재난정보의 상호 연동 체계를 구축하고, 이를 통해 재난 관련 유관기관 간 공동활용이 가능한 재난정보 공유시스템 구축 방법론을 제안하고자 한다. 특히 최근 들어 경주, 포항 등 발생 빈도가 급격하게 늘어나고 있는 지진을 중심으로 지진 메뉴얼, 지진 화산재해대책법 등 비정형 정보와 지진 관련 유관시스템 내 정형 지진정보를 대상으로 정형 비정형 정보 연계를 수행하고 최종적으로는 연계된 정보를 기반으로 지진 상황관리에 필요한 정보를 제공하는 서비스를 제안하였다. 구축된 서비스를 통해 업무담당자는 비정형 정형 정보가 융합된 범부처 및 기관의 지진정보를 획득하여 효과적인 지진 상황관리를 수행할 것으로 기대된다.

에지 컴퓨팅 환경에서의 상황인지 서비스를 위한 팻 클라이언트 기반 비정형 데이터 추상화 방법 (Fat Client-Based Abstraction Model of Unstructured Data for Context-Aware Service in Edge Computing Environment)

  • 김도형;문종혁;박유상;최종선;최재영
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권3호
    • /
    • pp.59-70
    • /
    • 2021
  • 최근 사물인터넷의 발전으로 사용자 주변 상황을 인지하여 맞춤형 서비스를 제공하는 상황인지 시스템에 대한 관심이 증가되고 있다. 기존의 상황인지 시스템은 사용자 주위에서 생성되는 데이터를 분석하여 사용자 주변 상황을 표현하는 상황 정보로 추상화하는 기술이 사용되었다. 하지만 증가하는 사용자의 서비스 요구 사항에 따라 다양한 종류의 비정형 데이터의 사용이 증가하고, 사용자 주변에서 수집되는 데이터의 양이 많아지면서 비정형 데이터의 처리와 상황인지 서비스의 제공에 어려움이 있다. 이러한 사항은 딥러닝 응용에서 비정형 구조의 입력 데이터가 많이 사용되는 데서 찾아볼 수 있다. 기존 연구에서는 에지 컴퓨팅 환경에서 다양한 딥러닝 모델을 활용해 비정형 데이터를 상황 정보로 추상화하는 연구가 진행되었으나, 수집-전처리-분석 등과 같은 추상화 과정 간의 종속성으로 인해 제한된 종류의 딥러닝 모델만이 적용 가능하기 때문에 시스템의 기능적 확장성이 고려되어야 한다. 이에 본 논문은 에지 컴퓨팅 환경에서 딥러닝 기술을 활용한 비정형 데이터 추상화 과정의 기능적 확장성을 고려한 비정형 데이터 추상화 방법을 제안한다. 제안하는 방법은 데이터 처리가 분산되어 있는 에지 컴퓨팅 환경에서 수집과 전처리 과정을 수행할 수 있는 팻 클라이언트 기술을 사용하여 추상화 과정의 수집-전처리 과정과 분석 과정을 분리하여 수행하는 것이다. 또한 분리된 추상화 과정을 관리하기 위해 수집-전처리 과정을 수행하는 데 필요한 정보를 팻 클라이언트 프로파일로 제공하고, 분석 과정에 필요한 정보를 분석 모델 설명 언어(AMDL) 프로파일로 제공한다. 두 가지 프로파일을 통해서 추상화 과정을 독립적으로 관리하여 상황인지 시스템의 기능적 확장성을 제공한다. 실험에서는 차량 출입 통제 알림 서비스를 위한 차량 이미지 인식 모델을 대상으로 팻 클라이언트 프로파일과 AMDL 프로파일의 예제를 통해 시스템의 기능적 확장성을 보이고, 비정형 데이터의 추상화 과정별 세부사항을 보인다.

비정형 건축물의 형태 표현특징에 관한 연구 (A Study on the Characteristics of Formal Expression of Atypical Buildings)

  • 강박;홍관선
    • 한국콘텐츠학회논문지
    • /
    • 제21권4호
    • /
    • pp.795-814
    • /
    • 2021
  • 최근 몇 년간 과학기술이 발달하면서, 기존의 건축양식과 디지털 도구가 결합하여 다양한 형태의 비정형 건축물을 구현하기 시작하였는데, 이러한 건축물은 기존의 정형 건축물과는 확연히 다른 형태를 보이고 있다. 디자이너는 비정형 건축물을 구축할 때 다양한 방법이나 디지털 도구를 활용하여 비정형 건축 형태와 보다 자유로운 건축 형식을 완성하게 된다. 이러한 배경을 바탕으로 비정형 건축형태 특성 평가 기준에 대한 연구의 필요성이 제기된다. 첫째, 본문은 비정형 건축물의 외부형태를 주요 연구 대상으로 하여, 선행연구를 바탕으로 비정형 외부 형태 요소를 고찰하고 통합하여 재구성하였다. 둘째, 본 연구의 목적은 다양한 비정형 형태의 유형을 분류하는 동시에 비정형 건축형태의 디지털 프로세스 디자인을 위한 중요한 기초자료를 제공하고자 하였다.셋째, 본문은 2000년부터 2020년까지 비정형 건축물을 주요 연구 대상으로 하고 있으며 그 형태 표현의 특징에 대한 심층적인 분석을 진행하였다. 관련 분야의 연구를 위한 사례 근거를 제공함과 동시에 비정형 건축물의 특징과 관련된 분포 법칙과 존재 가치를 모색하였다. 또한 본 연구에서는 건축물 기능적 용도의 분포와 결합하여 분석을 전개하였으며, 비정형 형태가 용도별로 건축물에 적용되고, 이러한 형태의 적용 추이를 파악하여 비정형 건축물의 형태에 대한 이해를 강화하고자 한 점에서 본 연구는 기존 연구와 차별화된다.

클라우드 환경에서 MongoDB 기반의 비정형 로그 처리 시스템 설계 및 구현 (Design and Implementation of MongoDB-based Unstructured Log Processing System over Cloud Computing Environment)

  • 김명진;한승호;최운;이한구
    • 인터넷정보학회논문지
    • /
    • 제14권6호
    • /
    • pp.71-84
    • /
    • 2013
  • 컴퓨터 시스템 운용 간에 발생하는 많은 정보들이 기록되는 로그데이터는 컴퓨터 시스템 운용 점검, 프로세스의 최적화, 사용자 최적화 맞춤형 제공 등 다방면으로 활용되고 있다. 본 논문에서는 다양한 종류의 로그데이터들 중에서 은행에서 발생하는 대용량의 로그데이터를 처리하기 위한 클라우드 환경 하에서의 MongoDB 기반 비정형 로그 처리시스템을 제안한다. 은행업무간 발생하는 대부분의 로그데이터는 고객의 업무처리 프로세스 간에 발생하며, 고객 업무 프로세스 처리에 따른 로그데이터를 수집, 저장, 분류, 분석하기 위해서는 별도로 로그데이터를 처리하는 시스템을 구축해야만 한다. 하지만 기존 컴퓨팅환경 하에서는 폭발적으로 증가하는 대용량 비정형 로그데이터 처리를 위한 유연한 스토리지 확장성 기능, 저장된 비정형 로그데이터를 분류, 분석 처리할 수 있는 기능을 구현하기가 매우 어렵다. 이에 따라 본 논문에서는 클라우드 컴퓨팅 기술을 도입하여 기존 컴퓨팅 인프라 환경의 분석 도구 및 관리체계에서 처리하기 어려웠던 비정형 로그데이터를 처리하기 위한 클라우드 환경기반의 로그데이터 처리시스템을 제안하고 구현하였다. 제안한 본 시스템은 IaaS(Infrastructure as a Service) 클라우드 환경을 도입하여 컴퓨팅 자원의 유연한 확장성을 제공하며 실제로, 로그데이터가 장기간 축적되거나 급격하게 증가하는 상황에서 스토리지, 메모리 등의 자원을 신속성 있고 유연하게 확장을 할 수 있는 기능을 포함한다. 또한, 축적된 비정형 로그데이터의 실시간 분석이 요구되어질 때 기존의 분석도구의 처리한계를 극복하기 위해 본 시스템은 하둡 (Hadoop) 기반의 분석모듈을 도입함으로써 대용량의 로그데이터를 빠르고 신뢰성 있게 병렬 분산 처리할 수 있는 기능을 제공한다. 게다가, HDFS(Hadoop Distributed File System)을 도입함으로써 축적된 로그데이터를 블록단위로 복제본을 생성하여 저장관리하기 때문에 본 시스템은 시스템 장애와 같은 상황에서 시스템이 멈추지 않고 작동할 수 있는 자동복구 기능을 제공한다. 마지막으로, 본 시스템은 NoSQL 기반의 MongoDB를 이용하여 분산 데이터베이스를 구축함으로써 효율적으로 비정형로그데이터를 처리하는 기능을 제공한다. MySQL과 같은 관계형 데이터베이스는 복잡한 스키마 구조를 가지고 있기 때문에 비정형 로그데이터를 처리하기에 적합하지 않은 구조를 가지고 있다. 또한, 관계형 데이터베이스의 엄격한 스키마 구조는 장기간 데이터가 축적되거나, 데이터가 급격하게 증가할 때 저장된 데이터를 분할하여 여러 노드에 분산시키는 노드 확장이 어렵다는 문제점을 가지고 있다. NoSQL은 관계형 데이터베이스에서 제공하는 복잡한 연산을 지원하지는 않지만 데이터가 빠르게 증가할 때 노드 분산을 통한 데이터베이스 확장이 매우 용이하며 비정형 데이터를 처리하는데 매우 적합한 구조를 가지고 있는 비관계형 데이터베이스이다. NoSQL의 데이터 모델은 주로 키-값(Key-Value), 컬럼지향(Column-oriented), 문서지향(Document-Oriented)형태로 구분되며, 제안한 시스템은 스키마 구조가 자유로운 문서지향(Document-Oriented) 데이터 모델의 대표 격인 MongoDB를 도입하였다. 본 시스템에 MongoDB를 도입한 이유는 유연한 스키마 구조에 따른 비정형 로그데이터 처리의 용이성뿐만 아니라, 급격한 데이터 증가에 따른 유연한 노드 확장, 스토리지 확장을 자동적으로 수행하는 오토샤딩 (AutoSharding) 기능을 제공하기 때문이다. 본 논문에서 제안하는 시스템은 크게 로그 수집기 모듈, 로그 그래프생성 모듈, MongoDB 모듈, Hadoop기반 분석 모듈, MySQL 모듈로 구성되어져 있다. 로그 수집기 모듈은 각 은행에서 고객의 업무 프로세스 시작부터 종료 시점까지 발생하는 로그데이터가 클라우드 서버로 전송될 때 로그데이터 종류에 따라 데이터를 수집하고 분류하여 MongoDB 모듈과 MySQL 모듈로 분배하는 기능을 수행한다. 로그 그래프생성 모듈은 수집된 로그데이터를 분석시점, 분석종류에 따라 MongoDB 모듈, Hadoop기반 분석 모듈, MySQL 모듈에 의해서 분석되어진 결과를 사용자에게 웹 인터페이스 형태로 제공하는 역할을 한다. 실시간적 로그데이터분석이 필요한 로그데이터는 MySQL 모듈로 저장이 되어 로그 그래프생성 모듈을 통하여 실시간 로그데이터 정보를 제공한다. 실시간 분석이 아닌 단위시간당 누적된 로그데이터의 경우 MongoDB 모듈에 저장이 되고, 다양한 분석사항에 따라 사용자에게 그래프화해서 제공된다. MongoDB 모듈에 누적된 로그데이터는 Hadoop기반 분석모듈을 통해서 병렬 분산 처리 작업이 수행된다. 성능 평가를 위하여 로그데이터 삽입, 쿼리 성능에 대해서 MySQL만을 적용한 로그데이터 처리시스템과 제안한 시스템을 비교 평가하였으며 그 성능의 우수성을 검증하였다. 또한, MongoDB의 청크 크기별 로그데이터 삽입 성능평가를 통해 최적화된 청크 크기를 확인하였다.

Conflict Analysis in Construction Project with Unstructured Data: A Case Study of Jeju Naval Base Project in South Korea

  • Baek, Seungwon;Han, Seung Heon;Lee, Changjun;Jang, Woosik;Ock, Jong Ho
    • 국제학술발표논문집
    • /
    • The 7th International Conference on Construction Engineering and Project Management Summit Forum on Sustainable Construction and Management
    • /
    • pp.291-296
    • /
    • 2017
  • Infrastructure development as national project suffers from social conflict which is one of main risk to be managed. Social conflicts have a negative impact on not only the social integration but also the national economy as they require enormous social costs to be solved. Against this backdrop, this study analyzes social conflict using articles published by online news media based on web-crawling and natural language processing (NLP) techniques. As an illustrative case, the Jeju Naval Base (JNB) project which is one of representative conflict case in South Korea is analyzed. Total of 21,788 articles and representative keywords are identified annually. Additionally, comparative analysis is conducted between the extracted keywords and actual events occurred during the project. The authors explain actual events in the JNB project based on the extracted words by the year. This study contributes to analyze social conflict and to extract meaningful information from unstructured data.

  • PDF

빅데이터 분석기법을 활용한 숙박업체 운영 개선 방안에 대한 연구 (A Study on Improvement of Pension Operation and Management using Big Data Analysis Techniques)

  • 윤선희
    • 문화기술의 융합
    • /
    • 제7권4호
    • /
    • pp.815-821
    • /
    • 2021
  • 빅데이터의 장점은 인터넷상의 대량의 데이터를 수집하여 가치 있는 데이터를 정제하여 사용하는 것이다. 즉, 비정형 데이터를 사용자가 필요한 관점에서 분석하여 활용할 수 있도록 가공하는 것이다. 본 논문은 실생활에 밀접하게 적용되어 마케팅에 활용할 수 있는 비정형 데이터를 기반으로 하며 실험 대상은 서울에서 한 시간 거리의 수도권에 있는 숙박업체를 모델로 하여 빅데이터를 사용자가 필요한 관점에서 분석하여 매출 증대, 비용 감소 및 수익률 증가 등의 효과를 나타낸 실험으로 소셜네트워크 등의 빅데이터를 분석하는 과정에서 입력되는 데이터가 숙박 정보로써 활용할 수 있는 데이터인지를 판별하여 필터링하는 시스템을 제안하여 숙박률의 향상 및 공실률을 감소시킬 수 있는 마케팅 전략을 구축하고자 한다.

이용자를 위한 공공도서관 빅데이터 플랫폼 구축 방안 연구 - 문화프로그램 및 커뮤니티 서비스 정보를 중심으로 - (Big Data Platform for Public Library Users: Focusing on the Cultural Programs and Community Service)

  • 윤소영
    • 한국비블리아학회지
    • /
    • 제33권3호
    • /
    • pp.347-370
    • /
    • 2022
  • 공공도서관 웹사이트를 통해 제공되는 도서관 프로그램 정보는 대부분 비정형 데이터로 서지정보와 같이 체계적으로 생산하고 활용할 수 없어 기존의 도서관 빅데이터 연구나 사례에서 충분히 활용하지 못하고 있으며 웹사이트 개편이나 담당자 변경 시 사라질 위험도 있다. 이 연구에서는 비정형으로 생산되는 공공도서관 문화프로그램 및 커뮤니티 서비스 데이터를 수집, 분석하여 서지데이터와 연계하여 활용할 수 있는 데이터 스키마를 개발하고, 공공도서관 문화프로그램과 커뮤니티 서비스 데이터의 공유 및 활용, 그리고 문화프로그램 기획자인 사서간의 정보 채널로서 역할을 할 수 있는 도서관 빅데이터 플랫폼 구축안을 제시하였다. 이를 통해 서지데이터에 문화프로그램과 커뮤니티 서비스 정보를 연계함으로써 장서 기반 서비스를 확충할 수 있고 도서관 웹사이트에 게재되는 도서관 프로그램 데이터를 도서관 빅데이터 플랫폼으로 통합 관리함으로써 업무의 연속성을 확보하고, 개별 도서관의 특화된 서비스 이력을 체계적으로 관리·보존할 수 있다.

텍스트 마이닝 기반의 온라인 상품 리뷰 추출을 통한 목적별 맞춤화 정보 도출 방법론 연구 (A Study on the Method for Extracting the Purpose-Specific Customized Information from Online Product Reviews based on Text Mining)

  • 김주영;김동수
    • 한국전자거래학회지
    • /
    • 제21권2호
    • /
    • pp.151-161
    • /
    • 2016
  • 개방, 공유, 참여를 특징으로 하는 웹 2.0 시대로 들어서면서 인터넷 사용자들의 데이터 생산 및 공유가 쉬워졌다. 이에 따른 데이터의 기하급수적인 증가와 함께 디지털 정보의 대부분인 비정형적 데이터(Unstructured Data)의 양도 증가하고 있다. 인터넷에서 정해진 형식 없이 자연어 형태로 만들어진 비정형 데이터 중, 특정 상품들에 대해 개인이 평가한 리뷰들은 해당 기업이나 해당 상품에 관심이 있는 잠재적 고객에게 필요한 데이터이다. 많은 양의 리뷰 데이터에서 상품에 대한 유용한 정보를 얻기 위해서는 데이터 수집, 저장, 전처리, 분석, 및 결론 도출의 과정이 필요하다. 따라서 본 연구는 R을 이용한 텍스트 마이닝(Text Mining) 기법을 사용하여 텍스트 형식의 비정형 데이터에서 자연어 처리 기술 및 문서 처리 기술을 적용하여 정형화된 데이터 값을 도출하는 방법에 대해 소개한다. 또한, 도출된 정형화된 리뷰 정보를 데이터 마이닝 기법에 적용하여 목적에 맞게 맞춤화된 리뷰 정보를 도출시키는 방안을 제시하고자 한다.

비정형 텍스트 데이터 정제를 위한 불용어 코퍼스의 활용에 관한 연구 (A Study on the Use of Stopword Corpus for Cleansing Unstructured Text Data)

  • 이원조
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.891-897
    • /
    • 2022
  • 빅데이터 분석에서 원시 텍스트 데이터는 대부분 다양한 비정형 데이터 형태로 존재하기 때문에 휴리스틱 전처리 정제와 컴퓨터를 이용한 후처리 정제과정을 거쳐야 분석이 가능한 정형 데이터 형태가 된다. 따라서 본 연구에서는 텍스트 데이터 분석 기법의 하나인 R 프로그램의 워드클라우드를 적용하기 위해서 수집된 원시 데이터 전처리를 통해 불필요한 요소들을 정제하고 후처리 과정에서 불용어를 제거한다. 그리고 단어들의 출현 빈도수를 계산하고 출현빈도가 높은 단어들을 핵심 이슈들로 표현해 주는 워드클라우드 분석의 사례 연구를 하였다. 이번 연구는 R의워드클라우드 기법으로 기존의 불용어 처리 방법인 "내포된 불용어 소스코드" 방법의 문제점을 개선하기 위하여 "일반적인 불용어 코퍼스"와 "사용자 정의 불용어 코퍼스"의 활용 방안을 제안하고 사례 분석을 통해서 제안된 "비정형 데이터 정제과정 모델"의 장단점을 비교 검증하여 제시하고 "제안된 외부 코퍼스 정제기법"을 이용한 워드클라우드 시각화 분석의 실무적용에 대한 효용성을 제시한다.

Product Recommendation System based on User Purchase Priority

  • Bang, Jinsuk;Hwang, Doyeun;Jung, Hoekyung
    • Journal of information and communication convergence engineering
    • /
    • 제18권1호
    • /
    • pp.55-60
    • /
    • 2020
  • As personalized customer services create a society that emphasizes the personality of an individual, the number of product reviews and quantity of user data generated by users on the internet in mobile shopping apps and sites are increasing. Such product review data are classified as unstructured data. Unstructured data have the potential to be transformed into information that companies and users can employ, using appropriate processing and analyses. However, existing systems do not reflect the detailed information they collect, such as user characteristics, purchase preference, or purchase priority while analyzing review data. Thus, it is challenging to provide customized recommendations for various users. Therefore, in this study, we have developed a product recommendation system that takes into account the user's priority, which they select, when searching for and purchasing a product. The recommendation system then displays the results to the user by processing and analyzing their preferences. Since the user's preference is considered, the user can obtain results that are more relevant.