• 제목/요약/키워드: 비정형데이터

검색결과 585건 처리시간 0.036초

빅 데이터 기반 건설사업정보시스템 기능 개선 방안 연구 (Application Method of Big-Data for Improvement for Construction Project Management System)

  • 김진욱;김영진;옥현;양성훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2015년도 제52차 하계학술대회논문집 23권2호
    • /
    • pp.301-303
    • /
    • 2015
  • 국내 건설행정 투명화 및 경쟁력 향상 목적으로 개발된 건설사업정보시스템에 정부와 운영주체는 다양한 기능개선 방안과 관련 연구를 수행하며 시스템 성능을 개선시켜왔다. 그러나 기 추진된 성능향상 방안이 공공업무 처리에 중점 되어 대국민 사용자를 위한 콘텐츠 및 기능 등의 서비스가 미흡한 상황이다. 이에 본 논문에서는 건설사업정보 건설인허가시스템의 도로점용장소별 허가현황 기능을 중심으로 빅 데이터를 이용한 허가현황 정보 제공 방안을 제안하였다. 제안한 기능개선 방안은 기 구축된 비정형 데이터를 빅 데이터 기반으로 재분석하여 구글 맵에 가시화함으로써 공공업무 데이터 처리 뿐만 아니라 대국민 서비스를 위한 콘텐츠 제공이 가능하도록 하였다. 뿐만 아니라 그동안 축적된 15TB이상의 건설관련 데이터의 재활용 가능성을 시사함으로써 시스템 활용성 증대 및 개편 방향에 도움이 될 것으로 판단된다.

  • PDF

빅데이터 처리 기술을 활용한 비정형데이터 분석 모델링 구축 (Building Modeling for Unstructured Data Analysis Using Big Data Processing Technology)

  • 김정훈;김성진;권기열;주다혜;오재용;이준동
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.253-255
    • /
    • 2020
  • 기업 및 기관 데이터는 워드프로세서, 프레젠테이션, 이메일, open api, 엑셀, XML, JSON 등과 같은 텍스트 기반의 비정형 데이터로 구성되어 있습니다. 텍스트 마이닝(Textmining)을 통해서 자연어 처리 및 기계학습 등의 기술을 이용하여 정보의 추출부터 요약·분류·군집·연관도 분석 등의 과정을 수행울 진행한다. 다양한 시각화 데이터를 보여줄 수 있는 다양한 모델 구축을 진행한 후 민원 신청 내용을 분석 및 변환 작업을 진행한다. 본 논문은 AI 기술과 빅데이터를 활용하여 민원을 분석을 하여 알맞은 부서에 민원을 자동으로 할당해 주는 기술을 다룬다.

  • PDF

정형 비정형 빅데이터의 융합분석을 위한 소비 트랜드 플랫폼 개발 (Consumer Trend Platform Development for Combination Analysis of Structured and Unstructured Big Data)

  • 김성현;장석호;이상원
    • 디지털융복합연구
    • /
    • 제15권6호
    • /
    • pp.133-143
    • /
    • 2017
  • 데이터는 금융업에서 가장 중요한 자산으로 평균 71%의 금융기관이 데이터 분석으로 경쟁우위를 창출하고 있다. 특히, 금융업 중 카드 업종에서는 전체 고객의 소비행위 패턴 및 선호 트랜드 분석에 의한 가맹점 정보, 경기 변동 상황, 상권정보 제공 서비스 개발에 빅데이터가 폭 넓게 활용되고 있지만 데이터의 융복합을 통한 새로운 가치 창출은 미흡한 편이다. 본 연구는 소셜 데이터와 BC 카드 매출데이터의 융합 분석한 신용카드 회사의 '소비 트랜드 분석 및 예측' 사례를 다룬다. BC카드는 소셜 데이터를 활용한 트랜드 프로파일링 작업과 카드 및 소셜 데이터를 연계하는 알고리즘 개발 및 분석 내용 시각화 시스템을 개발하였다. 성과 검증을 위해 '식스포켓' 관련 트랜드를 분석하고 마케팅을 시행해 본 결과 40~100%이상의 마케팅 승수 증대 효과를 거두었다. 본 연구는 그동안 개별적으로 이루어져 오던 정형, 비정형데이터 분석을 융합하여 분석하는 방법론과 사례를 창출한 의의가 있으며 이는 앞으로 카드 업종 뿐만 아니라 타 업종에도 변화하는 트랜드에 유용하게 대응할 수 있는 시사점을 제공할 것이다.

Data Dictionary 기반의 R Programming을 통한 비정형 Text Mining Algorithm 연구 (A study on unstructured text mining algorithm through R programming based on data dictionary)

  • 이종화;이현규
    • 한국산업정보학회논문지
    • /
    • 제20권2호
    • /
    • pp.113-124
    • /
    • 2015
  • 미리 선언된 구조를 이용하여 수집 저장된 정형적 데이터와는 달리 웹 2.0의 시대에서 일반 사용자들이 평상시에 사용하는 자연어 형태로 작성된 비정형 데이터 분석은 과거보다 훨씬 더 넓은 응용범위를 가지고 있다. 데이터 양이 폭발적으로 증가하고 있다는 특성뿐 만 아니라 인간의 감성이 그대로 표현된 특성을 가진 텍스트에서 의미 있는 정보를 추출하는 빅데이터 분석 기법을 텍스트마이닝(Text Mining)이라 하며 본 연구는 이를 주제로 하고 있다. 본 연구를 위해 오픈 소스인 통계분석용 소프트웨어 R 프로그램을 이용하였으며, 비정형 텍스트 문서를 웹 환경에서 수집, 저장, 전처리, 분석 작업과 시각화(Frequency Analysis, Cluster Analysis, Word Cloud, Social Network Analysis)작업 등의 과정에 관한 알고리즘 구현을 연구하였다. 특히, 연구자의 연구 영역 분석에 초점을 더욱 높이기 위해 Data Dictionary를 참조한 키워드 추출 기법을 사용하였다. 실제 사례에 적용한 R은 다양한 OS 구동, 일반적 언어와의 인터페이스 지원 등 통계 분석용 소프트웨어로써 매우 유용하다는 점을 발견할 수 있었다.

텍스트 데이터 시각화를 위한 MVC 프레임워크 (A MVC Framework for Visualizing Text Data)

  • 최광선;정교성;김수동
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.39-58
    • /
    • 2014
  • 빅데이터의 중요성에 대한 인식이 확산되고, 관련한 기술이 발전됨에 따라, 최근에는 빅데이터의 처리와 분석의 결과를 어떻게 시각화할 것인지가 매우 관심 받는 주제로 부각되고 있다. 이는 분석된 결과를 보다 명확하고 효과적으로 전달하는 데에 있어서 데이터의 시각화가 매우 효과적인 방법이기 때문이다. 시각화는 분석 시스템과 사용자가 소통하기 위한 하나의 그래픽 사용자 인터페이스(GUI)를 담당하는 역할을 한다. 통상적으로 이러한 GUI 부분은 데이터의 처리나 분석의 결과와 독립될 수록 시스템의 개발과 유지보수가 용이하며, MVC(Model-View-Controller)와 같은 디자인 패턴의 적용을 통해 GUI와 데이터 처리 및 관리 부분 간의 결합도를 최소화하는 것이 중요하다. 한편 빅데이터는 크게 정형 데이터와 비정형 데이터로 구분할 수 있는데 정형 데이터는 시각화가 상대적으로 용이한 반면, 비정형 데이터는 시각화를 구현하기가 복잡하고 다양하다. 그럼에도 불구하고 비정형 데이터에 대한 분석과 활용이 점점 더 확산됨에 따라, 기존의 전통적인 정형 데이터를 위한 시각화 도구들의 한계를 벗어나기 위해 각각의 시스템들의 목적에 따라 고유의 방식으로 시각화 시스템이 구축되는 현실에 직면해 있다. 더욱이나 현재 비정형 데이터 분석의 대상 중 대부분을 차지하고 있는 텍스트 데이터의 경우 언어 분석, 텍스트 마이닝, 소셜 네트워크 분석 등 적용 기술이 매우 다양하여 하나의 시스템에 적용된 시각화 기술을 다른 시스템에 적용하는 것이 용이하지 않다. 이는 현재의 텍스트 분석 결과에 대한 정보 모델이 서로 다른 시스템에 적용될 수 있도록 설계되지 못하는 경우가 많기 때문이다. 본 연구에서는 이러한 문제를 해결하기 위하여 다양한 텍스트 데이터 분석 사례와 시각화 사례들의 공통적 구성 요소들을 식별하여 표준화된 정보 모델인 텍스트 데이터 시각화 모델을 제시하고, 이를 통해 시각화의 GUI 부분과 연결할 수 있는 시스템 모델로서의 시각화 프레임워크인 TexVizu를 제안하고자 한다.

분산 오브젝트 저장 플랫폼의 스토리지 접근 워크로드 특성 분석 (A Workload Analysis of Distributed Object Store to Backend Storage)

  • 한유일;이은지
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.6-7
    • /
    • 2017
  • 디지털 데이터의 폭발적 증가와 형태의 다양화는 최근 비정형 대규모 저장 플랫폼의 급격한 확산을 이끌고 있다. 이러한 비정형 데이터 저장 시스템은 전통적인 파일시스템과 데이터를 저장 및 처리하는 방식이 상이하여 높은 성능을 위해서는 기존 하위 시스템의 최적화가 필요하다. 이에 본 논문에서는 최근 급부상하고 있는 분산 오브젝트 스토어인 Ceph을 중심으로 오브젝트 스토어의 스토리지 접근 패턴을 분석하는 연구를 수행한다. 본 연구는 상위 계층의 접근패턴을 구체적으로 이해함으로써 차세대 데이터 플랫폼을 효율적으로 지원할 수 있는 스토리지 시스템을 개발하는 데에 기여한다고 하겠다.

인터넷 비즈니스 기반의 고객관계관리(CRM)을 위한 웹 로그 분석에 관한 연구 (A Study on Web-log Analysis for CRM based on Internet Business)

  • 김재형;노효원;김남호;정정화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 제13회 춘계학술대회 및 임시총회 학술발표 논문집
    • /
    • pp.10-15
    • /
    • 2000
  • 개별화 웹 마케팅은 본질적으로 고객지향의 패러다임이다. 즉, 개별 고객의 특수한 니즈를 개별적으로 파악해서 각각의 고객에게 차별화된 서비스를 제공하는 것이 그 핵심이다. 웹 서버의 로그파일에 데이터마이닝의 연관규칙 기술을 이용하게 되면 고객행동 패턴의 파악 및 예측을 위한 기법으로 활용할 수 있다. 본 연구에서는 웹 사용자의 교차 판매를 위한 원투원 마케팅에 필요한 접근패턴을 분석하고자 하며, 이는 웹서버 로그파일 분석을 통하여 이루어진다. 분석하고자 하는 웹서버 로그파일은 기존의 데이터웨어하우스의 원천 데이터들과는 다르게 비정형적인 데이터 구조를 가지고있다. 이들 비정형 데이터 처리와 교차판매 지원을 위한 데이터마이닝 모델링, 이를 통한 원투원 마케팅 모델 제시, 그리고 이의 활용이 고객관계관리(CRM)에 미치는 효과를 제시한다.

  • PDF

빅 데이터(Big Data)를 활용한 사업 비즈니스 운영에 관한 연구

  • 강영모;강찬우;한경석;김종배
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 춘계학술대회
    • /
    • pp.747-753
    • /
    • 2015
  • 요즘 우리의 생활 속에서 차세대 신기술로 주목할 만한 것이 바로 "빅 데이터" 이다. 하지만 빅 데이터는 아직 구체적인 개념이 모호한 상태이다. 빅 데이터란, 기존 데이터베이스 관리도구로서 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다. 이러한 분석된 데이터들은 여러 방면으로 활용이 가능하다. 이를 통해 기업에서는 비즈니스적인 활용이 가능하며 예측과 분석을 통해 사업전망을 내다볼 수도 있다. 따라서 본 논문에서는 비즈니스 모델 혁신을 위해 빅 데이터 기반 예측분석이 왜 필요한 지에 대해 논의하고 기업들이 혁신을 촉진하기 위해 사업전략 목표에 예측모델들을 활용하는 운영 모델을 제시하고자 한다.

  • PDF

키워드 기반 주제중심 분석을 이용한 비정형데이터 처리 (Unstructured Data Processing Using Keyword-Based Topic-Oriented Analysis)

  • 고명숙
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권11호
    • /
    • pp.521-526
    • /
    • 2017
  • 데이터는 데이터 형식이 다양하고 방대할 뿐만 아니라 그 생성 속도가 매우 빨라 기존의 데이터 처리 방식이 아닌 새로운 관리 및 분석 방법이 요구된다. 소셜 네트워크 상의 온라인 문서에서 인간의 언어로 쓰여진 비정형 텍스트에서 Text Mining기법을 사용하여 유용한 정보를 추출할 수 있다. 소셜미디어에 남긴 정치, 경제, 문화에 대한 메시지에 대한 경향을 파악하는 것이 어떤 주제에 관심을 가지고 있는지를 파악할 수 있는 요소가 된다. 본 연구에서는 주제 중심 분석 기법을 이용하여 주어진 키워드에 관한 온라인 뉴스를 대상으로 텍스트 마이닝을 수행하였다. LDA(Latent Dirichiet Allocation)를 이용하여 웹문서로부터 정보를 추출하고 이로부터 사람들이 실제로 주어진 키워드에 대하여 어떤 주제에 관심이 있고 관련된 핵심 가치 중 어떤 주제를 중심으로 전파되고 있는지를 분석하였다.

데이터베이스상의 한글 자모단위 비교를 통한 데이터 정정기법 (A Revising Method using Phoneme Comparison for Databases with Korean Character Set)

  • 김대환;백두권
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.532-534
    • /
    • 2003
  • 코드로써 관리되어있지 않은 데이터베이스 내의 다양한 속성들이 시간이 흐름에 따라 정보로써 가치를 갖게 되면서. 비코드성 한글 데이터의 정형화에 대한 요구가 증가하고 있다. 정형화에 있어 한글의 특수성 중에 하나는 한글자료의 경우 KSC5601, CP949등을 사용하여 음절단위의 문자셋을 사용하여 음절단위로 저장 관리한다. 그런데 입력 시정에서는 자판기등을 이용하여 음소단위로 데이터를 입력하면서 발생하는 오류 및 비정형 데이터의 유입의 문제 등을 내포하고 있다. 이러한 문제를 해결하기 위하여 데이터의 저장단위인 음절이 아닌 음소 단위의 비교를 통하여 데이터를 정정하는 기법을 제안하고자 한다.

  • PDF