• Title/Summary/Keyword: 비정형데이터

Search Result 588, Processing Time 0.029 seconds

Application Method of Big-Data for Improvement for Construction Project Management System (빅 데이터 기반 건설사업정보시스템 기능 개선 방안 연구)

  • Kim, Jin-Uk;Kim, Young-Jin;Ok, Hyun;Yang, Sung-Hoon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2015.07a
    • /
    • pp.301-303
    • /
    • 2015
  • 국내 건설행정 투명화 및 경쟁력 향상 목적으로 개발된 건설사업정보시스템에 정부와 운영주체는 다양한 기능개선 방안과 관련 연구를 수행하며 시스템 성능을 개선시켜왔다. 그러나 기 추진된 성능향상 방안이 공공업무 처리에 중점 되어 대국민 사용자를 위한 콘텐츠 및 기능 등의 서비스가 미흡한 상황이다. 이에 본 논문에서는 건설사업정보 건설인허가시스템의 도로점용장소별 허가현황 기능을 중심으로 빅 데이터를 이용한 허가현황 정보 제공 방안을 제안하였다. 제안한 기능개선 방안은 기 구축된 비정형 데이터를 빅 데이터 기반으로 재분석하여 구글 맵에 가시화함으로써 공공업무 데이터 처리 뿐만 아니라 대국민 서비스를 위한 콘텐츠 제공이 가능하도록 하였다. 뿐만 아니라 그동안 축적된 15TB이상의 건설관련 데이터의 재활용 가능성을 시사함으로써 시스템 활용성 증대 및 개편 방향에 도움이 될 것으로 판단된다.

  • PDF

Building Modeling for Unstructured Data Analysis Using Big Data Processing Technology (빅데이터 처리 기술을 활용한 비정형데이터 분석 모델링 구축)

  • Kim, Jung-Hoon;Kim, Sung-Jin;Kwon, Gi-Yeol;Ju, Da-Hye;Oh, Jae-Yong;Lee, Jun-Dong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.07a
    • /
    • pp.253-255
    • /
    • 2020
  • 기업 및 기관 데이터는 워드프로세서, 프레젠테이션, 이메일, open api, 엑셀, XML, JSON 등과 같은 텍스트 기반의 비정형 데이터로 구성되어 있습니다. 텍스트 마이닝(Textmining)을 통해서 자연어 처리 및 기계학습 등의 기술을 이용하여 정보의 추출부터 요약·분류·군집·연관도 분석 등의 과정을 수행울 진행한다. 다양한 시각화 데이터를 보여줄 수 있는 다양한 모델 구축을 진행한 후 민원 신청 내용을 분석 및 변환 작업을 진행한다. 본 논문은 AI 기술과 빅데이터를 활용하여 민원을 분석을 하여 알맞은 부서에 민원을 자동으로 할당해 주는 기술을 다룬다.

  • PDF

Consumer Trend Platform Development for Combination Analysis of Structured and Unstructured Big Data (정형 비정형 빅데이터의 융합분석을 위한 소비 트랜드 플랫폼 개발)

  • Kim, Sunghyun;Chang, Sokho;Lee, Sangwon
    • Journal of Digital Convergence
    • /
    • v.15 no.6
    • /
    • pp.133-143
    • /
    • 2017
  • Data is the most important asset in the financial sector. On average, 71 percent of financial institutions generate competitive advantage over data analysis. In particular, in the card industry, the card transaction data is widely used in the development of merchant information, economic fluctuations, and information services by analyzing patterns of consumer behavior and preference trends of all customers. However, creation of new value through fusion of data is insufficient. This study introduces the analysis and forecasting of consumption trends of credit card companies which convergently analyzed the social data and the sales data of the company's own. BC Card developed an algorithm for linking card and social data with trend profiling, and developed a visualization system for analysis contents. In order to verify the performance, BC card analyzed the trends related to 'Six Pocket' and conducted th pilot marketing campaign. As a result, they increased marketing multiplier by 40~100%. This study has implications for creating a methodology and case for analyzing the convergence of structured and unstructured data analysis that have been done separately in the past. This will provide useful implications for future trends not only in card industry but also in other industries.

A study on unstructured text mining algorithm through R programming based on data dictionary (Data Dictionary 기반의 R Programming을 통한 비정형 Text Mining Algorithm 연구)

  • Lee, Jong Hwa;Lee, Hyun-Kyu
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.20 no.2
    • /
    • pp.113-124
    • /
    • 2015
  • Unlike structured data which are gathered and saved in a predefined structure, unstructured text data which are mostly written in natural language have larger applications recently due to the emergence of web 2.0. Text mining is one of the most important big data analysis techniques that extracts meaningful information in the text because it has not only increased in the amount of text data but also human being's emotion is expressed directly. In this study, we used R program, an open source software for statistical analysis, and studied algorithm implementation to conduct analyses (such as Frequency Analysis, Cluster Analysis, Word Cloud, Social Network Analysis). Especially, to focus on our research scope, we used keyword extract method based on a Data Dictionary. By applying in real cases, we could find that R is very useful as a statistical analysis software working on variety of OS and with other languages interface.

A MVC Framework for Visualizing Text Data (텍스트 데이터 시각화를 위한 MVC 프레임워크)

  • Choi, Kwang Sun;Jeong, Kyo Sung;Kim, Soo Dong
    • Journal of Intelligence and Information Systems
    • /
    • v.20 no.2
    • /
    • pp.39-58
    • /
    • 2014
  • As the importance of big data and related technologies continues to grow in the industry, it has become highlighted to visualize results of processing and analyzing big data. Visualization of data delivers people effectiveness and clarity for understanding the result of analyzing. By the way, visualization has a role as the GUI (Graphical User Interface) that supports communications between people and analysis systems. Usually to make development and maintenance easier, these GUI parts should be loosely coupled from the parts of processing and analyzing data. And also to implement a loosely coupled architecture, it is necessary to adopt design patterns such as MVC (Model-View-Controller) which is designed for minimizing coupling between UI part and data processing part. On the other hand, big data can be classified as structured data and unstructured data. The visualization of structured data is relatively easy to unstructured data. For all that, as it has been spread out that the people utilize and analyze unstructured data, they usually develop the visualization system only for each project to overcome the limitation traditional visualization system for structured data. Furthermore, for text data which covers a huge part of unstructured data, visualization of data is more difficult. It results from the complexity of technology for analyzing text data as like linguistic analysis, text mining, social network analysis, and so on. And also those technologies are not standardized. This situation makes it more difficult to reuse the visualization system of a project to other projects. We assume that the reason is lack of commonality design of visualization system considering to expanse it to other system. In our research, we suggest a common information model for visualizing text data and propose a comprehensive and reusable framework, TexVizu, for visualizing text data. At first, we survey representative researches in text visualization era. And also we identify common elements for text visualization and common patterns among various cases of its. And then we review and analyze elements and patterns with three different viewpoints as structural viewpoint, interactive viewpoint, and semantic viewpoint. And then we design an integrated model of text data which represent elements for visualization. The structural viewpoint is for identifying structural element from various text documents as like title, author, body, and so on. The interactive viewpoint is for identifying the types of relations and interactions between text documents as like post, comment, reply and so on. The semantic viewpoint is for identifying semantic elements which extracted from analyzing text data linguistically and are represented as tags for classifying types of entity as like people, place or location, time, event and so on. After then we extract and choose common requirements for visualizing text data. The requirements are categorized as four types which are structure information, content information, relation information, trend information. Each type of requirements comprised with required visualization techniques, data and goal (what to know). These requirements are common and key requirement for design a framework which keep that a visualization system are loosely coupled from data processing or analyzing system. Finally we designed a common text visualization framework, TexVizu which is reusable and expansible for various visualization projects by collaborating with various Text Data Loader and Analytical Text Data Visualizer via common interfaces as like ITextDataLoader and IATDProvider. And also TexVisu is comprised with Analytical Text Data Model, Analytical Text Data Storage and Analytical Text Data Controller. In this framework, external components are the specifications of required interfaces for collaborating with this framework. As an experiment, we also adopt this framework into two text visualization systems as like a social opinion mining system and an online news analysis system.

A Workload Analysis of Distributed Object Store to Backend Storage (분산 오브젝트 저장 플랫폼의 스토리지 접근 워크로드 특성 분석)

  • Han, Yuil;Lee, Eunji
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.11a
    • /
    • pp.6-7
    • /
    • 2017
  • 디지털 데이터의 폭발적 증가와 형태의 다양화는 최근 비정형 대규모 저장 플랫폼의 급격한 확산을 이끌고 있다. 이러한 비정형 데이터 저장 시스템은 전통적인 파일시스템과 데이터를 저장 및 처리하는 방식이 상이하여 높은 성능을 위해서는 기존 하위 시스템의 최적화가 필요하다. 이에 본 논문에서는 최근 급부상하고 있는 분산 오브젝트 스토어인 Ceph을 중심으로 오브젝트 스토어의 스토리지 접근 패턴을 분석하는 연구를 수행한다. 본 연구는 상위 계층의 접근패턴을 구체적으로 이해함으로써 차세대 데이터 플랫폼을 효율적으로 지원할 수 있는 스토리지 시스템을 개발하는 데에 기여한다고 하겠다.

A Study on Web-log Analysis for CRM based on Internet Business (인터넷 비즈니스 기반의 고객관계관리(CRM)을 위한 웹 로그 분석에 관한 연구)

  • Kim, Jae-Hyung;Noh, Hyo-Won;Kim, Nam-Ho;Chong, Jong-Wha
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.04a
    • /
    • pp.10-15
    • /
    • 2000
  • 개별화 웹 마케팅은 본질적으로 고객지향의 패러다임이다. 즉, 개별 고객의 특수한 니즈를 개별적으로 파악해서 각각의 고객에게 차별화된 서비스를 제공하는 것이 그 핵심이다. 웹 서버의 로그파일에 데이터마이닝의 연관규칙 기술을 이용하게 되면 고객행동 패턴의 파악 및 예측을 위한 기법으로 활용할 수 있다. 본 연구에서는 웹 사용자의 교차 판매를 위한 원투원 마케팅에 필요한 접근패턴을 분석하고자 하며, 이는 웹서버 로그파일 분석을 통하여 이루어진다. 분석하고자 하는 웹서버 로그파일은 기존의 데이터웨어하우스의 원천 데이터들과는 다르게 비정형적인 데이터 구조를 가지고있다. 이들 비정형 데이터 처리와 교차판매 지원을 위한 데이터마이닝 모델링, 이를 통한 원투원 마케팅 모델 제시, 그리고 이의 활용이 고객관계관리(CRM)에 미치는 효과를 제시한다.

  • PDF

빅 데이터(Big Data)를 활용한 사업 비즈니스 운영에 관한 연구

  • Gang, Yeong-Mo;Gang, Chan-U;Han, Gyeong-Seok;Kim, Jong-Bae
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2015.05a
    • /
    • pp.747-753
    • /
    • 2015
  • 요즘 우리의 생활 속에서 차세대 신기술로 주목할 만한 것이 바로 "빅 데이터" 이다. 하지만 빅 데이터는 아직 구체적인 개념이 모호한 상태이다. 빅 데이터란, 기존 데이터베이스 관리도구로서 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다. 이러한 분석된 데이터들은 여러 방면으로 활용이 가능하다. 이를 통해 기업에서는 비즈니스적인 활용이 가능하며 예측과 분석을 통해 사업전망을 내다볼 수도 있다. 따라서 본 논문에서는 비즈니스 모델 혁신을 위해 빅 데이터 기반 예측분석이 왜 필요한 지에 대해 논의하고 기업들이 혁신을 촉진하기 위해 사업전략 목표에 예측모델들을 활용하는 운영 모델을 제시하고자 한다.

  • PDF

Unstructured Data Processing Using Keyword-Based Topic-Oriented Analysis (키워드 기반 주제중심 분석을 이용한 비정형데이터 처리)

  • Ko, Myung-Sook
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.6 no.11
    • /
    • pp.521-526
    • /
    • 2017
  • Data format of Big data is diverse and vast, and its generation speed is very fast, requiring new management and analysis methods, not traditional data processing methods. Textual mining techniques can be used to extract useful information from unstructured text written in human language in online documents on social networks. Identifying trends in the message of politics, economy, and culture left behind in social media is a factor in understanding what topics they are interested in. In this study, text mining was performed on online news related to a given keyword using topic - oriented analysis technique. We use Latent Dirichiet Allocation (LDA) to extract information from web documents and analyze which subjects are interested in a given keyword, and which topics are related to which core values are related.

A Revising Method using Phoneme Comparison for Databases with Korean Character Set (데이터베이스상의 한글 자모단위 비교를 통한 데이터 정정기법)

  • 김대환;백두권
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.532-534
    • /
    • 2003
  • 코드로써 관리되어있지 않은 데이터베이스 내의 다양한 속성들이 시간이 흐름에 따라 정보로써 가치를 갖게 되면서. 비코드성 한글 데이터의 정형화에 대한 요구가 증가하고 있다. 정형화에 있어 한글의 특수성 중에 하나는 한글자료의 경우 KSC5601, CP949등을 사용하여 음절단위의 문자셋을 사용하여 음절단위로 저장 관리한다. 그런데 입력 시정에서는 자판기등을 이용하여 음소단위로 데이터를 입력하면서 발생하는 오류 및 비정형 데이터의 유입의 문제 등을 내포하고 있다. 이러한 문제를 해결하기 위하여 데이터의 저장단위인 음절이 아닌 음소 단위의 비교를 통하여 데이터를 정정하는 기법을 제안하고자 한다.

  • PDF