• Title/Summary/Keyword: 데이터 정제

Search Result 469, Processing Time 0.029 seconds

Analysis of Korean Language Parsing System and Speed Improvement of Machine Learning using Feature Module (한국어 의존 관계 분석과 자질 집합 분할을 이용한 기계학습의 성능 개선)

  • Kim, Seong-Jin;Ock, Cheol-Young
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.51 no.8
    • /
    • pp.66-74
    • /
    • 2014
  • Recently a variety of study of Korean parsing system is carried out by many software engineers and linguists. The parsing system mainly uses the method of machine learning or symbol processing paradigm. But the parsing system using machine learning has long training time because the data of Korean sentence is very big. And the system shows the limited recognition rate because the data has self error. In this thesis we design system using feature module which can reduce training time and analyze the recognized rate each the number of training sentences and repetition times. The designed system uses the separated modules and sorted table for binary search. We use the refined 36,090 sentences which is extracted by Sejong Corpus. The training time is decreased about three hours and the comparison of recognized rate is the highest as 84.54% when 10,000 sentences is trained 50 times. When all training sentence(32,481) is trained 10 times, the recognition rate is 82.99%. As a result it is more efficient that the system is used the refined data and is repeated the training until it became the steady state.

Method of preventing Pressure Ulcer and EMR data preprocess

  • Kim, Dowon;Kim, Minkyu;Kim, Yoon;Han, Seon-Sook;Heo, Jungwon;Choi, Hyun-Soo
    • Journal of the Korea Society of Computer and Information
    • /
    • v.27 no.12
    • /
    • pp.69-76
    • /
    • 2022
  • This paper proposes a method of refining and processing time-series data using Medical Information Mart for Intensive Care (MIMIC-IV) v2.0 data. In addition, the significance of the processing method was validated through a machine learning-based pressure ulcer early warning system using a dataset processed based on the proposed method. The implemented system alerts medical staff in advance 12 and 24 hours before a lesion occurs. In conjunction with the Electronic Medical Record (EMR) system, it informs the medical staff of the risk of a patient's pressure ulcer development in real-time to support a clinical decision, and further, it enables the efficient allocation of medical resources. Among several machine learning models, the GRU model showed the best performance with AUROC of 0.831 for 12 hours and 0.822 for 24 hours.

A Study on Audio-Visual Expression of Biometric Data Based on the Polysomnography Test (수면다원검사에 기반한 생체데이터 시청각화 연구)

  • Kim, Hee Soo;Oh, Na Yea;Park, Jin Wan
    • Korea Science and Art Forum
    • /
    • v.35
    • /
    • pp.145-155
    • /
    • 2018
  • The goal of the study is to provide a new type of audio-visualization method through case analysis and work production based on Polysomnography(PSG) data that is difficult to interpret or not familiar to the public. Most art works are produced with conscious actions during waking hours. On the other hand, during sleep, we get into the world of unconsciousness. Therefore, through the experiment, want to discover if could get something new when we were in the subconscious state, and if so, wondered what kind of art could be made through it. The study method is to consider definition of sleep and sleep data first. The sleep data were classified into normal group and Narcolepsy, Insomnia, and sleep apnea by focusing on sleep disorder graphs that is measured by sleep polygraph. After that, I refined and converted the acquired biometric data into a text-based script. The degree of sleep in the text form of the script was rendered as a 3D animated image using Maya. In addition, the heart rate data script was transformed into a midi format, and the audition was implemented in the garage band. After Effects combines the image and sound to create four single channel images of 3 minutes and 20 seconds each. As a result of the research, I made an opportunity for anyone easy to understand the results, having difference with the normal data, through art instead of using difficult medical term. It also showed the possibility of artistic expression even when conscious actions did not occur. Through the results of this research, I expect the expansion and diversity of artistic audiovisual expression of biometric data.

Implementation of a data collection system for big data analysis and learning based on infant body temperature data (영유아 체온 데이터 기반 빅데이터 분석 및 학습을 위한 데이터 수집 시스템 구현)

  • Lee, Hyoun-Sup;Heo, Gyeongyong
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.05a
    • /
    • pp.577-578
    • /
    • 2021
  • Recently, artificial intelligence systems are being used in various fields. The accuracy of the decision algorithm of artificial intelligence is greatly affected by the amount of learning and the accuracy of the learning data. In the case of the amount of learning, a large amount of data is required because it has a decisive effect on the performance of AI. In this paper, we propose a data collection system for constructing a system that analyzes future conditions and changes in infants' conditions based on the body temperature data of infants and toddlers. The proposed system is a system that collects and transmits data, and it is believed that it can minimize the resource consumption of the server system in existing big data analysis and training data construction.

  • PDF

Social quration service with broadcasting contents (방송콘텐츠의 소셜 큐레이션 서비스)

  • Kwon, Jaekwang;Choi, Sungwoo;Yu, Jehyun;Jung, Inyoung;Jung, Byunghee
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2015.07a
    • /
    • pp.187-190
    • /
    • 2015
  • 현재를 '빅데이터' 시대라 부른다. '빅데이터', 그 용어가 주는 의미대로 우리가 처리해야 할 데이터가 매우 많다는 것을 의미 하며, 과거의 데이터 정제 기술로 유의미한 정보로 가공하려면 상당한 자원이 필요하다. 현재, 장비의 고성능화 등으로 가능성이 검증되고 있고, 일부 비즈니스에 활용되는 단계이나 여전히 혼돈의 문제가 존재하며, 이러한 문제의 해결책으로 제시되는 것 중의 하나가 바로 '소셜 큐레이션'이라 할 수 있다. 본 개발 서비스1)는 시청자들이 방송 콘텐츠를 소유하고 공유하고자 하는 욕구를 반영하여, 실시간으로 TV를 보면서 방송 프로그램을 캡처하고 공유할 수 있게 한다. 방송콘텐츠에 관한 '소셜 큐레이션' 서비스이며, 이는 각 사용자들이 캡처하여 생성한 수많은 콘텐츠 중에서 사용자들이 원하는 콘텐츠를 사용자들의 사회적인 관계를 이용하여 선별적으로 제공할 수 있도록 구성한 것이다. 본 논문에서는 서비스의 개발 방향과 시스템 구성 등을 설명한다.

  • PDF

TVzzik : Social curation service with broadcasting contents captured in real-time (TVzzik : 방송콘텐츠의 실시간 캡처 및 소셜 큐레이션 서비스)

  • Kwon, Jaekwang;Choi, Sungwoo;Yu, Jehyun;Jung, Inyoung;Jung, Byunghee
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2014.11a
    • /
    • pp.182-185
    • /
    • 2014
  • 현재를 '빅데이터' 시대라 부른다. '빅데이터', 그 용어가 주는 의미대로 우리가 처리해야 할 데이터가 많다는 것을 의미하며, 과거의 데이터 정제 기술로는 유의미한 정보로 가공하기에는 상당한 노력이 필요하다는 것을 암시하고 있다. 현재 장비의 고성능화 등으로 가능성이 검증되고 있고 일부 비즈니스에 활용되는 단계이나, 여전히 혼돈의 문제가 존재하며, 이러한 문제의 해결책으로 제시되는 것 중의 하나가 바로 '소셜 큐레이션'이라 할 수 있다. 본 'TVzzik' 서비스는 시청자들이 방송 콘텐츠를 소유하고 공유하고자 하는 욕구를 반영하여, 실시간으로 TV를 보면서 방송 프로그램을 캡처하고 공유할 수 있게 한다. 방송콘텐츠에 관한 '소셜 큐레이션' 서비스이며, 이는 각 사용자들이 캡처하여 생성한 수많은 콘텐츠 중에서 사용자들이 원하는 콘텐츠를 사용자들의 사회적인 관계를 이용하여 선별적으로 제공할 수 있도록 구성한 것이다. 본 논문에서는 'TVzzik' 서비스의 개발 방향과 시스템 구성 등을 설명한다.

  • PDF

Platform Implementation for Cooperation and Visualization of Emotional Research Data in the Adjacent Field (인접한 감성 연구 데이터의 상호 연계와 시각화를 위한 플랫폼 구현)

  • Lee, Sang-Tae;Jeong, Myeong-Su;Choe, Gi-Seok;Heo, Tae-Sang
    • Proceedings of the Korean Society for Emotion and Sensibility Conference
    • /
    • 2008.10a
    • /
    • pp.58-61
    • /
    • 2008
  • 융합과 사용자 중심의 학문을 지향하는 현대 과학의 연구 흐름을 감성과학 분야에 적용하기 위해서는 감성 데이터의 생산, 정제, 관리, 시각화, 공유를 표준화된 플랫폼으로 제공할 필요가 있다. 이를 통해 인접 분야의 감성데이터를 손쉽게 연동하여 해석하고자 한다. 시각화 플랫폼을 통하여 외부 자극에 대한 실험참여자의 정서 데이터베이스와 분석 도구를 구축하고 이를 역 방향으로 진행시켜 자신의 의지대로 정서를 변화시키기 위하여 외부 자극을 선택할 수 있도록 돕는 것이 구축중인 플랫폼을 통한 감성 측정과 표현에 대한 디자인 목표이다.

  • PDF

Query Processing System for Incomplete Sensor Stream Data of in Real-time Sensor Network (실시간 센서 네트워크에서 불완전 센서 스트림 데이터를 위한 질의 처리 시스템)

  • Jang, You-Ho;Lee, Sang-Ho;Kim, Yong-Seung;Oh, Ryum-Duck
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.01a
    • /
    • pp.123-124
    • /
    • 2014
  • 무선 센서 네트워크는 센서들을 근거리 네트워크로 연결하여 사용자와 현장의 정보를 실시간으로 연결해 주는 매개체 역할을 한다. 이러한 무선 센서 네트워크는 기존의 컴퓨팅 시스템과는 달리 제한된 자원과 환경 속에서 동작을 해야 하고, 접근이 힘든 곳이나 지속적인 관리가 필요한 지역에서 효율적으로 사용된다. 본 논문에서는 무선 센서네트워크의 제한된 자원 속에서 불완전 스트림 데이터를 효율적으로 정제하고 처리하여 빠르고 정확한 질의어 처리가 가능한 질의 시스템을 제안하였다.

  • PDF

Improving Relation Extraction Performance using Relevance Verification (적합성 검증을 통한 관계 추출 성능 향상)

  • Won, Yousung;Kim, Jiseong;Nam, Sangha;Hahm, YoungGyun;Choi, Key-sun
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.90-95
    • /
    • 2015
  • 기계적 학습을 위해서는 일반적으로 많은 양의 수동 주석데이터(Manually Labeled Data)가 요구된다. 원격지도(Distant Supervision)는 현실적으로 부족한 주석데이터(Labeled Data)를 대신해 자동적으로 주석데이터를 수집하여 학습하는 접근 방식으로 관계 추출(Relation Extracion) 문제에 널리 활용되고 있다. 이때 필연적으로 많은 노이즈(Noise)가 발생되는데, 적합성 검증(Relevance Verification)을 통해 수집된 학습데이터를 정제함으로써 노이즈로 인한 변동성을 줄이고 결과적으로 향상된 성능을 보여주는 관계 추출 방법을 제시한다.

  • PDF

A Study of Web-Based Data Visualization System for Product and Fault Management (제품 및 장애 관리를 위한 웹기반 데이터 시각화 시스템)

  • Myung, Je-Suk;Park, Seong-Hyeon;Yoo, Kwan-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.846-848
    • /
    • 2018
  • 최근 4차 산업혁명이 이슈가 되면서 빅 데이터나 인공지능에 대한 연구가 활발해지고, 이를 통해 자동화 및 자율화가 제조 공정이나 차량 운행 등에서 활용되고 있다. 또한 이를 위해서 데이터를 분석하고 정제하며 시각화를 효과적으로 하는 방법에 대한 관심도 같이 늘어나고 있다. 본 논문에서는 자동화 공장의 제품을 관리함에 있어 데이터를 쉽게 이해할 수 있도록 시각화하는 방법에 대한 연구를 수행했다. 이를 위해 D3 자바스크립트 라이브러리를 통해 웹기반으로 구현한 제품과 장애를 효과적으로 관리할 수 있는 시스템을 개발했다. 제안하는 관리 시스템은 자동화 공장의 제조 공정 중 제품이나 장애 상황에 대한 이해를 빠르게 하도록 하여 의사결정 하는데 기여할 것이다.