• Title/Summary/Keyword: 빅데이터모델

Search Result 765, Processing Time 0.026 seconds

Diagnosis of scalp condition through scalp image learning (두피 이미지 학습을 통한 두피 상태 진단)

  • Lee, Geon;Hong, Yunjung;Cha, Minsu;Woo, Jiyoung
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.01a
    • /
    • pp.327-329
    • /
    • 2022
  • 본 논문에서는 AI Hub의 개방 데이터인 '유형별 두피 이미지'를 사용하여 두피 상태에 대한 신경망을 학습한다. 이 두피 상태에는 6가지 상태가 있는데, 각각의 상태들에 대한 평가를 양호(0)부터 심각(3)까지 분류하여 학습한 신경망 모델로 실제 어플리케이션으로 구현하여 사람들의 두피 사진을 찍어서 두피 상태를 진단한다. 이 과정에서 기존 개방 데이터에서 사용했던 값 비싼 두피 진단기를 사용하는 것이 아닌 값싸게 구할 수 있는 스마트폰용 현미경을 사용하여 좀 더 효율적으로 두피 상태를 진단 할 수 있는 어플리케이션을 만들었다. 몇백만 원 상당의 비싼 두피 진단기로 촬영한 사진과 비교하였을 시 평균적으로 65%의 정확도를 보여주고 있으며 데이터가 많은 유형은 77%의 정확도까지도 보여주었다.

  • PDF

Korean End-to-End Coreference Resolution with BERT for Long Document (긴 문서를 위한 BERT 기반의 End-to-End 한국어 상호참조해결)

  • Jo, Kyeongbin;Jung, Youngjun;Lee, Changki;Ryu, Jihee;Lim, Joonho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.259-263
    • /
    • 2021
  • 상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 동일한 개체(entity)를 의미하는 멘션들을 찾아 그룹화하는 자연어처리 태스크이다. 최근 상호참조해결에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후, 멘션 탐지와 상호참조해결을 동시에 진행하는 end-to-end 모델이 주로 연구되었으나, 512 토큰 이상의 긴 문서를 처리하기 위해서는 512 토큰 이하로 문서를 분할하여 처리하기 때문에 길이가 긴 문서에 대해서는 상호참조해결 성능이 낮아지는 문제가 있다. 본 논문에서는 512 토큰 이상의 긴 문서를 위한 BERT 기반의 end-to-end 상호참조해결 모델을 제안한다. 본 모델은 긴 문서를 512 이하의 토큰으로 쪼개어 기존의 BERT에서 단어의 1차 문맥 표현을 얻은 후, 이들을 다시 연결하여 긴 문서의 Global Positional Encoding 또는 Embedding 값을 더한 후 Global BERT layer를 거쳐 단어의 최종 문맥 표현을 얻은 후, end-to-end 상호참조해결 모델을 적용한다. 실험 결과, 본 논문에서 제안한 모델이 기존 모델과 유사한 성능을 보이면서(테스트 셋에서 0.16% 성능 향상), GPU 메모리 사용량은 1.4배 감소하고 속도는 2.1배 향상되었다.

  • PDF

Development of Data Visualization Tools for Land-Based Fish Farm Big Data Analysis System (육상 양식장 빅데이터 분석 시스템 개발을 위한 데이터 시각화 도구 개발)

  • Seoung-Bin Ye;Jeong-Seon Park;Hyi-Thaek Ceong;Soon-Hee Han
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.19 no.4
    • /
    • pp.763-770
    • /
    • 2024
  • Currently, land-based fish farms utilizing seawater have introduced and are utilizing various equipment such as real-time water quality monitoring systems, facility automation systems, and automated dissolved oxygen supply devices. Furthermore, data collected from various equipment in these fish farms produce structured and unstructured big data related to water quality environment, facility operations, and workplace visual information. The big data generated in the operational environment of fish farms aims to improve operational and production efficiency through the development and application of various methods. This study aims to develop a system for effectively analyzing and visualizing big data produced from land-based fish farms. It proposes a data visualization process suitable for use in a fish farm big data analysis system, develops big data visualization tools, and compares the results. Additionally, it presents intuitive visualization models for exploring and comparing big data with time-series characteristics.

Apache Spark and Map Reduce with Performance Analysis using K-Means (K-means를 이용한 아파치 스파크 및 맵 리듀스 성능 분석)

  • Jung, Young-Gyo;Jung, Dong-Young;Song, Jun-Seok;You, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.01a
    • /
    • pp.77-78
    • /
    • 2016
  • 빅 데이터의 데이터 수집 및 분석 기술에 대한 연구는 컴퓨터 과학 분야에서 각광 받고 있다. 또한 소셜 미디어로 인한 대량의 비정형 데이터 분석을 요구하는 다양한 분야에 접목되어 효용성을 인정받고 있다. 그러나 빅 데이터 개념을 기반으로 하는 하둡과 스파크는 유즈케이스에 따라 성능이 크게 달라진다는 문제점이 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 하둡의 맵리듀스를 줄이고 아파치 스파크를 이용한 빅 데이터 분석을 위하여 머신러닝 알고리즘인 K-Means 알고리즘을 이용하여 프로세싱 모델의 성능을 비교한다.

  • PDF

바다의 창조행정 VTS 빅 데이터 구축을 위한 기초연구

  • Kim, Bong-Hyeon;Park, Yeong-Su;Jo, Gyeong-Min
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2013.06a
    • /
    • pp.407-410
    • /
    • 2013
  • 2010년대에 들어서며 산업과 행정 등 전반 분야에 있어 주요한 아젠다가 되어 있는 빅 데이터는 산업화를 거쳐 전산화의 장벽까지 넘어선 각 분야에서 혁신적인 데이터 활용을 통해 새로운 가치를 창조하고 있다. RADAR 및 관제설비의 도입으로 고도화된 VTS의 관리 체계는 관제 서버의 구축과 선박의 선박자동식별장치(AIS)의 정착 등 항해설비 발전을 통해 전산의 장벽을 하나씩 거둬가고 있다. 이제는 실시간으로 수집되는 선박 교통 데이터를 통해 해사행정의 새로운 가치 창조를 모색해야 할 시점이다. 따라서 본 연구에서는 예시를 통해 빅 데이터의 개념을 정리하고 해상교통관제를 비롯한 해사행정 전반분야와 해운, 항만, 선박 사업자 전반에게 효율적인 업무 지원을 도모할 수 있는 모델을 제시하고자 하였다. 본 연구결과가 VTS 발전 방안으로 활용되어 제도 개선에 기여할 것으로 기대된다.

  • PDF

KorQuAD 2.0: Korean QA Dataset for Web Document Machine Comprehension (KorQuAD 2.0: 웹문서 기계독해를 위한 한국어 질의응답 데이터셋)

  • Kim, Youngmin;Lim, Seungyoung;Lee, Hyunjeong;Park, Soyoon;Kim, Myungji
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.97-102
    • /
    • 2019
  • KorQuAD 2.0은 총 100,000+ 쌍으로 구성된 한국어 질의응답 데이터셋이다. 기존 질의응답 표준 데이터인 KorQuAD 1.0과의 차이점은 크게 세가지가 있는데 첫 번째는 주어지는 지문이 한두 문단이 아닌 위키백과 한 페이지 전체라는 점이다. 두 번째로 지문에 표와 리스트도 포함되어 있기 때문에 HTML tag로 구조화된 문서에 대한 이해가 필요하다. 마지막으로 답변이 단어 혹은 구의 단위뿐 아니라 문단, 표, 리스트 전체를 포괄하는 긴 영역이 될 수 있다. Baseline 모델로 구글이 오픈소스로 공개한 BERT Multilingual을 활용하여 실험한 결과 F1 스코어 46.0%의 성능을 확인하였다. 이는 사람의 F1 점수 85.7%에 비해 매우 낮은 점수로, 본 데이터가 도전적인 과제임을 알 수 있다. 본 데이터의 공개를 통해 평문에 국한되어 있던 질의응답의 대상을 다양한 길이와 형식을 가진 real world task로 확장하고자 한다.

  • PDF

Big Data using Artificial Intelligence CNN on Unstructured Financial Data (비정형 금융 데이터에 관한 인공지능 CNN 활용 빅데이터 연구)

  • Ko, Young-Bong;Park, Dea-Woo
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2022.05a
    • /
    • pp.232-234
    • /
    • 2022
  • Big data is widely used in customer relationship management, relationship marketing, financial business improvement, credit information and risk management. Moreover, as non-face-to-face financial transactions have become more active recently due to the COVID-19 virus, the use of financial big data is more demanded in terms of relationships with customers. In terms of customer relationship, financial big data has arrived at a time that requires an emotional rather than a technical approach. In relational marketing, it was necessary to emphasize the emotional aspect rather than the cognitive, rational, and rational aspects. Existing traditional financial data was collected and utilized through text-type customer transaction data, corporate financial information, and questionnaires. In this study, the customer's emotional image data, that is, atypical data based on the customer's cultural and leisure activities, is acquired through SNS and the customer's activity image is analyzed with an artificial intelligence CNN algorithm. Activity analysis is again applied to the annotated AI, and the AI big data model is designed to analyze the behavior model shown in the annotation.

  • PDF

An Exploratory Study on Application Plan of Big Data to Manufacturing Execution System (제조실행시스템에의 빅데이터 적용방안에 대한 탐색적 연구)

  • Noh, Kyoo-Sung;Park, Sanghwi
    • Journal of Digital Convergence
    • /
    • v.12 no.1
    • /
    • pp.305-311
    • /
    • 2014
  • The manufacturing industry early have been introducing automation and information systems of the engineering and production process for getting competitive advantage. one of the typical information systems is MES(Manufacturing Execution System) and it keeps evolving. As Big Data showed up nowadays, application method of Big Data to MES is also being sought. First, this study will do preceding research and cases study on the application of Big Data in the manufacturing industry. Then, it will suggest application Plan of Big Data to MES.

Korean Coreference Resolution at the Morpheme Level (형태소 수준의 한국어 상호참조해결 )

  • Kyeongbin Jo;Yohan Choi;Changki Lee;Jihee Ryu;Joonho Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.329-333
    • /
    • 2022
  • 상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 동일한 개체(entity)를 의미하는 멘션들을 찾아 그룹화하는 자연어처리 태스크이다. 최근 상호참조해결에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후, 멘션 탐지와 상호참조해결을 동시에 진행하는 End-to-End 모델이 주로 연구가 되었다. 그러나 End-to-End 방식으로 모델을 수행하기 위해서는 모든 스팬을 잠재적인 멘션으로 간주해야 되기 때문에 많은 메모리가 필요하고 시간 복잡도가 상승하는 문제가 있다. 본 논문에서는 서브 토큰을 다시 단어 단위로 매핑하여 상호참조해결을 수행하는 워드 레벨 상호참조해결 모델을 한국어에 적용하며, 한국어 상호참조해결의 특징을 반영하기 위해 워드 레벨 상호참조해결 모델의 토큰 표현에 개체명 자질과 의존 구문 분석 자질을 추가하였다. 실험 결과, ETRI 질의응답 도메인 평가 셋에서 F1 69.55%로, 기존 End-to-End 방식의 상호참조해결 모델 대비 0.54% 성능 향상을 보이면서 메모리 사용량은 2.4배 좋아졌고, 속도는 1.82배 빨라졌다.

  • PDF

Design of Client-Server Model For Effective Processing and Utilization of Bigdata (빅데이터의 효과적인 처리 및 활용을 위한 클라이언트-서버 모델 설계)

  • Park, Dae Seo;Kim, Hwa Jong
    • Journal of Intelligence and Information Systems
    • /
    • v.22 no.4
    • /
    • pp.109-122
    • /
    • 2016
  • Recently, big data analysis has developed into a field of interest to individuals and non-experts as well as companies and professionals. Accordingly, it is utilized for marketing and social problem solving by analyzing the data currently opened or collected directly. In Korea, various companies and individuals are challenging big data analysis, but it is difficult from the initial stage of analysis due to limitation of big data disclosure and collection difficulties. Nowadays, the system improvement for big data activation and big data disclosure services are variously carried out in Korea and abroad, and services for opening public data such as domestic government 3.0 (data.go.kr) are mainly implemented. In addition to the efforts made by the government, services that share data held by corporations or individuals are running, but it is difficult to find useful data because of the lack of shared data. In addition, big data traffic problems can occur because it is necessary to download and examine the entire data in order to grasp the attributes and simple information about the shared data. Therefore, We need for a new system for big data processing and utilization. First, big data pre-analysis technology is needed as a way to solve big data sharing problem. Pre-analysis is a concept proposed in this paper in order to solve the problem of sharing big data, and it means to provide users with the results generated by pre-analyzing the data in advance. Through preliminary analysis, it is possible to improve the usability of big data by providing information that can grasp the properties and characteristics of big data when the data user searches for big data. In addition, by sharing the summary data or sample data generated through the pre-analysis, it is possible to solve the security problem that may occur when the original data is disclosed, thereby enabling the big data sharing between the data provider and the data user. Second, it is necessary to quickly generate appropriate preprocessing results according to the level of disclosure or network status of raw data and to provide the results to users through big data distribution processing using spark. Third, in order to solve the problem of big traffic, the system monitors the traffic of the network in real time. When preprocessing the data requested by the user, preprocessing to a size available in the current network and transmitting it to the user is required so that no big traffic occurs. In this paper, we present various data sizes according to the level of disclosure through pre - analysis. This method is expected to show a low traffic volume when compared with the conventional method of sharing only raw data in a large number of systems. In this paper, we describe how to solve problems that occur when big data is released and used, and to help facilitate sharing and analysis. The client-server model uses SPARK for fast analysis and processing of user requests. Server Agent and a Client Agent, each of which is deployed on the Server and Client side. The Server Agent is a necessary agent for the data provider and performs preliminary analysis of big data to generate Data Descriptor with information of Sample Data, Summary Data, and Raw Data. In addition, it performs fast and efficient big data preprocessing through big data distribution processing and continuously monitors network traffic. The Client Agent is an agent placed on the data user side. It can search the big data through the Data Descriptor which is the result of the pre-analysis and can quickly search the data. The desired data can be requested from the server to download the big data according to the level of disclosure. It separates the Server Agent and the client agent when the data provider publishes the data for data to be used by the user. In particular, we focus on the Big Data Sharing, Distributed Big Data Processing, Big Traffic problem, and construct the detailed module of the client - server model and present the design method of each module. The system designed on the basis of the proposed model, the user who acquires the data analyzes the data in the desired direction or preprocesses the new data. By analyzing the newly processed data through the server agent, the data user changes its role as the data provider. The data provider can also obtain useful statistical information from the Data Descriptor of the data it discloses and become a data user to perform new analysis using the sample data. In this way, raw data is processed and processed big data is utilized by the user, thereby forming a natural shared environment. The role of data provider and data user is not distinguished, and provides an ideal shared service that enables everyone to be a provider and a user. The client-server model solves the problem of sharing big data and provides a free sharing environment to securely big data disclosure and provides an ideal shared service to easily find big data.