• Title/Summary/Keyword: 텍스트 데이터

Search Result 1,765, Processing Time 0.03 seconds

Analysis and Visualization for Protein-Protein Interaction Using LEDA (LEDA를 이용한 단백질 상호작용의 분석과 가시화)

  • 윤지현;조환규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.286-288
    • /
    • 2004
  • PPI(Protein-Protein Interaction) 데이터는 생물체 내에서 서로 상호작용하는 단백질(protein)들에 대한 정보이다. 단백질 상호작용은 실제 생체 내에서 어떠한 작용이 일어나게 하는 원인이므로, 많은 생물학자들이 관심을 가지고 연구하고 있으며, 그 결과로 몇몇 데이터베이스가 만들어졌다. 이런 데이터베이스들은 다른 연구자들을 위해 데이터를 공개하고 있지만, 대부분의 데이터베이스가 탭으로 분리된 텍스트 형태로 제공한다. 하지만, 텍스트 형태의 데이터는 사람이 직관적으로 인지할 수 없기 때문에, PPI 데이터를 분석하기 쉬운 그래프 형태로 보여주는 프로그램이 필요하다. 그리고 아직 기능을 모르는 단백질이 많으므로 이를 예측하는 프로그램도 필요하다 본 논문에서는 LEDA를 이용하여 PPI 데이터를 그래프 형태로 표현하며, 이 그래프에 그래프 이론을 적용하여 단백질의 기능을 예측하는 프로그램인 Proteinca에 대해 서술한다.

  • PDF

Improving Performance of Sentiment Classification using Korean Style Transfer based Data Augmentation (한국어 스타일 변환 기반 데이터 증강을 이용한 감성 분류 성능 향상)

  • Eunwoo Go;Eunchan Lee;Sangtae Ahn
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.480-484
    • /
    • 2022
  • 텍스트 분류는 입력받은 텍스트가 어느 종류의 범주에 속하는지 구분하는 것이다. 분류 모델에 있어서 좋은 성능을 나타내기 위해서는 충분한 양의 데이터 셋이 필요함을 많은 연구에서 보이고 있다. 이에 따라 데이터 증강기법을 소개하는 많은 연구가 진행되었지만, 실제로 사용하기 위한 모델에 곧바로 적용하기에는 여러 가지 문제점들이 존재한다. 본 논문에서는 데이터 증강을 위해 스타일 변환 기법을 이용하였고, 그 결과 기존 방법 대비 한국어 감성 분류의 성능을 높였다.

  • PDF

Spark-Based Big Data Preprocessing for Text Summarization (텍스트 요약을 위한 스파크 기반 대용량 데이터 전처리)

  • Ji, Dong-Jun;Jun, Hee-Gook;Im, Dong-Hyuk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.383-385
    • /
    • 2022
  • 텍스트 요약(Text Summarization)은 자연어 처리(NLP) 분야의 주요 작업 중 하나이다. 높은 정확성을 보이는 문서 요약 딥 러닝 모델을 만들기 위해서 대용량 학습 데이터가 필요한데, 대용량 데이터 전처리 과정에서 처리 시간, 메모리 관리 등과 같은 문제가 발생한다. 본 논문에서는 대규모 병렬처리 플랫폼 Apache Spark 를 사용해 추상 요약 딥 러닝 모델의 데이터 전처리 과정을 개선하는 방법을 제안한다. 실험 결과 제안한 방법이 기존 방법보다 데이터 전처리 시간이 개선된 결과를 보이고 있다.

A Study on Korean Pause Prediction based Large Language Model (대규모 언어 모델 기반 한국어 휴지 예측 연구)

  • Jeongho Na;Joung Lee;Seung-Hoon Na;Jeongbeom Jeong;Maengsik Choi;Chunghee Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.14-18
    • /
    • 2023
  • 본 연구는 한국어 음성-텍스트 데이터에서 보편적으로 나타난 휴지의 실현 양상을 분석하고, 이를 토대로 데이터셋을 선별해 보편적이고 규격화된 한국어 휴지 예측을 위한 모델을 제안하였다. 이를 위해 전문적인 발성 훈련을 받은 성우 등의 발화가 녹음된 음성-텍스트 데이터셋을 수집하고 MFA와 같은 음소 정렬기를 사용해 휴지를 라벨링하는 등의 전처리를 하고, 다양한 화자의 발화에서 공통적으로 나타난 휴지를 선별해 학습데이터셋을 구축하였다. 구축된 데이터셋을 바탕으로 LLM 중 하나인 KULLM 모델을 미세 조정하고 제안한 모델의 휴지 예측 성능을 평가하였다.

  • PDF

Aspect-based Sentiment Analysis on Cosmetics Customer Reviews (감성 분석 화장품 사용자 리뷰에 대한 속성기반 감성분석)

  • Heewon Jeong;Young-Seob Jeong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2024.01a
    • /
    • pp.13-16
    • /
    • 2024
  • 온라인상에 인간의 감성을 담은 리뷰 데이터가 꾸준히 축적되어왔다. 이 텍스트 데이터를 분석하고 활용하는 일은 마케팅에 있어서 중요한 자산이 될 것이다. 이와 관련된 Aspect-Based Sentiment Analysis(ABSA) 연구는 한글에 있어서는 데이터 부족을 이유로 거의 선행연구가 없는 실정이다. 본 연구에서는 최근 공개된 데이터 셋을 바탕으로 하여 화장품 도메인에 대한 소비자들의 리뷰 텍스트와 사전 라벨링 된 속성, 감성 극성을 기반으로 ABSA를 진행한다. Klue RoBERTa base 모델을 활용하여 데이터를 학습시키고, Python Kiwipiepy 등으로 전처리한 결과를 대시보드로 시각화하여 분석하기 쉬운 환경을 마련하는 방법을 제시한다.

  • PDF

Classification Modeling for Predicting Medical Subjects using Patients' Subjective Symptom Text (환자의 주관적 증상 텍스트에 대한 진료과목 분류 모델 구축)

  • Lee, Seohee;Kang, Juyoung
    • The Journal of Bigdata
    • /
    • v.6 no.1
    • /
    • pp.51-62
    • /
    • 2021
  • In the field of medical artificial intelligence, there have been a lot of researches on disease prediction and classification algorithms that can help doctors judge, but relatively less interested in artificial intelligence that can help medical consumers acquire and judge information. The fact that more than 150,000 questions have been asked about which hospital to go over the past year in NAVER portal will be a testament to the need to provide medical information suitable for medical consumers. Therefore, in this study, we wanted to establish a classification model that classifies 8 medical subjects for symptom text directly described by patients which was collected from NAVER portal to help consumers choose appropriate medical subjects for their symptoms. In order to ensure the validity of the data involving patients' subject matter, we conducted similarity measurements between objective symptom text (typical symptoms by medical subjects organized by the Seoul Emergency Medical Information Center) and subjective symptoms (NAVER data). Similarity measurements demonstrated that if the two texts were symptoms of the same medical subject, they had relatively higher similarity than symptomatic texts from different medical subjects. Following the above procedure, the classification model was constructed using a ridge regression model for subjective symptom text that obtained validity, resulting in an accuracy of 0.73.

A Study on Text Mining Methods to Analyze Civil Complaints: Structured Association Analysis (민원 분석을 위한 텍스트 마이닝 기법 연구: 계층적 연관성 분석)

  • Kim, HyunJong;Lee, TaiHun;Ryu, SeungEui;Kim, NaRang
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.23 no.3
    • /
    • pp.13-24
    • /
    • 2018
  • For government and public institutions, civil complaints containing direct requirements of citizens can be utilized as important data in developing policies. However, it is difficult to draw accurate requirements using text mining methods since the nature of the complaint text is unstructured. In this study, a new method is proposed that draws the exact requirements of citizens, improving the previous text mining in analyzing the data of civil complaints. The new text-mining method is based on the principle of Co-Occurrences Structure Map, and it is structured by two-step association analysis, so that it consists of the first-order related word and a second-order related word based on the core subject word. For the analysis, 3,004 cases posted on the electronic bulletin board of Busan City for the year 2016 are used. This study's academic contribution suggests a method deriving the requirements of citizens from the civil affairs data. As a practical contribution, it also enables policy development using civil service data.

Analysis of Seasonal Importance of Construction Hazards Using Text Mining (텍스트마이닝을 이용한 건설공사 위험요소의 계절별 중요도 분석)

  • Park, Kichang;Kim, Hyoungkwan
    • KSCE Journal of Civil and Environmental Engineering Research
    • /
    • v.41 no.3
    • /
    • pp.305-316
    • /
    • 2021
  • Construction accidents occur due to a number of reasons-worker carelessness, non-adoption of safety equipment, and failure to comply with safety rules are some examples. Because much construction work is done outdoors, weather conditions can also be a factor in accidents. Past construction accident data are useful for accident prevention, but since construction accident data are often in a text format consisting of natural language, extracting construction hazards from construction accident data can take a lot of time and that entails extra cost. Therefore, in this study, we extracted construction hazards from 2,026 domestic construction accident reports using text mining and performed a seasonal analysis of construction hazards through frequency analysis and centrality analysis. Of the 254 construction hazards defined by Korea's Ministry of Land, Infrastructure, and Transport, we extracted 51 risk factors from the construction accident data. The results showed that a significant hazard was "Formwork" in spring and autumn, "Scaffold" in summer, and "Crane" in winter. The proposed method would enable construction safety managers to prepare better safety measures against outdoor construction accidents according to weather, season, and climate.

A study on the method of deriving the cause of social issues based on causal sentences (인과관계문형 기반 사회이슈 발생원인 도출 방법 연구)

  • Lee, Namyeon;Lee, Jae Hyung
    • Journal of Digital Convergence
    • /
    • v.19 no.3
    • /
    • pp.167-176
    • /
    • 2021
  • With development of big data analysis technology, many studies to find social issues using texts mining techniques have been conducted. In order to derive social issues, previous studies performed in a way that collects a large amount of text data from news or SNS, and then analyzes issues based on text mining techniques such as topic modeling and terms network analysis. Social issues are the results of various social phenomena and factors. However, since previous studies focused on deriving social issues that are results of various causes, there are limitations to revealing the cause of the issues. In order to effectively respond to social issues, it is necessary not only to derive social issues, but also to be able to identify the causes of social issues. In this study, in order to overcome these limitations, we proposed a method of deriving the factors that cause social issues from texts related to social issues based on the theory of part of Korean linguistics. To do this, we collected news data related to social issues for three years from 2017 to 2019 and proposed a methodology to find causes based causal sentences based on text mining techniques.

A Study on Hypertext-based Bibliographic Information Retrieval System Using Internet (인터넷을 이용한 하이퍼텍스트 기반 서지정보검색 시스템에 관한 연구)

  • 박지연
    • Journal of the Korean Society for information Management
    • /
    • v.12 no.2
    • /
    • pp.171-192
    • /
    • 1995
  • In this study, we constructed a hypertext-based bibliographic information retrieval system, which is very usell tool to browse and retrieve structured data. We minimized the problem of the use; s disorientation with the keyword retrieval technique. We also presented the potential advantages of this system which could be obtained by implementing it on WWW.

  • PDF