• Title/Summary/Keyword: 텍스트 데이터

Search Result 1,765, Processing Time 0.045 seconds

Opinion Mining on Movie Reviews using SNS Text Data (SNS 텍스트 데이터를 이용한 영화평 분석)

  • Cha, Soyun;Lee, Bong Gi;Lee, Ho;Wi, Seokcheol;Lee, Soowon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.441-444
    • /
    • 2012
  • 오늘날 스마트폰의 보급으로 SNS는 급속도로 성장하였고, 매일 엄청난 분량의 텍스트 데이터가 생성되고 있다. 본 연구에서는 다른 매체에 비해 개인의 의견이 좀 더 거침없이 올라오는 SNS의 특징에 주목해 SNS의 텍스트 데이터를 대상으로 하는 평판 분석 기법을 제안한다. 제안 방법은 분석하고자 하는 대상에 대한 SNS 데이터를 수집하여 DB에 저장한 다음, 광고 제거 과정과 자동 띄어쓰기 과정 및 형태소 분석을 거친 후 감성 포함 여부 확인 과정과 극성 분류 과정으로 구성된다. 평판 분석을 위해 본 연구에서는 감성 단어 사전의 쾌-불쾌 수치와 활성화 수치를 사용한다. 분석 결과 모든 문서에 대한 극성 분류 정확도는 55%였고, 감성 포함 여부 확인 과정이 올바르게 수행된 문서에 대한 극성 분류 정확도는 82%였다.

Building Modeling for Unstructured Data Analysis Using Big Data Processing Technology (빅데이터 처리 기술을 활용한 비정형데이터 분석 모델링 구축)

  • Kim, Jung-Hoon;Kim, Sung-Jin;Kwon, Gi-Yeol;Ju, Da-Hye;Oh, Jae-Yong;Lee, Jun-Dong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.07a
    • /
    • pp.253-255
    • /
    • 2020
  • 기업 및 기관 데이터는 워드프로세서, 프레젠테이션, 이메일, open api, 엑셀, XML, JSON 등과 같은 텍스트 기반의 비정형 데이터로 구성되어 있습니다. 텍스트 마이닝(Textmining)을 통해서 자연어 처리 및 기계학습 등의 기술을 이용하여 정보의 추출부터 요약·분류·군집·연관도 분석 등의 과정을 수행울 진행한다. 다양한 시각화 데이터를 보여줄 수 있는 다양한 모델 구축을 진행한 후 민원 신청 내용을 분석 및 변환 작업을 진행한다. 본 논문은 AI 기술과 빅데이터를 활용하여 민원을 분석을 하여 알맞은 부서에 민원을 자동으로 할당해 주는 기술을 다룬다.

  • PDF

An Analysis of Flood Vulnerability by Administrative Region through Big Data Analysis (빅데이터 분석을 통한 행정구역별 홍수 취약성 분석)

  • Yu, Yeong UK;Seong, Yeon Jeong;Park, Tae Gyeong;Jung, Young Hun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.193-193
    • /
    • 2021
  • 전 세계적으로 기후변화가 지속되면서 그에 따른 자연재난의 강도와 발생 빈도가 증가하고 있다. 자연재난의 발생 유형 중 집중호우와 태풍으로 인한 수문학적 재난이 대부분을 차지하고 있으며, 홍수피해는 지역적 수문학적 특성에 따라 피해의 규모와 범위가 달라지는 경향을 보인다. 이러한 이질적인 피해를 관리하기 위해서는 많은 홍수피해 정보를 수집하는 것이 필연적이다. 정보화 시대인 요즘 방대한 양의 데이터가 발생하면서 '빅데이터', '머신러닝', '인공지능'과 같은 말들이 다양한 분야에서 주목을 받고 있다. 홍수피해 정보에 대해서도 과거 국가에서 발간하는 정보외에 인터넷에는 뉴스기사나 SNS 등 미디어를 통하여 수많은 정보들이 생성되고 있다. 이러한 방대한 규모의 데이터는 미래 경쟁력의 우위를 좌우하는 중요한 자원이 될 것이며, 홍수대비책으로 활용될 소중한 정보가 될 수 있다. 본 연구는 인터넷기반으로 한 홍수피해 현상 조사를 통해 홍수피해 규모에 따라 발생하는 홍수피해 현상을 파악하고자 하였다. 이를 위해 과거에 발생한 홍수피해 사례를 조사하여 강우량, 홍수피해 현상 등 홍수피해 관련 정보를 조사하였다. 홍수피해 현상은 뉴스기사나 보고서 등 미디어 정보를 활용하여 수집하였으며, 수집된 비정형 형태의 텍스트 데이터를 '텍스트 마이닝(Text Mining)' 기법을 이용하여 데이터를 정형화 및 주요 홍수피해 현상 키워드를 추출하여 데이터를 수치화하여 표현하였다.

  • PDF

Korean and English Text Image Super-Resolution for Improving Text Recognition Accuracy (텍스트 인식률 개선을 위한 한글 및 영어 텍스트 이미지 초해상화)

  • Kwon, Junhyeong;Cho, Nam Ik
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.11a
    • /
    • pp.72-75
    • /
    • 2022
  • 야외 환경을 카메라로 촬영한 일반 영상에서 텍스트 이미지를 검출하고 인식하는 기술은 로봇 비전, 시각 보조 등의 기반이 되는 기술로 활용될 수 있어 매우 중요한 기술이다. 하지만 저해상도의 텍스트 이미지의 경우 텍스트 이미지에 포함된 노이즈나블러 등이 더 두드러지기 때문에 텍스트 내용을 인식하는 것이 어렵다. 이에 본 논문은 일반 영상에서의 저해상도 한글 및 영어 텍스트에 대한 이미지 초해상화를 통해 텍스트 인식 정확도를 개선하였다. 트랜스포머에 기반한 모델로 한글 및 영어 텍스트에 대한 이미지 초해상화를 수행하였으며, 영어 및 한글 데이터셋에 대해 제안한 초해상화 방법을 적용했을 때 그렇지 않을 때보다 텍스트 인식 성능이 개선되는 것을 확인하였다.

  • PDF

Development of ENC Data Loader for General Purpose (범용적 활용을 위한 ENC Data Loader의 개발)

  • 심우성;강준선;서상현;박종민
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 1998.11a
    • /
    • pp.414-419
    • /
    • 1998
  • 1996년에 3판이 발행된 S-57 표준은 디지틀 수로데이터의 국제적인 교환 표준형식이며 ENC는 S-57을 기본형식으로 하고 특정 상품을 위한 생산품 규약에 의해 만들어진 것이다. ECDIS에 사용되기 위해 만들어진 디지틀 해도 데이터 상품이지만 앞으로 예상되는 ENC 데이터의 일반적 목적을 갖고 있는 사용자들이 모두 S-57과 ENC 생산품 규약을 이해하고 데이터를 읽기 위해 시간과 노력을 투자하는 것은 무척 소비적인 일이 될 것이다. 즉 사용자의 요구는 데이터의 형식이 아니라 데이터의 사용에 집중된다. 그러므로 사용자가 데이터의 내부형식을 알지 못하더라도 사용하고자 하는 의도에 맞게 데이터의 내용을 보여주고 필요한 형식으로 재가공하여 사용할 수 있도록 데이터를 제공하는 프로그램이 필요하며 이는 ENC의 보급 및 활용도를 높이는데 매우 중요하다고 할 수 있다. 본 논문에서는 Data Loader 개발의 기초 단계로 ENC 데이터를 텍스트 형태로 전환하여 ENC에 담긴 내용을 파악할 수 있도록 하는 ENC Data Loader의 기능과 프로그램 개발과정에 대하여 기술하고 텍스트가 아닌 그림으로 보여주며 일반적인 데이터 교환형식으로 변환하는 둥의 새로운 모듈 개발과정을 설명한다. 이를 위해 ENC 데이터의 형식과 내용을 분석하고 GIS 측면에서의 데이터 해석을 시도한다. 또한 이러한 프로그램을 이용한 향후 ENC 데이터의 활용방안에 대하여 기술한다.

  • PDF

Methods of Korean Text Data Quality Assessment (한국어 텍스트 데이터의 품질 평가 요소 및 방법)

  • Kim, Jung-Wook;Hong, Cho-hee;Lee, Saebyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.619-622
    • /
    • 2018
  • 최근 데이터의 형태는 점점 다양화되고 증가하고 있기 때문에 데이터의 체계적 분류 및 관리의 필요성이 증대되고 있다. 이러한 목적을 위하여 데이터에 대한 품질 평가는 중요한 요소가 된다. 최근 데이터는 기존의 정형화된 데이터보다 비정형 데이터가 대부분을 차지하고 있다. 그러나 기존의 데이터 품질 평가는 정형 데이터에 편중되어 왔다. 따라서 다양한 형태와 의미를 가지고 있는 비정형 데이터는 기존의 평가 기술로는 품질을 측정하기 어렵다. 이와 같은 문제로 본 논문은 텍스트기반의 비정형 데이터에 적용 가능한 영역별 평가 지표를 구축하고, 신문기사와 커뮤니티(질의응답)데이터를 사용하여 각 요소별 품질을 측정하여 그 결과에 대해서 고찰하였다.

  • PDF

Global Text & Local Text Integration Method for Aspect-Based Sentiment Analysis (개체단위 감정분석을 위한 글로벌 텍스트&로컬 텍스트 통합 방법)

  • Lin, Te;Joe, Inwhee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.414-416
    • /
    • 2022
  • 개체단위 감정분석(Aspect-Based Sentiment Analysis)는 자연어 처리에서 중요한 연구분야이다. 이는 입력 문장중에 존재하는 aspect term 의 감정 극성을 분석하는 것이 목적이다. 이 분야에서 현재 많이 사용되는 모델은 대부분 로컬 텍스트 또는 로컬 덱스트와 aspect term 사이의 관계에 주목하고 있다. 로켈 텍스트에 비해 글로벌 텍스트는 로컬 텍스트 뒤에 aspect term 내용을 추가해서 문장중에 있는 aspect term 내용을 더 깊게 학습할 수 있다고 생각한다. 본 논문에서는 새로운 masked attention 메커니즘을 사용하고 attention 메커니즘의 입력으로 글로벌 텍스트중에 있는 로컬 텍스트를 가로채어 전체 글로벌 텍스트의 내용과 융합한다. 이 방법은 semeval2014 데이터 셋에서 매우 좋은 결과를 얻었다.

Machine Learning Language Model Implementation Using Literary Texts (문학 텍스트를 활용한 머신러닝 언어모델 구현)

  • Jeon, Hyeongu;Jung, Kichul;Kwon, Kyoungah;Lee, Insung
    • The Journal of the Convergence on Culture Technology
    • /
    • v.7 no.2
    • /
    • pp.427-436
    • /
    • 2021
  • The purpose of this study is to implement a machine learning language model that learns literary texts. Literary texts have an important characteristic that pairs of question-and-answer are not frequently clearly distinguished. Also, literary texts consist of pronouns, figurative expressions, soliloquies, etc. They hinder the necessity of machine learning using literary texts by making it difficult to learn algorithms. Algorithms that learn literary texts can show more human-friendly interactions than algorithms that learn general sentences. For this goal, this paper proposes three text correction tasks that must be preceded in researches using literary texts for machine learning language model: pronoun processing, dialogue pair expansion, and data amplification. Learning data for artificial intelligence should have clear meanings to facilitate machine learning and to ensure high effectiveness. The introduction of special genres of texts such as literature into natural language processing research is expected not only to expand the learning area of machine learning, but to show a new language learning method.

Design and Implementation of Web-based Text Summarization System for Mobile Device (이동 단말을 위한 웹 기반 텍스트 요약 시스템의 설계 및 구현)

  • Cha, Ji-Eun;Chun, Seung-Man;Park, Jong-Tae
    • The KIPS Transactions:PartC
    • /
    • v.16C no.6
    • /
    • pp.725-730
    • /
    • 2009
  • Recently, there has been increasing interest to web access through mobile host due to the explosion of internet mobile terminal such as smart phone. However, small displays of mobile hosts make it difficult to browse the full content of a web page at a time. In order to overcome these limitation, we have designed and implemented Web-based text summarization system. The proposed system can summarize the text for the Web page in which abundant text exist in a page. This can reduce the amount of data transmission and minimize the unnecessary data output during browsing at mobile host. Through implementation, we have confirmed the functions of the proposed system.

The Study on Data Governance Research Trends Based on Text Mining: Based on the publication of Korean academic journals from 2009 to 2021 (텍스트 마이닝을 활용한 데이터 거버넌스 연구 동향 분석: 2009년~2021년 국내 학술지 논문을 중심으로)

  • Jeong, Sun-Kyeong
    • Journal of Digital Convergence
    • /
    • v.20 no.4
    • /
    • pp.133-145
    • /
    • 2022
  • As a result of the study, the poorest keywords were information, big data, management, policy, government, law, and smart. In addition, as a result of network analysis, related research was being conducted on topics such as data industry policy, data governance performance, defense, governance, and data public. The four topics derived through topic modeling were "DG policy," "DG platform," "DG in laws," and "DG implementation," of which research related to "DG platform" showed an increasing trend, and "DG implementation" tended to shrink. This study comprehensively summarized data governance-related studies. Data governance needs to expand research areas from various perspectives and related fields such as data management and data integration policies at the organizational level, and related technologies. In the future, we can expand the analysis targets for overseas data governance and expect follow-up studies on research directions and policy directions in industries that require data-based future industries such as Industry 4.0, artificial intelligence, and Metaverse.