• Title/Summary/Keyword: 한국어 뉴스 데이터

Search Result 49, Processing Time 0.023 seconds

Korean Hedge Detection Using Word Usage Information and Neural Networks (단어 쓰임새 정보와 신경망을 활용한 한국어 Hedge 인식)

  • Ren, Mei-Ying;Kang, Sin-jae
    • Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology
    • /
    • v.7 no.9
    • /
    • pp.317-325
    • /
    • 2017
  • In this paper, we try to classify Korean hedge sentences, which are regarded as not important since they express uncertainties or personal assumptions. Through previous researches to English language, we found dependency information of words has been one of important features in hedge classification, but not used in Korean researches. Additionally, we found that word embedding vectors include the word usage information. We assume that the word usage information could somehow represent the dependency information. Therefore, we utilized word embedding and neural networks in hedge sentence classification. We used more than one and half million sentences as word embedding dataset and also manually constructed 12,517-sentence hedge classification dataset obtained from online news. We used SVM and CRF as our baseline systems and the proposed system outperformed SVM by 7.2%p and also CRF by 1.2%p. This indicates that word usage information has positive impacts on Korean hedge classification.

Summarization of Korean Dialogues through Dialogue Restructuring (대화문 재구조화를 통한 한국어 대화문 요약)

  • Eun Hee Kim;Myung Jin Lim;Ju Hyun Shin
    • Smart Media Journal
    • /
    • v.12 no.11
    • /
    • pp.77-85
    • /
    • 2023
  • After COVID-19, communication through online platforms has increased, leading to an accumulation of massive amounts of conversational text data. With the growing importance of summarizing this text data to extract meaningful information, there has been active research on deep learning-based abstractive summarization. However, conversational data, compared to structured texts like news articles, often contains missing or transformed information, necessitating consideration from multiple perspectives due to its unique characteristics. In particular, vocabulary omissions and unrelated expressions in the conversation can hinder effective summarization. Therefore, in this study, we restructured by considering the characteristics of Korean conversational data, fine-tuning a pre-trained text summarization model based on KoBART, and improved conversation data summary perfomance through a refining operation to remove redundant elements from the summary. By restructuring the sentences based on the order of utterances and extracting a central speaker, we combined methods to restructure the conversation around them. As a result, there was about a 4 point improvement in the Rouge-1 score. This study has demonstrated the significance of our conversation restructuring approach, which considers the characteristics of dialogue, in enhancing Korean conversation summarization performance.

Coocurrence Relation Analysis and Visualization in Tweet for Food Safety Domain (식품안전 관련 트위터 정보의 연관 관계 분석 및 시각화)

  • So, Hyun-Su;Kang, Seung-Shik;Oh, Se-Wook
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.305-306
    • /
    • 2016
  • 식품안전 사고가 발생했을 때 뉴스, 인터넷 기사를 통해 정보를 인지하기 전에 그 음식을 섭취하는 경우가 발생하는 문제점 최소화하기 위하여 실시간 트윗 분석으로 현재 발생한 식품안전 키워드와 어느 지역에서 발생했는지를 신속하게 파악하고, 키워드 연관관계 분석 프로그램을 활용하여 정확한 정보를 추출한다. 이와 더불어, SNS 등 다양한 정보 소스로부터 추출한 정보를 간단명료하게 파악하기 위해서 워드 클라우드 등 데이터 시각화 기법을 활용하여 시각화로 정보를 제공한다. 이 기법은 식품안전 뿐만 아니라 최근 발생한 콜레라 감염 발생과 같은 문제를 해결하기 위한 방법으로 활용될 수 있을 것이다.

  • PDF

RoBERTa-catseqE: Neural keyphrase Extraction with Entity linking using RoBERTa (RoBERTa-catSeqE: 개체 연결을 이용한 RoBERTa기반 키워드 추출)

  • Lee, Jeong-Doo;Na, Seung-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.486-490
    • /
    • 2020
  • 키워드 구문 추출(Keyphrase extraction)은 각 문서에서 내용과 주제를 포괄하는 핵심 단어 또는 구문을 추출하는 것을 말한다. 이는 뉴스나 논문에서 중요한 정보를 추출하는 데 매우 중요한 역할을 한다. 본 논문에서는 기존 catSeq 모델에 한국어로 학습한 RoBERTa 언어 모델을 적용하고 개체 연결 정보를 활용해 기존 키워드 생성 디코더와 개체 연결된 단어의 키워드 여부 분류 디코더, 즉 듀얼 디코더를 사용하는 모델을 제안하고 직접 구축한 한국어 키워드 추출 데이터에 대한 각 모델의 성능을 비교한다.

  • PDF

A Study of the construct Korean New Word Corpus and Metric of New Word Importance (한국어 신조어 말뭉치 구축 및 신조어 중요도 측정 방법에 대한 연구)

  • Kim, Hyunji;Jung, Sangkeun;Hwang, Taewook
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.14-19
    • /
    • 2020
  • 신조어는 자연어처리에 있어 대단히 중요하며, 시스템의 전체 성능에 직접적인 영향을 미친다. 일단위, 주단위로 신규 발생하는 어휘들에 대해, 자동으로 신규성 및 중요도가 측정되어 제공된다면, 자연어처리 연구 및 상용시스템 개발에 큰 도움이 될 것이다. 이를 위해, 본 연구는 한국어 말뭉치 KorNewVocab을 새로이 제시한다. 먼저, 신조어가 가져야 할 세부 중요 조건을 1)신규 어휘 2)인기 어휘 3)지속 사용 어휘로 정의하고, 이 조건을 만족하는 신조어 말뭉치를 2019.01~2019.08까지의 뉴스기사를 중심으로 신조어 412개와 4,532 문장으로 구성된 신조어 말뭉치를 구축하였다. 또한, 본 말뭉치의 구축에 활용된 반자동 신규어휘 검출 및 중요도 측정 방법에 대해 소개한다.

  • PDF

Method to improve the Quality of Training Data for Automatic Summarization of Judgments (판결문 자동요약을 위한 학습 데이터의 품질 개선방안)

  • Sang-Young Go
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.461-464
    • /
    • 2022
  • 법원도서관이 발간하는 판례공보를 기반으로 판결문 자동요약을 위한 학습 데이터들이 구축되고 있다. 그런데 판결문 요약에서는 뉴스 요약과는 달리 추출요약과 생성요약 방식이 함께 사용되는 특수성이 있고, 이러한 특수성 때문에 현재 판결문 요약 데이터셋이 요약 프로그램의 성능 향상을 이끌지 못하고 있다고 생각된다. 따라서 법률가들이 판결문을 요약하는 방식을 반영하여, 추출요약 방식으로 작성된 판결요지와 생성요약 방식으로 작성된 판결요지를 분리해서 요약 데이터셋을 만들 필요가 있다. 추출요약과 생성요약에 관한 데이터셋을 따로 구축하기 위해서는 판례공보의 판결요지를 추출요약과 생성요약으로 분류하는 작업이 필요한데, 감성 분석에 사용되는 알고리즘이 판결요지의 분류 작업에 응용될 수 있다는 것을 실험 결과로 알 수 있었다.

  • PDF

Development of a Fake News Detection Model Using Text Mining and Deep Learning Algorithms (텍스트 마이닝과 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 개발)

  • Dong-Hoon Lim;Gunwoo Kim;Keunho Choi
    • Information Systems Review
    • /
    • v.23 no.4
    • /
    • pp.127-146
    • /
    • 2021
  • Fake news isexpanded and reproduced rapidly regardless of their authenticity by the characteristics of modern society, called the information age. Assuming that 1% of all news are fake news, the amount of economic costs is reported to about 30 trillion Korean won. This shows that the fake news isvery important social and economic issue. Therefore, this study aims to develop an automated detection model to quickly and accurately verify the authenticity of the news. To this end, this study crawled the news data whose authenticity is verified, and developed fake news prediction models using word embedding (Word2Vec, Fasttext) and deep learning algorithms (LSTM, BiLSTM). Experimental results show that the prediction model using BiLSTM with Word2Vec achieved the best accuracy of 84%.

Sentence Classification for Korean Dialog Engine (한국어 대화 엔진에서의 문장 분류)

  • Choi, DongHyun;Park, IlNam;Lim, Jae-Soo;Baek, SeulYe;Lee, MiOk;Shin, Myeongcheol;Kim, EungGyun;Shin, Dong Ryeol
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.210-214
    • /
    • 2018
  • 본 논문에서는 한국어 대화 엔진에서의 문장 분류 방법에 대해서 소개한다. 문장 분류시 말뭉치에서 관찰되지 않은 표현들을 포함한 입력 발화를 처리하기 위하여, 태깅되지 않은 뉴스 데이터로부터 일반적인 단어 의미 벡터들이 훈련 및 성능 평가되었고, 이를 문장 분류기에 적용하였다. 또한, 실 서비스에 적용 가능한 빠른 분류 속도를 유지함과 동시에 문제에 특화된 의미 벡터들을 학습하기 위하여, 기존에 사용되던 캐릭터 기반 의미 벡터 대신 도메인 특화 단어 의미 벡터의 사용이 제안되었다. 실험 결과, 자체 구축된 테스트 말뭉치에 대하여 본 논문에서 제안된 시스템은 문장 단위 정확률 96.88, 문장당 평균 실행 시간 12.68 msec을 기록하였다.

  • PDF

Preliminary analysis about the differences between South and North Korean Broadcasting Languages (남북한 방송언어의 차이에 대한 기초 분석)

  • Lee, Chang-H.;Kim, Kyung-Il;Park, Jong-Min
    • Proceedings of the KAIS Fall Conference
    • /
    • 2010.05b
    • /
    • pp.622-625
    • /
    • 2010
  • 본 연구는 장기간의 남북한 분단으로 인한 언어적 이질성의 정도를 가늠해보기 위하여 남북한 방송언어 비교하였다. 연구의 주 목적은 남북한 언어간 차이에 대한 데이터가 부족한 상황에서 언어사용 실태에 대한 토대 데이터를 제공하는 것이었다. 남북한의 주요 방송사 뉴스 동영상에서 추출한 텍스트를 대상으로 한국어분석프로그램 KLIWC (Korean Linguistic Inquiry and Word Count)으로 분석하였다. 분석 결과, 북한 방송언어는 KLIWC의 각 차원에서 남한 언어와 유의미한 차이를 나타냈으며, 특히 정서적 단어, 인지적 단어, 사회적 단어 등에서 유의미한 차이가 발견되었다. 또한 북한 방송에서는 인칭대명사나 품사와 같은 언어학적 기능어에 있어서도 남한방송보다 사용빈도가 높았다. 이러한 차이에 대한 예비적인 심리학적 신문방송학적 해석을 제공하였다.

  • PDF

Coocurrence Relation Analysis and Visualization in Tweet for Food Safety Domain (식품안전 관련 트위터 정보의 연관 관계 분석 및 시각화)

  • So, Hyun-Su;Kang, Seung-Shik;Oh, Se-Wook
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.305-306
    • /
    • 2016
  • 식품안전 사고가 발생했을 때 뉴스, 인터넷 기사를 통해 정보를 인지하기 전에 그 음식을 섭취하는 경우가 발생하는 문제점 최소화하기 위하여 실시간 트윗 분석으로 현재 발생한 식품안전 키워드와 어느 지역에서 발생했는지를 신속하게 파악하고, 키워드 연관관계 분석 프로그램을 활용하여 정확한 정보를 추출한다. 이와 더불어, SNS 등 다양한 정보 소스로부터 추출한 정보를 간단명료하게 파악하기 위해서 워드 클라우드 등 데이터 시각화 기법을 활용하여 시각화로 정보를 제공한다. 이 기법은 식품안전 뿐만 아니라 최근 발생한 콜레라 감염 발생과 같은 문제를 해결하기 위한 방법으로 활용될 수 있을 것이다.

  • PDF