• Title/Summary/Keyword: 한국어 뉴스

Search Result 115, Processing Time 0.026 seconds

Sentence Interaction-based Document Similarity Models for News Clustering (뉴스 클러스터링을 위한 문장 간 상호 작용 기반 문서 쌍 유사도 측정 모델들)

  • Choi, Seonghwan;Son, Donghyun;Lee, Hochang
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.401-407
    • /
    • 2020
  • 뉴스 클러스터링에서 두 문서 간의 유사도는 클러스터의 특성을 결정하는 중요한 부분 중 하나이다. 전통적인 단어 기반 접근 방법인 TF-IDF 벡터 유사도는 문서 간의 의미적인 유사도를 반영하지 못하고, 기존 딥러닝 기반 접근 방법인 시퀀스 유사도 측정 모델은 문서 단위에서 나타나는 긴 문맥을 반영하지 못하는 문제점을 가지고 있다. 이 논문에서 우리는 뉴스 클러스터링에 적합한 문서 쌍 유사도 모델을 구성하기 위하여 문서 쌍에서 생성되는 다수의 문장 표현들 간의 유사도 정보를 종합하여 전체 문서 쌍의 유사도를 측정하는 네 가지 유사도 모델을 제안하였다. 이 접근 방법들은 하나의 벡터로 전체 문서 표현을 압축하는 HAN (hierarchical attention network)와 같은 접근 방법에 비해 두 문서에서 나타나는 문장들 간의 직접적인 유사도를 통해서 전체 문서 쌍의 유사도를 추정한다. 그리고 기존 접근 방법들인 SVM과 HAN과 제안하는 네 가지 유사도 모델을 통해서 두 문서 쌍 간의 유사도 측정 실험을 하였고, 두 가지 접근 방법에서 기존 접근 방법들보다 높은 성능이 나타나는 것을 확인할 수 있었고, 그래프 기반 접근 방법과 유사한 성능을 보이지만 더 효율적으로 문서 유사도를 측정하는 것을 확인하였다.

  • PDF

News Data Analysis Using Acoustic Model Output of Continuous Speech Recognition (연속음성인식의 음향모델 출력을 이용한 뉴스 데이터 분석)

  • Lee, Kyong-Rok
    • The Journal of the Korea Contents Association
    • /
    • v.6 no.10
    • /
    • pp.9-16
    • /
    • 2006
  • In this paper, the acoustic model output of CSR(Continuous Speech Recognition) was used to analyze news data News database used in this experiment was consisted of 2,093 articles. Due to the low efficiency of language model, conventional Korean CSR is not appropriate to the analysis of news data. This problem could be handled successfully by introducing post-processing work of recognition result of acoustic model. The acoustic model more robust than language model in Korean environment. The result of post-processing work was made into KIF(Keyword information file). When threshold of acoustic model's output level was 100, 86.9% of whole target morpheme was included in post-processing result. At the same condition, applying length information based normalization, 81.25% of whole target morpheme was recognized. The purpose of normalization was to compensate long-length morpheme. According to experiment result, 75.13% of whole target morpheme was recognized KIF(314MB) had been produced from original news data(5,040MB). The decrease rate of absolute information met was approximately 93.8%.

  • PDF

Status of Providing Foreign Languages in Disaster Warning Text Message (재난문자에서의 외국어 제공 현황)

  • Lee, Hyun-Ji;Byun, Yoon-Kwan;Jang, Sek-Jin;Choi, Seong-Jong;Pyo, Kyung-Soo
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2019.11a
    • /
    • pp.140-142
    • /
    • 2019
  • 이 연구에서는 재난문자에서의 외국어 제공 현황에 대해 알아보았다. 우선, 뉴스를 분석한 결과, 외국인들은 국내 재난문자의 문제점으로 한국어라는 언어 제공 한정을 꼽았다. 다음으로, 미국은 WEA 규정에 따라 영어 외에 스페인어로 된 경고 메시지를 지원해야 하는 것으로 나타났다. WEA에서의 다국어 제공을 위한 다양한 노력도 하고 있었다. 마지막으로, 일본은 이동통신사 차원에서 다국어 재난문자를 지원하고 있는 것으로 나타났다. NTT DOCOMO는 외국인을 위해 일본어 재난문자를 영어, 중국어, 한국어로 번역해 주는 기능을 제공하고 있었다. KDDI도 NTT DOCOMO가 제공하는 언어 외에 포르투칼어, 스페인어도 제공하고 있었다.

  • PDF

Coocurrence Relation Analysis and Visualization in Tweet for Food Safety Domain (식품안전 관련 트위터 정보의 연관 관계 분석 및 시각화)

  • So, Hyun-Su;Kang, Seung-Shik;Oh, Se-Wook
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.305-306
    • /
    • 2016
  • 식품안전 사고가 발생했을 때 뉴스, 인터넷 기사를 통해 정보를 인지하기 전에 그 음식을 섭취하는 경우가 발생하는 문제점 최소화하기 위하여 실시간 트윗 분석으로 현재 발생한 식품안전 키워드와 어느 지역에서 발생했는지를 신속하게 파악하고, 키워드 연관관계 분석 프로그램을 활용하여 정확한 정보를 추출한다. 이와 더불어, SNS 등 다양한 정보 소스로부터 추출한 정보를 간단명료하게 파악하기 위해서 워드 클라우드 등 데이터 시각화 기법을 활용하여 시각화로 정보를 제공한다. 이 기법은 식품안전 뿐만 아니라 최근 발생한 콜레라 감염 발생과 같은 문제를 해결하기 위한 방법으로 활용될 수 있을 것이다.

  • PDF

Extracting Korean Comparative Sentences by Machine Learning Techniques (기계학습 기법을 이용한 한국어 비교 문장 추출)

  • Yang, Seon;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.183-188
    • /
    • 2008
  • 본 연구에서는 문서 안에 있는 문장들 중 비교 문장을 추출해낸다. 비교 문장이란 두 개 이상의 객체, 혹은 한 객체의 시간차, 공간차 등에 따른 변화를 비교하는 내용을 포함하는 문장을 말한다. 비교 문장을 구별해내는 작업은 많은 분야에서 응용될 수 있는데, 특히 객체(사람, 상품 등)에 대한 평가 면에서 매우 직접적이고 확실한 자료로 활용될 수 있다. 비교문장 추출을 위해 본 연구에서는 비교어휘를 이용한 추출 및 MEM(Maximum Entropy Model)을 적용하였으며, 뉴스기사(news article), 상품에 대한 고객리뷰(customer review) 등의 문서를 대상으로 실험하여 재현율 88.40%, 정확률 88.68%의 결과를 산출하였다.

  • PDF

A Chinese-Korean E-Mail Translation System (중한 이메일 자동번역시스템)

  • Jin, Yun;Kwon, Oh-Woog;Wu, Ying-Sun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.225-230
    • /
    • 2009
  • 본 논문에서는 중국어의 이메일 특성을 이용한 중한 대화체 자동번역 방법에 대하여 기술한다. 본 논문에서는 중국어와 한국어와 같이 언어 간의 어순이 다르고 이메일과 같이 특정한 도메인의 언어적 자원도 제한적인 특성을 고려하여 중국어 이메일 특성을 이용한 규칙 기반의 번역 방법을 시도하였다. 이를 위해, 본 논문에서는 중국어의 굳어진 표현이 많고, 한글자 단어 많으며, 입력 오류 많고, 청유 및 경어가 많은 이메일 특성 분석을 통해 그에 대응되는 처리 방법을 제안하였다. 그리고, 그 방법의 타당성을 증명하기 위해 규칙기반의 중한 뉴스 자동번역 시스템과 비교 실험을 하였으며, 규칙기반과 통계적 방법의 타당성 실험을 위해 Gmail과도 비교 실험을 하였다. 두 가지 비교 실험 결과, 본 논문에서 접근한 방법이 모두 우수하였으며, 그 타당성을 증명하였다.

  • PDF

A Study of Korean Semantic Role Labeling using Word Sense (의미 정보를 이용한 한국어 의미역 인식 연구)

  • Lim, Soojong;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.18-22
    • /
    • 2015
  • 기계학습 기반의 의미역 인식에서 주로 어휘, 구문 정보가 자질로 주로 쓰이지만, 의미 정보를 분석하는 의미역 인식은 단어의 의미 정보 또한 매우 주요한 정보이다. 그러나, 기존 연구에서는 의미 정보를 활용할 수 있는 방법이 제한되어 있기 때문에, 소수의 연구만 진행되었다. 본 논문에서는 동형이의어 수준의 의미 애매성 해소 기술, 고유 명사에 대한 개체명 인식 기술, 의미 정보에 기반한 필터링, 유의어 사전을 이용한 클러스터 및 기존 프레임 정보를 확장하는 방법을 제안한다. 제안하는 방법은 기존 연구 대비 뉴스 도메인인 Korean Propbank는 3.14, 위키피디아 문서 기반의 WiseQA 평가셋인 GS 3.0에서는 6.57의 성능 향상을 보였다.

  • PDF

The Characteristics of Malicious Comments: Comparisons of the Internet News Comments in Korean and English (악성 댓글의 특성: 한국어와 영어의 인터넷 뉴스 댓글 비교)

  • Kim, Young-il;Kim, Youngjun;Kim, Youngjin;Kim, Kyungil
    • The Journal of the Korea Contents Association
    • /
    • v.19 no.1
    • /
    • pp.548-558
    • /
    • 2019
  • Along generalization of internet news comments, malicious comments have been spread and made many social problems. Because writings reflect human mental state or trait, analyzing malicious comments, human mental states could be inferred when they write internet news comments. In this study, we analyzed malicious comments of English and Korean speaker using LIWC and KLIWC. As a result, in both English and Korean, malicious comments are commonly more used in sentence, word phrase, morpheme, word phrase per sentence, morpheme per sentence, positive emotion words, and cognitive process words than normal comments, and less used in the third person singular, adjective, anger words, and emotional process words than normal comments. This means people are state that they can not control their feeling such as anger and can not think well when they write news comments. Therefore, when internet comments were written, service provider should consider the way that commenters monitor own writings by themselves and that they prevent the other users from getting close to comments included many negative-emotion words. In other sides, it is discovered that English and Korean malicious comments was discriminated by authenticity. In order to be more objective, gathering data from various point of time is needed.

Loanword Recognition Using Deep Learning (심층학습을 이용한 음절태깅 기반의 외래어 인식 시스템)

  • Park, Ho-Min;Kim, Chang-Hyun;Cheon, Min-Ah;Noh, Kyung-Mok;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.71-75
    • /
    • 2017
  • 외래어란 외국어로부터 들어와 한국어에 동화되고 한국어로서 사용되는 언어이다. 나날이 우리의 언어사용 문화에서 외래어의 사용 비율은 높아져가는 추세로, 전문분야에서는 특히 두드러진다. 그러므로 더 효율적이고 효과적인 자연언어처리를 위해서 문서 내 외래어 인식은 중요한 전처리 과정이다. 따라서 본 논문에서는 bidirectional LSTM(이하 bi-LSTM)-CRF 모형의 심층학습을 이용한 음절태깅 기반의 외래어 인식 시스템을 제안한다. 제안하는 시스템의 외래어 인식 학습 과정은 다음과 같다. 첫째, 학습용 말뭉치 자료의 한글 음절들과 공백, 마침표(.)를 토대로 word2vec을 통해 학습용 피쳐(feature) 자료를 생성한다. 둘째, 학습용 말뭉치 자료와 학습용 피쳐 자료를 결합하여 bi-LSTM 모형 학습 자료를 구축한다. 셋째, bi-LSTM 모형을 거쳐 학습된 결과물을 CRF 모형에서 로그 가능도(log likelyhood)와 비터비(Viterbi) 알고리즘을 통해 학습 결과물을 내놓는다. 넷째, 학습용 말뭉치 자료의 정답과 비교한 뒤 모형 내부의 수치들을 조정한다. 다섯째, 학습을 마칠 때까지 반복한다. 본 논문에서 제안하는 시스템을 이용하여 자체적인 뉴스 수집 자료에 대해서 높은 정확도와 재현율을 기록하였다.

  • PDF

Sentence Classification for Korean Dialog Engine (한국어 대화 엔진에서의 문장 분류)

  • Choi, DongHyun;Park, IlNam;Lim, Jae-Soo;Baek, SeulYe;Lee, MiOk;Shin, Myeongcheol;Kim, EungGyun;Shin, Dong Ryeol
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.210-214
    • /
    • 2018
  • 본 논문에서는 한국어 대화 엔진에서의 문장 분류 방법에 대해서 소개한다. 문장 분류시 말뭉치에서 관찰되지 않은 표현들을 포함한 입력 발화를 처리하기 위하여, 태깅되지 않은 뉴스 데이터로부터 일반적인 단어 의미 벡터들이 훈련 및 성능 평가되었고, 이를 문장 분류기에 적용하였다. 또한, 실 서비스에 적용 가능한 빠른 분류 속도를 유지함과 동시에 문제에 특화된 의미 벡터들을 학습하기 위하여, 기존에 사용되던 캐릭터 기반 의미 벡터 대신 도메인 특화 단어 의미 벡터의 사용이 제안되었다. 실험 결과, 자체 구축된 테스트 말뭉치에 대하여 본 논문에서 제안된 시스템은 문장 단위 정확률 96.88, 문장당 평균 실행 시간 12.68 msec을 기록하였다.

  • PDF