• Title/Summary/Keyword: 글쓴이 의도

Search Result 3, Processing Time 0.015 seconds

Exploiting Features of Writer's Intent in Automatic Spacing (자동 띄어쓰기에서 글쓴이 의도를 반영한 자질의 활용)

  • Lee, Jeong-wook;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.528-531
    • /
    • 2021
  • 띄어쓰기에 대한 오류는 한국어 처리 전반에 영향을 주므로 자동 띄어쓰기는 필수적인 요소이다. 글쓴이의 대부분은 띄어쓰기 오류를 범하지 않으므로 글쓴이의 의도가 띄어쓰기 시스템에 반영되어야 한다. 그러나 대부분의 자동 띄어쓰기 시스템은 모든 띄어쓰기 정보를 제거하고 새로이 공백문자를 추가하는 방법으로 띄어쓰기를 수행한다. 이런 문제를 완화하기 위해서 본 논문에서는 기계학습에서 글쓴이의 의도가 반영된 자질을 추가하는 방법을 제안한다. 실험을 위해서 CRFs(Conditional Random Fields)를 사용하여 기존 시스템과 사용자의 의도를 반영한 띄어쓰기 시스템과의 성능을 비교하고 분석한다.

  • PDF

A Study on Building Korean Dialogue Corpus for Punctuation and Quotation Mark Filling (문장 부호 자동 완성을 위한 한국어 말뭉치 구축 연구)

  • Han, Seunggyu;Yang, Kisu;Lim, HeuiSeok
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.475-477
    • /
    • 2019
  • 문장 부호란, 글에서 문장의 구조를 잘 드러내거나 글쓴이의 의도를 쉽게 전달하기 위하여 사용되는 부호들로, 따옴표나 쉼표, 마침표 등이 있다. 대화 시스템과 같이 컴퓨터가 생성해 낸 문장을 인간이 이해해야 하는 경우나 음성 인식(Speech-To-Text) 결과물의 품질을 향상시키기 위해서는, 문장 부호의 올바른 삽입이 필요하다. 본 논문에서는 이를 수행하는 딥 러닝 기반 모델을 훈련할 때 필요로 하는 한국어 말뭉치를 구축한 내용을 소개한다. 이 말뭉치는 대한민국정부에서 장관급 이상이 발언한 각종 연설문에서 적절한 기준을 통해 선별된 고품질의 문장으로 구성되어 있다. 문장의 총 개수는 126,795개이고 1,633,817개의 단어들(조사는 합쳐서 한 단어로 계산한다)로 구성되어 있다. 마침표와 쉼표는 각각 121,256개, 67,097개씩이다.

  • PDF

A Convergence Study for Development of Psychological Language Analysis Program: Comparison of Existing Programs and Trend Analysis of Related Literature (심리학적 언어분석 프로그램 개발을 위한 융합연구: 기존 프로그램의 비교와 관련 문헌의 동향 분석)

  • Kim, Youngjun;Choi, Wonil;Kim, Tae Hoon
    • Journal of the Korea Convergence Society
    • /
    • v.12 no.11
    • /
    • pp.1-18
    • /
    • 2021
  • While content word-based frequency analysis has obvious limitations to intentional deception or irony, KLIWC has evolved into functional word analysis and KrKwic has evolved as a way to visualize co-occurrence frequencies. However, after more than 10 years of development, several issues still need improvement. Therefore, we tried to develop a new psychological language analysis program by analyzing KLIWC and KrKwic. First, the two programs were analyzed. In particular, the morpheme classification of KLIWC and the Korean morpheme analyzer was compared to enhance the functional word analysis function, and the psychological dictionary were analyzed to strengthen the psychological analysis. As a result of the analysis, the Hannanum part-of-speech analyzer was the most subdivided, but KLIWC for personal pronouns and KKMA for endings and endings were more subdivided, suggesting the integrated use of multiple part-of-speech analyzers to strengthen functional word analysis. Second, the research trends of studies that analyzed texts with these programs were analyzed. As a result of the analysis, the two programs were used in various academic fields, including the field of Interdisciplinary Studies. In particular, KrKwic was used a lot for the analysis of papers and reports, and KLIWC was used a lot for the comparative study of the writer's thoughts, emotions, and personality. Based on these results, the necessity and direction of development of a new psychological language analysis program were suggested.