• Title/Summary/Keyword: 텍스트 연구

Search Result 3,494, Processing Time 0.031 seconds

KTARSQI: The Annotation of Temporal and Event Expressions in Korean Text (KTARSQI: 한국어 텍스트의 시간 및 사건 표현 주석)

  • Im, Seohyun;Kim, Yoon-Shin;Jo, Yoomi;Jang, Hayun;Ko, Minsoo;Nam, Seungho;Shin, Hyopil
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.130-135
    • /
    • 2009
  • 정보추출(information extraction), 질의-응답 시스템(Question-Answering system) 등의 자연언어처리 응용분야에서 시간과 사건에 관련한 정보를 추출하는 것은 중요한 부분이다. 그럼에도 불구하고, 한국어의 자연언어처리 응용분야에서는 아직까지 이 연구가 본격화되지 않았다. 미국 TARSQI 프로젝트의 연구결과를 바탕으로 하여 한국어 텍스트에서 시간 및 사건 표현의 주석, 추출, 추론을 위한 명세 언어(KTimeML), 주석 말뭉치(KTimeBank), 자동 태깅 시스템(KTarsqi Toolkit: KTTK)의 개발을 목표로 2008년 KTARSQI 프로젝트가 시작되었다. 이 논문에서는 KTARSQI 프로젝트의 목표와 과제에 대한 전반적인 소개와 함께, 현재까지 진행된 작업의 결과로서 사건 태그의 명세와 주석에 관한 논의를 덧붙인다.

  • PDF

LED Communication-based PC-PC Transmission System (LED통신기반 PC-PC 전송시스템)

  • Shim, Kyu-Sung;Le, The Dung;An, Beong-Ku;Park, In-Jung
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.12 no.1
    • /
    • pp.181-187
    • /
    • 2012
  • LED is just a semiconductor which can produce light. Currently, there are active research works on LED lighting technologies according to the growth of energy-saving environmental industry. Especially, LED communication is one of the active research works in these fields. In this paper, we design a LED communication-based PC-PC transmission system. A transmission circuit system(transmitter) using LED and a receiving circuit system(receiver) using PD(photo detector) and Op-amp are designed, respectively. The experiments for the designed system are performed as follows. One computer is connected at the end of transmitter and receiver, respectively, and text files are transmitted by using text transmission programming. In this experiment, we test the performance with various baud rates, LED colors, transmission ranges.

Building an RST-tagged Corpus and its Classification Scheme for Korean News Texts (한국어 수사구조 분류체계 수립 및 주석 코퍼스 구축)

  • Noh, Eunchung;Lee, Yeonsoo;Kim, YeonWoo;Lee, Do-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.33-38
    • /
    • 2016
  • 수사구조는 텍스트의 각 구성 성분이 맺고 있는 관계를 의미하며, 필자의 의도는 논리적인 구조를 통해서 독자에게 더 잘 전달될 수 있다. 따라서 독자의 인지적 효과를 극대화할 수 있도록 수사구조를 고려하여 단락과 문장 구조를 구성하는 것이 필요하다. 그럼에도 불구하고 지금까지 수사구조에 기초한 한국어 분류체계를 만들거나 주석 코퍼스를 설계하려는 시도가 없었다. 본 연구에서는 기존 수사구조 이론을 기반으로, 한국어 보도문 형식에 적합한 30개 유형의 분류체계를 정제하고 최소 담화 단위별로 태깅한 코퍼스를 구축하였다. 또한 구축한 코퍼스를 토대로 중심문장을 비롯한 문장 구조의 특징과 분포 비율, 신문기사의 장르적 특성 등을 살펴봄으로써 텍스트에서 응집성의 실현 양상과 구문상의 특징을 확인하였다. 본 연구는 한국어 담화 구문에 적합한 수사구조 분류체계를 설계하고 이를 이용한 주석 코퍼스를 최초로 구축하였다는 점에서 의의를 갖는다.

  • PDF

String Matching Algorithm on Multi-byte Character Set Texts (다중바이트 문자집합 텍스트에서의 문자열 검색 알고리즘)

  • Kim, Eun-Sang;Kim, Jin-Wook;Park, Kun-Soo
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.10
    • /
    • pp.1015-1019
    • /
    • 2010
  • An extensive research on exact string matching has been done, but there have been few researches on the matching in multi-byte character set texts such as EUC~KR. This paper shows that false matches may occur in multi-byte character set texts such as EUC-KR when using KMP algorithm, and presents a refined KMP algorithm without false matches applying a character-based prefix function. And also, Experimental results show that our algorithm is faster than string matching algorithms of widely used editors, Vim and Emacs, and the existing automata-based algorithm.

Deep learning-based custom problem recommendation algorithm to improve learning rate (학습률 향상을 위한 딥러닝 기반 맞춤형 문제 추천 알고리즘)

  • Lim, Min-Ah;Hwang, Seung-Yeon;Kim, Jeong-Jun
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.22 no.5
    • /
    • pp.171-176
    • /
    • 2022
  • With the recent development of deep learning technology, the areas of recommendation systems have also diversified. This paper studied algorithms to improve the learning rate and studied the significance results according to words through comparison with the performance characteristics of the Word2Vec model. The problem recommendation algorithm was implemented with the values expressed through the reflection of meaning and similarity test between texts, which are characteristics of the Word2Vec model. Through Word2Vec's learning results, problem recommendations were conducted using text similarity values, and problems with high similarity can be recommended. In the experimental process, it was seen that the accuracy decreased with the quantitative amount of data, and it was confirmed that the larger the amount of data in the data set, the higher the accuracy.

Analysis of User Reviews for Webtoon Applications Using Text Mining (텍스트 마이닝을 활용한 웹툰 애플리케이션 사용자 리뷰 분석)

  • Shin, Hyorim;Choi, Junho
    • The Journal of the Convergence on Culture Technology
    • /
    • v.8 no.4
    • /
    • pp.457-468
    • /
    • 2022
  • With the rapid growth of the webtoon industry, a new model for webtoon applications has emerged. We have entered the era of webtoon application version 3.0 after ver 1.0 and ver 2.0. Despite these changes, research on user review analysis for webtoon applications is still insufficient. Therefore, this study aims to analyze user reviews for 'Kakao Webtoon (Daum Webtoon)' that presented the webtoon application 3.0 model. For analysis, 20,382 application reviews were collected and pre-processed, and TF-IDF, network analysis, topic modeling, and emotional analysis were conducted for each version. As a result, the user experience of the webtoon application for each version was analyzed and usability testing conducted.

Developing a mobile application serving sign-language to text translation for the deaf (청각 장애인을 위한 수어 영상-자연어 번역 서비스 및 모바일 어플리케이션 구현)

  • Cho, Su-Min;Cho, Seong-Yeon;Shin, So-Yeon;Lee, Jee Hang
    • Annual Conference of KIPS
    • /
    • 2021.11a
    • /
    • pp.1012-1015
    • /
    • 2021
  • Covid-19 로 인한 마스크 착용이 청각장애인들의 소통을 더 어렵게 하는 바, 제 3 자의 도움 없이 쌍방향 소통을 가능하게 하는 서비스의 필요성이 커지고 있다. 이에 본 논문은 소통의 어려움을 겪는 청각장애인과 비청각장애인을 위한 쌍방향 소통 서비스에 대한 연구와 개발 과정, 기대 효과를 담는다. 서비스는 GRU-CNN 하이브리드 아키텍처를 사용하여 데이터셋을 영상 공간 정보와 시간 정보를 포함한 프레임으로 분할하는 영상 분류 기법과 같은 딥 러닝 알고리즘을 통해 수어 영상을 분류한다. 해당 연구는 "눈속말" 모바일 어플리케이션으로 제작 중이며 음성을 인식하여 수어영상과 텍스트로 번역결과를 제공하는 청각장애인 버전과 카메라를 통해 들어온 수어 영상을 텍스트로 변환하여 음성과 함께 제공하는 비청각장애인 버전 두 가지로 나누어 구현한다. 청각장애인과 비장애인의 쌍방향 소통을 위한 서비스는 청각장애인이 사회로 나아가기 위한 가장 기본적인 관문으로서의 역할을 할 것이며 사회 참여를 돕고 소통이라는 장벽을 넘어서는 발돋움이 될 것이라 예측된다.

A Big Data Analysis of Yumentingzheng: Weiwenqiju as an Example (어문청정 빅데이터 분석: 위문기거 일례)

  • Snowberger, Aaron Daniel;Lee, Choong Ho
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.10a
    • /
    • pp.624-626
    • /
    • 2021
  • Yumentingzheng, which records the contents of the Qing dynasty's discussions with his subjects, is an important document like the Annals of Joseon in Korea. This paper describes the method and steps for big data analysis of Yumentingzheng written in Manchu alphabet. In big data analysis of documents written in Manchu characters, there are many problems that need to be solved in advance, and research on these should be preceded. In this paper, a method of big data analysis using the R language was proposed in the stage where the text written in Manchurian characters was transliterated into Latin characters through a preliminary study to be conducted in the future. In the proposed method, Apkai method was adopted for the transliteration of Wumentingzheng, and the results of big data analysis were presented using the text of Weiwenqiju.

  • PDF

A Comparative Study of Figure Skating Commentary on NBCSN and MBC's Coverage of 2018 Olympic Games (NBCSN과 MBC의 평창동계올림픽 피겨 스케이팅 해설에 대한 비교분석: 피겨 스케이팅 중계방송 해설의 개선방안에 대하여)

  • Song, Yung-Joo;Kim, Hana
    • The Journal of the Korea Contents Association
    • /
    • v.22 no.8
    • /
    • pp.94-105
    • /
    • 2022
  • The purpose of this study is to suggest improvement plan for a commentary on figure skating in Korea from comparing to NBCSN and MBC's coverage of the 2018 Pyungchang Olympic Games employing both of quantitative and text analysis. Results indicate that NBCSN and MBC's commentary on figure skating have definitely different characteristics in terms of expertise and dramatizing ability. The commentator of MBC frequently used monotonous and repetitive emotional expression and provided incoherent information in very automatic way. Whereas, NBCSN's comments expressed very diverse way on introduction of players, explanation of technique and evaluation, especially on dramatizing ability to contextualize combining players' performance and background information.

Atomic Unit-based Post Editing for Hallucination Reduction (환각 현상 완화를 위한 단위 사실 기반 사후 교정)

  • Yonghwan Lee;Jeongwan Shin;Hyun-Je Song
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.222-227
    • /
    • 2023
  • 환각 현상이란 LLM이 생성 태스크에서 사실이 아닌 내용을 생성하거나 근거가 없는 내용을 생성하는 현상을 말한다. 환각 현상은 LLM이 생성한 출력물에 대한 사용자의 신뢰를 떨어뜨리기 때문에 환각을 완화할 수 있는 방법이 필요하다. 최근 사후 편집 모델 중 하나인 RARR는 입력 텍스트를 질문들 순서에 따라 순차적으로 편집하여 환각을 완화하였지만 이전 단계의 편집 오류가 전파되거나 같은 작업을 반복하는 등의 단점이 있었다. 본 논문은 환각 현상 완화를 위한 단위 사실 기반 사후 교정을 제안한다. 제안한 방법은 입력 텍스트를 단위 사실로 분해하고 각 사실에 대응하는 질문을 생성한 후 검색된 관련 문서로 환각 여부를 판단한다. 환각이라 판단되면 편집을 수행하여 환각을 완화한다. 병렬적으로 편집을 진행하기 때문에 기존 연구의 순차적인 오류 전파 문제를 해결하고 기존 연구에 비해 더 빠른 사후 편집을 진행할 수 있다. 실험 결과, 제안 방법이 RARR보다 Preservation Score, 원문과의 사실성 일치여부, 의도 보존 여부에서 모두 우수한 성능을 보인다.

  • PDF