• Title/Summary/Keyword: sentence processing

Search Result 323, Processing Time 0.048 seconds

ConWis: Assistive Software for People with Hearing and Speaking Disorders

  • Kodirov, Khasanboy;Kodirov, Khusanboy;Lee, Young-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.678-679
    • /
    • 2019
  • In this paper, we developed a medical computer application for both disable children and adults in order to provide the chance to communicate easily with others. Although there are many mobile healthcare apps available nowadays, we believe that users should also have many options for choosing different types of healthcare programs developed for computers. That's why we have developed ConWis. This application helps a person with hearing loss, voice, speech, or language disorder to communicate easily with others. Through this software, hearing and understanding what is being said more clearly or to express thoughts become easier. To use this software, patient should input a sentence and it will be converted to audio speech using built-in voices for man or woman. In addition to that, it can convert voice that is received by microphone into text and display it on the screen.

The Design of morphological analyzer using a sentence-patterns (문장패턴을 활용한 형태소 분석기의 설계)

  • Hong, Sung-woong;Yon, Che-Yong;Park, Chan-Khon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.681-684
    • /
    • 2004
  • 본 논문에서는 한국어의 문장패턴을 활용한 형태소 분석기를 설계하였다. 어절기반의 형태소 분석기들이 갖는 형태소 분석 정보는 어절의 품사 등의 기초적 정보만을 포함한다. 본 논문에서 제안하는 문장패턴을 활용한 형태소 분석기는 문장단위의 형태소 분석을 제안하였고 형태소 분석단계에서 구문분석과 문장패턴이 갖는 의미정보를 포함함으로서 분석결과의 활용도를 높이도록 하였다. 제안된 형태소 분석기의 결과를 활용하여 질의 응답시스템, 정보 검색 등의 분야에서 구문분석, 의미분석의 단계를 최소화 하여 결과를 얻을 수 있을 것으로 기대한다.

  • PDF

Grammatical Structure Oriented Automated Approach for Surface Knowledge Extraction from Open Domain Unstructured Text

  • Tissera, Muditha;Weerasinghe, Ruvan
    • Journal of information and communication convergence engineering
    • /
    • v.20 no.2
    • /
    • pp.113-124
    • /
    • 2022
  • News in the form of web data generates increasingly large amounts of information as unstructured text. The capability of understanding the meaning of news is limited to humans; thus, it causes information overload. This hinders the effective use of embedded knowledge in such texts. Therefore, Automatic Knowledge Extraction (AKE) has now become an integral part of Semantic web and Natural Language Processing (NLP). Although recent literature shows that AKE has progressed, the results are still behind the expectations. This study proposes a method to auto-extract surface knowledge from English news into a machine-interpretable semantic format (triple). The proposed technique was designed using the grammatical structure of the sentence, and 11 original rules were discovered. The initial experiment extracted triples from the Sri Lankan news corpus, of which 83.5% were meaningful. The experiment was extended to the British Broadcasting Corporation (BBC) news dataset to prove its generic nature. This demonstrated a higher meaningful triple extraction rate of 92.6%. These results were validated using the inter-rater agreement method, which guaranteed the high reliability.

Method of making a conception class from problem description using sentence analysis (문제기술서의 문장 분석을 통한 개념클래스 도출 방법 제안)

  • Park, Ga-Young;Lee, Yong-Hun;Lee, San-Bum
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.958-961
    • /
    • 2010
  • 본 논문에서는 고객의 초기 요구 문서인 문제 기술서로부터 문장 분석을 통하여 개념클래스를 도출하는 방법에 대하여 제안한다. 문제기술서는 개발할 시스템에 대한 고객의 요구사항을 개괄적으로 작성된 문서로서 요구사항을 분석하고 설계할 때 이용되는 초기 문서 역할을 한다. 개발자는 이 문서의 내용을 바탕으로 시스템에 중요한 개념클래스를 도출하는 작업을 시작한다. 시스템 개발에 사용될 개념클래스들을 도출하는 것은 객체지향적인 설계에서 중요한 과정이다. 문서 기술서로부터 개념클래스 도출 과정은 주로 개발자의 경험과 직관에 의존하는 경향이 있으며 경험이 많은 전문 개발자들은 문제 기술서로부터 개념클래스들을 올바르게 도출할 수 있지만 초보 개발자의 경우 도출에 어려움이 따른다. 이러한 문제점의 개선 방법으로 기술서의 문서에서 문장 단위로 형태소 분석을 통하여 명사와 동사를 추출한다. 추출된 명사를 통하여 2가지 분류 기준에 따라 개념클래스 도출하고, 이후 동사를 이용하여 개념클래스 간의 관계 설정하는 방법을 제안한다.

Semantic Similarity Calculation based on Siamese TRAT (트랜스포머 인코더와 시암넷 결합한 시맨틱 유사도 알고리즘)

  • Lu, Xing-Cen;Joe, Inwhee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.397-400
    • /
    • 2021
  • To solve the problem that existing computing methods cannot adequately represent the semantic features of sentences, Siamese TRAT, a semantic feature extraction model based on Transformer encoder is proposed. The transformer model is used to fully extract the semantic information within sentences and carry out deep semantic coding for sentences. In addition, the interactive attention mechanism is introduced to extract the similar features of the association between two sentences, which makes the model better at capturing the important semantic information inside the sentence. As a result, it improves the semantic understanding and generalization ability of the model. The experimental results show that the proposed model can improve the accuracy significantly for the semantic similarity calculation task of English and Chinese, and is more effective than the existing methods.

Multi Sentence Summarization Method using Similarity Clustering of Word Embedding (워드 임베딩의 유사도 클러스터링을 통한 다중 문장 요약 생성 기법)

  • Lee, Pil-Won;Song, Jin-su;Shin, Yong-Tae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.290-292
    • /
    • 2021
  • 최근 인코더-디코더 구조의 자연어 처리모델이 활발하게 연구가 이루어지고 있다. 인코더-디코더기반의 언어모델은 특히 본문의 내용을 새로운 문장으로 요약하는 추상(Abstractive) 요약 분야에서 널리 사용된다. 그러나 기존의 언어모델은 단일 문서 및 문장을 전제로 설계되었기 때문에 기존의 언어모델에 다중 문장을 요약을 적용하기 어렵고 주제가 다양한 여러 문장을 요약하면 요약의 성능이 떨어지는 문제가 있다. 따라서 본 논문에서는 다중 문장으로 대표적이고 상품 리뷰를 워드 임베딩의 유사도를 기준으로 클러스터를 구성하여 관련성이 높은 문장 별로 인공 신경망 기반 언어모델을 통해 요약을 수행한다. 제안하는 모델의 성능을 평가하기 위해 전체 문장과 요약 문장의 유사도를 측정하여 요약문이 원문의 정보를 얼마나 포함하는지 실험한다. 실험 결과 기존의 RNN 기반의 요약 모델보다 뛰어난 성능의 요약을 수행했다.

A Pilot Study on the Generation of Legal Document Sentence based on Generative Pre-trained Transformer (생성적 사전학습 언어모델 기반의 판결문 문장 생성에 관한 파일럿 연구)

  • So, Kwangsub;Kim, Ho-Jung;Park, Ro-Seop;Won, Dong-Ok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.443-445
    • /
    • 2022
  • 인공지능 기술이 발전함에 따라 경찰의 범죄수사 분야에서도 인공지능 기술을 적용하고자 하는 연구가 활발하다. 범죄수사의 결과물인 수사결과 보고서 작성에 있어 판결문은 중요한 데이터가 될 수 있다. 그러나 판결문은 공개된 데이터의 이미지화로 인해 정형화된 데이터의 확보가 까다롭고, 소수의 법조계 전문가가 아닌 일반인이 생성해내기 어려워 데이터 확보가 쉽지 않은 현실이다. 이에 본 연구에서는 생성적 사전학습 언어모델을 이용한 판결문 문장 데이터 생성을 제안하였다. 카카오의 KoGPT를 활용하여 실제 판결문장 일부를 제시한 결과 판결문과 유사한 형태의 문장을 생성한 것을 확인하였다. 향후 판결문 데이터를 활용하기 위한 인공지능 기술 기반 범죄수사 연구에 있어, 생성된 판결문 데이터를 활용할 수 있을 것으로 기대된다.

HR-evaluation sentence multi-classification and Analysis post-training effect using unlabeled data (HR-평가 문장 Multi-classification 및 Unlabeled data 를 활용한 Post-training 효과 분석)

  • Choi, Cheol;Lim, HeuiSeok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.424-427
    • /
    • 2022
  • 본 연구는 도메인 특성이 강한 HR 평가문장을 BERT PLM 모델을통해 4 가지 class 로 구분하는 문제를 다룬다. 다양한 PLM 모델 적용과 training data 수에 따른 모델 성능 비교를 통해 특정 도메인에 언어모델을 적용하기 위해서 필요한 기준을 확인하였다. 또한 Unlabeled 된 HR 분야 corpus 를 활용하여 BERT 모델을 post-training 한 HR-BERT 가 PLM 분석모델 정확도 향상에 미치는 결과를 탐구한다. 위와 같은 연구를 통해 HR 이 가지고 있는 가장 큰 text data 에 대한 활용 기반을 마련하고, 특수한 도메인 분야에 PLM 을 적용하기 위한 가이드를 제시하고자 한다

Intelligent Korean Sentence Summarization Technique Combining KoBART and GSG (KoBART와 GSG를 결합한 지능형 한국어 문장 요약 기법)

  • Hyeonsol Sim;Hyeonbin Park;Jeeyoung Park;Jaewon Sin;Youngjong Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.698-700
    • /
    • 2023
  • 본 논문에서는 한국어 데이터와 모델링, 추가 평가 지표를 통해 Text Summarization 분야에서 한국어로 좋은 성능을 내기 위한 방식을 제안한다. KoBART의 크기를 키우고 PEGASUS의 GSG를 사용하는 KoBART-GSG 모델을 제안한다. 이때 ASR 모델을 사용하여 한국어 데이터를 구축하고 추가 학습을 진행한다. 또한, 생성된 요약문과 원문에서 Attention 기법으로 키워드와 핵심 문장을 추출하여 지능형 텍스트를 구성하는 새로운 방식을 제안한다. ASR Open API와 제안한 방식을 사용하여 오디오 파일을 텍스트로 변환하고 요약하는 강의나 회의 등 학계와 산업에서 사용할 수 있는 서비스를 제공한다.

CEFR-based Sentence Writing Assessment using Bilingual Corpus (병렬 말뭉치를 이용한 CEFR 기반 문장 작문 평가)

  • Sung-Kwon Choi;Oh-Woog Kwon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.54-57
    • /
    • 2023
  • CEFR(Common European Framework of Reference for Language)는 유럽 전역의 교육기관에서 언어구사 능력을 평가하는 평가 기준이다. 본 논문은 학습자가 문장 작문한 것을 CEFR 에 기반하여 평가하는 모델을 기술하는 것을 목표로 한다. CEFR 기반 문장 작문 평가는 크게 전처리 단계, 작문 단계, 평가 단계로 구성된다. CEFR 기반 문장 작문 평가 모델의 평가는 CEFR 수준별로 분류한 문장들이 전문가의 수동 분류와 일치하는 지의 정확도와 학습자가 작문한 결과의 자동 평가로 측정되었다. 실험은 독일어를 대상으로 하였으며 독일어 전공 41 명의 대학생에게 CEFR 6 등급별로 5 문장씩 총 30 문장의 2 세트를 만들어 실험을 실시하였다. 그 결과 CEFR 등급별 자동 분류는 전문가의 수동 분류와 61.67%로 일치하는 정확도를 보였다.