• Title/Summary/Keyword: 한글자연어처리

Search Result 394, Processing Time 0.028 seconds

Analysis of the Korean Tokenizing Library Module (한글 토크나이징 라이브러리 모듈 분석)

  • Lee, Jae-kyung;Seo, Jin-beom;Cho, Young-bok
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.05a
    • /
    • pp.78-80
    • /
    • 2021
  • Currently, research on natural language processing (NLP) is rapidly evolving. Natural language processing is a technology that allows computers to analyze the meanings of languages used in everyday life, and is used in various fields such as speech recognition, spelling tests, and text classification. Currently, the most commonly used natural language processing library is NLTK based on English, which has a disadvantage in Korean language processing. Therefore, after introducing KonLPy and Soynlp, the Korean Tokenizing libraries, we will analyze morphology analysis and processing techniques, compare and analyze modules with Soynlp that complement KonLPy's shortcomings, and use them as natural language processing models.

  • PDF

Development of 3D sign language learning system for processing natural language (자연어 처리 수화 3D 학습 시스템 개발)

  • Kim, jai-hyun
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2011.05a
    • /
    • pp.229-230
    • /
    • 2011
  • 이 연구는 청각장애자 및 건청인들을 위한 수화교육 시스템으로 주어진 환경 내에서 청각 장애자 및 건청인들에게 3D 시각적인 정보를 활용해 교육하는 시스템에 대한 연구이다. 실생활에서 사용하는 수화 동작은 3D DB화하여, 입력되는 한글 텍스트에 대응해 3D 캐릭터가 수화 동작을 리얼하게 구현하는 것을 목적으로, 수화 교육이 필요한 장소나 사람들에게 유용하게 활용할 수 있도록 한다. 생활단어를 추가하여 대부분의 생활용어를 적절히 표현할 수 있도록 하고, 자연스러운 수화단어 구현을 위한 모션 편집 및 블랜딩 기법을 적용하며, 자연어처리 알고리즘을 활용하여 한글문장에도 대응할 수 있도록 개발하기 위하여 수화 애니메이션 기술, 한글 입력 문장에 따른 3D 수화 구문 변화 자연어 처리 알고리즘, 실시간 3D 랜더링 기술 등을 근간으로 한 시스템을 개발하고자 한다.

  • PDF

A Study on the Hangul Query Processor based on IFM(Information Modeling) (IFM에 기반한 한글 질의 처리기의 설계와 구현)

  • Lee, Seo-Jeong;Park, Jai-Nyun
    • The Transactions of the Korea Information Processing Society
    • /
    • v.4 no.10
    • /
    • pp.2445-2452
    • /
    • 1997
  • To assist the system development methodologies, there have been a lot of researches for treatment of natural language specification, which represents system behavior and user behavior. In this paper, we suggest Hangul Query Processor based on IFM(InFormation Modeling) which is one of the Object-Oriented software development methods. This Hangul query processor translates the Korean language specification to SQL and response query result. And it is designed to improve system usability by providing convenience to Korean language users. The advantages are The Hangul Query Processor affect higher system usability of and users in that it solves user's Korean language specification without help of the expert. And the software development contained query processor has result to be more participation of users and to reduce the system development time.

  • PDF

Hangeul Stem Extraction Algorithm for Text Mining Based on Natural Language Processing (자연어 처리 기반 텍스트 마이닝을 위한 한글 어간 추출 알고리즘)

  • Choi, Ki-won;Choi, Seong-hun;Jo, Sang-hyeon;Kim, Hee-cheol
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2017.05a
    • /
    • pp.718-721
    • /
    • 2017
  • Natural language processing, which is the basis of text mining, differs depending on the type of language. Especially, Hangeul, which has relatively high freedom of expression compared to other languages, has various forms of words depending on the use of ending. The part that does not change in these various forms of words is called the stem. For effective text mining, it is essential to extract words and unify various types of words. Therefore, this paper proposes an extraction algorithm for Hangul word for effective text mining of Hangul document.

  • PDF

Ethical Issues in Natural Language Processing arising from Data (데이터로 인해 발생하는 자연어처리 분야의 윤리적 이슈 )

  • Hyerin Kang;Yeonji Jang;Yejee Kang;Seoyoon Park;Hansaem Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.26-31
    • /
    • 2022
  • 자연어처리에서 데이터는 굉장히 많은 부분을 차지하고 중요한 역할이지만, 데이터로 인한 윤리적 이슈 또한 많이 나타난다. 본 연구는 자연어처리에서의 데이터 흐름의 과정에서 나타날 수 있는 윤리적 이슈를 단계별로 정리하였다. 이는 복잡한 자연어처리 과정의 특성과 자연어처리 분야에서 나타나는 상황을 모두 고려한 것이다. 또한 단계별로 정리한 이슈를 토대로 자연어처리가 더 나은 방향으로 나아가기 위한 데이터 관점에서의 미래 방향을 제시하였다.

  • PDF

Improving Contextual Understanding Using Sparse Attention Models (Sparse Attention 모델을 활용한 효율적인 문맥 이해)

  • Tae-Hoon Her
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.694-697
    • /
    • 2023
  • 본 논문은 문맥 이해에서 발생할 수 있는 문제점을 개선하기 위해 Sparse Attention 모델을 적용하였다. 실험 결과, 이 방법은 문맥 손실률을 상당히 줄이며 자연어 처리에 유용하다는 것을 확인하였다. 본 연구는 기계 학습과 자연어 처리분야에서 더 나은 문맥 이해를 위한 새로운 방향을 제시하며, 향후 다양한 모델과 방법론을 탐구하여 문맥 이해를 더욱 향상시킬 계획이다.

  • PDF

Korean Dependency Parsing Using Sequential Parsing Method Based on Pointer Network (순차적 구문 분석 방법을 반영한 포인터 네트워크 기반의 한국어 의존 구문 분석기)

  • Han, Janghoon;Park, Yeongjoon;Jeong, Younghoon;Lee, Inkwon;Han, Jungwook;Park, Seojun;Kim, Juae;Seo, Jeongyeon
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.533-536
    • /
    • 2019
  • 의존 구문 분석은 문장 구성 성분 간의 의존 관계를 분석하는 태스크로, 자연어 이해의 대표적인 과제 중 하나이다. 본 논문에서는 한국어 의존 구문 분석의 성능 향상을 위해 Deep Bi-Affine Network와 Left to Right Dependency Parser를 적용하고, 새롭게 한국어의 언어적 특징을 반영한 Right to Left Dependency Parser 모델을 제안한다. 3개의 의존 구문 분석 모델에 단어 표현을 생성하는 방법으로 ELMo, BERT 임베딩 방법을 적용하고 여러 종류의 모델을 앙상블하여 세종 의존 구문 분석 데이터에 대해 UAS 94.50, LAS 92.46 성능을 얻을 수 있었다.

  • PDF

Preprocessing technique for natural language processing considering the form of characters used in malicious comments (악성 댓글에 사용된 문자의 형태를 고려한 한국어 자연어처리를 위한 전처리 기법)

  • Kim, Hae-Soo;Kim, Mi-hui
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.543-545
    • /
    • 2022
  • 최근 악플에 대한 논란이 끊이지 않고 있어 이것을 해결하기위한 방법으로 자연어 처리를 이용하고 있다. 특히 소셜 미디어, 온라인 커뮤니티에서 많이 발생하고 있고 해당 매체에서는 한글을 그대로 사용하지 않고 그들의 은어를 섞어서 사용하며 그중에서 한글이 아닌 문자를 섞어서 만들어낸 문장도 있다. 이러한 문장은 기존의 모델에 학습된 데이터의 형태와 다르며 한글이 아닌 문장이 많을수록 모델의 예측이 부정확해진다는 단점이 있어 본 논문에서는 인공지능을 이용한 이미지 분류와 띄어쓰기, 오타 교정을 이용한 전처리 기법을 제안한다.

Performance Improvement of Mathematical Formula Retrieval Using Two Different Kinds of Embedding (두 종류의 임베딩을 이용한 수식 검색 성능 개선)

  • Yang, Seon;Kim, Hyemin;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.616-618
    • /
    • 2018
  • 본 연구에서는 한글 질의어를 이용하여 MathML이라는 마크업 언어 형태로 저장된 수식을 검색하는 수식 검색 시스템을 제안하는데, 마크업 형태 자체에 대한 임베딩과 수식을 한글화 한 후의 임베딩이라는 두 가지 서로 다른 임베딩 결과를 이용하여 검색 성능을 향상시키는 것을 목표로 한다. 최근 자연어 처리의 많은 과제에서 임베딩은 거의 필수적으로 사용되고 있는데, 본 실험을 통해 자연어 문서가 아닌 마크업 형태 수식을 대상으로도 임베딩 사용이 성능 개선에 효과가 있음을 확인할 수 있다. 검색 환경을 실제와 유사하게 설정하기 위하여, 본 실험에서 사용하는 데이터에는 실험을 위해 수기로 작성된 수식들 외에도 실제 웹에서 가져온 여러 분야의 수많은 수식들이 포함된다. Indri 시스템을 이용하여 검색 실험을 수행한 결과, 임베딩을 활용하여 수식을 확장한 경우 수식 확장 이전에 비해 MRR 기준 4.8%p의 성능 향상을 확인할 수 있었다.

  • PDF