• 제목/요약/키워드: 한글자연어처리

검색결과 394건 처리시간 0.028초

한글 토크나이징 라이브러리 모듈 분석 (Analysis of the Korean Tokenizing Library Module)

  • 이재경;서진범;조영복
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.78-80
    • /
    • 2021
  • 현재 자연어 처리(NLP)에 대한 연구는 급속히 발전하고 있다. 자연어 처리는 인간이 일상생활에서 사용하는 언어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 기술로 음성인식, 맞춤법 검사, 텍스트 분류 등 여러 분야에 사용하고 있다. 현재 가장 많이 사용되는 자연어처리 라이브러리는 영어를 기준으로 한 NLTK로 한글처리에 단점을 가지고 있다. 따라서 본 논문에서는 한글 토크나이징(Tokenizing) 라이브러리인 KonLPy와 Soynlp를 소개 후 형태소 분석 및 처리 기법을 분석하고, KonLPy의 단점을 보완한 Soynlp와의 모듈을 비교·분석하여 향후 의료분야에 적합한 자연어 처리 모델로 활용하고자 한다.

  • PDF

자연어 처리 수화 3D 학습 시스템 개발 (Development of 3D sign language learning system for processing natural language)

  • 김재현
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2011년도 춘계 종합학술대회 논문집
    • /
    • pp.229-230
    • /
    • 2011
  • 이 연구는 청각장애자 및 건청인들을 위한 수화교육 시스템으로 주어진 환경 내에서 청각 장애자 및 건청인들에게 3D 시각적인 정보를 활용해 교육하는 시스템에 대한 연구이다. 실생활에서 사용하는 수화 동작은 3D DB화하여, 입력되는 한글 텍스트에 대응해 3D 캐릭터가 수화 동작을 리얼하게 구현하는 것을 목적으로, 수화 교육이 필요한 장소나 사람들에게 유용하게 활용할 수 있도록 한다. 생활단어를 추가하여 대부분의 생활용어를 적절히 표현할 수 있도록 하고, 자연스러운 수화단어 구현을 위한 모션 편집 및 블랜딩 기법을 적용하며, 자연어처리 알고리즘을 활용하여 한글문장에도 대응할 수 있도록 개발하기 위하여 수화 애니메이션 기술, 한글 입력 문장에 따른 3D 수화 구문 변화 자연어 처리 알고리즘, 실시간 3D 랜더링 기술 등을 근간으로 한 시스템을 개발하고자 한다.

  • PDF

IFM에 기반한 한글 질의 처리기의 설계와 구현 (A Study on the Hangul Query Processor based on IFM(Information Modeling))

  • 이서정;박재년
    • 한국정보처리학회논문지
    • /
    • 제4권10호
    • /
    • pp.2445-2452
    • /
    • 1997
  • 시스템 개발방법론을 지원하는 자동화도구를 만들기 위해서 시스템의 행위나 사용자 행위를 자연어 명세로 기술하고 이를 처리하는데 대한 많은 연구가 진행되고 있다. 본 논문에서는 객체 지향 소프트웨어 개방 방법인 IFM(InFormation Modeling)을 기반으로 한 한글 질의 처리기를 제안한다. 이 질의 처리기는 시스템에 입력된 자연어 형태의 한글 명세로 SQL로 변환하여 처리하며, 한글을 사용하는 사용자에게 편리를 제공하여 시스템 활용도를 높이기 위해 고안되었다. 이 한글 질의 처리기는 한글로 입력된 사용자의 요구를 받아들여 처리하므로, 시스템에 익숙하지 않은 사용자도 전문가의 도움 없이 직접 시스템에 접근할 수 있으며, 한국어 사용자들이 시스템 개발에 능동적으로 참여하여 시스템 개발 시간을 줄일 수 있는 장점이 있다.

  • PDF

자연어 처리 기반 텍스트 마이닝을 위한 한글 어간 추출 알고리즘 (Hangeul Stem Extraction Algorithm for Text Mining Based on Natural Language Processing)

  • 최기원;최성훈;조상현;김희철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.718-721
    • /
    • 2017
  • 텍스트 마이닝의 기반이 되는 자연어 처리는 언어의 종류에 따라 처리 방법이 다를 수 있다. 특히 타 언어에 비해 비교적 표현의 자유도가 높은 한글은 어미의 활용에 따라서 여러 가지 단어의 형태가 존재한다. 이처럼 다양한 형태로 굴절하는 단어에서 변화하지 않는 부분을 어간이라고 하며, 효과적인 텍스트 마이닝을 위해선 어간을 추출하여 다양한 형태의 단어들을 단일화하는 과정이 필수적이다. 따라서 본 논문에서는 한글문서의 효과적인 텍스트 마이닝을 위하여 한글 어간 추출 알고리즘을 제시한다.

  • PDF

데이터로 인해 발생하는 자연어처리 분야의 윤리적 이슈 (Ethical Issues in Natural Language Processing arising from Data)

  • 강혜린;장연지;강예지;박서윤;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.26-31
    • /
    • 2022
  • 자연어처리에서 데이터는 굉장히 많은 부분을 차지하고 중요한 역할이지만, 데이터로 인한 윤리적 이슈 또한 많이 나타난다. 본 연구는 자연어처리에서의 데이터 흐름의 과정에서 나타날 수 있는 윤리적 이슈를 단계별로 정리하였다. 이는 복잡한 자연어처리 과정의 특성과 자연어처리 분야에서 나타나는 상황을 모두 고려한 것이다. 또한 단계별로 정리한 이슈를 토대로 자연어처리가 더 나은 방향으로 나아가기 위한 데이터 관점에서의 미래 방향을 제시하였다.

  • PDF

Sparse Attention 모델을 활용한 효율적인 문맥 이해 (Improving Contextual Understanding Using Sparse Attention Models)

  • 허태훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.694-697
    • /
    • 2023
  • 본 논문은 문맥 이해에서 발생할 수 있는 문제점을 개선하기 위해 Sparse Attention 모델을 적용하였다. 실험 결과, 이 방법은 문맥 손실률을 상당히 줄이며 자연어 처리에 유용하다는 것을 확인하였다. 본 연구는 기계 학습과 자연어 처리분야에서 더 나은 문맥 이해를 위한 새로운 방향을 제시하며, 향후 다양한 모델과 방법론을 탐구하여 문맥 이해를 더욱 향상시킬 계획이다.

  • PDF

순차적 구문 분석 방법을 반영한 포인터 네트워크 기반의 한국어 의존 구문 분석기 (Korean Dependency Parsing Using Sequential Parsing Method Based on Pointer Network)

  • 한장훈;박영준;정영훈;이인권;한정욱;박서준;김주애;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.533-536
    • /
    • 2019
  • 의존 구문 분석은 문장 구성 성분 간의 의존 관계를 분석하는 태스크로, 자연어 이해의 대표적인 과제 중 하나이다. 본 논문에서는 한국어 의존 구문 분석의 성능 향상을 위해 Deep Bi-Affine Network와 Left to Right Dependency Parser를 적용하고, 새롭게 한국어의 언어적 특징을 반영한 Right to Left Dependency Parser 모델을 제안한다. 3개의 의존 구문 분석 모델에 단어 표현을 생성하는 방법으로 ELMo, BERT 임베딩 방법을 적용하고 여러 종류의 모델을 앙상블하여 세종 의존 구문 분석 데이터에 대해 UAS 94.50, LAS 92.46 성능을 얻을 수 있었다.

  • PDF

악성 댓글에 사용된 문자의 형태를 고려한 한국어 자연어처리를 위한 전처리 기법 (Preprocessing technique for natural language processing considering the form of characters used in malicious comments)

  • 김해수;김미희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.543-545
    • /
    • 2022
  • 최근 악플에 대한 논란이 끊이지 않고 있어 이것을 해결하기위한 방법으로 자연어 처리를 이용하고 있다. 특히 소셜 미디어, 온라인 커뮤니티에서 많이 발생하고 있고 해당 매체에서는 한글을 그대로 사용하지 않고 그들의 은어를 섞어서 사용하며 그중에서 한글이 아닌 문자를 섞어서 만들어낸 문장도 있다. 이러한 문장은 기존의 모델에 학습된 데이터의 형태와 다르며 한글이 아닌 문장이 많을수록 모델의 예측이 부정확해진다는 단점이 있어 본 논문에서는 인공지능을 이용한 이미지 분류와 띄어쓰기, 오타 교정을 이용한 전처리 기법을 제안한다.

두 종류의 임베딩을 이용한 수식 검색 성능 개선 (Performance Improvement of Mathematical Formula Retrieval Using Two Different Kinds of Embedding)

  • 양선;김혜민;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.616-618
    • /
    • 2018
  • 본 연구에서는 한글 질의어를 이용하여 MathML이라는 마크업 언어 형태로 저장된 수식을 검색하는 수식 검색 시스템을 제안하는데, 마크업 형태 자체에 대한 임베딩과 수식을 한글화 한 후의 임베딩이라는 두 가지 서로 다른 임베딩 결과를 이용하여 검색 성능을 향상시키는 것을 목표로 한다. 최근 자연어 처리의 많은 과제에서 임베딩은 거의 필수적으로 사용되고 있는데, 본 실험을 통해 자연어 문서가 아닌 마크업 형태 수식을 대상으로도 임베딩 사용이 성능 개선에 효과가 있음을 확인할 수 있다. 검색 환경을 실제와 유사하게 설정하기 위하여, 본 실험에서 사용하는 데이터에는 실험을 위해 수기로 작성된 수식들 외에도 실제 웹에서 가져온 여러 분야의 수많은 수식들이 포함된다. Indri 시스템을 이용하여 검색 실험을 수행한 결과, 임베딩을 활용하여 수식을 확장한 경우 수식 확장 이전에 비해 MRR 기준 4.8%p의 성능 향상을 확인할 수 있었다.

  • PDF