• 제목/요약/키워드: 분류-언어

검색결과 1,099건 처리시간 0.048초

중첩 분할된 양방향 LSTM 기반의 한국어 프레임넷의 프레임 분류 및 논항의 의미역 분류 (Frame-semantics and Argument Disambiguation of Korean FrameNet using Bi-directional LSTM)

  • 함영균;신기연;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.352-357
    • /
    • 2018
  • 본 논문에서는 한국어 프레임넷 분석기를 구축하기 위하여 한국어 프레임넷 데이터를 가공하여 공개하고, 한국어 프레임 분류 및 논항의 의미역 분류 문제를 해결하기 위한 방법을 제안한다. 프레임넷은 단어 단위가 아닌 단어들의 범위로 구성된 범위에 대해 어노테이션된 코퍼스라는 점에 착안하여, 어휘 및 논항의 내부 의미 정보와 외부 의미 정보, 그리고 프레임과 각 의미역들의 임베딩을 학습한 중첩 분할된 양방향 LSTM 모델을 사용하였다. 이를 통해 한국어 프레임 분류에서 72.48%, 논항의 의미역 분류에서 84.08%의 성능을 보였다. 또한 본 연구를 통해 한국어 프레임넷 데이터의 개선 방안을 논의한다.

  • PDF

기계학습과 언어처리에 기반한 문자메시지 분류 (Text Message Classification based on Machine Learning)

  • 선주오;지명근;최범휘;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.492-495
    • /
    • 2019
  • 휴대전화 메시지로는 결제, 인증번호, 택배, 광고 등의 다양한 문자들이 수신된다. 이 문자들은 서로 섞여 있어 이용자가 찾고자 하는 문자를 찾는 데 어려움이 있다. 본 논문에서는 기계학습과 단어 임베딩을 통해 메시지들을 카테고리로 분류하는 방법을 제안하고, 이를 구현한 안드로이드 앱을 소개한다. 앱에서는 택배, 카드, 인증, 공공기관, 통신사, 대화, 기타의 7개의 분류로 메시지를 분류하며, 자동 분류에서는 수동 태깅한 5802건의 문자메시지를 사용한다. 앱에서는 저장된 문자메시지간 유사도에 기반한 오프라인에 서의 자동 분류를 지원하여 개인정보 노출에 대한 거부감이 있는 사용자의 요구를 반영한다.

  • PDF

다중 언어에서 다중 활자체 및 다중 크기의 문자 인식을 위한 2계층 분류기 (A Two-Layer Classifier for Recognition of Multi-font and Multi-size Characters in Multi-lingual Documents)

  • 지수영;문경애;오원근;김태윤
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.93-97
    • /
    • 1996
  • 본 논문에서는 2 계층 분류기를 이용하여 일반적인 문서(보고서, 책, 잡지, 워드프로세서에서 출력 된 양식) 내의 다중 크기 및 다중 활자체의 인식을 위한 효과적인 방법을 제안하고 구현하였다. 다중언어 문자를 효과적으로 인식하기 위한 2 계층 분류기를 제안하였는데 이는 폰트 독립적 분류기와 폰트 의존적 분류기로 구성되어 있다. 제안된 방법의 성능 평가를 위하여 사무실에서 많이 사용하는 59 종류의 폰트와 각 폰트 당 3가지 크기의 글꼴과, 스캐너에서 지원되는 3가지 농도의 총 489개의 서로 다른 부류를 갖는 3,593,172 자를 대상으로 학습시킨 뒤에 일반 문서를 가지고 펜티엄 PC 상에서 인식 실험을 수행하였다. 실험 결과, 2계층 분류기를 갖는 시스템에서 96-98%의 인식률과 초당40자 이상의 인식 속도를 보여줌으로써 일반적인 문서에서 다중 크기 및 다중 활자체의 문자 인식에 매우 실용적인 가치가 있음을 확인했다.

  • PDF

문서임베딩 기반 모바일 앱 분류 및 이를 이용한 마켓 분석 (Mobile App Clustering and Analyzing using Document Embedding)

  • 윤여찬;박수명;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.378-381
    • /
    • 2018
  • 스마트폰이 출시된 이후로 수많은 어플리케이션이 모바일로 출시되고 있다. 본 논문에서는 모바일 앱을 자동으로 분류하는 방법에 대하여 제안한다. 제안한 방법은 딥러닝 기반의 문서 임베딩 방법을 기반으로 효과적으로 앱을 분류한다. 본 논문에서는 또한 제안한 방법을 이용하여 독점도, 포화도, 인기순위를 기준으로 실제 마켓을 분석한다.

  • PDF

선천성.감음성 최중도 난청아를 위한 음성언어지도

  • 한옥희
    • 대한후두음성언어의학회지
    • /
    • 제7권1호
    • /
    • pp.113-122
    • /
    • 1996
  • 장애복지 선진국의 통계에 의하면 감음성 난청아의 약 80%가 중도(severe, 71-90dB, WHO 분류)와 최중도(profound, 91dB이상, WHO 분류) 난청이라고 한다. 출생 이전 및 출생시(선천성)에, 또는 2세 이전의 전언어기부터 청력을 않은 감음성 난청아 중에서, 청력 손상 정도가 심한 중도 이상인 경우에는 음성언어능력의 발달을 기대할 수 없는 것으로 간주되어, 즘은 의미에서의 구화에 의한 의사소통 내지 일반교육장에서의 교육도 불가능한 것으로 여겨져 왔다. (중략)

  • PDF

사용자 감정 인식과 공감적 대화 생성: ChatGPT와 소형 언어 모델 비교 (Empathetic Dialogue Generation based on User Emotion Recognition: A Comparison between ChatGPT and SLM)

  • 허승훈;이정민;조민수;권오욱;황금하
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.570-573
    • /
    • 2024
  • 본 연구는 대형 언어 모델 (LLM) 시대에 공감적 대화 생성을 위한 감정 인식의 필요성을 확인하고 소형 언어 모델 (SLM)을 통한 미세 조정 학습이 고비용 LLM, 특히 ChatGPT의 대안이 될 수 있는지를 탐구한다. 이를 위해 KoBERT 미세 조정 모델과 ChatGPT를 사용하여 사용자 감정을 인식하고, Polyglot-Ko 미세 조정 모델 및 ChatGPT를 활용하여 공감적 응답을 생성하는 비교 실험을 진행하였다. 실험 결과, KoBERT 기반의 감정 분류기는 ChatGPT의 zero-shot 접근 방식보다 뛰어난 성능을 보였으며, 정확한 감정 분류가 공감적 대화의 질을 개선하는 데 기여함을 확인하였다. 이는 공감적 대화 생성을 위해 감정 인식이 여전히 필요하며, SLM의 미세 조정이 고비용 LLM의 실용적 대체 수단이 될 수 있음을 시사한다.

  • PDF

비음수 행렬 분해와 동적 분류체계를 사용한 이메일 분류 (Email Classification using Dynamic Category Hierarchy and Non-negative Matrix Factorization)

  • 박선;안동언
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.35-39
    • /
    • 2009
  • 이메일의 사용증가로 수신 메일을 효율적이면서 정확하게 분류할 필요성이 점차 증가하고 있다. 현재의 이메일 분류는 베이지안, 규칙 기반 등을 이용하여 스팸 메일을 필터링하기 위한 이원 분류가 주를 이루고 있다. 클러스터링을 이용한 다원 분류 방법은 분류의 정확도가 떨어지는 단점이 있다. 본 논문에서는 비음수 행렬 분해(NMF, Non-negative Matrix Factrazation)를 기반으로 한 자동 분류 주제 생성 방법과 동적 분류 체계(DCH, Dynamic Category Hierachy) 방법을 결합한 새로운 이메일 분류 방법을 제안한다. 이 방법은 수신되는 이메일을 자동으로 분류하여 대량의 메일을 효율적으로 관리할 수 있으며, 분류 결과 사용자의 요구사항을 만족하지 못하면 메일을 동적으로 재분류 하여 분류 정확률을 높일 수 있다.

  • PDF

Doc2Vec 문서 임베딩을 이용한 질의문과 판례 자동 연결 방안 연구 (A Study on the Connecting Method of Query and Legal Cases Using Doc2Vec Document Embedding)

  • 강예지;강혜린;박서윤;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.76-81
    • /
    • 2020
  • 법률 전문 지식이 없는 사람들이 법률 정보 검색을 성공적으로 하기 위해서는 일반 용어를 검색하더라도 전문 용어가 사용된 법령정보가 검색되어야 한다. 하지만 현 판례 검색 시스템은 사용자 선호도 검색이 불가능하며, 일반 용어를 사용하여 검색하면 사용자가 원하는 전문 자료를 도출하는 데 어려움이 있다. 이에 본 논문에서는 일반용어가 사용된 질의문과 전문용어가 사용된 판례를 자동으로 연결해 주고자 하였다. 질의문과 연관된 판례를 자동으로 연결해 주기 위해 전문용어가 사용된 전문가 답변을 바탕으로 문서분류에 높은 성능을 보이는 Doc2Vec을 이용한다. Doc2Vec 문서 임베딩 기법을 이용하여 전문용어가 사용된 전문가 답변과 유사한 답변을 제안하여 비슷한 주제의 답변들끼리 분류하였다. 또한 전문가 답변과 유사도가 높은 판례를 제안하여 질의문에 해당하는 판례를 자동으로 연결하였다.

  • PDF

지지 벡터 기계를 이용한 계층적 문서 분류 (Hierarchical Text Categorization using Support Vector Machine)

  • 윤용욱;이창기;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.7-13
    • /
    • 2003
  • 인터넷을 통해 생성, 전달되는 문서 량이 급격히 많아짐에 따라, 정보의 접근을 용이하게 하기 위한 문서의 자동 분류 기능이 절실히 요구되고 있다. SVM(Support Vector Machine)은 최근에 문서 분류에 널리 쓰이고 있는 기법으로 다른 분류기에 비하여 좋은 성능을 보여주고 있다. 하지만 SVM은 현재까지 주로 비 계층 평탄화(flat)된 분류 응용에 효과적으로 적용되어 왔다. 이와 달리 본 논문은 문서 분류에 있어서 최종 분류 class를 한번에 출력하는 비 계층 분류보다는, 비슷한 성질을 갖는 class의 집합을 계층적 구조로 묶어 분류하는 계층적 분류 기법이 보다 사람이 이해하기 쉽고 사용하기 편리하며 더 효과적이라는 것을 보이고, 실험을 통해 계층적 분류를 위한 효과적인 SVM분류기를 개발하여 비 계층 분류보다 좋은 분류 성능을 보여 줄 수 있음을 확인한다.

  • PDF

대화에서 멀티태스크 학습을 이용한 감정 및 화행 분류 (Emotion and Speech Act classification in Dialogue using Multitask Learning)

  • 신창욱;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.532-536
    • /
    • 2018
  • 심층인공신경망을 이용한 대화 모델링 연구가 활발하게 진행되고 있다. 본 논문에서는 대화에서 발화의 감정과 화행을 분류하기 위해 멀티태스크(multitask) 학습을 이용한 End-to-End 시스템을 제안한다. 우리는 감정과 화행을 동시에 분류하는 시스템을 개발하기 위해 멀티태스크 학습을 수행한다. 또한 불균형 범주 분류를 위해 계단식분류(cascaded classification) 구조를 사용하였다. 일상대화 데이터셋을 사용하여 실험을 수행하였고 macro average precision으로 성능을 측정하여 감정 분류 60.43%, 화행 분류 74.29%를 각각 달성하였다. 이는 baseline 모델 대비 각각 29.00%, 1.54% 향상된 성능이다. 본 논문에서는 제안하는 구조를 이용하여, 발화의 감정 및 화행 분류가 End-to-End 방식으로 모델링 가능함을 보였다. 그리고, 두 분류 문제를 하나의 구조로 적절히 학습하기 위한 방법과 분류 문제에서의 범주 불균형 문제를 해결하기 위한 분류 방법을 제시하였다.

  • PDF