• 제목/요약/키워드: 분류 문제

검색결과 3,553건 처리시간 0.033초

FAQ 분류 성능 향상을 위한 클래스 일치 여부 결합 학습 모델 (Jointly learning class coincidence classification for FAQ classification)

  • 양동일;함진아;이강욱;이지연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.12-17
    • /
    • 2019
  • FAQ(Frequently Asked Questions) 질의 응답 시스템은 자주 묻는 질문과 답변을 정의하고, 사용자 질의에 대해 정의된 답변 중 가장 알맞는 답변을 추론하여 제공하는 시스템이다. 정의된 대표 질문 및 대응하는 답변을 클래스(Class)라고 했을 때, FAQ 질의 응답 시스템은 분류(Classification) 문제라고 할 수 있다. 종래의 FAQ 분류는 동일 클래스 내 동의 문장(Paraphrase)에서 나타나는 공통적인 특징을 통해 분류 문제를 학습하였으나, 이는 비슷한 단어 구성을 가지면서 한 두 개의 단어에 의해 의미가 다른 문장의 차이를 구분하지 못하며, 특히 서로 다른 클래스에 속한 학습 데이터 간에 비슷한 의미를 가지는 문장이 존재할 때 클래스 분류에 오류가 발생하기 쉬운 문제점을 가지고 있다. 본 논문에서는 이 문제점을 해결하고자 서로 다른 클래스 내의 학습 데이터 문장들이 상이한 클래스임을 구분할 수 있도록 클래스 일치 여부(Class coincidence classification) 문제를 결합 학습(Jointly learning)하는 기법을 제안한다. 동일 클래스 내 학습 문장의 무작위 쌍(Pair)을 생성 및 학습하여 해당 쌍이 같은 클래스에 속한다는 것을 학습하게 하면서, 동시에 서로 다른 클래스 간 학습 문장의 무작위 쌍을 생성 및 학습하여 해당 쌍은 상이한 클래스임을 구분해 내는 능력을 함께 학습하도록 유도하였다. 실험을 위해서는 최근 발표되어 자연어 처리 분야에서 가장 좋은 성능을 보이고 있는 BERT 의 텍스트 분류 모델을 이용했으며, 제안한 기법을 적용한 모델과의 성능 비교를 위해 한국어 FAQ 데이터를 기반으로 실험을 진행했다. 실험 결과, 분류 문제만 단독으로 학습한 BERT 기본 모델보다 본 연구에서 제안한 클래스 일치 여부 결합 학습 모델이 유사한 문장들 간의 차이를 구분하며 유의미한 성능 향상을 보인다는 것을 확인할 수 있었다.

  • PDF

FDC-TCT를 이용한 웹 문서 클러스터링 성능 개선 기법 (A performance improvement methodology of web document clustering using FDC-TCT)

  • 고석범;윤성대
    • 정보처리학회논문지D
    • /
    • 제12D권4호
    • /
    • pp.637-646
    • /
    • 2005
  • 키워드를 통한 웹 검색 결과의 분류와 같은 후처리가 요구되는 문서 분류 문제에서, 기존의 문서 분류 또는 클러스터링 알고리즘을 적용하는 데에는 많은 문제가 있다 그 중에서 고려해야 할 가장 심각한 두 가지 문제가 있다. 첫째는 전문가가 관여하여 범주를 선정하는 문제이고, 둘째는 문서분류에 소요되는 수행시간이 긴 문제이다. 따라서 본 논문에서는 이행적 폐쇄 트리를 이용하여 문서 유사도 계산 횟수를 크게 줄이고, 정확도의 희생을 최소화하면서 신속한 처리가 가능한 새로운 웹 문서 클러스터링 기법을 제안하다. 또한, 제안된 기법의 효율성을 검증하기 위하여 기존의 알고리즘과 비교 평가 및 분석한다.

양의 단면 곡률을 가지는 컴팩트 공간에 대하여

  • 고관석
    • 대한수학회논문집
    • /
    • 제20권2호
    • /
    • pp.195-207
    • /
    • 2005
  • 리만 기하학에서 중요한 문제중의 하나는 주어진 곡률부호를 가지는 다양체를 분류하는 것이다. 그렇게 하기 위해서는 곡률과 위상과의 상호 관계를 밝히는 것이 중요하다. 특히 양의 곡률을 가지는 공간을 분류하는 것은 어려운 문제로 알려져 있으며 위상적 성질에 대해서도 알려진 것은 매우 적다. 본 논문에서는 지금까지 알려진 양의 곡률을 가지는 공간들을 살펴 보고 그들 공간들에 대한 일반적인 정리들과 호프의 문제를 소개하고자 한다.

사용자 효용을 고려한 사용성 문제의 우선순위 정의 및 사용성 개선 방향에 대한 연구 - 카노의 사용자 만족 모델의 활용 중심으로 (A Study of Improving Product Usability Based on the Classification of Usability Problems Considering Users' Satisfaction -Applying the Kano's Model of Customer Satisfaction)

  • 허정윤;박상현;송치원
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 2부
    • /
    • pp.179-184
    • /
    • 2006
  • "사용자 중심의 디자인(User-Centered Design)" 은 좋은 사용성을 가진 제품을 만들기 위한 사용되는 보편적인 접근방법중의 하나이다. 그러나 투자대비 최대의 가치 창조라는 경제성 원리와 개발 기간의 제약을 고려하면 개발 중 사용성 평가를 통해 발견된 문제들을 모두 제품에 반영하는 것은 거의 불가능 하다고 볼 수 있다. 그러므로 발견된 문제들에 대한 우선 순위를 정의한 후 가장 중요한 문제점에 대해 먼저 개선하는 전략이 필요하다. 기존의 사용성 문제에 대한 우선 순위는 주로 문제 자체의 심각도를 고려하여 결정되었다. 그러나 사용자가 인식하는 사용성(Perceived Usability)를 높이기 위해서는 사용자가 중요하게 생각하는 효용을 우선적으로 제품에 반영하는 것이 필수적이다. 본 연구에서는 카노의 사용자 만족 모델을 활용한 사용자 효용과 사용성 문제들의 잠재가치를 고려한 사용성 문제 분류를 기구 사용성 평가 가이드라인의 제작에 적용하였다. 제안된 분류에 의해 디자인 가이드라인을 1) 반드시 만족 시켜야하는 제품 사용성 기준, 2) 경쟁사 대비 우위를 유지하기 위한 비교평가 기준으로 나누어 정의함으로써 단일 제품의 절대적 평가가 아닌 경쟁사 제품과의 비교 평가를 통한 개선 방향의 제시에 Kano 모델을 기반으로 정의된 사용성 문제들의 효용가치분류가 효과적이라는 것을 본 연구를 통해 보이고자 한다.

  • PDF

프라이버시 보존 분류 방법 동향 분석

  • 김평;문수빈;조은지;이윤호
    • 정보보호학회지
    • /
    • 제27권3호
    • /
    • pp.33-41
    • /
    • 2017
  • 기계 학습(machine-learning) 분야의 분류 알고리즘(classification algorithms)은 의료 진단, 유전자 정보 해석, 스팸 탐지, 얼굴 인식 및 신용 평가와 같은 다양한 응용 서비스에서 사용되고 있다. 이와 같은 응용 서비스에서의 분류 알고리즘은 사용자의 민감한 정보를 포함하는 데이터를 이용하여 학습을 수행하는 경우가 많으며, 분류 결과도 사용자의 프라이버시와 연관된 경우가 많다. 따라서 학습에 필요한 데이터의 소유자, 응용 서비스 사용자, 그리고 서비스 제공자가 서로 다른 보안 도메인에 존재할 경우, 프라이버시 보호 문제가 발생할 수 있다. 본 논문에서는 이러한 문제를 해결하면서도 분류 서비스를 제공할 수 있도록 도와주는 프라이버시 보존 분류 프로토콜(privacy-preserving classification protocol: PPCP) 에 대해 소개한다. 구체적으로 PPCP의 프라이버시 보호 요구사항을 분석하고, 기존의 연구들이 프라이버시 보호를 위해 사용하는 암호학적 기본 도구(cryptographic primitive)들에 대해 소개한다. 최종적으로 그러한 암호학적 기본 도구를 사용하여 설계된 프라이버시 보존 분류 프로토콜에 대한 기존 연구들을 소개하고 분석한다.

다층 퍼셉트론 신경망을 이용한 숫자 분류기 설계 방식 분석 및 비교 (Analysis and Comparison of Numeral Classifiers Based on the Multilayer Perceptron)

  • 김세송;김동욱;정승원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.951-952
    • /
    • 2017
  • 숫자 인식 분야는 인식 분야에서도 오래된 분야이며 다양한 방법이 제시되어 있는데, 그 중 다중 퍼셉트로 신경망을 이용한 숫자 분류기에 대한 비교 분석을 수행한다. 특히 복잡한 문제를 여러 개의 단순한 문제로 나누는 방식의, 각 숫자에 대한 독립적인 분류기를 설계하는 방식에 대하여 분석을 수행한다. 일반적인 하나의 분류기로 전체 숫자를 분류하는 방식과의 비교를 통하여 숫자 분류에는 각 숫자에 대한 독립적인 분류기를 이용하는 것이 적합하다는 사실을 실험적으로 확인하였다.

애플리케이션 트래픽 분류를 위한 머신러닝 알고리즘 성능 분석 (Performance Analysis of Machine Learning Algorithms for Application Traffic Classification)

  • 김성윤;김명섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 춘계학술발표대회
    • /
    • pp.968-970
    • /
    • 2008
  • 기존에 트래픽 분류 방법으로 payload 분석이나 well-known port를 이용한 방법을 많이 사용했다. 하지만 동적으로 변하는 애플리케이션이 늘어남에 따라 기존 방법으로 애플리케이션 트래픽 분류가 어렵다. 이러한 문제의 대안으로 Machine Learning(ML) 알고리즘을 이용한 애플리케이션 트래픽 분류방법이 연구되고 있다. 기존의 논문에서는 일정 시간동안 수집한 data set을 사용하기 때문에 적게 발생한 애플리케이션은 제대로 분류하지 못하여도 전체적으로는 좋은 성능을 보일 수 있다. 본 논문에서는 이러한 문제를 해결하기 위해 각 애플리케이션마다 동일한 수의 data set을 수집하여 애플리케이션 트래픽을 분류하는 방법을 제시한다. ML 알고리즘 중 J48, REPTree, BayesNet, NaiveBayes, Multilayer Perceptron 알고리즘을 이용하여 애플리케이션 트래픽 분류의 정확도를 비교한다.

단일부류 최소제곱 서포트 벡터 머신 (One-class Least Square Support Vector Machines)

  • 우상호;이성환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.559-561
    • /
    • 2002
  • 서포트 벡터 머신은 얼굴인식이나 문자인식과 같은 다양한 패턴인식 문제에서 좋은 성능을 보여준다. 그러나 이러한 문제는 Quadratic Programming(QP) 문제에 관하여 몇 가지 단점을 가지고 있다. 일반적으로 대용량의 QP 문제를 해결하기 위해 많은 계산비용이 요구되며, QP 기반 시스템을 효과적으로 구현하는 것이 쉽지 않은 문제이다. 또한 대규모 데이터의 처리 시에는 입출력을 맞추기 또한 쉽지 않은 단점이 있다. 본 논문에서는 위의 단점을 극복하기 위하여 단일부류 문제를 최소제곱 서포트 벡터 머신을 기반으로 하여 해결하였다. 제안한 방법은 QP 문제를 해결하는 과정이 없이 단일부류 문제를 표현하여 최소제곱 방법을 이용하는 알고리즘이다. 제안된 방법으로 쉽고, 계산 비용을 줄이는 결과를 얻었다. 또한 서포트 벡터 영역 표식자에 확장 적용하여 선형방정식으로 구현하여, 문제를 해결하였다. 제안된 방법의 효율성을 입증하기 위하여 패턴인식 분야 중에 얼굴 인증 방법과 바이오인포매틱스 분야 중에 전립선 암 분류 문제에 적용하였다. 우리의 실험결과는 적합한 성능과 좋은 Equal Error Rate(EER)를 보여준다. 제안된 방법은 알 수 없는 물체의 분류 방법의 효율성을 증대시켰고, 실시간 응용분야에 직접적으로 적용될 수 있을 것으로 기대 된다.

  • PDF

다항식기반 RBF 신경회로망을 이용한 2-클래스 문제에 대한 패턴분류 (Pattern Classification of Two Classes' Problem Using Polynomial based Radial Basis Function Neural Networks)

  • 김길성;박병준;오성권
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2007년도 심포지엄 논문집 정보 및 제어부문
    • /
    • pp.451-452
    • /
    • 2007
  • 본 논문에서는 다항식 기반 Radial Basis Function(RBF)신경회로망(Polynomial based Radial Basis Function Neural Networks)을 설계하고 이를 2-클래스 패턴 분류 문제에 응용하여 그 성능을 분석한다. 제안된 다항식기반 RBF 신경회로망은 입력층, 은닉층, 출력 층으로 이루어진다. 입력층은 입력 벡터의 값들을 은닉 층으로 전달하는 기능을 수행하고 은닉층은 Fuzzy c-means 클러스터링을 통하여 뉴런의 출력 값으로 내보낸다. 은닉층과 출력층사이의 연결가중치는 상수, 선형식 또는 이차식으로 이루어지며 경사 하강법에 의해 학습된다. Networks의 최종 출력은 연결가중치와 은닉층 출력의 곱에 의해 퍼지추론의 결과로서 얻어진다. 제안된 다항식기반 RBF 신경회로망은 각기 다른 4종류의 2-클래스 분류 문제에 적용 및 평가되어 분류기로써의 성능을 분석한다.

  • PDF

LSTM을 이용한 태권도 경기의 변칙 발차기 탐지 연구 (A Study on the Detection of Anomalous Kicks in Taekwondo games by using LSTM)

  • 조단비;이현영;강승식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.1025-1027
    • /
    • 2020
  • 태권도 경기와 같이 동작의 정확한 기술을 판별하여 유효득점화하는 시스템에서는 점수 체계의 정확성과 전문성이 필요하다. 기존에 시행되었던 심판 판정은 객관성과 신뢰성의 결여 문제가 존재하여 이를 대체하기 위한 방법으로 전자호구가 도입되었다. 하지만 전자호구는 타격 강도에 따라 분류되는 문제로 인해 태권도 기술이 아닌 변칙 발차기 기술에서도 유효득점이 처리되는 문제가 발생하였다. 본 논문에서는 변칙 발차기와 일반 발차기를 분류하여 변칙 발차기에서의 유효득점을 무효 득점화 시키기 위한 분류 모델을 제안하였다. 순환 신경망 모델인 LSTM을 이용하여 변칙 발차기와 일반 발차기를 분류하였으며 94.90%의 정확도를 보였다.