• 제목/요약/키워드: 자동 분류

검색결과 1,692건 처리시간 0.048초

자동문서분류를 위한 텐서공간모델 기반 심층 신경망 (A Tensor Space Model based Deep Neural Network for Automated Text Classification)

  • 임푸름;김한준
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.3-13
    • /
    • 2018
  • 자동문서분류(Text Classification)는 주어진 텍스트 문서를 이에 적합한 카테고리로 분류하는 텍스트 마이닝 기술 중의 하나로서 스팸메일 탐지, 뉴스분류, 자동응답, 감성분석, 쳇봇 등 다양한 분야에 활용되고 있다. 일반적으로 자동문서분류 시스템은 기계학습 알고리즘을 활용하며, 이 중에서 텍스트 데이터에 적합한 알고리즘인 나이브베이즈(Naive Bayes), 지지벡터머신(Support Vector Machine) 등이 합리적 수준의 성능을 보이는 것으로 알려져 있다. 최근 딥러닝 기술의 발전에 따라 자동문서분류 시스템의 성능을 개선하기 위해 순환신경망(Recurrent Neural Network)과 콘볼루션 신경망(Convolutional Neural Network)을 적용하는 연구가 소개되고 있다. 그러나 이러한 최신 기법들이 아직 완벽한 수준의 문서분류에는 미치지 못하고 있다. 본 논문은 그 이유가 텍스트 데이터가 단어 차원 중심의 벡터로 표현되어 텍스트에 내재한 의미 정보를 훼손하는데 주목하고, 선행 연구에서 그 효능이 검증된 시멘틱 텐서공간모델에 기반하여 심층 신경망 아키텍처를 제안하고 이를 활용한 문서분류기의 성능이 대폭 상승함을 보인다.

극한 언어 환경에 대응 가능한 영한 자동 주소번역 시스템 (Automatic English-Korean Address Translation System for Extremely Unpredictable Error Generating Language Environments)

  • 김경식;황명진;이승필
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.239-242
    • /
    • 2016
  • 데이터베이스 기반 자동 주소번역은 입력 오류에 취약하며 범용 기계번역을 이용한 주소번역은 입력 및 번역 주소에 대한 품질 평가가 어렵다. 본 논문에서는 예측할 수 없는 입력 오류에도 대응할 수 있는 자동 주소번역 시스템을 제안한다. 제안 시스템은 n-gram 기반 검색, 미검색/오검색 분류, 번역, 신뢰도 자동평가로 구성된다. 신뢰할 수 있는 입력으로 자동 분류한 영문 국내주소를 국문으로 번역한 결과 95%이상의 정확도를 보였다.

  • PDF

E-Mail 시스템의 첨부파일 형식별 자동분류 및 스팸 제거 에이전트 설계 (Agent for File Format based Classification of the Attached File in E-Mail System)

  • 현영순;정옥란;조동섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (중)
    • /
    • pp.801-804
    • /
    • 2003
  • 인터넷과 E-mail 의 사용자가 증가하게 되면서 대량의 메일을 송수신하는 경우, 메일에 대한 효율적 관리의 문제와 불필요한 메일에 대한 관리의 중요성이 부각되고 있다. 본 논문에서는 -mail 시스템의 첨부파일 형식별 자동분류 에이전트는 메일의 내용을 읽어 Keyword 를 검색, 추출한 뒤 불필요한 메일로 판단되는 경우 자동삭제 시키고 그렇지 않은 경우 카테고리별로 폴더를 생성하여 첨부파일 들을 형식별로 분류 시켜주는 E-mail 시스템의 첨부파일 형식별 자동분류 에이전트를 제안하였다. 수신된 메일을 일일이 확인하고 분류해야만 했던 기존의 시스템과는 달리 본 논문에서 제안하고자 하는 시스템을 이용했을 경우 노력과 시간을 절감하고 불필요한 메일에 의한 저장공간의 낭비감소와 첨부파일을 효과적으로 관리할 수 있다는 장점이 있다.

  • PDF

AI 학습모델 및 AI모델 서빙 서버 개발을 통한 생활안전 예방 서비스 신고 이미지 자동분류 시스템 개발에 대한 연구 (A Study on the Development of an Automatic Classification System for Life Safety Prevention Service Reporting Images through the Development of AI Learning Model and AI Model Serving Server)

  • 정영식;김용운;임정일
    • 한국재난정보학회 논문집
    • /
    • 제19권2호
    • /
    • pp.432-438
    • /
    • 2023
  • 연구목적: 생활안전 예방서비스 앱에서 신고되는 이미지를 AI를 사용하여 실시간으로 위험 카테고리를 자동으로 분류하여 사용자에게 편리한 위험신고를 가능하게 하는 것을 목적으로 한다. 연구방법: 인터넷으로 상호연결되는 생활안전 예방서비스 플랫폼, 생활안전 예방서비스 앱, AI 모델 서빙 서버와 sftp 서버로 구성되는 시스템을 통하여 신고된 생활안전 이미지를 실시간으로 자동분류하며, 이때 사용되는 AI모델 생성을 위한 AI 학습 알고리즘도 개발하였다. 연구결과: 이미지를 실시간으로 AI 처리하여 자동으로 분류할 수 있게 되어, 신고자가 생활안전 관련 사항을 보다 편리하게 신고할 수 있게 되었다. 결론: 본 논문에서 제시하는 AI 이미지 자동분류 시스템은 90% 이상의 분류 정확도로 신고 이미지를 실시간으로 자동분류하여 신고자가 간편하게 생활안전 관련 이미지를 신고할 수 있게 되었으며 향후 생활안전 예방서비스 앱의 사용자의 증가에 따라 더욱 빠르고 정확한 AI 모델 개발 및 시스템 처리용량 향상이 필요하다.

k-NN 분류 알고리즘과 객체 기반 시소러스를 이용한 자동 문서 분류 (Automatic Document Classification Based on k-NN Classifier and Object-Based Thesaurus)

  • 방선이;양재동;양형정
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권9호
    • /
    • pp.1204-1217
    • /
    • 2004
  • 기존의 통계적인 기법과 기계학습 기법 등을 이용한 자동 문서 분류는 주로 문서 벡터만으로 분류기를 학습하여 분류를 행하기 때문에 특정 범주로 문서를 분류하는데 명확치 않은 경우가 빈번히 발생하여 일정 수준 이상의 정확도를 얻는 데에는 한계를 보이고 있다. 이러한 문제를 해결하기 위해 본 논문에서는 기존 문서 분류 알고리즘에 범주 간의 관련성을 반영하여 분류를 시행하는 방법을 제안한다. 이 방법은 간단한 알고리즘에 비해 좋은 성능을 보이고 있는 k-NN 분류 알고리즘을 이용하여 일차적인 문서 분류를 수행한 후 특정 범주로 분류하기가 명확치 않을 경우, 객체 기반 시소러스에서 제공되는 범주들 간의 일반화 관계, 집성화 관계, 연관화 관계 그리고 인스턴스 관계를 이용하여 문서가 할당될 범주를 결정함으로써 자동 문서 분류의 정확도를 향상시킬 수 있다. 본 논문에서 제안된 방법으로 실험한 결과 k-NN 분류 알고리즘의 분류 결과에 비해 재현율은 유지되면서 최고 13.86% 까지 정확률이 향상되었다.

한국어 대화문 화행 자동분류를 위한 언어학적 기반연구 (A Linguistic Study of Automatic Speech Act Classification for Korean Dialog)

  • 구영은;김지연;홍문표;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.17-22
    • /
    • 2017
  • 화행이란 의사소통 과정에서 발화자가 가지는 발화 의도를 말한다. 성공적인 의사소통을 위해서는 발화자의 화행을 정확하게 파악하는 것이 매우 중요하다. 본 논문에서는 한국어 대화체 문장의 화행 자동분류를 위해, 화행을 결정짓는 요인이 무엇인지 언어학적으로 분석하고자 하였다. 한국어 수업 대화를 분석하여 화행 분류 체계를 새롭게 자체 정립하였고, 언어학적 근거를 바탕으로 10개의 화행 분류 자질을 제안하였다. 또한 제안하는 화행 분류 자질을 검증하고자 웨카(Weka)를 이용하여 정확률 실험을 진행하였다.

  • PDF

한국어 대화문 화행 자동분류를 위한 언어학적 기반연구 (A Linguistic Study of Automatic Speech Act Classification for Korean Dialog)

  • 구영은;김지연;홍문표;김영길
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.17-22
    • /
    • 2017
  • 화행이란 의사소통 과정에서 발화자가 가지는 발화 의도를 말한다. 성공적인 의사소통을 위해서는 발화자의 화행을 정확하게 파악하는 것이 매우 중요하다. 본 논문에서는 한국어 대화체 문장의 화행 자동분류를 위해, 화행을 결정짓는 요인이 무엇인지 언어학적으로 분석하고자 하였다. 한국어 수업 대화를 분석하여 화행 분류 체계를 새롭게 자체 정립하였고, 언어학적 근거를 바탕으로 10개의 화행 분류 자질을 제안하였다. 또한 제안하는 화행 분류 자질을 검증하고자 웨카(Weka)를 이용하여 정확률 실험을 진행하였다.

  • PDF

라인트레이서와 로봇암을 활용한 자동물류분류 시스템 (Automatic Logistics Classification System using Line Tracer and Robot Arm)

  • 박차훈;배선동;최진원
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제61차 동계학술대회논문집 28권1호
    • /
    • pp.159-160
    • /
    • 2020
  • 4차 산업 혁명을 통해 산업 현장에서 수많은 작업들이 로봇을 이용한 자동화로 대체되고 있는 가운데, 물류 산업에서는 아직도 물건이나 화물을 피킹하고, 분류하는 과정에서 많은 인력이 동원된다. 이러한 것을 극복하기 위해 해외의 다양한 회사들이 피킹/분류 작업의 자동화를 위해 많은 연구를 하고 있다. 피킹/분류 시스템은 인력을 사용하는 과정에서 많은 인건비가 발생하고, 무거운 물건을 옮기다가 허리를 다치거나 중장비 운행 중 사고로 인해 인명 피해가 발생하기도 한다. 이러한 문제점을 개선하기 위해 목적지 까지 라인 트레이서를 통해 이동하며, 원하는 물건을 적재 하도록 로봇 암을 적용한 '자동물류분류 시스템' 기술을 제안한다. 기존의 단순 반복 노동의 피킹/분류 작업을 수행하며, 자동으로 지정된 검은 라인을 따라 이동하고, 어플리케이션을 통해 선택된 물건을 찾아가 적재하는 시스템이며, 원격으로 수동 조작 또한 가능하다.

  • PDF

NewsML 기반의 뉴스 자동 분류 시스템에 관한 연구 (Study on Automatic Classification System of News based on NewsML)

  • 이탁희;홍금원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.619-622
    • /
    • 2008
  • 뉴스 분류 체계는 각각의 기사에 정치, 경제, 사회 등 가장 적합한 주제별로 분류하는 것으로 언론사별 분류 체계는 통일성이 없이 전혀 다르게 구성되어 사용하고 있다. 이로 인해 방대한 콘텐트를 통합하는데 많은 어려움이 있으며, 그만큼 시스템과 인력에 대해 중복 투자가 되고 있다. 이런 문제점을 개선하기 위해 국제 표준인 NewsML에 기반한 뉴스 분류에 대해 제안한다. NewsML은 XML 기반의 유연성과 확장성이 있는 구조적인 표준 형식으로 다양한 데이터 표현이 가능하여 자동 문서 범주화에 필요한 중요한 자질 선택이 가능하다. 본 논문에서는 NewsML 형식으로 되어 있는 뉴스와 그렇지 않은 뉴스를 구분하여 자동 분류에 대한 비교 실험을 한다. NewsML의 구조화된 정보를 활용한 실험이 뉴스의 제목과 본문만으로 실험한 결과보다 좋은 성능을 보여 주었으며, 그 중에서 자질 공간이 아주 큰 경우에 유용하고 문서 분류에 효과가 뛰어난 지지 벡터 기계 모델이 가장 좋은 성능을 보였다.

PCA와 동적 분류체계를 사용한 자동 이메일 계층 분류 (Automatic e-mail Hierarchy Classification using Dynamic Category Hierarchy and Principal Component Analysis)

  • 박선
    • 한국항행학회논문지
    • /
    • 제13권3호
    • /
    • pp.419-425
    • /
    • 2009
  • 인터넷 사용의 보편화로 인해 이메일의 양이 급속히 증가하고 있다. 이에 따라서 수신된 메일을 효율적이고 정확하게 분류할 필요성이 점차 증가하고 있다. 현재의 이메일 분류 기술들은 베이지안, 규칙 기반 등을 이용하여 스팸 메일을 필터링하기 위한 이원 분류가 주를 이루고 있다. 이메일의 다원분류 방법중 군집(clustering)을 이용한 분류 방법은 분류의 정확도가 떨어지고 분류 레이블이 없는 단점이 있으며, 분류(classification)를 이용한 방법은 미리 분류 레이블을 사용자가 지정해야 하며 학습시켜야 하는 단점을 갖는다. 본 논문에서는 PCA (Principal Component Analysis)를 기반으로 한 자동 카테고리 생성 방법과 동적 분류 체계 방법을 결합한 새로운 자동 이메일 계층 분류 방법을 제안한다. 이 방법은 수신되는 이메일을 자동으로 분류하여 대량의 메일을 효율적으로 관리할 수 있으며, 메일을 동적으로 재분류 하여 분류 정확률을 높일 수 있다.

  • PDF