• 제목/요약/키워드: 과도 분류

검색결과 8,482건 처리시간 0.04초

비음수 행렬 분해와 동적 분류체계를 사용한 이메일 분류 (Email Classification using Dynamic Category Hierarchy and Non-negative Matrix Factorization)

  • 박선;안동언
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.35-39
    • /
    • 2009
  • 이메일의 사용증가로 수신 메일을 효율적이면서 정확하게 분류할 필요성이 점차 증가하고 있다. 현재의 이메일 분류는 베이지안, 규칙 기반 등을 이용하여 스팸 메일을 필터링하기 위한 이원 분류가 주를 이루고 있다. 클러스터링을 이용한 다원 분류 방법은 분류의 정확도가 떨어지는 단점이 있다. 본 논문에서는 비음수 행렬 분해(NMF, Non-negative Matrix Factrazation)를 기반으로 한 자동 분류 주제 생성 방법과 동적 분류 체계(DCH, Dynamic Category Hierachy) 방법을 결합한 새로운 이메일 분류 방법을 제안한다. 이 방법은 수신되는 이메일을 자동으로 분류하여 대량의 메일을 효율적으로 관리할 수 있으며, 분류 결과 사용자의 요구사항을 만족하지 못하면 메일을 동적으로 재분류 하여 분류 정확률을 높일 수 있다.

  • PDF

울릉도 농경지의 식물상 (Flora of crop lands in Ulleungdo Island)

  • 김명현;홍선희;이용호;김민경;최순군;어진우;엽소진;방정환;오영주
    • 환경생물
    • /
    • 제39권2호
    • /
    • pp.245-257
    • /
    • 2021
  • 화산섬인 울릉도는 내륙과는 다른 기후, 토양, 지형 특성을 가지고 있으며, 농업 또한 차별화된 특징을 나타낸다. 본 연구에서는 울릉도 농경지에 출현하는 식물종의 종조성 및 그 특성을 밝히고자 하였다. 식물상 조사는 2016년 5월과 2020년 7월과 8월 총 3차례, 37개 지점에서 수행되었다. 그 결과, 울릉도 농경지에 출현하는 관속식물은 53과 132속 160종 14변종 5아종, 1잡종으로 총 186분류군으로 조사되었다. 과별 분포현황은 국화과가 가장 많은 33분류군을 차지하였고, 다음으로 벼과 25분류군, 마디풀과 12분류군, 콩과가 12분류군, 마디풀과 11분류군, 백합과 9분류군으로 나타났다. 울릉도 농경지에 출현하는 식물의 생활형 유형은 일년생식물-단립식물-중력산포형-직립형(Th-R5-D4-e)으로 나타났다. 희귀식물로는 섬고사리, 섬기린초, 섬나무딸기, 섬바디, 섬쥐똥나무, 섬쑥부쟁이, 물엉겅퀴, 섬말나리, 왕둥굴레 등 9분류군이 확인되었다. 생태계 교란 식물은 애기수영, 환삼덩굴 2분류군이 확인되었다. 귀화식물은 13과 33속 44종 1변종으로 총 45분류군이 확인되었고, 도시화지수는 13.9%, 귀화율은 24.2%를 나타냈다.

통감부~일제 초기 갑오개혁과 대한제국기 공문서의 분류 - 분류도장·창고번호도장을 중심으로 - (The Classification arranged from Protectorate period to the early Japanese Colonial rule period : for Official Documents during the period from Kabo Reform to The Great Han Empire - Focusing on Classification Stamp and Warehouse Number Stamp -)

  • 박성준
    • 기록학연구
    • /
    • 제22호
    • /
    • pp.115-155
    • /
    • 2009
  • 한국이 일본에 병합되면서 갑오개혁~대한제국기 공문서는 조선총독부(朝鮮總督府)로 인계되어 과(課) 단위의 분류체계에서 부(部) 단위로 재분류되었지만, 그전에 몇 번의 재분류과정을 거쳤다. 재분류의 흔적은 갑오개혁~대한제국기 공문서철 표지에 찍힌 분류도장과 창고번호도장에서 확인된다. 분류도장에서는 '부(部)-국(局)-과(課)' 행정체계에서 과(課)를 단위로 문서철을 구분하고 분류도장을 찍고 호수를 부여하였다. 이는 대한제국기 공문서 분류체계와 동일한 것으로, 분류도장을 찍을 당시까지도 課를 단위로 한 분류체계는 유지되었다. 분류도장은 과(課) 단위로 구분하고 각 문서철에 호수를 부여하였지만, 과(課) 하위단위의 분류체계는 과(課)별로 차이가 있었다. 지세과(地稅課) 문서철은 한 호수에 여러 기관이 등장하고 문서연도는 앞뒤 호수에서 중복되었고, 같은 성격의 문서철이 따로 분류되어 있었다. 관세과(關稅課)와 잡세과(雜稅課) 문서철은 문서연도를 기준으로 편철된 두 과(課)의 편철 방식을 반영하여 문서연도를 기준으로 호수를 부여한 것으로 보여지지만, 문서연도와 'イロハ 가(歌)' 순서가 맞지 않았다. 갑오개혁~대한제국기에는 공문서를 과(課) 단위로 편철하였지만, 課 하위단위의 분류규정이 없어 분류도장의 문서철 분류를 대한제국기 공문서 분류체계의 원질서로 파악할 수 있는가의 여부는 명확하지 않다. 그러나 편철 방식은 문서 분류체계를 반영하므로, 편철 방식을 통해 대한제국기 과(課) 하위단위의 분류체계를 추론해 본다면, 분류체계는 '과(課) - 거래기관'과 '과(課) - 문서연도' 두 체계로 구분되었을 것으로 이해된다. 조선총독부는 대한제국기 공문서를 인계받고 창고에 보관하면서, 각 문서철에 창고번호도장을 찍었다. 창고번호도장은 대체적으로 각 창고별로 문서를 편철한 기관을 구분하여 문서철을 보관하였다. 각 창고의 서가에도 대체적으로 분류도장 호수 순으로 문서철을 배열하였지만, 일부 문서철은 호수가 뒤섞여 서가에 배열되어 서가와 호수 순서가 맞지 않았다. 서가에 문서철을 배열한 다음 각 문서철에 'イロハ 가(歌)' 순으로 기호를 부여했지만, 기호 역시 호수 순으로 부여된 것은 아니었다. 조선총독부가 각 창고에 문서철을 보관하는 과정에서 분류도장의 분류체계가 해체되고 있었던 것이다. 창고번호도장에서 나타난 특징 가운데 하나는 분류도장에서 각 문서철에 부여한 보존기간의 의미가 사라지고 있다는 점이다. 보존기간은 해당 문서가 지닌 역사적 행정적 가치에 따라 결정된다. 그런데 창고번호도장에서는 보존기간의 구분 없이 같은 서가에 보존기간이 다른 문서철을 뒤섞어 함께 배열하였다. 일본은 한국을 병합하면서 대한제국기 공문서를 일정 기간이 지난 뒤 폐기해야 할 행정 문서가 아니라, 식민 통치에 필요한 '고고(考古)의 재료(材料)'로 취급하였다. 일반 행정문서에서 식민 통치에 필요한 재료로 문서의 가치 평가가 전환되면서, 문서철에 부여된 보존기간에 상관없이 대한제국기 공문서를 모두 동일한 대상으로 취급하여 함께 보관하였던 것이다. 조선총독부는 식민 통치에 필요한 재료로 활용하기 위해 갑오개혁~대한제국기 공문서를 재정리하면서 부(部)를 단위로 재분류함으로써 대한제국기의 과(課)를 단위로 한 기관별 분류체계와 그 속에 포함되어 있던 기능별 분류의 성격도 해체하였다.

지지 벡터 기계를 이용한 계층적 문서 분류 (Hierarchical Text Categorization using Support Vector Machine)

  • 윤용욱;이창기;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.7-13
    • /
    • 2003
  • 인터넷을 통해 생성, 전달되는 문서 량이 급격히 많아짐에 따라, 정보의 접근을 용이하게 하기 위한 문서의 자동 분류 기능이 절실히 요구되고 있다. SVM(Support Vector Machine)은 최근에 문서 분류에 널리 쓰이고 있는 기법으로 다른 분류기에 비하여 좋은 성능을 보여주고 있다. 하지만 SVM은 현재까지 주로 비 계층 평탄화(flat)된 분류 응용에 효과적으로 적용되어 왔다. 이와 달리 본 논문은 문서 분류에 있어서 최종 분류 class를 한번에 출력하는 비 계층 분류보다는, 비슷한 성질을 갖는 class의 집합을 계층적 구조로 묶어 분류하는 계층적 분류 기법이 보다 사람이 이해하기 쉽고 사용하기 편리하며 더 효과적이라는 것을 보이고, 실험을 통해 계층적 분류를 위한 효과적인 SVM분류기를 개발하여 비 계층 분류보다 좋은 분류 성능을 보여 줄 수 있음을 확인한다.

  • PDF

대화에서 멀티태스크 학습을 이용한 감정 및 화행 분류 (Emotion and Speech Act classification in Dialogue using Multitask Learning)

  • 신창욱;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.532-536
    • /
    • 2018
  • 심층인공신경망을 이용한 대화 모델링 연구가 활발하게 진행되고 있다. 본 논문에서는 대화에서 발화의 감정과 화행을 분류하기 위해 멀티태스크(multitask) 학습을 이용한 End-to-End 시스템을 제안한다. 우리는 감정과 화행을 동시에 분류하는 시스템을 개발하기 위해 멀티태스크 학습을 수행한다. 또한 불균형 범주 분류를 위해 계단식분류(cascaded classification) 구조를 사용하였다. 일상대화 데이터셋을 사용하여 실험을 수행하였고 macro average precision으로 성능을 측정하여 감정 분류 60.43%, 화행 분류 74.29%를 각각 달성하였다. 이는 baseline 모델 대비 각각 29.00%, 1.54% 향상된 성능이다. 본 논문에서는 제안하는 구조를 이용하여, 발화의 감정 및 화행 분류가 End-to-End 방식으로 모델링 가능함을 보였다. 그리고, 두 분류 문제를 하나의 구조로 적절히 학습하기 위한 방법과 분류 문제에서의 범주 불균형 문제를 해결하기 위한 분류 방법을 제시하였다.

  • PDF

양국어 어휘분류망의 자동 구축 (Automatic Construction of Lexical Classification Net for Two Languages)

  • 황금하;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.389-396
    • /
    • 1999
  • 본 연구에서는 이미 만들어진 양국어 단일 언어 어휘 분류체계를 이용하여 양국어 어휘 분류등급 간의 개념유사도에 의한 양국어 분류체계간의 연관 관계를 구축하고자 한다. 중국어 유의어사전과 한국어 분류어휘표를 이용하여 양국어 어휘 분류체계에서의 분류등급 간의 개념유사성 및 양국어간의 어휘 유사성에 의하여 어휘분류망을 자동 구축한다. 자동 구축된 어휘분류망을 통하여 한국어 분류어휘표의 어휘 구성 및 분류체계에 대한 분석 평가를 진행할 것이며 나아가 한국어 분류어휘표에 대한 어휘 및 분류체계에 대한 보완을 시도하고자 한다. 본 연구는 한국어 자체 어휘 분류체계의 구축 방법론의 연구에도 어느 정도 도움될 것으로 기대한다.

  • PDF

APG 분류체계에 따른 한국 관속식물상의 계통학적 분류 (Phylogenetic classification of Korean vascular flora according to the recent APG classification system)

  • 김기중;김영동;김주환;박선주;박종욱;선병윤;유기억;최병희;김상태
    • 식물분류학회지
    • /
    • 제38권3호
    • /
    • pp.197-222
    • /
    • 2008
  • 최근 출판된 영문판 한국속식물지에서 다루어진 한국의 관속식물 217과 1,044속 3,209종 (종내 분류군 포함)을 최근의 APG 분류체계에 따라 재분류한 결과 64목 204과 1,044속 3,209종으로 평가되었다. 과의 한계에 대한 변화로 인하여 속식물지의 22개 과가 다른 근연 과로 통합되어 없어졌고, 1개 과는 전위에 따라 과명이 바뀌었다. 또한, 31속 109종으로 기록된 백합과(Liliaceae)는 최근 단자엽식물 분류체계가 크게 바뀐 APG 분류체계에 따라 재배열한 결과 백합목(Liliales), 비짜루목(Asparagales), 택사목(Alismatales), 마목(Dioscoreales) 등 4목 10과로 분산 분류되었다. 그 결과, 한국속식물지의 과의 수는 13개 감소하여 204개 과로 재분류되었다. 조사 결과는 목 이상의 비공식적 상위분류군, 목, 과, 속의 분류체계를 종합하여 3개의 표와 두 개의 그림으로 정리하였다. 이 자료는 국립생물자원관이 최근 추진하고 있는 우리나라 식물종의 계통연구를 수행하는데 분석 기본단위를 설정하는 기본 자료로 이용될 것이다. 나아가 우리나라 식물 종들의 과 이상에서의 계통유연관계를 손쉽게 비교하는 기본 자료로 활용될 것으로 예견된다.

림프종 암의 정확한 분류를 위한 산술연산자 분류규칙의 결합 (Ensemble of Classification Rules with Arithmetic Operators for the Accurate Classification of Lymphoma Cancer)

  • 홍진혁;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.202-204
    • /
    • 2004
  • 앙상블은 다수의 분류기를 효과적으로 결합하여 분류의 성능을 향상시키는 대표적인 기술이다. 효과적인 앙상블을 위해서는 다양한 특성을 지닌 분류기를 확보하여야 한다. 기존의 앙상블은 개별 분류기의 결과를 바탕으로 분류기 사이의 의존성이나 유사성을 평가하여 분류기 결합을 시도하였다. 따라서 분류기 사이의 유사도의 정확한 측정에 한계를 지니고 있다. 본 연구에서는 이를 극복하기 위해서 다수의 산술연산자 기반 분류규칙을 유전자 프로그래밍을 이용하여 획득하고, 실제 표현형의 유사성을 측정한 후 이를 바탕으로 분류기를 결합한다. 생물정보학에서 많이 사용되는 유전자 데이터 중 하나인 림포마 암 데이터에 제안하는 방법을 적용하여 97% 수준의 높은 분류 성능과 해석 가능한 분류규칙을 획득하였다.

  • PDF

단백질 구조 분류의 통합 검색을 위한 웹 정보시스템 (A Web-Based Information System for the Integrated Search for Protein Structure Classifications)

  • 신원준;황의윤;김진홍;안건태;이명준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.274-276
    • /
    • 2004
  • 단백질은 대부분 공간상의 특징을 고려할 때 유사한 부분을 기준으로 분류되는 경우가 많다 단백질 구조 분류 데이터베이스는 단백질이 가지는 다양한 구조 정보를 바탕으로 단백질 구조 분류 정보를 제공하고 있다. 대표적인 단백질 구조 분류 데이터베이스에는 CATH와 SCOP 데이터베이스가 있다. 이들 데이터베이스는 서로 다른 구조 분류 기준으로 단백질 구조를 분류하고 있으며, 단백질 구조 분류 정보를 검색하는 웹 서비스를 개별적으로 제공하고 있다. 따라서 여러 종류의 단백질 구조 분류 정보를 하나의 웹 사이트에서 검색할 수 있으면 유용할 것이다. 본 논문에서는 CATH와 SCOP에서 정의한 단백질 구조 분류 정보의 통합적인 검색 기능 일 통계 정보를 체계적으로 제공하는 웹 정보시스템에 관하여 기술한다. 제안된 시스템은 CATH와 SCOP에서 제공하는 각각의 데이터를 가공하여 효과적인 구조 분류 검색을 지원하는 구조화된 데이터베이스를 구축하였다. 개발된 시스템은 PDB 식별자, CAT터 식별자. 그리고 SCOP 식별자 또는 단백질 분류 이름으로 한번의 검색으로 두 데이터베이스에서 제공하는 계층적 구조 분류 정보를 제공한다. 또한, 단백질 구조에 대한 유용한 통계 정보를 제공한다.

  • PDF

KorBERT 기반 빈칸채우기 문제를 이용한 텍스트 분류 (Text Classification using Cloze Question based on KorBERT)

  • 허정;이형직;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.486-489
    • /
    • 2021
  • 본 논문에서는 KorBERT 한국어 언어모델에 기반하여 텍스트 분류문제를 빈칸채우기 문제로 변환하고 빈칸에 적합한 어휘를 예측하는 방식의 프롬프트기반 분류모델에 대해서 소개한다. [CLS] 토큰을 이용한 헤드기반 분류와 프롬프트기반 분류는 사전학습의 NSP모델과 MLM모델의 특성을 반영한 것으로, 텍스트의 의미/구조적 분석과 의미적 추론으로 구분되는 텍스트 분류 태스크에서의 성능을 비교 평가하였다. 의미/구조적 분석 실험을 위해 KLUE의 의미유사도와 토픽분류 데이터셋을 이용하였고, 의미적 추론 실험을 위해서 KLUE의 자연어추론 데이터셋을 이용하였다. 실험을 통해, MLM모델의 특성을 반영한 프롬프트기반 텍스트 분류에서는 의미유사도와 토픽분류 태스크에서 우수한 성능을 보였고, NSP모델의 특성을 반영한 헤드기반 텍스트 분류에서는 자연어추론 태스크에서 우수한 성능을 보였다.

  • PDF