• Title/Summary/Keyword: 분류(分類)

Search Result 34,644, Processing Time 0.059 seconds

Automatic Text Classification Method Using Keywords and Unlabeled Text (주제어와 미분류 문서들을 이용한 문서의 자동 분류 방법)

  • Lee Kang-Il;Lee Chang-Hwan
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.592-594
    • /
    • 2005
  • 문서를 분류하기 위해서는 분류주제에 맞춰 미리 분류가 된 자료(labeled data)가 필요하다. 하지만 미리 분류가 된 자료를 만들기 위해서는 사람이 직접 그 문서의 의미를 해석하고 일일이 분류를 해야 하기 때문에 시간이 많이 소모가 된다. 본 논문에서는 비록 사랑이 직접 분류한 자료를 이용하는 것에 비해서 분류 정확도는 조금 떨어지지만, 대신 주제어와 미분류 문서(unlabeled data)를 이용해서 문서를 분류하는 방법을 제시하려고 한다. 이와 같은 주제어와 미분류 문서의 경우에는 구하기가 쉽고, 사랑이 일일이 분류하는 작업이 필요로 하지 않기 때문에 비용과 시간이 크게 절약이 된다는 장정이 있다.

  • PDF

Multiple Optimal Classifiers based on Speciated Evolution for Classifying DNA Microarray Data (DNA 마이크로어레이 데이터의 분류를 위한 종분화 진화 기반의 최적 다중 분류기)

  • 박찬호;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.724-726
    • /
    • 2004
  • DNA 마이크로어레이 기술의 발전은 암의 조기 발견 및 예후 예측을 가능하게 해주었으며, 이와 관련된 많은 연구가 진행 중이다. 마이크로어레이 데이터의 분류에서 관련 유전자들의 선택은 필수적이며, 유전자 선택방법은 분류기와 짝을 이루어 특징-분류기를 형성한다. 이제까지 여러 가지 특징-분류기를 사용하여 마이크로어레이 데이터를 분류해 왔지만, 알고리즘의 한계와 데이터의 결함 등으로 인하여 최적의 특징-분류기를 찾기 어려웠다. 따라서 앙상블 분류기를 이용하여 높은 분류성능을 얻는 방법이 시도되어왔으며. 최적의 것을 찾기 위하여 유전자 알고리즘이 사용되기도 했다. 본 논문에서는 이를 발전시켜 다양한 최적의 앙상블을 생성하기 위해 종분화 방법을 사용한다. 림프종 암 데이터에 대하여 leave-one-out cross-validation을 적용한 결과, 제안한 방법으로 다양한 최적해를 탐색하는 것을 확인할 수 있었다.

  • PDF

Automatic Classification of Patent Documents Using Doc2Vec (Doc2Vec을 이용한 특허 문서 자동 분류)

  • Song, Jinjoo;Kang, Seung-Shik
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.239-241
    • /
    • 2019
  • 지식과 정보의 중요성이 강조되는 지식기반사회에서는 지식재산권의 대표적인 유형인 특허의 중요성이 날로 높아지고 있고, 그 수 또한 급증하고 있다. 특허 문서의 효과적 검색과 이용을 위해서는 새롭게 출원되는 특허 문서의 체계적인 분류 작업이 선행되어야 하고, 따라서 방대한 양의 특허 문서를 자동으로 분류해주는 시스템이 필요하다. 본 연구에서는 Doc2Vec 모델을 이용하여 국내 특허 문서의 특징(feature)을 추출하고, 추출된 특징을 바탕으로 한 특허 문서의 자동 분류 모형을 제안한다. 먼저 국내에 등록된 31,495 건의 특허 문서의 IPC(International Patent Classification)와 요약정보를 바탕으로 Doc2Vec 모델을 구축하였다. 구축된 Doc2Vec 모델을 통하여 훈련데이터의 특징을 추출한 후, 이 특징 벡터를 이용하여 분류기를 학습하였다. 마지막으로 Doc2Vec 모델을 이용하여 실험데이터의 특징 벡터를 추출하고 분류기의 성능을 실험한 결과, 43%의 분류 정확도를 얻었다. 이를 통해, 특허 문서 분류 문제에 Doc2Vec 모델의 사용 가능성을 확인할 수 있었다.

Reconstruction of E-mail Category Using Dynamic Category Hierarchy and Document Summarization (문서요약 및 동적 분류체계를 사용한 E-mail 분류의 재구성)

  • Ahn, Chan-Min;Park, Sun;Kim, Tae-Soon;Choi, Bum-ghi;Lee, Ju-Hong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.511-514
    • /
    • 2004
  • 현재의 이메일 분류는 규칙기반, 베이시안, SVM 등을 이용하여 스팸메일을 필터링 하는 이원분류가 주로 연구되어지고 있고, 이외에도 다원분류에 대한 연구로는 클러스터링을 이용한 방법이 있다. 그러나 클러스터링에 의한 방법은 단순히 유사도에 의해 메일을 묶는 수준에 그치고 있다. 본 논문에서는 자동 문서요약 방법과 동적분류체계 방법을 결합하여 새로운 이메일 자동 다원분류 방법을 제안했다. 본 논문에서 제안한 방법은 이메일을 자동으로 분류하며 분류한 결과를 검색할 때 사용자의 요구사항을 만족하지 못하면 재분류하여 분류 빛 검색의 정확성을 높였다.

  • PDF

Cancer Histopathological Image Classification based on Convolutional Neural Network (CNN 기반 암세포 현미경 이미지 분류)

  • Kim, Shin;Yoon, Kyoungro
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2018.11a
    • /
    • pp.46-48
    • /
    • 2018
  • 최근 수 년간 뉴럴 네트워크 기반 이미지 분류 기법의 성능이 눈에 띄게 향상되었다. 특히 CNN 은 딥 러닝기법을 도입하면서 이미지 분류 정확도가 향상되었으며, 이는 의학 분야 등 다른 분야에도 영향을 주게 되었다. 의학용 이미지의 분류 시스템의 경우, 오분류가 치명적인 결과를 초래할 수 있기 때문에 높은 정확도의 이미지 분류 시스템을 필요로 하게 된다. 본 논문에서는 CNN 기반 암세포 현미경 이미지 분류 기법에 대해 제안한다. 사전에 훈련된 뉴럴 네트워크의 가중치의 일부를 다시 계산하고, 재계산을 통해 얻은 가중치를 기반으로 암세포 현미경 이미지를 분류하며, 분류결과 높은 정확도로 이미지를 분류하는 것을 확인할 수 있다.

  • PDF

Binary Classifier Construction for U87 Cell Shapes using Fourier Shape Descriptor and SVM (퓨리에 형태표현자와 SVM 을 이용한 U87 세포의 형태학적 분류기 모델구축)

  • Kang, Mi-Sun;Kim, Jeong-Sik;Kim, Myoung-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.751-753
    • /
    • 2010
  • 본 논문에서는 위상차 현미경 영상 내 U87 세포의 정확한 형태학적 분류를 위한 이진 분류기 구축 방법을 제안한다. 본 방법은 Fourier descriptor 기반 세포형상 표현을 SVM 이진분류기 구축에 사용함으로써 분류 대상인 원추형과 원형세포에 대해 영상 내 세포의 위치와 회전, 크기의 변화에 대해 강인한 분류성능을 제공한다. 본 실험을 통해 polynomial 커널에서 학습된 SVM 분류기가 linear, RBF, sigmoid 에 비교하여 가장 정확한 분류 성능을 보임을 확인하였다. 본 연구는 논문상 기준인 두 종류의 세포 형태 분류기를 기반 프레임워크로 삼아 좀더 다양한 세포 형태를 분류할 수 있도록 개선된다면 악성뇌종양의 전이억제치료에 효과적인 전이행동분석에 도움을 줄 수 있을 것으로 기대된다.

Enhancing Classification Model Performance through Noise Data Refinement (노이즈 데이터 정제를 통한 분류모델 성능 향상)

  • Unkuk Jeong;Seungshik Kang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.559-562
    • /
    • 2024
  • 자연어 기반의 분류모델을 개발할 때 높은 성능을 획득하기 위해서는 데이터의 품질이 중요한 요소이다. 특히 무역상품 국제 분류체계 HS-CODE에서 상품명을 기반으로 HS코드를 분류할 때, 라벨링 된 데이터의 품질에 의해서 분류모델의 성능이 좌우된다. 하지만 현실적으로 확보 가능한 데이터셋에는 데이터 라벨링 오류나 데이터로 활용하기에 특징점이 부족한 데이터들이 다수 존재하기도 한다. 본 연구에서는 분류모델 학습 데이터의 정제 방법론으로, 딥러닝 기반 노이즈 검출 알고리즘을 제안한다. 분류 대상의 특징점이 분류 경계값 주변에 존재한다면 분류하기 모호한 노이즈 데이터일 가능성이 높다고 가정하고, 해당 노이즈 데이터를 검출하는 방법으로 딥러닝 기술을 활용한다. 해당 경계값 노이즈 검출 알고리즘으로 데이터를 정제한 뒤 학습모델의 성능비교 결과, 기존 대비 우수한 분류 정확도를 기록하였다.

A Semantic Classification Model for Educational Resource Repositories (교육용 자원 저장소를 위한 의미적 분류 모델)

  • Choi, Myoung-Hoi;Jeong, Dong-Won
    • Journal of KIISE:Databases
    • /
    • v.34 no.1
    • /
    • pp.35-45
    • /
    • 2007
  • This paper proposes a classification model for systematical management of resources in educational repositories. A classification scheme should be provided to systematically store and manage, precisely retrieve, and maximize the usability of the resources. However, there is little research result on the classification scheme and classification model for educational repository resources. It causes several issues such as inefficient management of educational resources, incorrect retrieval, and low usability. However, there are different characteristics between the educational resource information and information of the previous fields. Therefore, a novel research on the classification scheme and classification model for the resources in educational repositories is required. To achieve the goal for efficient and easy use of the educational resources, we should manage consistently the resources according to the classification scheme accepting several views. This paper proposes a classification model to systematically manage and increase the usability of the educational resources. In other words, the proposed classification model can manages dynamically the classification scheme for the resources in educational repositories according to various views. To achieve the objectives, we first define a proper classification scheme for the implementation resources based on the classification scheme in relevant scientific technology fields. Especially, we define a novel classification model to dynamically manage the defined classification scheme. The proposed classification scheme and classification model enable more precise and systematic management of implementation resources and also increase the ease of usability.

Distributions and Red Data of Wild Orchids in the Korean Peninsula (한반도 야생란의 분포 및 보호 대상 식물)

  • Lee, Jin-Sil;Choi, Byoung-Hee
    • Korean Journal of Plant Taxonomy
    • /
    • v.36 no.4
    • /
    • pp.335-360
    • /
    • 2006
  • The distribution on 88 taxa of wild orchids in the Korean Peninsula was investigated by the examinations of specimens and the distribution maps were presented. The species numbers distributed at each eight floral regions in the Korean Peninsula are as the followings; Gapsan Province 27 taxa, Gwanbuk 21, Gwanseo 13, Middle 37, South 39, Southern-coast 33, Jeju 64 and Ulleung 19. Most species (72.7%) of Korean wild orchids are found in the Jeju Island. Eighteen taxa of them are restricted to the island in the Korean Peninsula. Among Korean species, 30 taxa grow at evergreen broad-leaved forests, and 16 are northern elements distributed at high mountains or northern part. In terms of distribution, the Korean wild orchid species are classified into IUCN Red List Categories by a modified criterion for Korean plants. No orchid species included EX or EW categories is found in the Korean Peninsula. Ten species are designated to be in CR category; Cymbidium kanran, C. lancifolium, C. ensifolium, Cypripedium japonicum, Cyrtosia septentrionalis, Dendrobium moniliforme, Habenaria chejuensis, H. radiata, Neofinetia falcata and Sedirea japonica, of which C. ensifolium and H. chejuensis are regarded as CR species for the first time. On the other hand, 22 taxa are classified into EN category, and the following nine taxa are newly proposed to be EN species; Gastrochilus japonicum, G. fuscopunctatus, Gastrodia verrucosa, Habenaria flagellifera, Herminium lanceum var. longicrure, Chamaegastrodia sikokiana, Lecanorchis kiusiana, Neottia hypocastanoptica and Tipularia japonica.

Floristic study of Mt. Cheongtae area (Pyeongchang-gun, Gangwon-do) (청태산 지역(강원도 평창군)의 식물상)

  • Ji, Seong-Jin;Jung, Su-Young;Chang, Chin;Jang, Jeong-Won;Lee, Cheol-Ho;Yang, Jong-Cheol;Park, Myung-Soon;Chung, Gyu-Young
    • Korean Journal of Plant Taxonomy
    • /
    • v.41 no.4
    • /
    • pp.415-428
    • /
    • 2011
  • The vascular flora in the Mt. Cheongtae area, located Pyeongchang-gun in Gangwon-do, were surveyed 14 times from April of 2008 to October of 2011. The result of this survey revealed 663 taxa in total, comprising 89 families, 342 genera, 577 species, 6 subspecies, 73 varieties and 7 forms. In the flora of this area, 19 taxa were Korean endemic plants and 24 taxa were rare and endangered plants of Korea. The floristic regional indicator plants found in this area were 136 taxa comprising 4 taxa of grade V, 16 taxa of grade IV, 31 taxa of grade III, 41 taxa of grade II and 44 taxa of grade I. Naturalized plants in Korea numbered37 taxa. In addition, 485 taxa were categorized by usage into 8 groups, as follows: 240 edible, 8 fiber, 177 medical, 60 ornamental, 245 pasturing, 2 industrial, 12 dyeing and 16 timer plants.