• Title/Summary/Keyword: 과도 분류

Search Result 8,511, Processing Time 0.046 seconds

Feature Selection with Non-linear PCA in Text Categorization (대용량 문서분류에서의 비선형 주성분 분석을 이용한 특징 추출)

  • 신형주;장병탁;김영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.146-148
    • /
    • 1999
  • 문서분류의 문제점 중의 하나는 사용하는 데이터의 차원이 매우 크다는 것이다. 그러므로 문서에서 필요한 단어만을 자동적으로 추출하여 문서데이터의 차원을 축소하는 작업이 문서분류에서는 필수적이다. DF(Document Frequency)는 문서의 차원축소의 대표적인 통계적 방법 중 하나인데, 본 논문에서는 문서의 차원축소에 DF와 주성분 분석(PCA)을 비교하여 주성분 분석이 문서의 차원축소에 적합함을 실험적으로 보인다. 그리고 비선형 주성분 분석(nonlinear PCA) 방법 중 locally linear PCA와 kenel PCA를 적용하여 비선형 주성분 분석을 이용하여 문서의 차원을 줄이는 것이 선형 주성분 분석을 이용하는 것 보다 문서분류에 더 적합함을 실험적으로 보인다.

  • PDF

Subcategorization of Dependent Nouns for NLP (자연어 처리를 위한 의존 명사 하위 범주 분류)

  • Yu, Jae-Won
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.136-142
    • /
    • 1997
  • 의존 명사와 이를 꾸미는 관형어는 통사적으로 긴밀한 언어학적 단위를 이루므로 의존 명사에 대한 하위 범주 분류는 한국어 자연어 처리에 있어서 중요하다. 그러나 기존 국어 문법에서는 이 문제가 일관성 있게 다루어지지 않았다. 이 논문에서는 국어 사전(조재수 1997)에 올라 있는 의존 명사 600여 개를 허웅(1996)의 분류 기준을 보완하여 일관성 있게 하위 범주 분류를 시도하였다. 또 수량 단위 명사는 앞에 오는 수사의 종류에 따라 더 세분하였다.

  • PDF

A Method For Protein Structure Classification Using Inductive Logic Programming (귀납적 논리 프로그래밍을 이용한 단백질 구조 분류 기법)

  • 안건태;김진홍;윤형석;박양수;이명준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04a
    • /
    • pp.703-705
    • /
    • 2002
  • 정보의 급속한 확산과 더불어 체계적이고 효율적으로 정보를 분류하고 활용할 수 있는 방법에 대한 연구의 필요성이 증대되고 있다. 생물정보에 있어서도 기존에 축적된 많은 정보뿐만 아니라 새로 밝혀지는 정보들을 자동적으로 분류하고 재활용하는 방법의 일환으로 귀납적 논리 프로그래밍을 적용한 방법론이 채택되고 있다. 본 논문에서는 귀납적 논리 프로그래밍을 이용하여 단백질 구조 분류 데이터베이스론 생성하고 이를 기반으로 단백질 폴더에 내재된 공통의 규칙들을 발견하고, 새로운 단백질에 적용하여 구조를 예측할 수 있는 방법론에 대하여 기술한다.

  • PDF

Human Papillomavirus Risk Classification by Cost-Sensitive Learning (비용 의존 학습에 의한 인유두종 바이러스의 분류)

  • 황소현;박성배;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.401-403
    • /
    • 2003
  • 인유두종 바이러스는 표피세포에 감염되는 DNA 바이러스로 자궁경부암을 일으키는 가장 큰 요인이다. 현재까지 100 여개의 종류가 알려져 있고 악성종양 유발 가능성에 따라 위험군을 나누는데. 여기서 중요한 것은 고위험군을 저위험군으로 잘못 분류하는 것을 최소화하는 것이다. 본 논문에서는 분류를 위한 데이터로 인유두종 바이러스에 관한 문서 자료들을, 기계 학습 방법으로 분류 비용을 고려해 줄 수 있는 비용 의존 학습을 이용하였다. 실험결과. 비용을 고려해 주는 것이 고려하지 않았을 때보다 더 종은 성능을 나타내었다.

  • PDF

HPV Risk Classification Using Kernel Based Learning (Kernel 기반 학습을 이용한 HPV의 위험군 분류)

  • 정제균;오석준;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.428-430
    • /
    • 2003
  • 인유두종바이러스(human papillomavirus: HPV)는 감염되었을 때 각종 악성 종양을 유발할 수 있는 작은 DNA 바이러스이다. 고위험군에 속하는 HPV의 감염은 암으로 진행될 수 있는 가능성이 크다. 본 논문은 HPV를 분류할 수 있는 기계 학습 기법을 제안하고자 한다. 제안된 학습 기법은 단백질 서열을 효과적으로 분류할 수 있는 커널(kernel) 방법에 기반을 두고 있다. 위험군 분류는 감염의 메커니즘의 이해와 유전자칩과 같은 새로운 의학 도구의 개발 등에 있어서 중요한 정보를 제공해 줄 수 있다. 실험 결과는 중요한 부위의 탐색에 의한 커널 기반의 학습 방법이 우수한 성능을 보이는 것으로 나타났다.

  • PDF

Adult Image Filtering using Support Vector Mchine (Support Vector Machine을 이용한 유해 이미지 분류)

  • Song, Chull-Hwan;Yoo, Seong-Joon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10c
    • /
    • pp.218-221
    • /
    • 2006
  • 본 논문은 인터넷의 대표적인 문제점중의 하나인 Adult Image 분류 연구에 대해 기술한다. 특히 우리는 이러한 Adult Image를 분류하기 위한 Data Set을 5가지 타입으로 구성한다. 이러한 각 Image에 대해 Color, Gradient, Edge Direction 특성의 Feature들을 추출하고 이를 Histogram으로 구성한다. 이렇게 구성된 Histogram을 Support Vector Machine에 적용하여 Adult Image를 분류한다. 그 결과, 우리는 8250개의 Test Set에 대하여 Recall(96.53%), Precision(97.33%), False Positive(2.96%), F-Measure(96.93%)의 성능 결과를 보여준다.

  • PDF

Study on the parts-of-speech in Korean (한국어 품사 분류에 대한 제안)

  • 서민정
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2002.05a
    • /
    • pp.76-81
    • /
    • 2002
  • 인터넷의 발달 등으로 많은 정보들이 문서화되기도 하고 그런 정보들이 공유되고 있는 지금, 언어학이나 전산학의 요구를 함께 충족시킬 수 있는 문법 모델 개발의 필요성이 극대화되고 있다. 이 글은 한국어 품사 분류에 대해서 국어학과 전산학에서의 처리 방법과 결과를 검토하고 정리하여 우리말의 특성을 잘 설명하면서도 국어를 전산 처리하는데도 도움을 줄 수 있는 품사분류를 제안하는데 그 목적이 있다. 한국어의 특성을 고려하여 음운, 형태, 통 어, 의미 정보를 함께 처리할 수 있는 어휘부 중심의 문법인 HPSG의 모형을 도입하여 한국어 품사 분류를 정보 전달에 기반을 두어 자질 체계와 통합 연산을 핵심으로 기술하려고 한다. 문법기술은 주로 자질 구조를 속성과 값의 행렬인 AVM(attribute-value matrices)으로 제시할 것이다.

  • PDF

A Systematic Study on the Korean Anthozoa 10. Antipatharia (Hexacorallia) (한국산 산호충류의 계통분류학적 연구 10. 어산호류(육방산호 아강))

  • 송준임
    • Animal Systematics, Evolution and Diversity
    • /
    • v.3 no.1
    • /
    • pp.63-73
    • /
    • 1987
  • 한국산 산호충류 중 각산호류의 계통분류학적 연구를 하기 이하여 1965년부터 1986년까지 남한의 삼면연안과 여러 도서지방을 조사하였으나, 황해 남부의 홍도, 남해 서부의 사수도, 거문도와 제주도 해역(9개 지역)의 총 12개 지역으로부터 51개체가 채집되어 이들을 동정분류하였다. 그 결과 1 과 2 속 3 종이 밝혀졌으며 이중 실해송(Cirripathes anguina)과 긴가지 해송(Antipathes lata)은 한국미기록종이었다.

  • PDF

Neural Network Based Image Genre Classification (Neural Network을 이용한 이미지 장르 분류 시스템)

  • Ahn, Jae-Hoon;Lee, Han-Ku;Ju, Hyun-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.330-335
    • /
    • 2006
  • 본 논문에서는 neural network을 이용한 이미지 장르(유형) 분류 시스템을 소개한다. 이 논문에서 제안된 시스템은 이미지를 예술(art), 사진(photo), 만화(cartoon) 이미지라는 세 가지 장르(유형) 중 하나로 분류한다. 이미지의 특성은 표준 MPEG-7 visual descriptor를 사용하여 추출된 후, neural networks를 이용하여 학습된다. 시뮬레이션 결과는 제안된 시스템이 80% 이상의 이미지들을 정확한 장르(유형)로 분류하는 것을 보여준다.

  • PDF

Extraction of Data Quality Characteristics from Dirty Data (데이터 오류에서 추출한 데이터 품질 특성)

  • 김수경;최병주
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.549-551
    • /
    • 2000
  • 소프트웨어 제품의 품질을 보증하는 일은 매우 중요하며, 국제표준인 ISO/IEC 9126은 소프트웨어 품질 및 특성 및 측정 메트릭 표준을 제공하고 있다. 이때 ISO/IEC 9126에서는 소프트웨어를 프로그램, 절차, 규칙 및 관련문서로 한정하고 있기 때문에 데이터의 품질에는 적용할 수 없다. 본 논문에서는 데이터 품질 평가 및 제어를 위하여 데이터 오류 형태를 분류하고, 이를 기반으로 데이트 품질 특성 및 부특성을 분류한다. 데이터 품질 특성 분류는 ISO/IEC 9126에 정의한 소프트웨어 품질 특성을 데이터 오류 형태에 대응시켜 추출한다. 본 논문에서 제시하는 데이트 품질특성 분류는 지식 공학(knowledge engineering)시스템이 최종 사용자에게 제공하는 데이터나 지식의 품질 측정 및 제어에 기준이 된다.

  • PDF