• 제목/요약/키워드: 과도 분류

검색결과 8,511건 처리시간 0.034초

ISODATA와 퍼지 C-Means를 이용한 감독 분류의 성능 향상에 관한 연구 (A Study on Improving Performance of Supervised Classifier using ISODATA and Fuzzy C-Means Clustering Method)

  • 전영준;김진일
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.79-81
    • /
    • 2003
  • 본 논문에서는 위성영상의 강독 분류에 대한 성능 개선을 위하여 ISODATA와 퍼지 C-Means 클러스터링 기법을 이용한 베이시안 최대우도 분류방법을 제안하였다. 본 연구에서는 ISODATA 클러스터링 기법을 이용하여 각각의 분류항목별로 분광특징에 따라 분석가가 선정한 훈련 데이터를 분할하여 새로운 훈련 데이터를 선정함으로써 분류항목별 훈련데이터의 분광적인 특징에 관계없이 분류를 수행할 수 있도록 하였다. 그리고 새롭게 선정된 훈련 데이터를 이용하여 퍼지 C-Means 클러스터링을 수행하고 그 결과를 베이시안 최대우도 분류기법의 사전확률로 이용함으로써 위성영상의 감독 분류에 대한 성능을 개선할 수 있는 방법을 제안한다. 제안된 기법은 Landset TM 위성영상을 이용하여 그 적용성을 시험하였다.

  • PDF

단백질 서열과 텍스트 정보 기반 오토마타 종 분류기 (Automata Species Classifier based on Protein Sequences and Text Information)

  • 박준형;이현정;양지훈;김선호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (B)
    • /
    • pp.9-14
    • /
    • 2007
  • 단백질 분류는 현대 생물학의 큰 도전과제이다. 현재 여러 단체에 의해 잘 관리되는 상세한 주석이 달린 많은 양의 단백질 정보들이 존재한다. 이러한 데이터베이스의 덕분으로 다양한 물리 화학적 특성과 주석들에 기반하고 있는 분류 기법들이 연구되고 있다. 특히 아미노산들로 이루어진 단백질 서열이 해당 단백질의 분류에 중요한 역할을 하는 진화적 기록들의 단서가 되기 때문에 단백질 서열들에 대한 연구가 활성화되고 있다. 비록 단백질 서열이 단백질 분류 문제의 중요한 특징이 된다고 해도 단순한 단백질 서열만으론 해당 단백질에 대한 충분한 정보를 얻을 수 없으며, 타 종 간에도 기능상 유사성 때문에 서로 비슷하게 판별될 수 있다. 이러한 문제점에 착안해서 우리는 오토마타 종 분류기라고 부르는 새로운 시스템적인 종 분류 접근 방법을 제안한다. 이 시스템의 클러스터링과 종 분류 판별 성능에 대한 평가 실험을 수행해본 결과 상대적으로 좋은 성능을 얻을 수 있었다.

  • PDF

마이크로어레이 데이터를 이용한 점증적 유전자 선택기반 암 분류 (Incremental Gene Selection-based Cancer Classification Using Microarray Data)

  • 권형태;홍진혁;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (B)
    • /
    • pp.7-10
    • /
    • 2007
  • 마이크로어레이 데이터는 매우 많은 수의 유전자로 구성되며, 암 분류 성능을 높이기 위해서는 대상 암과 관련된 유용한 유전자를 선택해야 한다. 기존 필터 기반 유전자 선택 기법은 유전자를 개별적으로 평가하여 암 분류에 사용하기 때문에, 유전자 사이의 관계나 분류기와의 상관성을 고려하지 않으며, 비슷한 특성의 유전자를 중복해서 선택하는 경향이 있다. 본 논문에서는 필터와 래퍼 방식을 결합하여 분류결과를 반복적으로 반영하며 유전자를 선택하는 기법을 제안한다. 필터 기법으로 유전자의 순위를 계산할 때 이전 분류에서 틀린 샘플의 가중치가 높도록 설계하고, 분류를 반복하면서 각 단계에서 유용한 유전자를 추가로 선택한다. 제안하는 방법을 대표적 암 분류 데이터인 림포마 암과 대장암 데이터에 적용하여 유용성을 검증하였다.

  • PDF

계층적 레이블 임베딩을 이용한 세부 분류 개체명 인식 (Fine-grained Named Entity Recognition using Hierarchical Label Embedding)

  • 김홍진;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.251-256
    • /
    • 2021
  • 개체명 인식은 정보 추출의 하위 작업으로, 문서에서 개체명에 해당하는 단어를 찾아 알맞은 개체명을 분류하는 자연어처리 기술이다. 질의 응답, 관계 추출 등과 같은 자연어처리 작업에 대한 관심이 높아짐에 따라 세부 분류 개체명 인식에 대한 수요가 증가했다. 그러나 기존 개체명 인식 성능에 비해 세부 분류 개체명 인식의 성능이 낮다. 이러한 성능 차이의 원인은 세부 분류 개체명 데이터가 불균형하기 때문이다. 본 논문에서는 이러한 데이터 불균형 문제를 해결하기 위해 대분류 개체명 정보를 활용하여 세부 분류 개체명 인식을 수행하는 방법과 대분류 개체명 인식의 오류 전파를 완화하기 위한 2단계 학습 방법을 제안한다. 또한 레이블 주의집중 네트워크 기반의 구조에서 레이블의 공통 요소를 공유하여 세부 분류 개체명 인식에 효과적인 레이블 임베딩 구성 방법을 제안한다.

  • PDF

감정 어휘 사전을 활용한 영화 리뷰 말뭉치 감정 분석 (Movie Corpus Emotional Analysis Using Emotion Vocabulary Dictionary)

  • 장연지;최지선;박서윤;강예지;강혜린;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.379-383
    • /
    • 2021
  • 감정 분석은 텍스트 데이터에서 인간이 느끼는 감정을 다양한 감정 유형으로 분류하는 것이다. 그러나 많은 연구에서 감정 분석은 긍정과 부정, 또는 중립의 극성을 분류하는 감성 분석의 개념과 혼용되고 있다. 본 연구에서는 텍스트에서 느껴지는 감정들을 다양한 감정 유형으로 분류한 감정 말뭉치를 구축하였는데, 감정 말뭉치를 구축하기 위해 심리학 모델을 기반으로 분류한 감정 어휘 사전을 사용하였다. 9가지 감정 유형으로 분류된 한국어 감정 어휘 사전을 바탕으로 한국어 영화 리뷰 말뭉치에 9가지 감정 유형의 감정을 태깅하여 감정 분석 말뭉치를 구축하고, KcBert에 학습시켰다. 긍정과 부정으로 분류된 데이터로 사전 학습된 KcBert에 9개의 유형으로 분류된 데이터를 학습시켜 기존 모델과 성능 비교를 한 결과, KcBert는 다중 분류 모델에서도 우수한 성능을 보였다.

  • PDF

기계학습 기반 단문에서의 문장 분류 방법을 이용한 한국표준산업분류 (Standard Industrial Classification in Short Sentence Based on Machine Learning Approach)

  • 오교중;최호진;안현각
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.394-398
    • /
    • 2020
  • 산업/직업분류 자동코딩시스템은 고용조사 등을 함에 있어 사업체 정보, 업무, 직급, 부서명 등 사용자의 다양한 입력을 표준 산업/직업분류에 맞춰 코드 정보를 제공해주는 시스템이다. 입력 데이터로부터 비지도학습 기반의 색인어 추출 모델을 학습하고, 부분단어 임베딩이 적용된 색인어 임베딩 모델을 통해 입력 벡터를 추출 후, 출력 분류 코드를 인코딩하여 지도학습 모델에서 학습하는 방법을 적용하였다. 기존 시스템의 분류 결과 데이터를 통해 대, 중, 소, 세분류에서 높은 정확도의 모델을 구축할 수 있으며, 기계학습 기술의 적용이 가능한 시스템임을 알 수 있다.

  • PDF

분류 주제 자동 생성 및 동적분류체계 방법을 이용한 이메일 분류 (E-mail Classification Using Dynamic Category Hierarchy and Automatic Generation of Category Label)

  • 안찬민;박선;박상호;최범기;이주홍
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.439-441
    • /
    • 2004
  • 이메일 사용이 보편화됨에 따라 점차 수신되는 메일의 량이 증가하고 있다. 이러한 메일 량의 증가는 사용자로 하여금 이메일을 좀더 효율적으로 분류할 수 있는 방법을 필요하게 한다. 그러나 현재의 이메일 분류는 규칙기반, 베이시안, SVM 등을 이용하여 스팸메일을 필터링 하는 이원분류가 주로 연구되고 있다. 이외에도 다원분류에 대한 연구로는 클러스터링을 이용한 방법이 있으나, 이는 단순히 유사도에 의해 메일을 묶는 수준에 그치고 있다. 본 논문에서는 벡터모델의 유사도를 기반으로 한 분류 주제 자동 생성 알고리즘과 동적분류체계 방법을 결합하여 새로운 이메일 자동 다원분류 방법을 제안했다. 본 논문에서 제안한 방법은 이메일을 자동으로 분류하여, 분류된 결과를 색인검색과 디렉토리 검색 방법을 지원하며 대량의 메일도 효율적으로 관리할 수 있다. 또한 메시지를 동적으로 재분류 할 수 있게 함으로써 디렉토리 검색시 재현율을 높였다.

  • PDF

계층적 분류체계를 적용한 한국질병사인분류 예측 모델의 개선 (The improvement of Korean Standard Classification of Diseases prediction model by applying the hierarchical classification system)

  • 정근영;이주상;선주오;정석원;신현진;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.59-64
    • /
    • 2022
  • 한국표준질병사인분류(KCD)는 사람의 질병과 사망 원인을 유사성에 따라 체계적으로 유형화한 분류체계이다. KCD는 계층적 분류체계로 구성되어 있어 분류마다 연관성이 존재하지만, 일반적인 텍스트 분류 모델은 각각의 분류를 독립적으로 예측하기 때문에 계층적 정보를 반영하는 데 한계가 있다. 본 논문은 계층적 분류체계를 적용한 KCD 예측 모델을 제안한다. 제안 방법의 효과를 입증하기 위해 비교 실험을 진행한 결과 F1-score 기준 최대 0.5%p의 성능 향상을 확인할 수 있었다. 특히 비교 모델이 잘 예측하지 못했던 저빈도의 KCD에 대해서 제안 모델은 F1-score 기준 최대 1.1%p의 성능이 향상되었다.

  • PDF

DMZ 일원 장군봉(경기도 양주시) 일대의 관속식물상 (The Flora of Janggun-bong Region (Yangju-si, Gyeonggi-do) Adjacent to DMZ)

  • 정재상;이종원;송진헌;최영민;변경열;길희영
    • 한국자원식물학회:학술대회논문집
    • /
    • 한국자원식물학회 2021년도 춘계학술대회
    • /
    • pp.34-34
    • /
    • 2021
  • 과거 식물상에 대한 정보가 없었던 경기도 양주시 장흥면에 위치한 장군봉(425.0 m)의 식물상을 2020년 4월부터 10월까지 총 3회에 걸쳐 조사하였다. 본 조사에서 확인된 조사지 내 관속식물은 양치식물 8과 10속 9종 1변종 10분류군, 나자식물 3과 4속 6종 6분류군, 쌍자엽식물 62과 144속 198종 7아종 16변종 2품종 223분류군, 단자엽식물 6과 29속 38종 1아종 5변종 1픔종 45분류군으로 총 284분류군을 확인할 수 있었다. 장군봉 일대의 특산식물은 은사시나무 (Populus tomentiglandulosa T.B.Lee), 키버들 (Salix koriyanagi Kimura), 병꽃나무 (Weigela subsessilis (Nakai) L.H.Bailey), 백운산원추리 (Hemerocallis hakuunensis Nakai)의 4분류군이 분포하고 있었고 산림청에서 지정한 희귀식물로는 취약종 (VU) 등급의 주목 (Taxus cuspidata Siebold & Zucc.) 1분류군이 확인되었다. 느릅나무 (Ulmus davidiana var. japonica (Rehder) Nakai)를 포함하여 I등급 10종, 함박꽃나무 (Magnolia sieboldii K.Koch) 등 II등급 4종, 병조희풀 (Clematis heracleifolia DC.) 등 III등급 8종, IV등급에 해당하는 바위말발도리 (Deutzia grandiflora var. baroniana Diels) 등 총 25종이 식물구계학적특정종에 속했다. 침입외래식물은 미국자리공 (Phytolacca americana L.), 유럽점나도나물 (Cerastium glomeratum Thuill.), 청비름 (Amaranthus viridis L.) 등 20분류군을 확인할 수 있었고, 생태계교란야생식물인 환삼덩굴 (Humulus japonicus Sieboid & Zucc.), 돼지풀 (Ambrosia artemisiifolia L.), 단풍잎돼지풀 (Ambrosia trifida L.), 미국쑥부쟁이 (Aster pilosus Willd.)의 4분류군이 확인되었다.

  • PDF

웹 응용 모델링의 요소 분류와 그에 따른 제약조건 기반 모델링 (Classification of Web Application Model ing Elements and Constraints Based Web Application Modeling)

  • 박영주;이기열;이병정;김희천;우치수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.358-360
    • /
    • 2004
  • 웹 어플리케이션은 생명 주기가 짧고, 마르고 정확한 개발이 요구되므로 모델링 단계에서의 요소 분류 및 요소간의 제약조건을 정의할 필요가 있다. 이에 본 연구에서는 각 프레임과 페이지를 그 성격에 따라 집합 프레임과 구조 프레임, 내용 페이지와 구조 정보 페이지로 분류, 이를 바탕으로 요소간의 관계를 정의하였다. 웹 응용 모델링의 요소 분류를 통해 그에 따른 제약 조건을 서술할 수 있는데, 이를 통해 사소한 예측할 수 있는 오류를 피할 수 있고, 웹 응용의 기본적인 테스트 케이스로도 사용할 수 있다.

  • PDF