• 제목/요약/키워드: 알고리즘 분류체계

검색결과 126건 처리시간 0.028초

분류체계 자동 생성 지원을 위한 용어 벡터 생성 방법 탐색 (How to Generate Term Vectors to Support the Automatic Generation of Taxonomy)

  • 성수진;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.600-603
    • /
    • 2022
  • 분류체계를 결정하는 일은 매우 중요하지만 어려운 일이다. 우리는 수집된 용어 목록에 클러스터링을 적용하여 상위 범주의 범위를 자동으로 설정하고자 하였다. 용어 클러스터링은 용어를 나타내는 벡터에 큰 의존성을 갖는다. 이에 클러스터링의 성능 향상을 위해 다양한 용어 임베딩 방법을 비교하였으며 용어에 대한 정의문의 벡터를 용어 벡터로 사용하여 가장 우수한 클러스터링 결과를 얻었다. 또한 실험을 통해 클러스터링 알고리즘 중 k-means clustering이 고차원의 벡터에 대해 좋은 성능의 군집을 생성함을 확인하였다.

  • PDF

자동 도서분류를 위한 확장된 나이브베이지안 알고리즘 (An Extended Naive Bayesian Algorithm for Automatic Book Classification)

  • 김성수;정현준;백두권
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.547-550
    • /
    • 2014
  • 국내 공공도서관에서는 잘못 분류된 도서의 서가(bookshelf) 배치로 인해 이용자의 불편과 해당 도서관의 도서분류체계와의 불일치 등으로 도서관리에 어려움을 겪고 있다. 또한 자동 도서분류를 위한 기계학습 등 다양한 알고리즘의 연구가 진행되어 왔으나 적은 학습데이터에서의 분류효과 향상에 한계가 있었다. 이에 이 연구에서는 KORMARC(Korea Machine Readable Cataloging) 의 색인어(키워드) 정보를 결합한 확장된 나이브베이지안 알고리즘을 제안하였다. 색인어 정보는 일반적으로 도서검색시스템에서 검색 효과를 높이기 위해 이용되고 있으며 실제 공공도서관에서의 실험을 통해 도서량이 적은 경우에 보다 높은 분류효과를 얻을 수 있음을 실험 평가하였다.

노이즈 데이터 정제를 통한 분류모델 성능 향상 (Enhancing Classification Model Performance through Noise Data Refinement)

  • 정운국;강승식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.559-562
    • /
    • 2024
  • 자연어 기반의 분류모델을 개발할 때 높은 성능을 획득하기 위해서는 데이터의 품질이 중요한 요소이다. 특히 무역상품 국제 분류체계 HS-CODE에서 상품명을 기반으로 HS코드를 분류할 때, 라벨링 된 데이터의 품질에 의해서 분류모델의 성능이 좌우된다. 하지만 현실적으로 확보 가능한 데이터셋에는 데이터 라벨링 오류나 데이터로 활용하기에 특징점이 부족한 데이터들이 다수 존재하기도 한다. 본 연구에서는 분류모델 학습 데이터의 정제 방법론으로, 딥러닝 기반 노이즈 검출 알고리즘을 제안한다. 분류 대상의 특징점이 분류 경계값 주변에 존재한다면 분류하기 모호한 노이즈 데이터일 가능성이 높다고 가정하고, 해당 노이즈 데이터를 검출하는 방법으로 딥러닝 기술을 활용한다. 해당 경계값 노이즈 검출 알고리즘으로 데이터를 정제한 뒤 학습모델의 성능비교 결과, 기존 대비 우수한 분류 정확도를 기록하였다.

순차 패턴 알고리즘의 분류 및 분석 (Classification and Analysis of Sequential Pattern Algorithms)

  • 이양우;이헌규;김룡;서성보;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (하)
    • /
    • pp.1587-1590
    • /
    • 2003
  • 순차 패턴 마이닝은 대량의 시퀀스 데이터베이스에서 빈발 서브 시퀀스를 찾는 기법이다. 지금까지 많은 순차 패턴 마이닝에 관한 연구들이 순차 패턴을 효율적으로 찾기 위하여 제안되었다. 그러나 제안된 방법들은 응용에 적용할 수 있도록 체계적으로 분류되어 있지 않다. 따라서 이 논문에서는 알고리즘에 대한 연구들을 분류하고 이들 중 대표적인 알고리즘들을 선정하여 각각에 대해 분석하였다. 그리고 각 응용 도메인에 적용한 연구들과 기술적인 문제를 해결하는 연구들에 대해 정리하였다. 마지막으로 성능 향상을 위한 기법이나 자로 구조에 대해 언급하고 향후 순차 패턴 마이닝의 연구 방향을 제시하였다. 이 연구는 실제 응용에 적합한 순차 패턴 마이닝 알고리즘의 선택과 향후 새로운 순차 패턴 알고리즘 연구의 기반을 제공할 것이다.

  • PDF

위성영상의 토지정보 분석정확도 향상을 위한 응용체계의 개발 - 다중시기 영상과 주성분분석 및 정준상관분류 알고리즘을 이용하여 - (Development of a Compound Classification Process for Improving the Correctness of Land Information Analysis in Satellite Imagery - Using Principal Component Analysis, Canonical Correlation Classification Algorithm and Multitemporal Imagery -)

  • 박민호
    • 대한토목학회논문집
    • /
    • 제28권4D호
    • /
    • pp.569-577
    • /
    • 2008
  • 본 연구의 목적은 위성영상으로부터 보다 정확한 토지정보를 취득하기 위해 다중시기데이터의 혼합과 특정 영상강조기법 및 영상분류알고리즘을 병합하여 적용하는 응용분류체계의 개발이다. 즉, 본 연구에서는 혼합된 다중시기데이터를 주성분분석한 후 정준상관분류기법을 적용하는 분류과정을 제안한다. 이 분류과정의 결과를 단일영상별 정준상관분류결과, 다중시기혼합영상의 정준상관분류결과, 시기별 주성분분석 후 정준상관분류결과와 비교한다. 사용된 위성영상은 1994년 7월 26일과 1996년 9월 1일에 취득된 Landsat 5 TM 영상이다. 정확도평가를 위한 지상실제데이터는 지형도 및 항공사진으로부터 취득되었으며, 연구대상영역 전체가 정확도평가 대상으로 사용되었다. 제안된 응용분류체계는 단일영상만을 사용하여 정준상관분류를 수행한 경우보다 분류정확도면에서 약 8.2% 상승되는 우수한 효과를 보여주었다. 특히, 복잡한 토지특성이 혼합되어 있는 도시역을 정확히 분류하는데 유효하였다. 결론적으로 Landsat TM 영상을 사용한 토지피복정보 추출시 분류정확도를 높이기 위해서, 다중시기영상을 사전에 주성분분석 후 정준상관분류기법을 적용하면 매우 효과적임을 확인하였다.

다중시기 11월 Landsat 영상을 이용한 강원도 일대 임상의 변화관찰 및 상록수 영급의 구분 (Observation of Forest Change and Estimation of Tree Ages of the Conifer over Kangwon-do by using Multi-Temporal, November-Landsat Images)

  • 전경미;이훈열
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2006년도 춘계학술대회 논문집
    • /
    • pp.210-213
    • /
    • 2006
  • 이 연구에서는 다중시기 Landsat 영상을 이용하여 강원도 일대 임상의 변화를 살펴보고 상록수의 영급을 구분하는 알고리즘을 개발하여 적용하였다. 1980년대에서 현재까지 축적된 Landsat-5와 Landsat-7영상 중에서, 대부분 지역에 활잡목 및 활엽수가 낙엽이 지고 눈이 아직 쌓이지 않을 시기인 11월에 촬영된 영상만을 이용하였다. 각 영상에서 양지바른 상록수, 활엽수, 그늘진 지역, 도시 및 바다 등을 클래스로 지정하여 감돌분류를 하였다. 분류 결과에서 양지바른 상록수만 추출하여 5개의 영상을 이진 분류체계로 조합한 후 임상의 시기적 변화 양상을 관찰한 결과, 강원대 연습림의 조림 기록 및 현황도와 상당히 일치함을 확인하였으며, Path 115, Row 34에 해당하는 강원도 일대로 연구지역을 확대하였다. 향후 Kompsat-2를 비롯한 고해상도 11월 영상이 지속적으로 촬영된다면, 이 연구에서 개발된 이진 분류체계 방법을 통하여 산림변화의 모니터링을 보다 용이하고 효율적으로 할 수 있을 것으로 기대된다.

  • PDF

AttentionMesh를 활용한 국가과학기술표준분류체계 소분류 키워드 자동추천에 관한 연구 (A Study on Automatic Recommendation of Keywords for Sub-Classification of National Science and Technology Standard Classification System Using AttentionMesh)

  • 박진호;송민선
    • 한국도서관정보학회지
    • /
    • 제53권2호
    • /
    • pp.95-115
    • /
    • 2022
  • 이 연구의 목적은 국가과학기술표준분류체계의 소분류 용어를 기계학습 알고리즘을 적용하여 기술키워드 변환하는 것이 목적이다. 이를 위해 본 연구에서는 주제어 추천에 적합한 학습 알고리즘으로 AttentionMeSH를 활용했다. 원천데이터는 한국과학기술기획평가원이 정제한 2017년부터 2020년까지 4개년 연구현황 파일을 사용하였다. 학습은 과제명, 연구목표, 연구내용, 기대효과와 같이 연구내용을 잘 표현하고 있는 4개 속성을 사용했다. 그 결과 임계치(threshold)가 0.5일 때 MiF 0.6377이라는 결과가 도출됨을 확인하였다. 향후 실제 업무에 기계학습을 활용하고, 기술키워드 확보를 위해서는 용어관리체계 구축과 다양한 속성들의 데이터 확보가 필요할 것으로 보인다.

Maximal Cliques 탐색 알고리즘들의 비교 및 분석 (Comparison and Analysis on the Maximal Clique Finding Algorithms)

  • 이길행;조주현
    • 전자통신동향분석
    • /
    • 제8권4호
    • /
    • pp.177-185
    • /
    • 1993
  • 본 고에서는 기존의 maximal cliques 탐색 알고리즘들을 조사하여 분석하고 문제점들을 제시하여 상호 비교 분석함으로써 maximal cliques를 탐색하는 분야에 대한 알고리즘의 체계를 파악하고 기여할 수 있도록 노력하였다. 특히 기존의 clique 탐색 알고리즘들을 그들이 사용하는 기법에 따라서 point sequence method, line addition and removal technique, backtracking technique, 그리고 stack operation technique로 분류하고 각 기법에 해당하는 사례 알고리즘들을 분석하여 장단점들을 파악하며 상호 비교 분석하는데 그 초점을 맞추었다.

고객 질의 문서 자동 분류를 위한 학습 알고리즘 성능 평가 (Performance Evaluation on the Learning Algorithm for Automatic Classification of Q&A Documents)

  • 최정민;이병수
    • 정보처리학회논문지D
    • /
    • 제13D권1호
    • /
    • pp.133-138
    • /
    • 2006
  • 최근 인터넷의 보급으로 전자상거래가 대중들에게 나타났고 현재 기업들의 경영환경 변화를 주도하고 있다. 전자상거래에서는 기업이 고객과의 유지 및 관계 구축을 위하여 고객이 원하는 것이 무엇인가를 파악하고 그것을 고객에게 제안하는 여러 가지 고객 채널을 가지고 있는데, 그 중 게시판과 전자메일은 고객의 질의를 직접적으로 들을 수 있는 인바운드(Inbound) 정보로서 매우 중요한 채널로 다루어지고 있다. 그러나 현재 운영되는 전자상거래의 게시판과 전자메일은 체계적인 관리와 처리과정 없이 질의와 답변이 이루어지고 있는 실정이다. 따라서 본 연구에서는 이러한 문제점의 해결을 위해 인공지능 분야의 문서 분류에서 널리 사용되고 있는 기계학습 알고리즘 중 대표적인 나이브 베이지안(Naive Bayesian), TFIDF, 신경망, k-NN 알고리즘을 도입하여 전자상거래에서 존재하는 여러 가지 고객 질의의 카테고리를 자동으로 분류할 수 있도록 함으로써 관리자가 정확한 답변을 신속하게 처리할 수 있도록 하였다. 그리고 도입한 알고리즘의 고객 질의 문서 자동 분류 성능 실험을 통해 어떤 알고리즘이 우수한 분류 성능을 나타내는지 확인하였으며 실험 결과 나이브 베지이지안 알고리즘이 95%이상의 높은 분류 성능을 나타내는 것을 확인하였다.

분류 주제 자동 생성 및 동적분류체계 방법을 이용한 이메일 분류 (E-mail Classification Using Dynamic Category Hierarchy and Automatic Generation of Category Label)

  • 안찬민;박선;박상호;최범기;이주홍
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.439-441
    • /
    • 2004
  • 이메일 사용이 보편화됨에 따라 점차 수신되는 메일의 량이 증가하고 있다. 이러한 메일 량의 증가는 사용자로 하여금 이메일을 좀더 효율적으로 분류할 수 있는 방법을 필요하게 한다. 그러나 현재의 이메일 분류는 규칙기반, 베이시안, SVM 등을 이용하여 스팸메일을 필터링 하는 이원분류가 주로 연구되고 있다. 이외에도 다원분류에 대한 연구로는 클러스터링을 이용한 방법이 있으나, 이는 단순히 유사도에 의해 메일을 묶는 수준에 그치고 있다. 본 논문에서는 벡터모델의 유사도를 기반으로 한 분류 주제 자동 생성 알고리즘과 동적분류체계 방법을 결합하여 새로운 이메일 자동 다원분류 방법을 제안했다. 본 논문에서 제안한 방법은 이메일을 자동으로 분류하여, 분류된 결과를 색인검색과 디렉토리 검색 방법을 지원하며 대량의 메일도 효율적으로 관리할 수 있다. 또한 메시지를 동적으로 재분류 할 수 있게 함으로써 디렉토리 검색시 재현율을 높였다.

  • PDF