• Title/Summary/Keyword: 과도 분류

Search Result 8,511, Processing Time 0.037 seconds

Text Message Classification based on Machine Learning (기계학습과 언어처리에 기반한 문자메시지 분류)

  • Sun, Juoh;Ji, Myeonggeun;Choi, Beomhwi;Lee, Hyunah
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.492-495
    • /
    • 2019
  • 휴대전화 메시지로는 결제, 인증번호, 택배, 광고 등의 다양한 문자들이 수신된다. 이 문자들은 서로 섞여 있어 이용자가 찾고자 하는 문자를 찾는 데 어려움이 있다. 본 논문에서는 기계학습과 단어 임베딩을 통해 메시지들을 카테고리로 분류하는 방법을 제안하고, 이를 구현한 안드로이드 앱을 소개한다. 앱에서는 택배, 카드, 인증, 공공기관, 통신사, 대화, 기타의 7개의 분류로 메시지를 분류하며, 자동 분류에서는 수동 태깅한 5802건의 문자메시지를 사용한다. 앱에서는 저장된 문자메시지간 유사도에 기반한 오프라인에 서의 자동 분류를 지원하여 개인정보 노출에 대한 거부감이 있는 사용자의 요구를 반영한다.

  • PDF

Novel Intent Discovery Utilizing Large Language Models and Active Learning Strategies (대규모 언어 모델을 활용한 새로운 의도 발견 방법과 액티브 러닝 전략)

  • Changwoo Chun;Daniel Rim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.425-431
    • /
    • 2023
  • 음성 어시스턴트 시스템에서 발화의 의도를 분류하고 새로운 의도를 탐지하는 것은 매우 중요한 작업이다. 끊임없이 인입되는 새로운 발화로 인해 기존에 학습된 모델의 의도 분류 성능은 시간이 지남에 따라 점차 낮아진다. 기존 연구들에서 새로운 의도 발견을 위해 제안되었던 클러스터링 방법은 최적의 클러스터 수 결정과 명명에 어려움이 있다. 이러한 제한 사항을 보완하기 위해, 본 연구에서는 대규모 언어 모델 기반의 효과적인 의도 발견 방법을 제안한다. 이 방법은 기존 의도 분류기로 판단하기 어려운 발화에 새로운 의도 레이블을 할당하는 방법이다. 새롭게 인입되는 OOD(Out-of-Domain) 발화 내에서 오분류를 찾아 기존에 정의된 의도를 탐지하고, 새로운 의도를 발견하는 효율적인 프롬프팅 방법도 분석한다. 이를 액티브 러닝 전략과 결합할 경우, 분류 가능한 의도의 개수를 지속 증가시면서도 모델의 성능 하락을 방지할 수 있고, 동시에 새로운 의도 발견을 자동화 할 수 있다.

  • PDF

Taxonomic Review of the Family Triglidae (Pisces, Scorpaeniformes) from Korea (한국산 성대과 (횟대목) 어류의 분류학적 재검토)

  • Lee, Chung-Lyul
    • Korean Journal of Ichthyology
    • /
    • v.12 no.1
    • /
    • pp.1-13
    • /
    • 2000
  • The taxonomic review of the family Triglidae was made based on the specimens collected from the south-western coasts of Korea from 1986 to 1999. The family Triglidae from Korea was classified into 10 species belonging to 3 genera: Pterygotrigla hemisticta, Chelidonichthys kumu, Lepidotrigla, japonica. L. guentheri, L. alata, L. kishinouyei, L. kanagashira, L. microptera, L. hime and L. abyssalis. Of them, L. kanagashira was reported for the first time in South Sea of Korea. A key to species of the family Triglidae from Korea was provided, with description of their morphological characteristics and their distribution.

  • PDF

연구활동 분류의 이론적 검토

  • 설성수
    • Journal of Korea Technology Innovation Society
    • /
    • v.2 no.3
    • /
    • pp.19-33
    • /
    • 1999
  • 우리는 지식활동의 원천인 연구활동을 파악하기 위한 분류체계를 만들고자 하였다 그러나 지식활동분류와 관련된 이론체계가 정립된 것이 없어서 다양한 시가과 방법론을 검토한 후 이들을 체계화하며 새로운 방법론을 도출하였다. 이 논문은 바로 그 과정에서 이루어진 이론적인 작업을 정리한 것이다. 우리는 지식이라는 거대한 실체보다 새로운 지식을 추가하는 연구활동이 중요하다는 인식에 기반하였다. 또한 연구활동과 연구활동의 목적이 연계되고 학제연구라는 새로운 지적활동의 패턴이 자유자재로 반영되도록 하였다.

  • PDF

Improving Multinomial Naive Bayes Text Classifier (다항시행접근 단순 베이지안 문서분류기의 개선)

  • 김상범;임해창
    • Journal of KIISE:Software and Applications
    • /
    • v.30 no.3_4
    • /
    • pp.259-267
    • /
    • 2003
  • Though naive Bayes text classifiers are widely used because of its simplicity, the techniques for improving performances of these classifiers have been rarely studied. In this paper, we propose and evaluate some general and effective techniques for improving performance of the naive Bayes text classifier. We suggest document model based parameter estimation and document length normalization to alleviate the Problems in the traditional multinomial approach for text classification. In addition, Mutual-Information-weighted naive Bayes text classifier is proposed to increase the effect of highly informative words. Our techniques are evaluated on the Reuters21578 and 20 Newsgroups collections, and significant improvements are obtained over the existing multinomial naive Bayes approach.

A Question Type Classifier Using a Support Vector Machine (지지 벡터 기계를 이용한 질의 유형 분류기)

  • An, Young-Hun;Kim, Hark-Soo;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.129-136
    • /
    • 2002
  • 고성능의 질의응답 시스템을 구현하기 위해서는 사용자의 질의 유형의 난이도에 관계없이 의도를 파악할 수 있는 질의유형 분류기가 필요하다. 본 논문에서는 문서 범주화 기법을 이용한 질의 유형 분류기를 제안한다. 본 논문에서 제안하는 질의 유형 분류기의 분류 과정은 다음과 같다. 우선, 사용자 질의에 포함된 어휘, 품사, 의미표지와 같은 다양한 정보를 이용하여 사용자 질의로부터 자질들을 추출한다. 이 과정에서 질의의 구문 특성을 반영하기 위해서 슬라이딩 윈도 기법을 이용한다. 또한, 다량의 자질들 중에서 유용한 것들만을 선택하기 위해서 카이 제곱 통계량을 이용한다. 추출된 자질들은 벡터 공간 모델로 표현되고, 문서 범주화 기법 중 하나인 지지 벡터 기계(support vector machine, SVM)는 이 정보들을 이용하여 질의 유형을 분류한다. 본 논문에서 제안하는 시스템은 질의 유형 분류 문제에지지 벡터 기계를 이용한 자동문서 범주화 기법을 도입하여 86.4%의 높은 분류 정확도를 보였다. 또한 질의 유형 분류기를 통계적 방법으로 구축함으로써 lexico-syntactic 패턴과 같은 규칙을 기술하는 수작업을 배제할 수 있으며, 응용 영역의 변화에 대해서도 안정적인 처리와 빠른 이식성을 보장한다.

  • PDF

Landform Classification using Geomorphons (지형패턴(Geomorphons)을 이용한 새로운 지형분류방법)

  • KIM, Dong-Eun;SEONG, Yeong Bae;SOHN, Hak Gi;CHOI, Kwang Hee
    • Journal of The Geomorphological Association of Korea
    • /
    • v.19 no.4
    • /
    • pp.139-155
    • /
    • 2012
  • Most of previous landform classification methods using DEM compares the values between the center of the cell and the surrounding cells, which in turn, greatly depends on analysis scale. To overcome the problem of scale-dependency, a new classification scheme is developed, which is called "Geomorphons". Unlike the traditional approaches using DEM, Geomorphons is the way which compares the level with other cells against the criteria cell. As a pilot study, we classify the landforms of Pyeongchang-Gun in Korea. Then, we compare the result with the other methods such as Topographic Position Index. Through the systematic analysis, we obtain the following findings. First, Geomorphons can reduce the time for the classification of landforms because of using unsupervised classification. Second, Geomorphons is little dependent on change in the scale, which can provide a pilot tool for reconnaissance study for covering large area.

Floristic Study of Namhansanseong (Gwangju-si, Gyeonggi-do) in Korea (남한산성(경기도 광주시)의 관속식물상)

  • Kwon, Seog Woo;Kim, Jung-Hyun;Kim, Tae-Sung;Park, Sung-Ae;Yoon, Chang-Young
    • Korean Journal of Plant Resources
    • /
    • v.35 no.4
    • /
    • pp.541-563
    • /
    • 2022
  • This study aimed to elucidate the distribution of vascular plants in Namhansanseong (Gwangju-si, Gyeonggi-do), Korea. The results of 30 field surveys from June 2019 to June 2020 identified 568 total taxa, representing 513 species, 10 subspecies, 40 varieties, 3 forms, and 2 hybrids in 335 genera and 107 families. Among them, 17 taxa were endemic plants to Korea, and one taxon were endangered plant and three taxa were red list plants. The floristic target plants amounted to 63 taxa, specifically one taxon of grade V, seven taxa of grade IV, 12 taxa of grade III, 14 taxa of grade II, and 29 taxa of grade I. And 66 taxa were northern lineage plants. Alien plants were recorded a total of 61 taxa with a Naturalized Index of 10.7%, the Urbanization Index was calculated to be 9.8%. As the result of comparison with previous studies, in this study a total of 213 taxa were newly identified representing 187 species, three subspecies, 19 varieties, one form, and two hybrids in 161 genera and 66 families.

Vertical distribution and vascular plants on Joryeongsan Mountain in Baekdudaegan, Korea (백두대간 조령산의 관속식물과 수직분포)

  • Jung-Hyun Kim;Jin-Suk Kim;Sookyung Shin;Sung-Ae Park;Sunghyuk Park;Sung Kyung Han;Jin-Seok Kim
    • Korean Journal of Environmental Biology
    • /
    • v.42 no.1
    • /
    • pp.95-126
    • /
    • 2024
  • In this study, we investigated the vertical distribution and vascular plants on Joryeongsan Mountain in Baekdudaegan, Korea. The results of four field surveys from April to September 2023 identified a total of 552 taxa, representing 491 species, ten subspecies, 43 varieties, six forms, and two hybrids in 314 genera and 101 families. The elevational distribution ranges of 360 taxa of vascular plants were also identified. Among them, 19 taxa were endemic to Korea, and two taxa were rare plants. The floristic target plants amounted to 100 taxa, specifically two taxa of grade V, seven taxa of grade IV, 25 taxa of grade III, 33 taxa of grade II, and 33 taxa of grade I. Seventy-eight taxa were northern lineage plants. In all, 29 taxa of alien plants were recorded in the investigated area, with a naturalized index of 5.3% and an urbanization index of 7.4%. Two plants disturbed the ecosystem. Species richness along the elevation showed a reversed double-hump shape with peaks at low, mid, and high elevations. The results of a cluster analysis showed a high degree of similarity between adjacent elevation sections, except in lowlands. Detrended Correspondence Analysis ordination also supported distinct groups by elevation. Warmth index values ranged from 62.1℃·month to 92.9℃·month on Joryeongsan Mountain. Our results provide primary data on vascular plants and valuable information on the current distribution ranges of plant species on Joryeongsan Mountain. These data could serve as a baseline for comparing species shifts at elevations under future climate changes.

The flora of land plants (bryophytes and vascular plants) in Wangpicheon Ecosystem and Landscape Conservation Area (ELCA), Korea (왕피천 생태경관보전지역의 육상(비관속 선태식물 및 관속식물) 식물상)

  • LEE, Seung Hyuk;AHN, Jin-Kap;PARK, Seung Jin;KIM, Chul Hwan;CHOI, Seung Se
    • Korean Journal of Plant Taxonomy
    • /
    • v.50 no.3
    • /
    • pp.279-317
    • /
    • 2020
  • This study presents the flora of nonvascular plants (bryophytes) and vascular plants within the Wangpicheon Ecosystem and Landscape Conservation Area in Korea. The time of the survey was divided into four seasons. The fieldwork was conducted for a total of 18 days from November of 2016 to October of 2017. The land plants in the Wangpicheon conservation area were identified as 758 taxa with 164 families, 455 genera, 698 species, 10 subspecies, 47 varieties and 3 forms. Among them, bryophytes amounted to 122 taxa and vascular plants numbered 636 taxa. Native plant amounted to 693 taxa. In total, there are 113 floristic target species in Korea, including one level V taxon, in this case Swertia wilfordii; six level IV taxa; 31 level III taxa; 38 level II taxa; and 37 level I taxa. There are nine endemic plants, including Sillaphyton (=Peucedanum) podagraria, which is the endemic genus; two rare plants; fifteen northern plants; and one southern plant as target plants adaptable to climate change. Also, there are forty-six naturalized plants and five ecosystem-disturbance organisms. The results of this study suggest several species that should be preserved and can serve as basic information with which to establish conservation and management plans for the Wangpicheon conservation area.