• 제목/요약/키워드: Term Classification

검색결과 738건 처리시간 0.026초

기계학습에 기반한 생의학분야 전문용어의 자동인식 (Machine-Learning Based Biomedical Term Recognition)

  • 오종훈;최기선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권8호
    • /
    • pp.718-729
    • /
    • 2006
  • 일정 분야의 문서들에서 그 분야 특정을 반영하는 전문용어를 자동으로 인식하는 연구에 대한 관심이 증가하고 있다. '전문용어 인식'은 문서에서 전문용어가 될 수 있는 언어적 단위를 파악하는 '용어 추출' 과정과 '용어추출' 과정에서 얻어진 용어목록 중 해당분야의 전문용어를 고르는 '전문용어 선택' 과정으로 구성된다. '전문용어 선택' 과정은 용어목록을 전문용어의 특정에 따라 순위화한 후 타당한 전문용어를 파악하는 작업으로 정의된다. 따라서 전문용어 선택 문제는 용어목록의 순위화 작업과 순위화된 목록에서 전문용어와 비전문용어 간의 경계를 인식하는 작업으로 정의된다. 기존의 전문용어 선택 기법은 주로 용어의 빈도수 등과 같은 통계적 특정만을 이용하였다. 하지만 통계적 특정만으로는 효과적으로 전문용어를 선택하기 어렵다. 본 논문의 논제는 전문용어 선택에서 다양한 전문용어의 특정을 고려하고 이들 중 전문용어 선택에서 효과적인 특정을 찾으려는 것이다. 순위화 문제는 다양한 전문용어 특정을 도출하고 이들을 기계학습방법으로 통합하여 해결한다. 경계인식 문제는 전문용어와 비전문용어의 이진 분류 문제로 정의하고 기계학습방법으로 해결한다. 본 논문의 기법은 경계인식측면에서 78-86%의 정확률과 87% -90%의 재현율을 나타내었으며, 순위화 측면에서 89%-92%의 11포인트 평균정확률을 나타내었다. 또한 기존 연구보다 최고 26% 의 성능향상을 보였다.

LSTM을 이용한 표면 근전도 분석을 통한 서로 다른 손가락 움직임 분류 정확도 향상 (Improvement of Classification Accuracy of Different Finger Movements Using Surface Electromyography Based on Long Short-Term Memory)

  • 신재영;김성욱;이윤성;이형탁;황한정
    • 대한의용생체공학회:의공학회지
    • /
    • 제40권6호
    • /
    • pp.242-249
    • /
    • 2019
  • Forearm electromyography (EMG) generated by wrist movements has been widely used to develop an electrical prosthetic hand, but EMG generated by finger movements has been rarely used even though 20% of amputees lose fingers. The goal of this study is to improve the classification performance of different finger movements using a deep learning algorithm, and thereby contributing to the development of a high-performance finger-based prosthetic hand. Ten participants took part in this study, and they performed seven different finger movements forty times each (thumb, index, middle, ring, little, fist and rest) during which EMG was measured from the back of the right hand using four bipolar electrodes. We extracted mean absolute value (MAV), root mean square (RMS), and mean (MEAN) from the measured EMGs for each trial as features, and a 5x5-fold cross-validation was performed to estimate the classification performance of seven different finger movements. A long short-term memory (LSTM) model was used as a classifier, and linear discriminant analysis (LDA) that is a widely used classifier in previous studies was also used for comparison. The best performance of the LSTM model (sensitivity: 91.46 ± 6.72%; specificity: 91.27 ± 4.18%; accuracy: 91.26 ± 4.09%) significantly outperformed that of LDA (sensitivity: 84.55 ± 9.61%; specificity: 84.02 ± 6.00%; accuracy: 84.00 ± 5.87%). Our result demonstrates the feasibility of a deep learning algorithm (LSTM) to improve the performance of classifying different finger movements using EMG.

고전 용어 시소러스의 분류 체계에 관한 연구 (A Study on Classification System of Korean Literatures Thesaurus)

  • 유영준
    • 한국문헌정보학회지
    • /
    • 제40권2호
    • /
    • pp.415-434
    • /
    • 2006
  • 우리 고전 문집에 나타난 용어로 작성된 디스크립터들을 분류하기 위해서 분류 체계를 개발하는 것이 이 연구의 목적이다. 고전 용어 시소러스의 분류 구조는 6개의 패싯으로 범주화를 시작하여 고전 분야의 지식을 근거로 연역적으로 분류 체계를 구조화하였다. 그리고 기존의 인문학 분야의 다른 시소러스들의 분류 체계와 비교하였고, 이러한 비교를 통해서 얻은 것은 고전 용어 분류 체계만이 갖는 여러 장점들 즉 패싯 기법을 적용한 장점 등을 확인할 수 있었다. 이러한 장점들로 인해서 범주 설정의 일관성과 분류 구조의 복잡성을 줄일 수 있었다. 또한 시대나 지역을 구분하기 위한 공통 구분을 독립적으로 설정하여 분류표의 크기를 줄일 수 있었다. 이 분류 체계는 디스크립터들을 배정하는 과정을 통해 보다 나은 분류 체계로 발전해 나갈 것이다.

온톨로지 기반의 웹 페이지 분류 시스템 (Web Page Classification System based upon Ontology)

  • 최재혁;서혜성;노상욱;최경희;정기현
    • 정보처리학회논문지B
    • /
    • 제11B권6호
    • /
    • pp.723-734
    • /
    • 2004
  • 본 논문은 온톨로지(ontology)에 기반 한 자동화된 웹 페이지 분류 시스템을 제안한다. 웹 페이지의 분류를 위하여 첫 번째 단계에서는 각 웹 페이지가 속한 범주(category)를 대표할 수 있는 단어를 선정하며, 이를 위하여 단어빈도와 문서빈도를 곱한 값을 계산한다. 두 번째 단계에서는 첫 번째 단계에 의해 선택된 단어의 정보이득(information gain)을 계산해 분류 확률이 높은 단어를 우선적으로 선정한다. 두 단계를 통하여 선정된 단어들과 웹 페이지의 분류 정보를 가지고, 기계학습에 의하여 컴파일 된 규칙(compiled rules)을 생성한다. 생성된 규칙은 임의의 웹 페이지들을 도메인 온톨로지에 의해 정의된 범주 별로 분류할 수 있도록 한다. 본 논문의 실험에서는 주어진 웹 페이지 집합에서 각 범주 별로 평균 240개의 단어로부터 78개의 단어를 결과적으로 선정하였으며, 이를 바탕으로 웹 페이지 분류 규칙을 생성하였다. 실험 결과에서 제안한 시스템의 평균 분류 정확도는 약 83.52%로 측정되었다.

Enhancing the Narrow-down Approach to Large-scale Hierarchical Text Classification with Category Path Information

  • Oh, Heung-Seon;Jung, Yuchul
    • Journal of Information Science Theory and Practice
    • /
    • 제5권3호
    • /
    • pp.31-47
    • /
    • 2017
  • The narrow-down approach, separately composed of search and classification stages, is an effective way of dealing with large-scale hierarchical text classification. Recent approaches introduce methods of incorporating global, local, and path information extracted from web taxonomies in the classification stage. Meanwhile, in the case of utilizing path information, there have been few efforts to address existing limitations and develop more sophisticated methods. In this paper, we propose an expansion method to effectively exploit category path information based on the observation that the existing method is exposed to a term mismatch problem and low discrimination power due to insufficient path information. The key idea of our method is to utilize relevant information not presented on category paths by adding more useful words. We evaluate the effectiveness of our method on state-of-the art narrow-down methods and report the results with in-depth analysis.

Text Classification on Social Network Platforms Based on Deep Learning Models

  • YA, Chen;Tan, Juan;Hoekyung, Jung
    • Journal of information and communication convergence engineering
    • /
    • 제21권1호
    • /
    • pp.9-16
    • /
    • 2023
  • The natural language on social network platforms has a certain front-to-back dependency in structure, and the direct conversion of Chinese text into a vector makes the dimensionality very high, thereby resulting in the low accuracy of existing text classification methods. To this end, this study establishes a deep learning model that combines a big data ultra-deep convolutional neural network (UDCNN) and long short-term memory network (LSTM). The deep structure of UDCNN is used to extract the features of text vector classification. The LSTM stores historical information to extract the context dependency of long texts, and word embedding is introduced to convert the text into low-dimensional vectors. Experiments are conducted on the social network platforms Sogou corpus and the University HowNet Chinese corpus. The research results show that compared with CNN + rand, LSTM, and other models, the neural network deep learning hybrid model can effectively improve the accuracy of text classification.

중립도 기반 선택적 단어 제거를 통한 유용 리뷰 분류 정확도 향상 방안 (Increasing Accuracy of Classifying Useful Reviews by Removing Neutral Terms)

  • 이민식;이홍주
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.129-142
    • /
    • 2016
  • 전자상거래에서 소비자들의 구매 의사결정에 판매 제품을 이미 구매하여 사용한 고객의 리뷰가 중요한 영향을 미치고 있다. 전자상거래 업체들은 고객들이 제품 리뷰를 남기도록 유도하고 있으며, 구매고객들도 적극적으로 자신의 경험을 공유하고 있다. 한 제품에 대한 고객 리뷰가 너무 많아져서 구매하려는 제품의 모든 리뷰를 읽고 제품의 장단점을 파악하는 것은 무척 힘든 일이 되었다. 전자상거래 업체들과 연구자들은 텍스트 마이닝을 활용하여 리뷰들 중에서 유용한 리뷰들의 속성을 파악하거나 유용한 리뷰와 유용하지 않은 리뷰를 미리 분류하는 노력을 수행하고 있다. 고객들에게 유용한 리뷰를 필터링하여 전달하는 방안이다. 본 연구에서는 문서-단어 매트릭스에서 단어의 제거 기준으로 온라인 고객 리뷰가 유용한 지, 그렇지 않은지를 구분하는 문제에서 단어들이 유용 리뷰 집합과 유용하지 않은 리뷰집합에 중복하여 등장하는 정도를 측정한 중립도를 제시한다. 제시한 중립도를 희소성과 함께 분석에 활용하여 제거할 단어를 선정한 후에 각 분류 알고리즘의 성과를 비교하였다. 최적의 성과를 보이는 중립도를 찾았으며, 희소성과 중립도에 따라 단어를 선택적으로 제거하였다. 실험은 Amazon.com의 'Cellphones & Accessories', 'Movies & TV program', 'Automotive', 'CDs & Vinyl', 'Clothing, Shoes & Jewelry' 제품 분야 고객 리뷰와 사용자들의 리뷰에 대한 평가를 활용하였다. 전체 득표의 수가 4개 이상인 리뷰 중에서 제품 카테고리 별로 유용하다고 판단되는 1,500개의 리뷰와 유용하지 않다고 판단되는 1,500개의 리뷰를 무작위로 추출하여 연구에 사용하였다. 데이터 집합에 따라 정확도 개선 정도가 상이하며, F-measure 기준으로는 두 알고리즘에서 모두 희소성과 중립도에 기반하여 단어를 제거하는 방안이 더 성과가 높았다. 하지만 Information Gain 알고리즘에서는 Recall 기준으로는 5개 제품 카테고리 데이터에서 언제나 희소성만을 기준으로 단어를 제거하는 방안의 성과가 높았으며, SVM에서는 전체 단어를 활용하는 방안이 Precision 기준으로 성과가 더 높았다. 따라서, 활용하는 알고리즘과 분석 목적에 따라서 단어 제거 방안을 고려하는 것이 필요하다.

현 입원의료이용량의 급성기진료 및 장기요양 서비스 재분류 (Reclassification of healthcare utilization of inpatients to estimate the demand for long-term care services)

  • 장혜정;김창엽;윤석준
    • 보건행정학회지
    • /
    • 제11권3호
    • /
    • pp.31-45
    • /
    • 2001
  • With an economic development and epidemiologic transition, the burden of disease due to chronic diseases and accidents is increasing. However, in most of developing countries, long-term care facilities are not available, therefore acute care facilities should provide both acute and long-term care services. It is also true in Korea. The demand for long-term care services needs to be estimated to establish the adequate supply system of health resources. This article introduces the reclassification methodology of inpatients' healthcare utilization to acute and long-term care services. All discharged patients from hospitals for one month were analyzed. The distribution of inpatients' hospital days were fitted to Chi-squared distribution by ICD disease categories, and they were grouped in five clusters. For each cluster, the lower and upper limit of classification criteria to acute and long-term care services were chosen. Summarizing all hospital days corresponding to acute and long-term care respectively, 24 to 28 percent of inpatient services fumed out to be long-term care services. The study results are consistent with those of the existing studies. They can be used practically in the allocation of long-term care resources.

  • PDF

OPAC에서 자동분류 열람을 위한 계층 클러스터링 연구 (Hierarchic Document Clustering in OPAC)

  • 노정순
    • 정보관리학회지
    • /
    • 제21권1호
    • /
    • pp.93-117
    • /
    • 2004
  • 본 연구는 OPAC에서 계층 클러스터링을 응용하여 소장자료를 계층구조로 분류하여 열람하는데 사용될 수 있는 최적의 계층 클러스터링 모형을 찾기 위한 목적으로 수행되었다. 문헌정보학 분야 단행본과 학위논문으로 실험집단을 구축하여 다양한 색인기법(서명단어 자동색인과 통제어 통합색인)과 용어가중치 기법(절대빈도와 이진빈도), 유사도 계수(다이스, 자카드, 피어슨, 코싸인, 제곱 유클리드), 클러스터링 기법(집단간 평균연결, 집단내 평균연결, 완전연결)을 변수로 실험하였다. 연구결과 집단간 평균연결법과 제곱 유클리드 유사도를 제외하고 나머지 유사도 계수와 클러스터링 기법은 비교적 우수한 클러스터를 생성하였으나, 통제어 통합색인을 이진빈도로 가중치를 부여하여 완전연결법과 집단간 평균연결법으로 클러스터링 하였을 때 가장 좋은 클러스터가 생성되었다. 그러나 자카드 유사도 계수를 사용한 집단간 평균연결법이 십진구조와 더 유사하였다.

효율적인 kNN 알고리즘 (An Efficient kNN Algorithm)

  • 이재문
    • 정보처리학회논문지B
    • /
    • 제11B권7호
    • /
    • pp.849-854
    • /
    • 2004
  • 본 논문은 문서분류 방법인 kNN의 실행속도를 개선하는 알고리즘을 제안한다. 제안된 알고리즘은 기존의 kNN이 사용하는 <용어, 가중치>쌍의 목록 대신, <문서, 가중치>쌍의 목록을 사용하여 유사성 계산을 빠르게 함으로써 실행속도를 개선하는 것이다. <문서, 가중치>의 목록은 문서분류의 학습단계에서 <용어, 가중치>의 목록을 행렬 전치함으로써 구한다. 본 논문에서는 제안된 알고리즘을 시간복잡도 측면에서 분석하고 기존의 kNN과 비교 하였으며, 로이터-21578 데이터를 사용하여 실험적으로 성능을 비교 하였다. 실험결과, 본 논문에서 제안한 알고리즘이 기존의 kNN보다 실행속도측면에서 약 $90{\%}$정도의 우수함을 알 수 있었다.