• 제목/요약/키워드: Classification of Terms

검색결과 1,404건 처리시간 0.026초

문헌빈도와 장서빈도를 이용한 kNN 분류기의 자질선정에 관한 연구 (A Study on Feature Selection for kNN Classifier using Document Frequency and Collection Frequency)

  • 이용구
    • 한국도서관정보학회지
    • /
    • 제44권1호
    • /
    • pp.27-47
    • /
    • 2013
  • 이 연구에서는 자동 색인을 통해 쉽게 얻을 수 있는 자질의 문헌빈도와 장서빈도를 이용하여 자동분류에서 자질 선정 기법을 kNN 분류기에 적용하였을 때, 어떠한 분류성능을 보이는지 알아보고자 하였다. 실험집단으로 한국일보-20000(HKIB-20000)의 일부를 이용하였다. 실험 결과 첫째, 장서빈도를 이용하여 고빈도 자질을 선정하고 저빈도 자질을 제거한 자질선정 방법이 문헌빈도보다 더 좋은 성능을 가져오는 것으로 나타났다. 둘째, 문헌빈도와 장서빈도 모두 저빈도 자질을 우선으로 선정하는 방법은 좋은 분류성능을 가져오지 못했다. 셋째, 장서빈도와 같은 단순빈도에서 자질 선정 구간을 조정하는 것이 문헌빈도와 장서빈도의 조합보다 더 좋은 성능을 가져오는 것으로 나타났다.

비위론에 기재된 술어의 분류에 관한 연구 (A Study of classification the predicate in "Biwiron(脾胃論)")

  • 김명희;이병욱;김은하
    • 대한한의학원전학회지
    • /
    • 제23권1호
    • /
    • pp.163-186
    • /
    • 2010
  • Objective and Background : Attempt to express knowledge by IT is the current of the times, knowledge of the oriental medicine have to meet the needs of the times. It takes 'classification system of the oriental medicine terms' and 'system of the predicate' for explaining the relation between concepts to express knowledge by IT technique. Researches for 'classification system of the oriental medicine terms' are in progress already, researches for 'system of the predicate' are insufficient. Subject of study : We proceeded to study of the predicate in Idongwon(李東垣)'s "Biwiron(脾胃論)" has clear theory system and considerable influence upon knowledge of the oriental medicine for studying 'system of the predicate' which expresses knowledge of the oriental medicine in early stage. Method : Acquire Chinese play a predicate part in "Biwiron(脾胃論)", translate the Chinese to answer the context, group the similar predicate, decide representative predicate of group. And attempt to make classification system of the representative predicate with Term management system based on SQL Server 2005. Results and Considerations : I classify the predicate which predicate diagnosis, treatment, symptoms and knowledge of the oriental medicine into existence, condition, cognition and will. This classification seems to be useful to explain factors which have an effect on demonstration and treatment.

위키피디아를 이용한 분류자질 선정에 관한 연구 (An Experimental Study on Feature Selection Using Wikipedia for Text Categorization)

  • 김용환;정영미
    • 정보관리학회지
    • /
    • 제29권2호
    • /
    • pp.155-171
    • /
    • 2012
  • 텍스트 범주화에 있어서 일반적인 문제는 문헌을 표현하는 핵심적인 용어라도 학습문헌 집합에 나타나지 않으면 이 용어는 분류자질로 선정되지 않는다는 것과 형태가 다른 동의어들은 서로 다른 자질로 사용된다는 점이다. 이 연구에서는 위키피디아를 활용하여 문헌에 나타나는 동의어들을 하나의 분류자질로 변환하고, 학습문헌 집합에 출현하지 않은 입력문헌의 용어를 가장 유사한 학습문헌의 용어로 대체함으로써 범주화 성능을 향상시키고자 하였다. 분류자질 선정 실험에서는 (1) 비학습용어 추출 시 범주 정보의 사용여부, (2) 용어의 유사도 측정 방법(위키피디아 문서의 제목과 본문, 카테고리 정보, 링크 정보), (3) 유사도 척도(단순 공기빈도, 정규화된 공기빈도) 등 세 가지 조건을 결합하여 실험을 수행하였다. 비학습용어를 유사도 임계치 이상의 최고 유사도를 갖는 학습용어로 대체하여 kNN 분류기로 분류할 경우 모든 조건 결합에서 범주화 성능이 0.35%~1.85% 향상되었다. 실험 결과 범주화 성능이 크게 향상되지는 못하였지만 위키피디아를 활용하여 분류자질을 선정하는 방법이 효과적인 것으로 확인되었다.

식물학문헌을 위한 자동분류시스템의 개발 (Developing an Automatic Classification System for Botanical Literatures)

  • 김정현;이경호
    • 한국도서관정보학회지
    • /
    • 제32권4호
    • /
    • pp.99-117
    • /
    • 2001
  • 본 연구는 분류자동화를 위해 이미 연구된 바 있는 농학 및 의학분야의 AutoBC 시스템에 대한 계속적인 연구의 일환으로 식물학분야의 문헌에 대해 분류자동화가 가능한지의 여부를 CC의 원리를 응용하여 실험 및 검증한 것이다. 분류자동화를 위한 데이터베이스는 원통형과 행렬식의 원리에 의해 설계되었으며, 문헌의 표제나 키워드를 입력하여 자동적인 주제인지 및 분류기호가 생성될 수 있는 윈도우용 자동분류시스템을 새로이 개발하여 실험하였다.

  • PDF

KDC 제6판 심령연구 및 비학, 초심리학 분야(187)의 용어 변경 및 주기사항 보완에 대한 연구 (A Study on the Changing Terms and Supplementing notes of the Parapsychology and Occultism Field in the 6th Edition of the Korean Decimal Classification)

  • 김영주;권선영
    • 한국비블리아학회지
    • /
    • 제31권2호
    • /
    • pp.161-181
    • /
    • 2020
  • 이 연구는 KDC 제6판 심령연구 및 비학, 초심리학 분야의 용어와 주기사항의 보완에 대한 개선방안을 제시하기 위한 목적을 지닌다. 이와 같은 목적을 달성하기 위하여 KDC와 DDC 등 주요 분류의 심령연구 및 비학, 초심리학 분야 분류체계를 상호 비교하였으며, 심령연구 및 비학, 초심리학 분야의 KDC 변천과정과 분류된 자료를 분석하였다. 이를 토대로 심령연구 및 비학, 초심리학 분야의 분류특성과 문제점을 분석하였다. 분석 결과, 주기의 미흡, 용어의 부적절함 등으로 인한 문제점으로 분류의 혼동이 있었음을 알 수 있었으며 이러한 문제를 해결하기 위해서 이 연구에서는 187의 각 하위 항목에 주기의 추가, 187.2, 187.3, 187.4, 187.5에 있어서 용어 변경 등의 해결방안을 제시하였다.

학교도서관을 위한 KDC 분류체계에 관한 연구 - 초등학생관련 문헌의 어휘분석을 중심으로 - (A Study on the Classification System of KDC for School Libraries - Focused on Vocabulary Analysis of Elementary Materials -)

  • 김정현
    • 한국도서관정보학회지
    • /
    • 제35권4호
    • /
    • pp.171-191
    • /
    • 2004
  • 이 연구는 KDC 사회과학류(300)와 순수과학류(400)를 중심으로 분류표의 분류명사와 초등학생관련 자료의 실제적인 어휘분석을 바탕으로 초등학교 도서관을 위한 분류표의 수정 전개방안을 제시하고자 시도되었다. 이를 위해 국내$\cdot$외 학교도서관이나 어린이도서관에서 초등학생관련 자료의 분류를 위한 분류표 개발 사례 및 문제점에 대해 살펴보고, 초등학교도서관을 대상으로 실제로 소장된 문헌의 KDC 유별 현황을 분석하여 각 분류항목의 실제적인 문헌의 유별 분포도를 분석하였다. 그리고 KDC 사회과학류와 순수과학류에서 사용되고 있는 분류항목과 초등학교교과서나 초등학생용 학습백과사전 등의 초등학생관련 문헌에서 추출한 용어에 대해 초등학교 4, 5, 6학년 학생들을 대상으로 용어의 이해도를 분석하였으며 이를 바탕으로 분류표 수정전개의 원칙과 방법을 마련한 후, 유별로 학교도서관을 위한 KDC 분류항목의 수정전개 방안을 제시하였다.

  • PDF

A CHARACTERIZATION OF MAXIMAL SURFACES IN TERMS OF THE GEODESIC CURVATURES

  • Eunjoo Lee
    • 충청수학회지
    • /
    • 제37권2호
    • /
    • pp.67-74
    • /
    • 2024
  • Maximal surfaces have a prominent place in the field of differential geometry, captivating researchers with their intriguing properties. Bearing a direct analogy to the minimal surfaces in Euclidean space, investigating both their similarities and differences has long been an important issue. This paper is aimed to give a local characterization of maximal surfaces in 𝕃3 in terms of their geodesic curvatures, which is analogous to the minimal surface case presented in [8]. We present a classification of the maximal surfaces under some simple condition on the geodesic curvatures of the parameter curves in the line of curvature coordinates.

구성주의 관점에서 각과 삼각형의 분류에 관한 초등 교과서 및 교사용지도서 분석 (Analysis of Elementary Textbooks and Guidebook for Teacher regarding the Classification of Angles and Triangles in the Constructivist Perspective)

  • 노은환;강정기
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제29권3호
    • /
    • pp.313-330
    • /
    • 2015
  • 분류 활동은 개념 형성과 직결되는 중요한 활동이다. 따라서 분류는 학습자 중심적인 교수를 통해 의미 충실한 학습이 이루어질 필요가 있다. 하지만 분류와 관련한 교수 학습이 '학습자 중심'이라는 구성주의 철학을 잘 반영하고 있을지 의구심이 제기된다. 이에 본 연구에서는 각과 삼각형의 분류와 관련한 초등 교과서 및 교사용지도서의 내용을 구성주의의 관점에서 비판적으로 분석해 보았다. 그 결과 각의 분류에서는 공동체의 합의에 의한 합리적 기준 설정의 기회가 제공되지 않는 문제점이 있었다. 삼각형의 분류는 다양성의 측면에서 다소 급진적인 형태를 띠고 있다는 문제점이 있었다. 또한 삼각형의 분류는 학생 반응 예측에서 이미 그 지식을 습득한 사람에게나 가능한 반응을 제안하는 경우를 접할 수 있었다. 그리고 계층적 분할적 분류에 대한 선택과 논의의 기회가 제공되지 않는 단점을 지니고 있었다. 이러한 특징을 바탕으로 '학습자 중심' 원칙의 충실한 반영, 학생 반응에 대한 신중한 예측, 결과보다 과정에 주목하는 교수를 지향할 것을 제안하였다.

중립도 기반 선택적 단어 제거를 통한 유용 리뷰 분류 정확도 향상 방안 (Increasing Accuracy of Classifying Useful Reviews by Removing Neutral Terms)

  • 이민식;이홍주
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.129-142
    • /
    • 2016
  • 전자상거래에서 소비자들의 구매 의사결정에 판매 제품을 이미 구매하여 사용한 고객의 리뷰가 중요한 영향을 미치고 있다. 전자상거래 업체들은 고객들이 제품 리뷰를 남기도록 유도하고 있으며, 구매고객들도 적극적으로 자신의 경험을 공유하고 있다. 한 제품에 대한 고객 리뷰가 너무 많아져서 구매하려는 제품의 모든 리뷰를 읽고 제품의 장단점을 파악하는 것은 무척 힘든 일이 되었다. 전자상거래 업체들과 연구자들은 텍스트 마이닝을 활용하여 리뷰들 중에서 유용한 리뷰들의 속성을 파악하거나 유용한 리뷰와 유용하지 않은 리뷰를 미리 분류하는 노력을 수행하고 있다. 고객들에게 유용한 리뷰를 필터링하여 전달하는 방안이다. 본 연구에서는 문서-단어 매트릭스에서 단어의 제거 기준으로 온라인 고객 리뷰가 유용한 지, 그렇지 않은지를 구분하는 문제에서 단어들이 유용 리뷰 집합과 유용하지 않은 리뷰집합에 중복하여 등장하는 정도를 측정한 중립도를 제시한다. 제시한 중립도를 희소성과 함께 분석에 활용하여 제거할 단어를 선정한 후에 각 분류 알고리즘의 성과를 비교하였다. 최적의 성과를 보이는 중립도를 찾았으며, 희소성과 중립도에 따라 단어를 선택적으로 제거하였다. 실험은 Amazon.com의 'Cellphones & Accessories', 'Movies & TV program', 'Automotive', 'CDs & Vinyl', 'Clothing, Shoes & Jewelry' 제품 분야 고객 리뷰와 사용자들의 리뷰에 대한 평가를 활용하였다. 전체 득표의 수가 4개 이상인 리뷰 중에서 제품 카테고리 별로 유용하다고 판단되는 1,500개의 리뷰와 유용하지 않다고 판단되는 1,500개의 리뷰를 무작위로 추출하여 연구에 사용하였다. 데이터 집합에 따라 정확도 개선 정도가 상이하며, F-measure 기준으로는 두 알고리즘에서 모두 희소성과 중립도에 기반하여 단어를 제거하는 방안이 더 성과가 높았다. 하지만 Information Gain 알고리즘에서는 Recall 기준으로는 5개 제품 카테고리 데이터에서 언제나 희소성만을 기준으로 단어를 제거하는 방안의 성과가 높았으며, SVM에서는 전체 단어를 활용하는 방안이 Precision 기준으로 성과가 더 높았다. 따라서, 활용하는 알고리즘과 분석 목적에 따라서 단어 제거 방안을 고려하는 것이 필요하다.

A Preliminary Study on Clinical Decision Support System based on Classification Learning of Electronic Medical Records

  • Shin, Yang-Kyu
    • Journal of the Korean Data and Information Science Society
    • /
    • 제14권4호
    • /
    • pp.817-824
    • /
    • 2003
  • We employed a hierarchical document classification method to classify a massive collection of electronic medical records(EMR) written in both Korean and English. Our experimental system has been learned from 5,000 records of EMR text data and predicted a newly given set of EMR text data over 68% correctly. We expect the accuracy rate can be improved greatly provided a dictionary of medical terms or a suitable medical thesaurus. The classification system might play a key role in some clinical decision support systems and various interpretation systems for clinical data.

  • PDF