• Title/Summary/Keyword: 용어 분류

Search Result 477, Processing Time 0.03 seconds

A Study on Classification System of Korean Literatures Thesaurus (고전 용어 시소러스의 분류 체계에 관한 연구)

  • Yoo Yeong-Jun
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.40 no.2
    • /
    • pp.415-434
    • /
    • 2006
  • This study aim to develop a classification system to classify the descriptors, which is been in korean literatures. Firstly this classification structure is categorized on six facets and the classification system is constructed on a deductive method based on korean literature knowledge. The study compared the classification system with various thesaurus's classification system in humane studies and by the comparison, the classification system of korean literature's terms find out having some merits as using the facet method. On account of these merits the classification system has achieved a consistency of categorization independently and reduced a complexity of classification structure. And by categorizing the common categories, the study has reduced the size of schedules. Finally, the classification system has advanced the structure in the process of classifying the descriptors.

Comparison of Term-Weighting Schemes for Environmental Big Data Analysis (환경 빅데이터 이슈 분석을 위한 용어 가중치 기법 비교)

  • Kim, JungJin;Jeong, Hanseok
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.236-236
    • /
    • 2021
  • 최근 텍스트와 같은 비정형 데이터의 생성 속도가 급격하게 증가함에 따라, 이를 분석하기 위한 기술들의 필요성이 커지고 있다. 텍스트 마이닝은 자연어 처리기술을 사용하여 비정형 텍스트를 정형화하고, 문서에서 가치있는 정보를 획득할 수 있는 기법 중 하나이다. 텍스트 마이닝 기법은 일반적으로 각각의 분서별로 특정 용어의 사용 빈도를 나타내는 문서-용어 빈도행렬을 사용하여 용어의 중요도를 나타내고, 다양한 연구 분야에서 이를 활용하고 있다. 하지만, 문서-용어 빈도 행렬에서 나타내는 용어들의 빈도들은 문서들의 차별성과 그에 따른 용어들의 중요도를 나타내기 어렵기때문에, 용어 가중치를 적용하여 문서가 가지고 있는 특징을 분류하는 방법이 필수적이다. 다양한 용어 가중치를 적용하는 방법들이 개발되어 적용되고 있지만, 환경 분야에서는 용어 가중치 기법 적용에 따른 효율성 평가 연구가 미비한 상황이다. 또한, 환경 이슈 분석의 경우 단순히 문서들에 특징을 파악하고 주어진 문서들을 분류하기보다, 시간적 분포도에 따른 각 문서의 특징을 반영하는 것도 상대적으로 중요하다. 따라서, 본 연구에서는 텍스트 마이닝을 이용하여 2015-2020년의 서울지역 환경뉴스 데이터를 사용하여 환경 이슈 분석에 적합한 용어 가중치 기법들을 비교분석하였다. 용어 가중치 기법으로는 TF-IDF (Term frequency-inverse document frquency), BM25, TF-IGM (TF-inverse gravity moment), TF-IDF-ICSDF (TF-IDF-inverse classs space density frequency)를 적용하였다. 본 연구를 통해 환경문서 및 개체 분류에 대한 최적화된 용어 가중치 기법을 제시하고, 서울지역의 환경 이슈와 관련된 핵심어 추출정보를 제공하고자 한다.

  • PDF

Terms Based Sentiment Classification for Online Review Using Support Vector Machine (Support Vector Machine을 이용한 온라인 리뷰의 용어기반 감성분류모형)

  • Lee, Taewon;Hong, Taeho
    • Information Systems Review
    • /
    • v.17 no.1
    • /
    • pp.49-64
    • /
    • 2015
  • Customer reviews which include subjective opinions for the product or service in online store have been generated rapidly and their influence on customers has become immense due to the widespread usage of SNS. In addition, a number of studies have focused on opinion mining to analyze the positive and negative opinions and get a better solution for customer support and sales. It is very important to select the key terms which reflected the customers' sentiment on the reviews for opinion mining. We proposed a document-level terms-based sentiment classification model by select in the optimal terms with part of speech tag. SVMs (Support vector machines) are utilized to build a predictor for opinion mining and we used the combination of POS tag and four terms extraction methods for the feature selection of SVM. To validate the proposed opinion mining model, we applied it to the customer reviews on Amazon. We eliminated the unmeaning terms known as the stopwords and extracted the useful terms by using part of speech tagging approach after crawling 80,000 reviews. The extracted terms gained from document frequency, TF-IDF, information gain, chi-squared statistic were ranked and 20 ranked terms were used to the feature of SVM model. Our experimental results show that the performance of SVM model with four POS tags is superior to the benchmarked model, which are built by extracting only adjective terms. In addition, the SVM model based on Chi-squared statistic for opinion mining shows the most superior performance among SVM models with 4 different kinds of terms extraction method. Our proposed opinion mining model is expected to improve customer service and gain competitive advantage in online store.

The Design and Implementation of Automatic Query Term Refiner for Term Expansion/Restriction in Information Retrieval (정보검색에서 질의 용어 확장/한정을 위한 자동 질의 용어 정련기의 설계 및 구현)

  • Kang, Hyun-Su;Kang, Hyun-Kyu;Lee, Yong-Seok;Kim, Young-Sum
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.65-72
    • /
    • 1998
  • 인터넷 정보 검색에서 이용자들이 주로 사용하는 질의는 2-3개의 용어로 이루어진 짧은 질의이다. 또만 동음이의어를 갖는 용어를 사용하기도 한다. 짧은 질의를 처리하는 일반적인 방법은 시소러스[8]나 Wordnet[1]을 이용한 질의 확장이다. 그러나 시소러스나 Wordnet과 같은 지식 베이스는 구축하기가 용이하지 않으며, 도메인 종속적인 면과 단어의 회귀(sparseness) 문제를 극복하기 어려운 단점이 있다. 또한 동음이의어 용어로 인하여 검색의 정확성이 털어지는 문제점이 있다. 한편, 사용자의 질의를 주의 깊게 살펴보면, 질의로부터 관련 용어 분류 정보를 추출할 수 있다. 본 논문은 사용자의 질의가 관련 용어 분류 정보에 의해 유기적으로 관계를 가지고 있다는 사실에 기인하여 관련 용어 분류 정보에 따라 자동으로 용어 확장 및 한정을 수행하며 적절한 용어 가중치를 부여하는 자동 질의 용어 정련기를 제안한다. 자동 질의 용어 정련기는 용어의 확장, 한정 및 가중치 부여를 통하여 사용자의 정보 검색 요구를 명확히 하여 검색의 정확성을 향상시킨다.

  • PDF

How to Generate Term Vectors to Support the Automatic Generation of Taxonomy (분류체계 자동 생성 지원을 위한 용어 벡터 생성 방법 탐색)

  • Su-Jin Seong;Jeong-Won Cha
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.600-603
    • /
    • 2022
  • 분류체계를 결정하는 일은 매우 중요하지만 어려운 일이다. 우리는 수집된 용어 목록에 클러스터링을 적용하여 상위 범주의 범위를 자동으로 설정하고자 하였다. 용어 클러스터링은 용어를 나타내는 벡터에 큰 의존성을 갖는다. 이에 클러스터링의 성능 향상을 위해 다양한 용어 임베딩 방법을 비교하였으며 용어에 대한 정의문의 벡터를 용어 벡터로 사용하여 가장 우수한 클러스터링 결과를 얻었다. 또한 실험을 통해 클러스터링 알고리즘 중 k-means clustering이 고차원의 벡터에 대해 좋은 성능의 군집을 생성함을 확인하였다.

  • PDF

A Study on ICT Terms for Elementary Students (초등학생을 위한 ICT 용어에 대한 연구)

  • Jang, Yeon-Lan;Kim, Kap-Su
    • 한국정보교육학회:학술대회논문집
    • /
    • 2008.01a
    • /
    • pp.160-165
    • /
    • 2008
  • 본 연구에서는 2005년 12월에 개정된 초 중등학교 정보통신기술 교육 운영지침에 따라 변화된 교육과정에 적합한 초등학교 ICT 용어를 선정하였다. 정보통신기술의 급격하게 발달하면서 새로운 용어가 계속 생성되고, 사양화되는 용어가 생겼으며, 교육인적자원부가 이러한 사회적 요구에 따라 초 중등학교 정보통신기술 교육 운영지침을 개정하였기 때문에 초등학교 ICT 용어도 그에 적합하게 재정비할 필요가 있다. 먼저 개정된 운영지침과 초등학교 전자교과서를 분석하여 예비 용어를 약 327개를 수집하였다. 그리고 새 운영지침과 정보통신기술용어 사전을 참고로 하여 초등학교 ICT 용어 선정의 원칙과 표기 원칙을 정하여 239개의 초등 ICT 용어를 선정하였다. 마지막으로 선정된 초등 ICT 용어를 새 운영지침에 맞게 단계별로 1, 2, 3 단계로 분류하고, 영역별로 정보 생활 용어, 정보 기기 용어, 정보 처리 용어, 정보 가공 용어로 나누어 분류하였다.

  • PDF

A Study on Improving the Performance of Document Classification Using the Context of Terms (용어의 문맥활용을 통한 문헌 자동 분류의 성능 향상에 관한 연구)

  • Song, Sung-Jeon;Chung, Young-Mee
    • Journal of the Korean Society for information Management
    • /
    • v.29 no.2
    • /
    • pp.205-224
    • /
    • 2012
  • One of the limitations of BOW method is that each term is recognized only by its form, failing to represent the term's meaning or thematic background. To overcome the limitation, different profiles for each term were defined by thematic categories depending on contextual characteristics. In this study, a specific term was used as a classification feature based on its meaning or thematic background through the process of comparing the context in those profiles with the occurrences in an actual document. The experiment was conducted in three phases; term weighting, ensemble classifier implementation, and feature selection. The classification performance was enhanced in all the phases with the ensemble classifier showing the highest performance score. Also, the outcome showed that the proposed method was effective in reducing the performance bias caused by the total number of learning documents.

Comparative Evaluation of Term Weighting Methods in Automatic Document Classification (문헌 자동분류에서 용어가중치 기법에 대한 연구)

  • 이재윤;최보영;정영미
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2000.08a
    • /
    • pp.41-44
    • /
    • 2000
  • 정보검색 시스템의 성능을 향상시키기 위해서 다양한 용어가중치 공식이 제안 되어왔다. 용어가중치는 질의와 문헌을 비교하는 검색의 경우뿐만 아니라 문헌과 문헌을 비교하는 자동분류에서도 성능에 영향을 미칠 수가 있다. 본 논문에서는 다양한 용어가중치 공식에 대해서 살펴보고, 문헌 자동분류 성능에 미치는 영향을 문헌 클러스터링 실험과 범주화 실험을 통해 확인해 보았다.

  • PDF

Analytical Study of Fuzzy Clustering Technique for Automatic Term Classification (용어 자동분류를 위한 퍼지 클러스터링 기법 분석)

  • 한승희
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2003.08a
    • /
    • pp.95-103
    • /
    • 2003
  • 목차 및 권말색인과 같은 인쇄형태의 정보내용에 대한 구조화된 접근방식에서 착안하여 전자 문서의 내용에 대한 새로운 형태의 접근방식을 개발할 수 있는데, 이를 위한 방안으로 용어 자동분류 기법이 있다. 본 연구에서는 용어의 의미모호성 문제를 해결하는 동시에 용어간 계층관계 표현이 가능한 자동분류 기법으로 퍼지 클러스터링 기법을 제안하고, 대표적인 퍼지 클러스터링 알고리즘인 퍼지 c-means 기법에 대해 분석하고자 한다.

  • PDF

A Study on Automatic Keyword Classification (용어의 자동분류에 관한 연구)

  • Seo, Eun-Gyoung
    • Journal of the Korean Society for information Management
    • /
    • v.1 no.1
    • /
    • pp.78-99
    • /
    • 1984
  • In this paper, the automatic keyword classification which is one of the automatic construction methods of retrieval thesaurus is experimented to the Korean language on the basis that the use of retrieval thesaurus would increase the efficiency of information retrieval in the natural language retrieval system searching machine-readable data base. Furthermore, this paper proposes the application methods. In this experiment, the automatic keyword classification was based on the assumption that semantic relationships between terms can be found out by the statistical patterns of terms occurring in a text.

  • PDF