• Title/Summary/Keyword: 분류 문제

Search Result 3,575, Processing Time 0.029 seconds

Dataset construction and Automatic classification of Department information appearing in Domestic journals (국내 학술지 출현 학과정보 데이터셋 구축 및 자동분류)

  • Byungkyu Kim;Beom-Jong You;Hyoung-Seop Shim
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.01a
    • /
    • pp.343-344
    • /
    • 2023
  • 과학기술 문헌을 활용한 계량정보분석에서 학과정보의 활용은 매유 유용하다. 본 논문에서는 한국과학기술인용색인데이터베이스에 등재된 국내 학술지 논문에 출현하는 대학기관 소속 저자의 학과정보를 추출하고 데이터 정제 및 학과유형 분류 처리를 통해 학과정보 데이터셋을 구축하였다. 학과정보 데이터셋을 학습데이터와 검증데이터로 이용하여 딥러닝 기반의 자동분류 모델을 구현하였으며, 모델 성능 평가 결과는 한글 학과정보 기준 98.6%와 영문 학과정보 기준 97.6%의 정확률로 측정되었다. 향후 과학기술 분야별 지적관계 분석 및 논문 주제분류 등에 학과정보 자동분류 처리기의 활용이 기대된다.

  • PDF

Synopsis-Based Classification of Movie Genres Using Machine Learning Techniques (기계학습을 이용한 시놉시스 기반 영화장르 분류 기법)

  • Jae-Eon Lee;Gum-Won Hong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.82-85
    • /
    • 2008
  • 고객의 기호와 요구에 부응하는 서비스의 제공을 위해 영화 요소 중 정확한 장르의 분류는 고객의 선택에 있어 중요한 문제이다. 기존의 수작업에 의한 장르 분류는 시간과 비용, 신뢰성 등에서 비효율적이다. 이러한 문제의 해결을 위해 영화 시놉시스(Synopsis) 기반의 기계학습 방법은 효율적인 대안이 될 수 있다. 본 논문에서는 대다수 영화서비스 주체가 보유하고 있는 시놉시스 정보를 기반으로 하여 기계학습을 이용한 영화장르 분류에 관한 하나의 정형화된 방법을 제시한다. 기계학습 Algorithm 중 LibSVM, RandomComittee, LMT, NaiveBayes, PART Algorithm 을 이용하여 Algorithm 별, 장르별 분류 정확도를 측정하여 비교한다.

A Preliminary Study on Interchange of Science and Technology Information through Harmonization of Classification Schemes (분류체계 일치를 통한 과학기술정보 상호 교환 방법에 관한 기초 연구)

  • Hong, Sung-Wha;Seo, Tae-Sul
    • Journal of Information Management
    • /
    • v.35 no.3
    • /
    • pp.109-123
    • /
    • 2004
  • The problem of semantic interoperability in science and technology information is frequently raised. Well-established classification scheme will be used as a tool to interchange information between different databases without semantic inconsistency. However, there is still a practical barrier due to different classification schemes each database adopts. Accordingly, it is urgent to harmonize or reconcile those classifications with each other. This paper aims to solve semantic inconsistencies occurred when interchanging information between databases having different classification schemes, the Standard National Sci-Tech Classification and the Standard KISTI Classification. For the purpose a conceptual analysis of science and technology are performed and five consistency/inconsistency types are analyzed based on some examples.

The Bi-Cross Pretraining Method to Enhance Language Representation (Bi-Cross 사전 학습을 통한 자연어 이해 성능 향상)

  • Kim, Sung-ju;Kim, Seonhoon;Park, Jinseong;Yoo, Kang Min;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.320-325
    • /
    • 2021
  • BERT는 사전 학습 단계에서 다음 문장 예측 문제와 마스킹된 단어에 대한 예측 문제를 학습하여 여러 자연어 다운스트림 태스크에서 높은 성능을 보였다. 본 연구에서는 BERT의 사전 학습 문제 중 다음 문장 예측 문제에 대해 주목했다. 다음 문장 예측 문제는 자연어 추론 문제와 질의 응답 문제와 같이 임의의 두 문장 사이의 관계를 모델링하는 문제들에 성능 향상을 위해 사용되었다. 하지만 BERT의 다음 문장 예측 문제는 두 문장을 특수 토큰으로 분리하여 단일 문자열 형태로 모델에 입력으로 주어지는 cross-encoding 방식만을 학습하기 때문에 문장을 각각 인코딩하는 bi-encoding 방식의 다운스트림 태스크를 고려하지 않은 점에서 아쉬움이 있다. 본 논문에서는 기존 BERT의 다음 문장 예측 문제를 확장하여 bi-encoding 방식의 다음 문장 예측 문제를 추가적으로 사전 학습하여 단일 문장 분류 문제와 문장 임베딩을 활용하는 문제에서 성능을 향상 시키는 Bi-Cross 사전 학습 기법을 소개한다. Bi-Cross 학습 기법은 영화 리뷰 감성 분류 데이터 셋인 NSMC 데이터 셋에 대해 학습 데이터의 0.1%만 사용하는 학습 환경에서 Bi-Cross 사전 학습 기법 적용 전 모델 대비 5점 가량의 성능 향상이 있었다. 또한 KorSTS의 bi-encoding 방식의 문장 임베딩 성능 평가에서 Bi-Cross 사전 학습 기법 적용 전 모델 대비 1.5점의 성능 향상을 보였다.

  • PDF

Hypergraph model based Scene Image Classification Method (하이퍼그래프 모델 기반의 장면 이미지 분류 기법)

  • Choi, Sun-Wook;Lee, Chong Ho
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.24 no.2
    • /
    • pp.166-172
    • /
    • 2014
  • Image classification is an important problem in computer vision. However, it is a very challenging problem due to the variability, ambiguity and scale change that exists in images. In this paper, we propose a method of a hypergraph based modeling can consider the higher-order relationships of semantic attributes of a scene image and apply it to a scene image classification. In order to generate the hypergraph optimized for specific scene category, we propose a novel search method based on a probabilistic subspace method and also propose a method to aggregate the expression values of the member semantic attributes that belongs to the searched subsets based on a linear transformation method via likelihood based estimation. To verify the superiority of the proposed method, we showed that the discrimination power of the feature vector generated by the proposed method is better than existing methods through experiments. And also, in a scene classification experiment, the proposed method shows a competitive classification performance compared with the conventional methods.

A Study on The Classification of Target-objects with The Deep-learning Model in The Vision-images (딥러닝 모델을 이용한 비전이미지 내의 대상체 분류에 관한 연구)

  • Cho, Youngjoon;Kim, Jongwon
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.22 no.2
    • /
    • pp.20-25
    • /
    • 2021
  • The target-object classification method was implemented using a deep-learning-based detection model in real-time images. The object detection model was a deep-learning-based detection model that allowed extensive data collection and machine learning processes to classify similar target-objects. The recognition model was implemented by changing the processing structure of the detection model and combining developed the vision-processing module. To classify the target-objects, the identity and similarity were defined and applied to the detection model. The use of the recognition model in industry was also considered by verifying the effectiveness of the recognition model using the real-time images of an actual soccer game. The detection model and the newly constructed recognition model were compared and verified using real-time images. Furthermore, research was conducted to optimize the recognition model in a real-time environment.

Kernel Perceptron Boosting for Effective Learning of Imbalanced Data (불균형 데이터의 효과적 학습을 위한 커널 퍼셉트론 부스팅 기법)

  • 오장민;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.304-306
    • /
    • 2001
  • 많은 실세계의 문제에서 일반적인 패턴 분류 알고리즘들은 데이터의 불균형 문제에 어려움을 겪는다. 각각의 학습 예제에 균등한 중요도를 부여하는 기존의 기법들은 문제의 특징을 제대로 파악하지 못하는 경우가 많다. 본 논문에서는 불균형 데이터 문제를 해결하기 위해 퍼셉트론에 기반한 부스팅 기법을 제안한다. 부스팅 기법은 학습을 어렵게 하는 데이터에 집중하여 앙상블 머신을 구축하는 기법이다. 부스팅 기법에서는 약학습기를 필요로 하는데 기존 퍼셉트론의 경우 문제에 따라 약학습기(weak learner)의 조건을 만족시키지 못하는 경우가 있을 수 있다. 이에 커널을 도입한 커널 퍼셉트론을 사용하여 학습기의 표현 능력을 높였다. Reuters-21578 문서 집합을 대상으로 한 문서 여과 문제에서 부스팅 기법은 다층신경망이나 나이브 베이스 분류기보다 우수한 성능을 보였으며, 인공 데이터 실험을 통하여 부스팅의 샘플링 경향을 분석하였다.

  • PDF

On Mathematics Teachers' Recognition about Problem-Based Learning(PBL) Implementation : Taxonomic Analysis & Componential Analysis by using cards (문제중심학습(PBL)의 실행에 관한 수학교사의 인식 조사 : 카드 활용 면담을 이용한 분류체계 및 성분 분석을 중심으로)

  • Huh, Nan;Ha, Young-Hwa
    • Journal of the Korean School Mathematics Society
    • /
    • v.14 no.2
    • /
    • pp.143-161
    • /
    • 2011
  • Mathematics PBL, which has recently attracted much attention, is a teaching and learning method to increase mathematical ability and help learning mathematical concepts and principles through problem solving using mathematical knowledge the students have. In spite of the attention, however, the implementations are yet significant. In this study, we worked to find the needs of mathematics teachers for mathematics PBL implementation. The methods of this study are taxonomic analysis and componential analysis by using cards depth interviewing. As a result, mathematics teachers' needs are to consider how to develop the mathematics PBL problems and how to make progress.

  • PDF

Review of Issues and Problems in Using Landscape Ecology Indices (경관생태지수 사용에 대한 고려사항과 문제점에 관한 고찰)

  • Lee Sang-Woo;Yoon Eun-Joo;Lee In-Sung
    • Journal of the Korean Institute of Landscape Architecture
    • /
    • v.32 no.5
    • /
    • pp.73-83
    • /
    • 2004
  • 경관생태지수는 녹지의 이질성(Heterogeneity)을 계량화하기 위하여 제안되고 발전되어 왔다. 지난 수십년간 많은 연구에서 경관생태지수가 광범위하게 사용되어 그 효용성이 인정되었지만, 경관생태지수의 사용에 따른 많은 문제점들이 제기되고 있다. 본 연구의 목적은 경관생태지수 사용에 따른 고려사항과 문제점들을 기존 연구들을 통해 고찰하고, 이를 기초로 적절한 응용방법을 제안하고자 하는 것으로, 지수의 문제점을 내재적인 문제들과 응용상의 문제들로 구분하여 논의하였다. 지수 자체의 내재적인 문제로는 녹지구조와 기능과의 관계, 녹지구조의 측정 및 대표, 그리고 지수들의 불안정성 등을 들 수 있으며, 응용상의 문제점들로는 지수 선택, 스케일 변화와 피복 분류과정에 개입된 문제, 해석상의 오류 등을 들 수 있다. 이러한 문제들을 최소화하는 방안으로는 첫째, 가설에 입각한 연구가 필요하며, 둘째, 측정하고자 하는 녹지의 공간적 특성을 명확히 규정하여야 하고, 셋째, 변위가 예측 가능한 지수를 사용해야 하고, 넷째, GIS나 인공위성 자료의 축척을 변화시키지 말아야 하며, 마지막으로 다섯째, 피복분류 알고리즘을 사용하여 분류상 오류를 최소화해야 한다는 점이다.