• Title/Summary/Keyword: 문서 분류기

Search Result 191, Processing Time 0.038 seconds

A Development of RSS-based Educational Information System for Providing Adapted Information (맞춤형 정보제공을 위한 RSS 기반 교육정보시스템의 개발)

  • Kang, Jeong-Min;Chun, Seok-Ju
    • Journal of the Korea Society of Computer and Information
    • /
    • v.12 no.5
    • /
    • pp.293-302
    • /
    • 2007
  • In this study, we develop a RSS-based educational information system for providing users, such as teachers, students, and parents of students with an adapted information. In order to collect an educational information from diverse web pages we design a web-based RSS reader. The RSS reader reads RSS files from the web sites or blogs which provide RSS feeds and then creates XML documents. The created XML documents are classified and registered into the system. Whenever the registered web-pages are updated, the system can automatically collect the updated information and provide the user with it. Therefore the user can be provided a real-time adapted educational information without searching web-sites from the system.

  • PDF

A Study on Method for User Gender Prediction Using Multi-Modal Smart Device Log Data (스마트 기기의 멀티 모달 로그 데이터를 이용한 사용자 성별 예측 기법 연구)

  • Kim, Yoonjung;Choi, Yerim;Kim, Solee;Park, Kyuyon;Park, Jonghun
    • The Journal of Society for e-Business Studies
    • /
    • v.21 no.1
    • /
    • pp.147-163
    • /
    • 2016
  • Gender information of a smart device user is essential to provide personalized services, and multi-modal data obtained from the device is useful for predicting the gender of the user. However, the method for utilizing each of the multi-modal data for gender prediction differs according to the characteristics of the data. Therefore, in this study, an ensemble method for predicting the gender of a smart device user by using three classifiers that have text, application, and acceleration data as inputs, respectively, is proposed. To alleviate privacy issues that occur when text data generated in a smart device are sent outside, a classification method which scans smart device text data only on the device and classifies the gender of the user by matching text data with predefined sets of word. An application based classifier assigns gender labels to executed applications and predicts gender of the user by comparing the label ratio. Acceleration data is used with Support Vector Machine to classify user gender. The proposed method was evaluated by using the actual smart device log data collected from an Android application. The experimental results showed that the proposed method outperformed the compared methods.

An automated Classification System of Standard Industry and Occupation Codes by Using Information Retrieval Techniques (정보검색 기법을 이용한 산업/직업 코드 자동 분류 시스템)

  • Lim, Heui Seok
    • The Journal of Korean Association of Computer Education
    • /
    • v.7 no.4
    • /
    • pp.51-60
    • /
    • 2004
  • This paper proposes an automated coding system of Korean standard industry/occupation for census which reduces a lot of cost and labor for manual coding. The proposed system converts natural language responses on survey questionnaires into corresponding numeric codes using information retrieval techniques and document classification algorithm. The system was experimented with 46,762 industry records and occupation 36,286 records using 10-fold cross -validation evaluation method. As experimental results, the system show 87.08% and 66.08% production rates when classifying industry records into level 2 and level 5 codes respectively. The system shows slightly lower performances on occupation code classification. We expect that the system is enough to be used as a semi-automate coding system which can minimize manual coding task or as a verification tool for manual coding results though it has much room to be improved as an automated coding system.

  • PDF

Extracting Supporting Evidence with High Precision via Bi-LSTM Network (양방향 장단기 메모리 네트워크를 활용한 높은 정밀도의 지지 근거 추출)

  • Park, ChaeHun;Yang, Wonsuk;Park, Jong C.
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.285-290
    • /
    • 2018
  • 논지가 높은 설득력을 갖기 위해서는 충분한 지지 근거가 필요하다. 논지 내의 주장을 논리적으로 지지할 수 있는 근거 자료 추출의 자동화는 자동 토론 시스템, 정책 투표에 대한 의사 결정 보조 등 여러 어플리케이션의 개발 및 상용화를 위해 필수적으로 해결되어야 한다. 하지만 웹문서로부터 지지 근거를 추출하는 시스템을 위해서는 다음과 같은 두 가지 연구가 선행되어야 하고, 이는 높은 성능의 시스템 구현을 어렵게 한다: 1) 논지의 주제와 직접적인 관련성은 낮지만 지지 근거로 사용될 수 있는 정보를 확보하기 위한 넓은 검색 범위, 2) 수집한 정보 내에서 논지의 주장을 명확하게 지지할 수 있는 근거를 식별할 수 있는 인지 능력. 본 연구는 높은 정밀도와 확장 가능성을 가진 지지 근거 추출을 위해 다음과 같은 단계적 지지 근거 추출 시스템을 제안한다: 1) TF-IDF 유사도 기반 관련 문서 선별, 2) 의미적 유사도를 통한 지지 근거 1차 추출, 3) 신경망 분류기를 통한 지지 근거 2차 추출. 제안하는 시스템의 유효성을 검증하기 위해 사설 4008개 내의 주장에 대해 웹 상에 있는 845675개의 뉴스에서 지지 근거를 추출하는 실험을 수행하였다. 주장과 지지 근거를 주석한 정보에 대하여 성능 평가를 진행한 결과 본 연구에서 제안한 단계적 시스템은 1,2차 추출 과정에서 각각 0.41, 0.70의 정밀도를 보였다. 이후 시스템이 추출한 지지 근거를 분석하여, 논지에 대한 적절한 이해를 바탕으로 한 지지 근거 추출이 가능하다는 것을 확인하였다.

  • PDF

ASK-HIM: Analog Stick Korean Hangeul Input Method (ASK-HIM: 아날로그 스틱을 이용한 한국어 입력 방법)

  • Kim, Eru Ho-Jin;Lee, Gee-Hyuk
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.1056-1062
    • /
    • 2006
  • 소니컴퓨터엔터테인먼트의 플레이스테이션(R)이나 마이크로소프트의 엑스박스(R)등의 비디오 게임기가 차지하고 있는 시장의 크기가 점점 커지고 있고, 이에 적용되는 기술도 점점 발전하고 있다. 최근에는 무선랜이나 블루투스 등의 기술을 통한 네트워크 연결을 통해 인터넷 접속이 가능해졌고, 간단한 문서 편집이나 개인 정보 관리 기능도 추가되었다. 이러한 기능들이 추가되면서 비디오 게임기에 문자를 입력하는 방법의 필요성이 일어나고 있다. 하지만 비디오 게임기의 기본 입력 장치인 아날로그 스틱을 이용하여 한국어를 입력하는 방법에 대한 연구는 부족한 상태이다. 본 논문에서는 한글의 창제원리를 이용하여 자음과 모음을 각각 아래쪽, 위쪽, 왼쪽, 오른쪽의 네 가지 기본 그룹으로 분류하고, 시계 방향 회전과 반시계 방향 회전을 이용해서 자모를 매핑하는 새로운 한국어 입력 방법인 ASK-HIM을 제안한다. ASK-HIM 은 화면 키보드와 비교를 하였을 때 좀 더 좋은 결과를 보여주었고, 단순한 방식으로 사용이 편리하다는 장점을 지니고 있다.

  • PDF

RSS Web Document Classifier for Educational Blogs (교육용 블로그를 위한 RSS 문서 분류기)

  • Lee, Young-Seok;Kim, Jun-Il;Cho, Jung-Won;Choi, Byung-Uk
    • Proceedings of the IEEK Conference
    • /
    • 2005.11a
    • /
    • pp.1125-1128
    • /
    • 2005
  • If you're tired of visiting site in search of the type of web documents that interests you, you can use an RSS (Really Simple Syndication) client to organize web content and deliver it to you in a manner that's much quicker and easier to access. This paper gives an overview of RSS technologies and implement a suitable RSS client for educational blogs. In addition to that, this paper propose a method for classification system in order to improve a RSS client.

  • PDF

A Study on Incremental Learning Model for Naive Bayes Text Classifier (Naive Bayes 문서 분류기를 위한 점진적 학습 모델 연구)

  • 김제욱;김한준;이상구
    • The Journal of Information Technology and Database
    • /
    • v.8 no.1
    • /
    • pp.95-104
    • /
    • 2001
  • In the text classification domain, labeling the training documents is an expensive process because it requires human expertise and is a tedious, time-consuming task. Therefore, it is important to reduce the manual labeling of training documents while improving the text classifier. Selective sampling, a form of active learning, reduces the number of training documents that needs to be labeled by examining the unlabeled documents and selecting the most informative ones for manual labeling. We apply this methodology to Naive Bayes, a text classifier renowned as a successful method in text classification. One of the most important issues in selective sampling is to determine the criterion when selecting the training documents from the large pool of unlabeled documents. In this paper, we propose two measures that would determine this criterion : the Mean Absolute Deviation (MAD) and the entropy measure. The experimental results, using Renters 21578 corpus, show that this proposed learning method improves Naive Bayes text classifier more than the existing ones.

  • PDF

A Design and Implementation of Malicious Web Log Identification System by Using SVM (SVM을 이용한 악성 댓글 판별 시스템의 설계 및 구현)

  • Kim, Myo-Sil;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.285-289
    • /
    • 2006
  • 댓글은 온라인 상에서 자신의 의견을 달고 다른 사람의 의견을 공유함으로써 필요한 정보를 쉽고 빠르게 얻을 수 있다. 본 논문에서는 익명성을 이용해서 특정인을 근거 없이 비방하거나 명예를 훼손하는 악성 댓글을 판단하는 시스템을 구현한다. 자질의 추출 방법을 여러 가지로 실험하여 동사, 형용사 등을 추가했을 때 자질의 출현빈도를 이용한 가중치를 계산하고, 용어 벡터로 표현된 입력 문서를 이진 분류기(Binary Classifier)인 $SVM^{light}$을 이용하여 악성 댓글인지를 판단하는 시스템을 구현하고 그 성능을 평가한다.

  • PDF

Documents Filtering and Topic Prediction for SNS using Naïve Bayesian Classifier and MapReduce (나이브 베이지안 분류기와 MapReduce 를 이용한 SNS 문서 필터링 및 토픽 예측)

  • Park, Hosik;Kang, Namyong;Park, Seulgi;Moon, Jungmin;Oh, Sangyoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.109-111
    • /
    • 2014
  • SNS(Social Network Service)는 새로운 소통수단으로 인적 네트워크뿐만 아니라 사회, 문화 등에 많은 영향을 미치고 있다. 특히, 무선인터넷과 스마트폰의 보급으로 정보유통량이 기하급수적으로 증가하면서, 데이터를 처리 및 분석하는 것이 화두가 되고 있다. 본 논문에서는 급증하는 SNS 데이터를 처리 및 분석하여 의미 있는 데이터를 키워드 중심으로 추출하고자 하였다. 이를 위해 기존 데이터 처리방식이 아닌 빅데이터 처리에 적합한 MapReduce 환경에서 SNS 데이터를 필터링하고, 토픽을 예측하기 처리방법을 제시하였다. 또한, 웹 서비스를 기반으로 구현하여 분석된 데이터를 시각적으로 표현하고, 재생산하였으며, 실험을 통해 제안하는 처리방법의 성능을 검증하였다.

Language Identification by Fusion of Gabor, MDLC, and Co-Occurrence Features (Gabor, MDLC, Co-Occurrence 특징의 융합에 의한 언어 인식)

  • Jang, Ick-Hoon;Kim, Ji-Hong
    • Journal of Korea Multimedia Society
    • /
    • v.17 no.3
    • /
    • pp.277-286
    • /
    • 2014
  • In this paper, we propose a texture feature-based language identification by fusion of Gabor, MDLC (multi-lag directional local correlation), and co-occurrence features. In the proposed method, for a test image, Gabor magnitude images are first obtained by Gabor transform followed by magnitude operator. Moments for the Gabor magniude images are then computed and vectorized. MDLC images are then obtained by MDLC operator and their moments are computed and vectorized. GLCM (gray-level co-occurrence matrix) is next calculated from the test image and co-occurrence features are computed using the GLCM, and the features are also vectorized. The three vectors of the Gabor, MDLC, and co-occurrence features are fused into a feature vector. In classification, the WPCA (whitened principal component analysis) classifier, which is usually adopted in the face identification, searches the training feature vector most similar to the test feature vector. We evaluate the performance of our method by examining averaged identification rates for a test document image DB obtained by scanning of documents with 15 languages. Experimental results show that the proposed method yields excellent language identification with rather low feature dimension for the test DB.