• 제목/요약/키워드: Vocabulary Clustering

검색결과 30건 처리시간 0.025초

대순사상 시소러스의 구축에 관한 연구 (A study on the establishment and development of the Daesoon Thought Thesaurus)

  • 이상복;장인호
    • 대순사상논총
    • /
    • 제19권
    • /
    • pp.21-45
    • /
    • 2005
  • The purpose of this study is to examine the establishment and development of Daesoon Thought Thesaurus. Specifically, this study examined the matters to be considered in the stage of Thesauri planning according to the Thesauri Construction process : presents the methods and standards of Thesauri Construction according to processes such as identification of the indexing policy, establishment of Thesauri system, collection of vocabulary, selection of preferred term, clustering of the terms, establishment of term relationships, overall adjustment, Thesauri test, proofreading by professional display, maintenance and updating. Since religion information is unique or totally different from the information in other areas, it is most important to construct the Thesauri suitable for system after carefully recognizing the concept of religion terms.

  • PDF

Apriori알고리즘에 의한 연관 단어 지식 베이스에 기반한 가중치가 부여된 베이지만 자동 문서 분류 (Weighted Bayesian Automatic Document Categorization Based on Association Word Knowledge Base by Apriori Algorithm)

  • 고수정;이정현
    • 한국멀티미디어학회논문지
    • /
    • 제4권2호
    • /
    • pp.171-181
    • /
    • 2001
  • 기존의 베이지만 문서 분류를 위한 단어 군집 방법은 많은 시간과 노력을 요구하며, 단어 간의 의미 관계를 정확하게 반영하지 못하는 문제점이 있다. 본 논문에서는 마이닝 기법으로 구축된 연관 단어 지식 베이스를 기반으로 하는 베이지안 문서 분류 방법을 제안한다. 제안된 베이지안 문서 분류 방법은 문서를 분류하기 전에 훈련 문서를 사용하여 가중치가 부여된 연관 단어 지 식 베이스를 구축한다. 그 다음으로, 베이지안 확률을 이용하는 분류자는 구축된 연관 단어 지식 베이스를 기반으로 문서를 클래스별로 분류한다. 제안된 방법의 성능을 평가하기 위해, 상호 정보 계산에 의한 단어 사전을 이유한 가중치가 부여된 베이지안 문서 분류 방법, 가중치가 부여된 베이지안 분류 방법, 기존의 단순 베이지안 분류 방법과 비교하였다. 그 결과, 연관 단어 지식 베이스에 기반한 가중치가 부여된 베이지안 분류 방법이 상호 정보에 의한 단어 사진을 이용하는 가중치가 부여된 베이지안 분류 방법보다는 0.87%, 가중치가 부여된 베이지안 분류 방법보다는 2.77%, 단순 베이지안 방법보다는 5.97% 높은 성능 차이를 보였다.

  • PDF

온습도에 따른 대중의 감성(감정+감각) 활동 변화 (A change of the public's emotion depending on Temperature & Humidity index)

  • 양중기;김근영;이영호;강운구
    • 디지털융복합연구
    • /
    • 제12권10호
    • /
    • pp.243-252
    • /
    • 2014
  • 소셜 미디어 데이터를 통해 파급되는 형태를 분석하여 국내 외 정치, 경제, 보건, 사회 문화현상을 대응하고자 하는 연구가 활발히 진행 중이다. 본 연구는 한국인이 가장 많이 사용하는 검색 서비스인 검색 정보를 알 수 있는 네이버 트렌드와 소셜 데이터인 네이버 블로그, 네이버 카페와 Open Data(API)를 사용하고 기상청의 온도, 습도 데이터를 사용하였다. 사람의 감성을 나타내는 감정 어휘와 감각을 표현하는 감각어휘 중 미각 어휘를 분석하여 대중의의 감성 활동 변화를 연구하였다. 적합도 검증과 계층적 군집분석으로 군집의 개수를 정하여 비 계층적 군집분석으로 군집화 하였다. 군집분석 결과 8개의 군집으로 군집화되어 감성어휘를 알 수 있었다. 판별분석에 의하면, 군집분석에서 결정된 8개의 그룹은 98.9% 정확성을 갖는 것으로 나타났다. 본 연구에서 연구한 감성 활동 변화는 온도와 습도에 의해 감성 활동을 예측 할 수 있어 감성을 공유하고 대중의 기분을 파악하여 서로 공감대를 형성 할 수 있다.

환자중심서비스를 위한 온톨로지 기반의 u-Healthcare 시스템 (Ontology-based u-Healthcare System for Patient-centric Service)

  • 정용규;이정찬;장은지
    • 서비스연구
    • /
    • 제2권2호
    • /
    • pp.45-51
    • /
    • 2012
  • U-Healthcare는 홈 네트워크, 휴대용 장치 등에 기반한 정보통신기술과 의료시스템이 서로 융합되어 개인의 생체정보 등을 실시간으로 모니터링하고, 자동으로 병원 및 의사와 연결되어 시공간의 제약을 줄임으로써 언제 어디서나 건강을 관리하고 질병을 예방하는 새로운 형태의 의료서비스이다. 본 논문에서는 진료 중심에서 예방 중심으로 변화되어가고 있는 최근의 U-Healthcare 시스템의 기술 발전 추세에 맞추어 조기 대응이 가능한 Healthcare 정보시스템 구축을 위한 요구분석 사항들에 대해 정리하고, 이를 기반으로 u-Healthcare의 실현을 위한 기존의 단위 시스템인 PACS, OCS, EMR, 응급의료시스템을 통합한 환자중심의 클라이언트 시스템을 설계한다. 특히, 온톨로지는 특정분야의 정보 모델에 이용되어 그 분야에서 공통의 어휘를 제공하고, 그 용어의 의미와 용어간의 관계를 다양한 수준의 형식성을 가지고 제공한다. 본 논문에서는 이러한 온톨로지 및 무질서한 데이터에 대한 관계를 정의하고, 보다 체계적으로 데이터를 군집화하는 클러스터링의 개념을 포함한 환자중심의 서비스를 위한 온톨로지 기반의 시스템을 제안한다.

  • PDF

Visualization of movie recommendation system using the sentimental vocabulary distribution map

  • Ha, Hyoji;Han, Hyunwoo;Mun, Seongmin;Bae, Sungyun;Lee, Jihye;Lee, Kyungwon
    • 한국컴퓨터정보학회논문지
    • /
    • 제21권5호
    • /
    • pp.19-29
    • /
    • 2016
  • This paper suggests a method to refine a massive collective intelligence data, and visualize with multilevel sentiment network, in order to understand information in an intuitive and semantic way. For this study, we first calculated a frequency of sentiment words from each movie review. Second, we designed a Heatmap visualization to effectively discover the main emotions on each online movie review. Third, we formed a Sentiment-Movie Network combining the MDS Map and Social Network in order to fix the movie network topology, while creating a network graph to enable the clustering of similar nodes. Finally, we evaluated our progress to verify if it is actually helpful to improve user cognition for multilevel analysis experience compared to the existing network system, thus concluded that our method provides improved user experience in terms of cognition, being appropriate as an alternative method for semantic understanding.

시공간상의 궤적 분석에 의한 제스쳐 인식 (Gesture Recognition by Analyzing a Trajetory on Spatio-Temporal Space)

  • 민병우;윤호섭;소정;에지마 도시야끼
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권1호
    • /
    • pp.157-157
    • /
    • 1999
  • Researches on the gesture recognition have become a very interesting topic in the computer vision area, Gesture recognition from visual images has a number of potential applicationssuch as HCI (Human Computer Interaction), VR(Virtual Reality), machine vision. To overcome thetechnical barriers in visual processing, conventional approaches have employed cumbersome devicessuch as datagloves or color marked gloves. In this research, we capture gesture images without usingexternal devices and generate a gesture trajectery composed of point-tokens. The trajectory Is spottedusing phase-based velocity constraints and recognized using the discrete left-right HMM. Inputvectors to the HMM are obtained by using the LBG clustering algorithm on a polar-coordinate spacewhere point-tokens on the Cartesian space .are converted. A gesture vocabulary is composed oftwenty-two dynamic hand gestures for editing drawing elements. In our experiment, one hundred dataper gesture are collected from twenty persons, Fifty data are used for training and another fifty datafor recognition experiment. The recognition result shows about 95% recognition rate and also thepossibility that these results can be applied to several potential systems operated by gestures. Thedeveloped system is running in real time for editing basic graphic primitives in the hardwareenvironments of a Pentium-pro (200 MHz), a Matrox Meteor graphic board and a CCD camera, anda Window95 and Visual C++ software environment.

음소 군집화 기법을 이용한 어휘독립음성인식의 음소모델링 (Subword Modeling of Vocabulary Independent Speech Recognition Using Phoneme Clustering)

  • 구동욱;최준기;윤영선;오영환
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 학술발표대회 논문집 제19권 2호
    • /
    • pp.33-36
    • /
    • 2000
  • 어휘독립 고립단어인식은 미리 훈련된 부단어(sub-word) 단위의 음향모델을 이용하여 수시로 변하는 인식대상어휘를 인식하는 것이다. 본 논문에서는 소용량 음성 데이터베이스를 이용하여 어휘독립음성인식 시스템을 구성하였다. 소용량 음성 데이터베이스에서 미관측문맥 종속형 부단어에 대한 처리에 효과적인 백오프 기법을 이용한 음소 군집화 방법으로 문턱값을 변화시키며 인식실험을 수행하였다. 그리고 훈련용 데이터의 부족으로 인하여 문맥 종속형 부단어 모델이 훈련용 데이터베이스로 편중되는 문제를 deleted interpolation 방법을 이용하여 문맥 종속형 부단어 모델과 문맥 독립형 부단어 모델을 병합함으로써 해결하였다. 그 결과 음성인식의 성능이 향상되었다.

  • PDF

가중치 기반 Bag-of-Feature와 앙상블 결정 트리를 이용한 정지 영상에서의 인간 행동 인식 (Human Action Recognition in Still Image Using Weighted Bag-of-Features and Ensemble Decision Trees)

  • 홍준혁;고병철;남재열
    • 한국통신학회논문지
    • /
    • 제38A권1호
    • /
    • pp.1-9
    • /
    • 2013
  • 본 논문에서는 CS-LBP (Center-Symmetric Local Binary Pattern) 특징과 공간 피라미드를 이용한 BoF (Bag of Features)를 생성하고 이를 랜덤 포레스트(Random Forest) 분류기에 적용하여 인간의 행동을 인식하는 알고리즘을 제안한다. BoF를 생성하기 위해 영상을 균일한 패치로 나누고, 각 패치 마다 CS-LBP 특징을 추출한다. 행동 분류 성능을 향상시키기 위해 패치들마다 추출한 특징벡터들에 대해 K-mean 클러스터링을 적용하여 코드 북을 생성한다. 본 논문에서는 영상의 지역적인 특성을 고려하기 위해 공간 피라미드 방법을 적용하고 각 공간 레벨에서 추출된 BoF에 대해 가중치를 적용하여 최종적으로 하나의 특징 벡터로 결합한다. 행동 분류를 위해 결정트리의 앙상블로 이루어진 랜덤 포레스트는 학습 단계에서 각 행동 클래스를 위한 분류 모델을 만든다. 가중 BoF가 적용된 랜덤 포레스트는 다양한 인간 행동 영상을 포함하고 있는 Standford Actions 40 데이터를 성공적으로 분류하였다. 또한 기존 방법에 비해 분류 성능이 유사하거나 우수하며, 한 장의 영상에 대해 빠른 인식속도를 보였다.

키워드 자동 생성에 대한 새로운 접근법: 역 벡터공간모델을 이용한 키워드 할당 방법 (A New Approach to Automatic Keyword Generation Using Inverse Vector Space Model)

  • 조원진;노상규;윤지영;박진수
    • Asia pacific journal of information systems
    • /
    • 제21권1호
    • /
    • pp.103-122
    • /
    • 2011
  • Recently, numerous documents have been made available electronically. Internet search engines and digital libraries commonly return query results containing hundreds or even thousands of documents. In this situation, it is virtually impossible for users to examine complete documents to determine whether they might be useful for them. For this reason, some on-line documents are accompanied by a list of keywords specified by the authors in an effort to guide the users by facilitating the filtering process. In this way, a set of keywords is often considered a condensed version of the whole document and therefore plays an important role for document retrieval, Web page retrieval, document clustering, summarization, text mining, and so on. Since many academic journals ask the authors to provide a list of five or six keywords on the first page of an article, keywords are most familiar in the context of journal articles. However, many other types of documents could not benefit from the use of keywords, including Web pages, email messages, news reports, magazine articles, and business papers. Although the potential benefit is large, the implementation itself is the obstacle; manually assigning keywords to all documents is a daunting task, or even impractical in that it is extremely tedious and time-consuming requiring a certain level of domain knowledge. Therefore, it is highly desirable to automate the keyword generation process. There are mainly two approaches to achieving this aim: keyword assignment approach and keyword extraction approach. Both approaches use machine learning methods and require, for training purposes, a set of documents with keywords already attached. In the former approach, there is a given set of vocabulary, and the aim is to match them to the texts. In other words, the keywords assignment approach seeks to select the words from a controlled vocabulary that best describes a document. Although this approach is domain dependent and is not easy to transfer and expand, it can generate implicit keywords that do not appear in a document. On the other hand, in the latter approach, the aim is to extract keywords with respect to their relevance in the text without prior vocabulary. In this approach, automatic keyword generation is treated as a classification task, and keywords are commonly extracted based on supervised learning techniques. Thus, keyword extraction algorithms classify candidate keywords in a document into positive or negative examples. Several systems such as Extractor and Kea were developed using keyword extraction approach. Most indicative words in a document are selected as keywords for that document and as a result, keywords extraction is limited to terms that appear in the document. Therefore, keywords extraction cannot generate implicit keywords that are not included in a document. According to the experiment results of Turney, about 64% to 90% of keywords assigned by the authors can be found in the full text of an article. Inversely, it also means that 10% to 36% of the keywords assigned by the authors do not appear in the article, which cannot be generated through keyword extraction algorithms. Our preliminary experiment result also shows that 37% of keywords assigned by the authors are not included in the full text. This is the reason why we have decided to adopt the keyword assignment approach. In this paper, we propose a new approach for automatic keyword assignment namely IVSM(Inverse Vector Space Model). The model is based on a vector space model. which is a conventional information retrieval model that represents documents and queries by vectors in a multidimensional space. IVSM generates an appropriate keyword set for a specific document by measuring the distance between the document and the keyword sets. The keyword assignment process of IVSM is as follows: (1) calculating the vector length of each keyword set based on each keyword weight; (2) preprocessing and parsing a target document that does not have keywords; (3) calculating the vector length of the target document based on the term frequency; (4) measuring the cosine similarity between each keyword set and the target document; and (5) generating keywords that have high similarity scores. Two keyword generation systems were implemented applying IVSM: IVSM system for Web-based community service and stand-alone IVSM system. Firstly, the IVSM system is implemented in a community service for sharing knowledge and opinions on current trends such as fashion, movies, social problems, and health information. The stand-alone IVSM system is dedicated to generating keywords for academic papers, and, indeed, it has been tested through a number of academic papers including those published by the Korean Association of Shipping and Logistics, the Korea Research Academy of Distribution Information, the Korea Logistics Society, the Korea Logistics Research Association, and the Korea Port Economic Association. We measured the performance of IVSM by the number of matches between the IVSM-generated keywords and the author-assigned keywords. According to our experiment, the precisions of IVSM applied to Web-based community service and academic journals were 0.75 and 0.71, respectively. The performance of both systems is much better than that of baseline systems that generate keywords based on simple probability. Also, IVSM shows comparable performance to Extractor that is a representative system of keyword extraction approach developed by Turney. As electronic documents increase, we expect that IVSM proposed in this paper can be applied to many electronic documents in Web-based community and digital library.

IPTV환경에서 온톨로지와 k-medoids기법을 이용한 개인화 시스템 (Personalized Recommendation System for IPTV using Ontology and K-medoids)

  • 윤병대;김종우;조용석;강상길
    • 지능정보연구
    • /
    • 제16권3호
    • /
    • pp.147-161
    • /
    • 2010
  • 최근 방송과 통신의 융합으로 TV에 통신이라는 기술이 접목되면서, TV 시청 형태에 많은 변화를 가져왔다. 이러한 형태의 TV 시청 변화는 서비스 선택의 폭을 넓혀주지만 프로그램을 선택을 위해 많은 시간을 투자해야 한다. 이러한 단점을 개선하기 위해서 본 논문에서는 IPTV환경에서 사용자의 다양한 콘텐츠를 제공하는 방송 환경에서 고객의 시청 정보를 바탕으로 고객 사용정보 온톨로지를 구축하고 그에 따라 고객을 k-medoids 방법을 이용해서 클러스터링 한다. 이를 바탕으로 고객이 선호하는 콘텐츠를 추천 하는 방법을 제안하였다. 실험부분에서 본 제안방법의 우수성을 기존의 방법과 비교하여 보여준다.