• 제목/요약/키워드: Knowledge extraction

검색결과 385건 처리시간 0.031초

Movie Popularity Classification Based on Support Vector Machine Combined with Social Network Analysis

  • Dorjmaa, Tserendulam;Shin, Taeksoo
    • 한국IT서비스학회지
    • /
    • 제16권3호
    • /
    • pp.167-183
    • /
    • 2017
  • The rapid growth of information technology and mobile service platforms, i.e., internet, google, and facebook, etc. has led the abundance of data. Due to this environment, the world is now facing a revolution in the process that data is searched, collected, stored, and shared. Abundance of data gives us several opportunities to knowledge discovery and data mining techniques. In recent years, data mining methods as a solution to discovery and extraction of available knowledge in database has been more popular in e-commerce service fields such as, in particular, movie recommendation. However, most of the classification approaches for predicting the movie popularity have used only several types of information of the movie such as actor, director, rating score, language and countries etc. In this study, we propose a classification-based support vector machine (SVM) model for predicting the movie popularity based on movie's genre data and social network data. Social network analysis (SNA) is used for improving the classification accuracy. This study builds the movies' network (one mode network) based on initial data which is a two mode network as user-to-movie network. For the proposed method we computed degree centrality, betweenness centrality, closeness centrality, and eigenvector centrality as centrality measures in movie's network. Those four centrality values and movies' genre data were used to classify the movie popularity in this study. The logistic regression, neural network, $na{\ddot{i}}ve$ Bayes classifier, and decision tree as benchmarking models for movie popularity classification were also used for comparison with the performance of our proposed model. To assess the classifier's performance accuracy this study used MovieLens data as an open database. Our empirical results indicate that our proposed model with movie's genre and centrality data has by approximately 0% higher accuracy than other classification models with only movie's genre data. The implications of our results show that our proposed model can be used for improving movie popularity classification accuracy.

온톨로지 기반 영상이해 시스템 (Ontology-based Image Understanding Systems)

  • 이인근;서석태;정혜천;손세호;권순학
    • 한국지능시스템학회논문지
    • /
    • 제17권3호
    • /
    • pp.328-335
    • /
    • 2007
  • 온톨로지는 공유된 개념과 그 개념들 사이의 관계로 표현된다. 이러한 온톨로지를 사용하여 인간과 시스템에 대한 지식의 공유에 관한 연구가 활발히 이루어져 왔다. 예를 들면, 온톨로지의 설계 및 구축에 의한 영상이해를 들 수 있다. 그러나 온톨로지에 기반한 영상이해 방식 중 대부분의 기존 방식은 개념적인 연구에 그칠 뿐 구체적인 방법을 제시하지는 못하였다. 본 논문에서는 온톨로지로 표현된 지식에 근거하여 영상을 이해하는 다음과 같은 영상이해 프로세스 및 시스템을 제안한다. i)특정 분야의 지식을 온톨로지로 표현하고, ii)영상 처리 및 분석 과정을 통해 영상을 구성하는 객체들의 특징을 추출하며, iii)객체의 특징으로부터 객체의 개념을 해석하고, iv)온톨로지 추론을 통해 영상 해석 과정에서의 애매성을 줄인다. 제안된 영상 이해 프로세스에 기반하여 영상이해 시스템을 구축하고, 특정 분야에서의 실험을 통하여 제안된 프로세스와 시스템의 효용성을 확인한다.

지식 문서에서 도메인 온톨로지를 이용한 개념 추출 기법 (Concept Extraction Technique from Documents Using Domain Ontology)

  • 문현정;우용태
    • 정보처리학회논문지D
    • /
    • 제13D권3호
    • /
    • pp.309-316
    • /
    • 2006
  • 본 논문에서는 도메인 온톨로지를 이용하여 XML 형식의 지식 문서를 분류하고 대표 개념을 효과적으로 추출하기 위한 기법을 제시하였다. 먼저, 도메인 온톨로지는 텍스트마이닝 기법과 통계적 기법을 이용하여 생성하였다. 이를 위해 XML 문서의 구조적인 특징을 이용하여 도메인 대표용어 집합을 구성하였다. 그리고 XML 문서를 효과적으로 분류하기 위한 DScore 기법과 지식 문서로부터 개념을 추출하기 위한 TScore 기법을 제시하였다. 본 논문에서 제안한 기법의 효율성을 검증하기 위하여 295편의 컴퓨터 관련 논문을 대상으로 실험하였다. 실험 결과, 본 연구에서 제안한 도메인 대표 용어 집합을 이용한 분류 결과가 기존의 방법보다 우수한 성능을 보였다. 특히 TScore기법에서는 문서에서 출현한 용어의 빈도수는 낮더라도 문서의 개념을 대표할 수 있는 용어를 효과적으로 추출할 수 있음을 보였다. 본 연구는 개념 기반의 검색 기법을 통하여 대량의 지식 문서를 효과적으로 관리하기 위한 지식 관리 모델에 적용할 수 있다.

The diagnosis of Plasma Through RGB Data Using Rough Set Theory

  • Lim, Woo-Yup;Park, Soo-Kyong;Hong, Sang-Jeen
    • 한국진공학회:학술대회논문집
    • /
    • 한국진공학회 2009년도 제38회 동계학술대회 초록집
    • /
    • pp.413-413
    • /
    • 2010
  • In semiconductor manufacturing field, all equipments have various sensors to diagnosis the situations of processes. For increasing the accuracy of diagnosis, hundreds of sensors are emplyed. As sensors provide millions of data, the process diagnosis from them are unrealistic. Besides, in some cases, the results from some data which have same conditions are different. We want to find some information, such as data and knowledge, from the data. Nowadays, fault detection and classification (FDC) has been concerned to increasing the yield. Certain faults and no-faults can be classified by various FDC tools. The uncertainty in semiconductor manufacturing, no-faulty in faulty and faulty in no-faulty, has been caused the productivity to decreased. From the uncertainty, the rough set theory is a viable approach for extraction of meaningful knowledge and making predictions. Reduction of data sets, finding hidden data patterns, and generation of decision rules contrasts other approaches such as regression analysis and neural networks. In this research, a RGB sensor was used for diagnosis plasma instead of optical emission spectroscopy (OES). RGB data has just three variables (red, green and blue), while OES data has thousands of variables. RGB data, however, is difficult to analyze by human's eyes. Same outputs in a variable show different outcomes. In other words, RGB data includes the uncertainty. In this research, by rough set theory, decision rules were generated. In decision rules, we could find the hidden data patterns from the uncertainty. RGB sensor can diagnosis the change of plasma condition as over 90% accuracy by the rough set theory. Although we only present a preliminary research result, in this paper, we will continuously develop uncertainty problem solving data mining algorithm for the application of semiconductor process diagnosis.

  • PDF

네트워크 자원 가격정책을 위한 사용자 유틸리티 함수 추정법 (Estimating User Utility Functions for Network-Resource Pricing)

  • 박선주
    • 한국정보과학회논문지:정보통신
    • /
    • 제33권1호
    • /
    • pp.103-112
    • /
    • 2006
  • 인터넷 트래픽 관리를 위한 IETF 차별화 서비스에서는 우선순위 방식의 가격정책이 널리 채택되고 있으며, 이러한 우선순위 방식의 서비스에서 최적가격을 정하기 위해 균형분석을 이용한 연구가 활발히 진행되고 있다. 그러나 '사용자들의 유틸리티 함수를 정확히 알고 있다'는 균형분석의 가정의 타당성에 대한 비판 또한 끊이지 않는다. 따라서 이 논문은 최적가격을 정하는 문제에 있어서, 현존하는 이론적인 연구의 기본 가정과 사용자 유틸리티 함수를 알 수 없는 현실적인 네트워크 환경과의 차이를 좁힐 수 있는 해결책을 제시하고자 한다. 기본 아이디어는 네트워크 서비스 제공자가 서비스 레벨의 가격을 조정하여 사용자들의 레벨 선택 결정을 바꾸도록 유도하고 그를 통해 더 정확한 유틸리티 정보를 알아내도록 하자는 것이다. 이 연구의 공헌은 크게 두 가지로 볼 수 있다. 첫째, 사용자 유틸리티 함수를 추정해나가는 일반적인 원리를 제시하였다 둘째, 유틸리티 함수에 대한 정보를 최대한으로 끌어낼 수 있도록 하는 가격을 정하는 방법을 개발하였다. 우리는 실험을 통해 제안된 추정법의 효과적인 성능을 보여준다.

외상간호 역량의 주요 영역 연구 : 범주 문헌고찰 (The Domains of the Competencies of Trauma Nursing : A Scoping Review)

  • 김영희;최모나;강혜경
    • 한국콘텐츠학회논문지
    • /
    • 제19권5호
    • /
    • pp.497-510
    • /
    • 2019
  • 본 연구는 간호사들이 외상환자를 돌봄에 있어 필요한 역량의 주요 영역을 분석함으로써 간호사 및 외상간호교육이 나아갈 방향을 제시하는 것을 목적으로 한다. 본 연구는 JBI(Joanna Briggs Institute)의 범주 문헌고찰(Scoping review) 매뉴얼에 따라 시행되었다. 주제어로는 trauma, $nurs^*$, $competenc^*$, $role^*$, attitude, knowledge and skills 이었으며, Pubmed, CINAHL, ProQuest, Web of Science, Scopus, ERIC의 6개 데이터베이스를 활용하여 문헌을 검색하였다. 문헌선정기준과 문헌배제기준에 따라 외상간호를 위한 간호사의 역량 도메인을 제시한 논문 8개를 최종 포함시켰다. 최종 논문 8개는 외상진료체계에 따라 분석한 결과 '병원 전 처치와 이송', '병원외상치료', '재활'의 역량을 포함하였으나 '손상예방'의 역량은 찾아볼 수 없었다. 또한 Lenburg의 COPA(Competency Outcomes and Performance Assessment) 모델의 각 역량을 바탕으로 도출된 역량 도메인을 분석하였다.

Knowledge Domain and Emerging Trends of Intelligent Green Building and Smart City - A Visual Analysis Using CiteSpace

  • Li, Hongyang;Dai, Mingjie
    • 국제학술발표논문집
    • /
    • The 7th International Conference on Construction Engineering and Project Management Summit Forum on Sustainable Construction and Management
    • /
    • pp.24-31
    • /
    • 2017
  • As the concept of sustainability becomes more and more popular, a large amount of literature have been recorded recently on intelligent green building and smart city (IGB&SC). It is therefore needed to systematically analyse the existing knowledge structure as well as the future new development of this domain through the identification of the thematic trends, landmark articles, typical keywords together with co-operative researchers. In this paper, Citespace software package is applied to analyse the citation networks and other relevant data of the past eleven years (from 2006 to 2016) collected from Web of Science (WOS). Through this, a series of professional document analysis are conducted, including the production of core authors, the influence made by the most cited authors, keywords extraction and timezone analysis, hot topics of research, highly cited papers and trends with regard to co-citation analysis, etc. As a result, the development track of the IGB&SC domains is revealed and visualized and the following results reached: (i) in the research area of IGB&SC, the most productive researcher is Winters JV and Caragliu A is most influential on the other hand; (ii) different focuses of IGB&SC research have been emerged continually from 2006 to 2016 e.g. smart growth, sustainability, smart city, big data, etc.; (iii) Hollands's work is identified with the most citations and the emerging trends, as revealed from the bursts analysis in document co-citations, can be concluded as smart growth, the assessment of intelligent green building and smart city.

  • PDF

EST Analysis system for panning gene

  • Hur, Cheol-Goo;Lim, So-Hyung;Goh, Sung-Ho;Shin, Min-Su;Cho, Hwan-Gue
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2000년도 International Symposium on Bioinformatics
    • /
    • pp.21-22
    • /
    • 2000
  • Expressed sequence tags (EFTs) are the partial segments of cDNA produced from 5 or 3 single-pass sequencing of cDNA clones, error-prone and generated in highly redundant sets. Advancement and expansion of Genomics made biologists to generate huge amount of ESTs from variety of organisms-human, microorganisms as well as plants, and the cumulated number of ESTs is over 5.3 million, As the EST data being accumulate more rapidly, it becomes bigger that the needs of the EST analysis tools for extraction of biological meaning from EST data. Among the several needs of EST analyses, the extraction of protein sequence or functional motifs from ESTs are important for the identification of their function in vivo. To accomplish that purpose the precise and accurate identification of the region where the coding sequences (CDSs) is a crucial problem to solve primarily, and it will be helpful to extract and detect of genuine CD5s and protein motifs from EST collections. Although several public tools are available for EST analysis, there is not any one to accomplish the object. Furthermore, they are not targeted to the plant ESTs but human or microorganism. Thus, to correspond the urgent needs of collaborators deals with plant ESTs and to establish the analysis system to be used as general-purpose public software we constructed the pipelined-EST analysis system by integration of public software components. The software we used are as follows - Phred/Cross-match for the quality control and vector screening, NCBI Blast for the similarity searching, ICATools for the EST clustering, Phrap for EST contig assembly, and BLOCKS/Prosite for protein motif searching. The sample data set used for the construction and verification of this system was 1,386 ESTs from human intrathymic T-cells that verified using UniGene and Nr database of NCBI. The approach for the extraction of CDSs from sample data set was carried out by comparison between sample data and protein sequences/motif database, determining matched protein sequences/motifs that agree with our defined parameters, and extracting the regions that shows similarities. In recent future, in addition to these components, it is supposed to be also integrated into our system and served that the software for the peptide mass spectrometry fingerprint analysis, one of the proteomics fields. This pipelined-EST analysis system will extend our knowledge on the plant ESTs and proteins by identification of unknown-genes.

  • PDF

수생태계의 환경유전자(environmental DNA: eDNA) 채집 및 추출기술 (Sampling and Extraction Method for Environmental DNA (eDNA) in Freshwater Ecosystems)

  • 김건희;류제하;황순진
    • 생태와환경
    • /
    • 제54권3호
    • /
    • pp.170-189
    • /
    • 2021
  • 환경유전자(eDNA)는 다양한 환경(수중, 토양, 대기)에 존재하는 생물체로부터 유래된 유전물질을 의미한다. eDNA는 높은 민감도, 짧은 조사시간 등 많은 장점들이 존재하며 이로 인해 생물 모니터링 및 유해생물과 멸종위기 생물을 탐색하는 분야에 다양하게 활용되고 있다. 이러한 eDNA를 채집하기 위해서는 대상생물 및 대상유전자뿐만 아니라 현장 여과방법 및 eDNA 보존방법과 같이 매우 다양한 항목들을 고려해야 한다. 특히 환경에서 eDNA를 채집하는 방법은 eDNA 농도와 직결되는 항목으로서 적절한 채집방법을 사용하여 eDNA를 채집할 때 정확한 분석결과를 얻을 수 있다. 또한 현장에서 채집한 eDNA를 보존하고 추출하는 과정에서도 정확한 방법을 사용하였을 때 현장에 분포하는 eDNA의 농도를 정확하게 파악할 수 있다. 특히 eDNA 연구를 시작하는 연구자들에게 eDNA 분야는 초기 진입 장벽이 매우 높은 기술로서 이를 위한 기초 자료가 매우 절실하다. 본 연구에서는 본 연구는 eDNA가 수생태계를 연구하기 위한 도구로서 보다 널리 이용되며, eDNA를 이용하기 시작하는 연구자들에게 도움을 주고자 수생태계에서 eDNA를 채집하고 및 운반하는 방법과 실험실에서 eDNA를 추출하는 방법을 소개하고, 보다 간편하고 효율적인 eDNA 채집 도구와 방법을 제시하였다.

생성형 대규모 언어 모델과 프롬프트 엔지니어링을 통한 한국어 텍스트 기반 정보 추출 데이터셋 구축 방법 (A Study on Dataset Generation Method for Korean Language Information Extraction from Generative Large Language Model and Prompt Engineering)

  • 정영상;지승현;권다롱새
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권11호
    • /
    • pp.481-492
    • /
    • 2023
  • 본 연구는 생성형 대규모 언어 모델을 활용하여 텍스트에서 정보를 추출하기 위한 한글 데이터셋 구축 방법을 탐구한다. 현대 사회에서는 혼합된 정보가 빠르게 유포되며, 이를 효과적으로 분류하고 추출하는 것은 의사결정 과정에 중요하다. 그러나 이에 대한 학습용 한국어 데이터셋은 아직 부족하다. 이를 극복하기 위해, 본 연구는 생성형 대규모 언어 모델을 사용하여 텍스트 기반 제로샷 학습(zero-shot learning)을 이용한 정보 추출을 시도하며, 이를 통해 목적에 맞는 한국어 데이터셋을 구축한다. 본 연구에서는 시스템-지침-소스입력-출력형식의 프롬프트 엔지니어링을 통해 언어 모델이 원하는 결과를 출력하도록 지시하며, 입력 문장을 통해 언어 모델의 In-Context Learning 특성을 활용하여 데이터셋을 구축한다. 생성된 데이터셋을 기존 데이터셋과 비교하여 본 연구 방법론을 검증하며, 관계 정보 추출 작업의 경우 KLUE-RoBERTa-large 모델 대비 25.47% 더 높은 성능을 달성했다. 이 연구 결과는 한국어 텍스트에서 지식 요소를 추출하는 가능성을 제시함으로써 인공지능 연구에 도움을 줄 것으로 기대된다. 더욱이, 이 방법론은 다양한 분야나 목적에 맞게 활용될 수 있어, 다양한 한국어 데이터셋 구축에 잠재력을 가진다고 볼 수 있다.