• Title/Summary/Keyword: 키워드 학습

Search Result 267, Processing Time 0.026 seconds

A Study on Automatic Recommendation of Keywords for Sub-Classification of National Science and Technology Standard Classification System Using AttentionMesh (AttentionMesh를 활용한 국가과학기술표준분류체계 소분류 키워드 자동추천에 관한 연구)

  • Park, Jin Ho;Song, Min Sun
    • Journal of Korean Library and Information Science Society
    • /
    • v.53 no.2
    • /
    • pp.95-115
    • /
    • 2022
  • The purpose of this study is to transform the sub-categorization terms of the National Science and Technology Standards Classification System into technical keywords by applying a machine learning algorithm. For this purpose, AttentionMeSH was used as a learning algorithm suitable for topic word recommendation. For source data, four-year research status files from 2017 to 2020, refined by the Korea Institute of Science and Technology Planning and Evaluation, were used. For learning, four attributes that well express the research content were used: task name, research goal, research abstract, and expected effect. As a result, it was confirmed that the result of MiF 0.6377 was derived when the threshold was 0.5. In order to utilize machine learning in actual work in the future and to secure technical keywords, it is expected that it will be necessary to establish a term management system and secure data of various attributes.

Keyword Data Analysis Using Bayesian Conjugate Prior Distribution (베이지안 공액 사전분포를 이용한 키워드 데이터 분석)

  • Jun, Sunghae
    • The Journal of the Korea Contents Association
    • /
    • v.20 no.6
    • /
    • pp.1-8
    • /
    • 2020
  • The use of text data in big data analytics has been increased. So, much research on methods for text data analysis has been performed. In this paper, we study Bayesian learning based on conjugate prior for analyzing keyword data extracted from text big data. Bayesian statistics provides learning process for updating parameters when new data is added to existing data. This is an efficient process in big data environment, because a large amount of data is created and added over time in big data platform. In order to show the performance and applicability of proposed method, we carry out a case study by analyzing the keyword data from real patent document data.

Keyword Extraction Using Unsupervised Learning Method (비감독 학습 기법에 의한 키워드 추출)

  • Shin, Seong-Yoon;Baek, Jeong-Uk;Rhee, Yang-Won
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2010.05a
    • /
    • pp.165-166
    • /
    • 2010
  • Noun extraction is to find all nouns presented in the document, Korean information retrieval uses noun as index terms or keywords of representing the document. In this paper, we proposes the method of keyword extraction using pre-built dictionary. This method reduces the execution time by reducing unnecessary operations. And noun, even large documents without affecting significantly the accuracy, can be extracted. This paper proposed noun extraction method using the appearance characteristics of the noun and keyword extraction method using unsupervised learning techniques.

  • PDF

Web Service Matching Algorithm using Cluster and Ontology Information (클러스터와 온톨로지 정보를 이용한 웹 서비스 매칭 알고리즘)

  • Lee, Yong-Ju
    • Journal of Internet Computing and Services
    • /
    • v.11 no.1
    • /
    • pp.59-69
    • /
    • 2010
  • With the growing number of web services, there arise issues of finding suitable services. But, the traditional keyword search method is insufficient for two reasons: (1) this does not capture the underlying semantics of web services. (2) this does not suffice for accurately specifying users' information needs. In order to overcome limitations of this keyword search method, we propose a novel syntactic analysis and ontology learning method. The syntactic analysis method gives us a breadth of coverage for common terms, while the ontology learning method gives a depth of coverage by providing relationships. By combining these two methods, we hope to improve both the recall and the precision. We describe an experimental study on a collection of 508 web services that shows the high recall and precision of our method.

Neural Based Approach to Keyword Extraction from Documents (문서의 키워드 추출에 대한 신경망 접근)

  • 조태호;서정현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.317-319
    • /
    • 2000
  • 문서는 자연어로 구성된 비정형화된 데이터이다. 이를 처리하기 위하여 문서를 정형화된 데이터로 표현하여 저장할 필요가 있는데, 이를 문서 대용물(Document Surrogate)라 한다. 문서 대용물은 대표적으로 인덱싱 과정에 의해 추출된 단어 리스트를 나타낸다. 문서 내의 모든 단어가 내용을 반영하지 않는다. 문서의 내용을 반영하는 중요한 단어만을 선택할 필요가 있다. 이러한 단어를 키워드라 하며, 기존에는 단어의 빈도와 역문서 빈도(Inverse Document Frequency)에 근거한 공식에 의해 키워드를 선택하였다. 실제로 문서내 빈도와 역문서 빈도뿐만 아니라 제목에 포함 여부, 단어의 위치 등도 고려하여야 한다. 이러한 인자를 추가할 경우 이를 수식으로 표현하기에는 복잡하다. 이 논문에서는 이를 단어의 특징으로 추출하여 특징벡터를 형성하고 이를 학습하여 키워드를 선택하는 신경망 모델인 역전파의 접근을 제안한다. 역전파를 이용하여 키워드를 판별한 결과 수식에 의한 경우보다 그 성능이 향상되었음을 보여주고 있다.

  • PDF

Cafe recommendation algorithm using NLP (NLP를 이용한 카페 추천 알고리즘)

  • Dahyun Mok;Gyurin Byun;Hyunseung Choo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.404-406
    • /
    • 2023
  • 본 논문은 맞춤형 카페 추천 서비스를 제안한다. 대중적인 포털 사이트의 카페 정보와 사용자 리뷰를 크롤링 하여 지역별, 키워드별 카페 데이터를 수집한다. 사용자가 원하는 지역과 임의의 키워드를 기준으로 데이터셋 내의 키워드와 비교하여 가장 유사한 키워드를 추출한다. spaCy 라이브러리의사전 학습된 모델 중 similarity method를 사용하여 추출된 키워드를 바탕으로 해당하는 카페를 추천한다. 이를 통해 사용자는 불필요한 정보를 걸러내고 쉽게 원하는 정보를 얻을 수 있다.

Effect of text and image presenting method on Chinese college students' learning flow, learning satisfaction and learning outcome in video learning environment (중국대학생 동영상 학습에서 텍스트 제시방식과 이미지 제시방식이 학습몰입, 학습만족, 학업성취에 미치는 효과)

  • Zhang, Jing;Zhu, Hui-Qin;Kim, Bo-Kyeong
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.22 no.1
    • /
    • pp.633-640
    • /
    • 2021
  • This study analyzes the effects of text and image presenting methods in video lectures on students' learning flow, learning satisfaction and learning outcomes. The text presenting methods include forming short sentences of 2 or 3 words or using key words, while image presenting methods include images featuring both detailed and related information as well as images containing only related information. 167 first year students from Xingtai University were selected as experimental participants. Groups of participants were randomly assigned to engage in four types of video. The research results are as follows. First, it was found that learning flow, learning satisfaction and learning outcomes of group presented with video forms of short sentences had higher statistical significance compared to the group experiencing the key word method. Second, learning flow, learning satisfaction and learning outcomes of group presented with video forms of only related information had higher statistical significance compared to the group experiencing the presenting method of both detailed and related information. That is, the mean values of dependent variables for groups of short form text and only related information were highest. In contrast, the mean values of dependent variables for groups of key words and both detailed and related information were the lowest.

News Article Big Data Analysis based on Machine Learning in Distributed Processing Environments (분산 처리 환경에서의 기계학습 기반의 뉴스 기사 빅 데이터 분석)

  • Oh, Hee-bin;Lee, Jeong-cheol;Kim, Kyungsup
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.11a
    • /
    • pp.59-62
    • /
    • 2017
  • 본 논문에서는 텍스트 형태의 빅 데이터를 분산처리 환경에서 기계학습을 이용하여 분석하고 유의미한 데이터를 만들어내는 시스템에 대해 다루었다. 빅 데이터의 한 종류인 뉴스 기사 빅 데이터를 분산 시스템 환경(Spark) 내에서 기계 학습(Word2Vec)을 이용하여 뉴스 기사의 키워드 간의 연관도를 분석하는 분산 처리 시스템을 설계 및 구현하였고, 사용자가 입력한 검색어와 연관된 키워드들을 한눈에 파악하기 쉽게 만드는 시각화 시스템을 설계하였다.

Usenet News Filtering using Fuzzy Inference and Kohonen Network (퍼지추론과 코호넨 신경망을 사용한 유즈넷 뉴스 필터링)

  • 김종완;조규철;김병익
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2003.05a
    • /
    • pp.47-51
    • /
    • 2003
  • 인터넷을 통해 제공되는 맡은 양의 뉴스 정보 중에서 찾고자 하는 정확한 정보를 빠른 시간 안에 검색하고, 원하는 정보만 필터링 하는 것이 필요하다. 먼저, 인터넷에 접속된 뉴스서버들의 뉴스 문서를 각 그룹별로 수집한다. 수집된 뉴스 문서를 대상으로 퍼지추론을 통하여 문서를 대표하는 키워드를 추출하여 데이터베이스에 저장한다. 각 뉴스그룹의 문서에서 단어들을 분석하여 입력된 단어들의 개수를 이용하여 정규화 시켜서 대표적인 비지도학습 신경망인 코호넨 신경망을 사용하여 학습시킨다. 코호넨 신경망으로 추출된 단어들의 연관성을 활용하여 뉴스그룹을 클러스터링한다. 최종적으로 사용자가 관심 있는 키워드를 입력하면, 학습된 신경망이 유사한 뉴스그룹들을 사용자에게 제시해준다.

  • PDF

Image Generation from Korean Dialogue Text via Prompt-based Few-shot Learning (프롬프트 기반 퓨샷 러닝을 통한 한국어 대화형 텍스트 기반 이미지 생성)

  • Eunchan Lee;Sangtae Ahn
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.447-451
    • /
    • 2022
  • 본 논문에서는 사용자가 대화 텍스트 방식의 입력을 주었을 때 이를 키워드 중심으로 변환하여 이미지를 생성해내는 방식을 제안한다. 대화 텍스트란 채팅 등에서 주로 사용하는 형식의 구어체를 말하며 이러한 텍스트 형식은 텍스트 기반 이미지 생성 모델이 적절한 아웃풋 이미지를 생성하기 어렵게 만든다. 이를 해결하기 위해 대화 텍스트를 키워드 중심 텍스트로 바꾸어 텍스트 기반 이미지 생성 모델의 입력으로 변환하는 과정이 이미지 생성의 질을 높이는 좋은 방안이 될 수 있는데 이러한 태스크에 적합한 학습 데이터는 충분하지 않다. 본 논문에서는 이러한 문제를 다루기 위한 하나의 방안으로 사전학습된 초대형 언어모델인 KoGPT 모델을 활용하며, 퓨샷 러닝을 통해 적은 양의 직접 제작한 데이터만을 학습시켜 대화 텍스트 기반의 이미지 생성을 구현하는 방법을 제안한다.

  • PDF