• 제목/요약/키워드: Keyword extraction

검색결과 190건 처리시간 0.034초

영화 리뷰 감성 분석을 통한 키워드 추출 및 시각화 (Keyword Extraction and Visualization of Movie Reviews through Sentiment Analysis)

  • 박종찬;김성진;윤영현;백재순
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.261-262
    • /
    • 2023
  • 본 연구에서는 감성 분석 기반의 키워드 도출형 영화 리뷰 웹사이트를 개발하였다. 사용자들은 영화에 대한 리뷰를 작성할 때, 자동으로 키워드를 추출하는 기능을 활용하여 다양하면서도 빠르게 정보를 얻을 수 있다. 사용자가 작성한 리뷰를 시스템에 입력하면, 내부적으로 ChatGPT를 활용하여 텍스트를 분석하고 키워드를 추출한다. 이를 통해 사용자는 별다른 노력 없이도 키워드를 통해 영화의 장르, 감독, 배우, 플롯 요소 등 다양한 정보를 빠르게 확인할 수 있다. 추출된 키워드는 저장되어 시각화에 활용되며, 사용자들은 리뷰에 대한 원하는 정보를 쉽게 얻을 수 있다. 개발된 키워드 도출형 영화 리뷰 웹사이트는 사용자들에게 빠르고 다양한 정보를 제공하며, 영화 관련 결정을 내리는 데에 도움을 줄 것으로 기대된다.

  • PDF

LSI를 이용한 차원 축소 클러스터 기반 키워드 연관망 자동 구축 기법 (Automatic Construction of Reduced Dimensional Cluster-based Keyword Association Networks using LSI)

  • 유한묵;김한준;장재영
    • 정보과학회 논문지
    • /
    • 제44권11호
    • /
    • pp.1236-1243
    • /
    • 2017
  • 본 논문은 기존의 TextRank 알고리즘에 상호정보량 척도를 결합하여 군집 기반에서 키워드 추출하는 LSI-based ClusterTextRank 기법과 추출된 키워드를 Latent Semantic Indexing(LSI)을 이용한 연관망 구축 기법을 제안한다. 제안 기법은 문서집합을 단어-문서 행렬로 표현하고, 이를 LSI를 이용하여 저차원의 개념 공간으로 차원을 축소한다. 그 다음 k-means 군집화 알고리즘을 이용하여 여러 군집으로 나누고, 각 군집에 포함된 단어들을 최대신장트리 그래프로 표현한 후 이에 근거한 군집 정보량을 고려하여 키워드를 추출한다. 그리고나서 추출된 키워드들 간에 유사도를 LSI 기법을 통해 구한 단어-개념 행렬을 이용하여 계산한 후, 이를 키워드 연관망으로 활용한다. 제안 기법의 성능을 평가하기 위해 여행 관련 블로그 데이터를 이용하였으며, 제안 기법이 기존 TextRank 알고리즘보다 키워드 추출의 정확도가 약 14% 가량 개선됨을 보인다.

건강보험 연구동향에 대한 키워드 네트워크 분석 (A Keyword Network Analysis on Research Trends in the Area of Health Insurance)

  • 이수정;이선희
    • 보건행정학회지
    • /
    • 제31권3호
    • /
    • pp.335-343
    • /
    • 2021
  • Background: The purpose of this study was to extract the major areas of interest in health insurance research in Korea, and infer policy agendas related to health insurance by analyzing research keywords. Methods: For this study, 2,590 articles were selected from among 7,459 academic papers related to health insurance published between January 1987 and December 2018, which were looked up using the Research Information Sharing Service (RISS). Keyword extraction and keyword network analysis were performed using the KrKwic, KrTitle, and UCINET software. Results: First, the number of studies in the area of health insurance continued to increase in all government terms, and it was not until after the 2000s that the subjects of health insurance researches were diversified. Second, degree centrality showed that 'medical expenditure' and 'medical utilization' were consistently high-ranking keywords regardless of the government in power. Aging and long-term care insurance-related keywords were ranked higher in the Lee Myung-bak government, Park Geun-hye government, and Moon Jae-in government. Third, betweenness centrality showed the same high ranking in key topics such as medical expenditure and medical utilization, while the ranking of key keywords differed depending on the interests and characteristics of each government policy. Conclusion: We confirm that health insurance as a research topic has been the main theme in Korean health care research fields. Research keywords extracted from articles also corresponded to the main health policies promoted during each government period. Efforts to systematically investigate policy megatrends are needed to plan adaptive future policies.

Business Model Mining: Analyzing a Firm's Business Model with Text Mining of Annual Report

  • Lee, Jihwan;Hong, Yoo S.
    • Industrial Engineering and Management Systems
    • /
    • 제13권4호
    • /
    • pp.432-441
    • /
    • 2014
  • As the business model is receiving considerable attention these days, the ability to collect business model related information has become essential requirement for a company. The annual report is one of the most important external documents which contain crucial information about the company's business model. By investigating business descriptions and their future strategies within the annual report, we can easily analyze a company's business model. However, given the sheer volume of the data, which is usually over a hundred pages, it is not practical to depend only on manual extraction. The purpose of this study is to complement the manual extraction process by using text mining techniques. In this study, the text mining technique is applied in business model concept extraction and business model evolution analysis. By concept, we mean the overview of a company's business model within a specific year, and, by evolution, we mean temporal changes in the business model concept over time. The efficiency and effectiveness of our methodology is illustrated by a case example of three companies in the US video rental industry.

우편주소정보 추출모듈 개발 및 평가 (Development and Evaluation of Information Extraction Module for Postal Address Information)

  • 신현경;김현석
    • 창의정보문화연구
    • /
    • 제5권2호
    • /
    • pp.145-156
    • /
    • 2019
  • 본 연구에서는 명명된 실체 인식 기법에 기초한 정보 추출 모듈을 개발하고 평가하였다. 본 논문의 제시된 목적을 위해, 모듈은 사전 지식 없이 임의의 문서에서 우편 주소 정보를 추출하는 문제에 적용하도록 설계되었다. 정보 기술 실무의 관점에서, 우리의 접근방식은 유니그램 기반 키워드 매칭과 비교하여 일반화된 기법인 확률론적 n-gram(바이오그램 또는 트리그램) 방법이라고 말할 수 있다. 모델을 순차적으로 적용하지 않고 문장검출, 토큰화, POS 태그를 재귀적으로 적용하는 것이 우리의 접근법과 자연어 처리에 채택된 전통적인 방법 사이의 주요한 차이점이다. 이 논문에서는 약 2천 개의 문서를 포함한 시험 결과를 제시한다.

단어개념에 기반 한 한국어 복합키워드의 추출 (A Study on Word Concept-based Compound Keyword Extraction)

  • 김양선;이상곤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (상)
    • /
    • pp.477-480
    • /
    • 2003
  • 문서를 읽고 그 내용을 개념상으로 정리해 보면, 그 문서를 대표할 수 있는 적은 수의 복합단어로 이루어진 키워드를 찾을 수 있다. 그러나, 문서 내에 키워드가 존재할 경우는 별 문제가 없지만, 존재하지 않을 때는 적당한 키워드 추출이 불가능해진다. 따라서, 본 논문에서는 문서 본문의 출현단어의 개념정보를 기초로 복합어 생성 규칙을 구축하고, 나아가 문서의미와 관련 있는 요소만을 정제하는 중요도 결정법을 사용하여 이에 대한 유용성을 확인하였다.

  • PDF

방음벽 및 방음장치 특허 동향 분석 (Patent Analysis for Noise Barrier and Noise Reducing Device)

  • 조준호;고효인;김흥섭
    • 한국철도학회:학술대회논문집
    • /
    • 한국철도학회 2010년도 춘계학술대회 논문집
    • /
    • pp.1975-1981
    • /
    • 2010
  • In this study, the patent trends for noise barrier and noise reducing device have been analyzed, for the development of adaptive noise barrier according to the transmission characteristics of railway noise. Using patent search engine, keyword searching for patents after 1980 in Korea was performed. The first 667 patents details were reviewed for the extraction core(ie, key) patents. From this review, finally 70 patents were built as DB. From this analysis of core patents, system requirements for development of noise reducing device were obtained.

  • PDF

학문목적영어(EAP)를 위한 키워드 추출 (Keyword Extraction for English for Academic Purposes)

  • 이제영
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2018년도 춘계 종합학술대회 논문집
    • /
    • pp.255-256
    • /
    • 2018
  • 영어로 진행하는 전공 수업, 영어로 쓰여진 교재의 사용 등이 빈번한 대학 수준 이상에서의 학업을 위해서는 학문목적영어와 관련된 능력을 갖추는 것이 필수적이다. 영어로 진행되는 공부에 어려움을 경험하는 학생들을 돕기 위해 많은 학자들은 해당 분야의 키워드, 즉 전문어휘 목록 작성을 통해 해당 분야의 어휘 학습을 돕는 것이 중요하다고 강조하고 있다. 이에 본 연구에서는 해당분야의 전문 어휘 추출과 관련한 핵심 개념과 선행연구를 살펴본 후, 각기 상이한 키워드 추출 방법을 채택한 2개의 선행연구를 통해 실제 키워드 추출이 이루어지는 방법 및 각각의 장단점에 대해 살펴보고자 한다.

  • PDF

스타일 기반 키워드 추출 (Keyword Extraction based on Style)

  • 이준휘;이원석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (하)
    • /
    • pp.1049-1052
    • /
    • 2002
  • 기존의 키워드 추출 방법은 출현회수(frequency)에 기반한 가중치(weight) 부여 방식이 많이 쓰였다. 본 논문에서는 HTML 문서와 같이 스타일이 적용된 문서의 경우 출현회수와 함께 단어에 적용된 스타일을 고려하여 가중치를 부여해 키워드를 추출하는 방법을 제안한다. 가중치를 부여할 스타일 항목과 항목별 가중치 부여방법을 정의하고 이를 단어별로 합산하고 정규화(normalization)하는 방법을 정의하여 스타일에 기반 해 키워드를 추출하였다. 내용이 특정된 도메인으로부터 순위(ranking)가 매겨진 도메인 키워드 리스트를 뽑아서 이를 기준으로 삼아 기존의 출현회수 기반의 키워드 추출 방식과 양적, 질적인 비교를 수행하여 우월함을 보였다.

  • PDF