• 제목/요약/키워드: TextRank

검색결과 83건 처리시간 0.032초

Understanding the Food Hygiene of Cruise through the Big Data Analytics using the Web Crawling and Text Mining

  • Shuting, Tao;Kang, Byongnam;Kim, Hak-Seon
    • 한국조리학회지
    • /
    • 제24권2호
    • /
    • pp.34-43
    • /
    • 2018
  • The objective of this study was to acquire a general and text-based awareness and recognition of cruise food hygiene through big data analytics. For the purpose, this study collected data with conducting the keyword "food hygiene, cruise" on the web pages and news on Google, during October 1st, 2015 to October 1st, 2017 (two years). The data collection was processed by SCTM which is a data collecting and processing program and eventually, 899 kb, approximately 20,000 words were collected. For the data analysis, UCINET 6.0 packaged with visualization tool-Netdraw was utilized. As a result of the data analysis, the words such as jobs, news, showed the high frequency while the results of centrality (Freeman's degree centrality and Eigenvector centrality) and proximity indicated the distinct rank with the frequency. Meanwhile, as for the result of CONCOR analysis, 4 segmentations were created as "food hygiene group", "person group", "location related group" and "brand group". The diagnosis of this study for the food hygiene in cruise industry through big data is expected to provide instrumental implications both for academia research and empirical application.

Association Modeling on Keyword and Abstract Data in Korean Port Research

  • Yoon, Hee-Young;Kwak, Il-Youp
    • Journal of Korea Trade
    • /
    • 제24권5호
    • /
    • pp.71-86
    • /
    • 2020
  • Purpose - This study investigates research trends by searching for English keywords and abstracts in 1,511 Korean journal articles in the Korea Citation Index from the 2002-2019 period using the term "Port." The study aims to lay the foundation for a more balanced development of port research. Design/methodology - Using abstract and keyword data, we perform frequency analysis and word embedding (Word2vec). A t-SNE plot shows the main keywords extracted using the TextRank algorithm. To analyze which words were used in what context in our two nine-year subperiods (2002-2010 and 2010-2019), we use Scattertext and scaled F-scores. Findings - First, during the 18-year study period, port research has developed through the convergence of diverse academic fields, covering 102 subject areas and 219 journals. Second, our frequency analysis of 4,431 keywords in 1,511 papers shows that the words "Port" (60 times), "Port Competitiveness" (33 times), and "Port Authority" (29 times), among others, are attractive to most researchers. Third, a word embedding analysis identifies the words highly correlated with the top eight keywords and visually shows four different subject clusters in a t-SNE plot. Fourth, we use Scattertext to compare words used in the two research sub-periods. Originality/value - This study is the first to apply abstract and keyword analysis and various text mining techniques to Korean journal articles in port research and thus has important implications. Further in-depth studies should collect a greater variety of textual data and analyze and compare port studies from different countries.

ELMo 임베딩 기반 문장 중요도를 고려한 중심 문장 추출 방법 (Method of Extracting the Topic Sentence Considering Sentence Importance based on ELMo Embedding)

  • 김은희;임명진;신주현
    • 스마트미디어저널
    • /
    • 제10권1호
    • /
    • pp.39-46
    • /
    • 2021
  • 본 연구는 뉴스 기사에서 기사문을 구성하는 문장별 중요도를 고려하여 요약문을 추출하는 방법에 관한 것으로 문장 중요도에 영향을 주는 특성으로 중심 문장(Topic Sentence)일 확률, 기사 제목 및 다른 문장과의 유사도, 문장 위치에 따른 가중치를 추출하여 문장 중요도를 계산하는 방법을 제안한다. 이때, 중심 문장(Topic Sentence)은 일반 문장과는 구별되는 특징을 가질 것이라는 가설을 세우고, 딥러닝 기반 분류 모델을 학습시켜 입력 문장에 대한 중심 문장 확률값을 구한다. 또한 사전학습된 ELMo 언어 모델을 활용하여 문맥 정보를 반영한 문장 벡터값을 기준으로 문장간 유사도를 계산하여 문장 특성으로 추출한다. LSTM 및 BERT 모델의 중심 문장 분류성능은 정확도 93%, 재현율 96.22%, 정밀도 89.5%로 높은 분석 결과가 나왔으며, 이렇게 추출된 문장 특성을 결합하여 문장별 중요도를 계산한 결과, 기존 TextRank 알고리즘과 비교하여 중심 문장 추출 성능이 10% 정도 개선된 것을 확인할 수 있었다.

텍스트마이닝을 활용한 러닝 어플리케이션 사용자 리뷰 분석: Nike Run Club과 Runkeeper를 중심으로 (Analysis of User Reviews of Running Applications Using Text Mining: Focusing on Nike Run Club and Runkeeper)

  • 류기문;김일광
    • 산업융합연구
    • /
    • 제22권4호
    • /
    • pp.11-19
    • /
    • 2024
  • 본 연구의 목적은 텍스트마이닝을 활용하여 러닝 어플리케이션 사용자의 리뷰를 분석하였다. 본 연구는 python3의 selenium 패키지를 이용하여 google playstore의 Nike Run Club, Runkeeper의 사용자 리뷰들을 분석자료로 이용하였으며, okt 분석기를 통해 한글 명사만을 남겨 형태소를 분리하였다. 형태소 분리 후 rankNL 사전을 만들어 불용어(stopword)를 제거하였다. 자료 분석을 위해 텍스트마이닝의 TF(빈도분석), TF-IDF(키워드 빈도-문서 역빈도), LDA 토픽모델링을 통해 분석하였다. 본 연구의 결과는 다음과 같다. 첫째, Nike Run Club, Runkeeper 어플리케이션 사용자 리뷰에서 공통적으로 상위 키워드로 '기록', '앱', '운동'의 키워드가 도출되었으며 TF, TF-IDF의 순위에는 차이가 나타났다. 둘째, Nike Run Club의 LDA 토픽모델링으로 '기본 항목', '추가 기능', '오류 사항', '위치기반데이터'의 토픽이 도출되었고 Runkeeper는 '오류 사항', '음성 기능', '러닝 데이터', '사용 혜택', '사용 동기'의 토픽이 도출되었다. 결과를 통해 제언하면 어플리케이션의 경쟁력 향상을 기여하기 위해 오류 및 개선사항을 보완해야 한다.

GMM 기반 실시간 문맥독립화자식별시스템의 성능향상을 위한 프레임선택 및 가중치를 이용한 Hybrid 방법 (Hybrid Method using Frame Selection and Weighting Model Rank to improve Performance of Real-time Text-Independent Speaker Recognition System based on GMM)

  • 김민정;석수영;김광수;정호열;정현열
    • 한국멀티미디어학회논문지
    • /
    • 제5권5호
    • /
    • pp.512-522
    • /
    • 2002
  • 본 논문에서는 GMM(Gaussian Mixture Model)에 기반한 실시간문맥독립화자식별시스템[1][2]의 성능향상을 위하여 프레임선택(Frame Selection)방법과 프레임가중치(Weighting Model Rank)방법을 혼합한 hybrid방법을 제안한다. 본 시스템에서는 GMM의 파라미터를 최적화하기 위하여 MLE(Maximum likelihood estimation)방법과 인식 알고리즘으로 ML(Maximum Likelihood)을 기본적으로 사용하였다. 제안한 hybrid 방법은 두 단계로 이루어진다. 첫째, 화자모델과 테스트 데이터를 이용하여 프레임단위로 유사도를 계산하고, 가장 큰 유사도 값과 두 번째로 큰 유사도 값의 차를 계산한 후, 차가 문턱치보다 큰 프레임만을 선택한다 두 번째로, 선택되어진 프레임에서 계산되어진 유사도 값 대신에 가중치 값을 사용하여 전체 스코어를 계산한다. 특징 파라미터로서는 켑스트럼과 회귀계수를 사용하였으며, 학습과 테스트를 위한 데이터베이스는 채집기간이 다른 여러 데이터베이스들로 구성되어 있으며, 실험을 위한 데이터는 임의의 단어를 선택하여 사용하였다. 화자인식실험은 기본 시스템에 프레임선택방법, 프레임가중치방법, 제안한 Hybrid방법을 각각 적용하여 실험하였다. 실험결과, 프레임선택방법에 비해 평균 4%, 프레임가중치방법에 비해 평균 1%의 인식률 향상을 보여, 본 논문에서 적용한 hybrid방법의 유효성을 확인하였다.

  • PDF

농촌 청소년의 식품 기호도와 영양 섭취 실태와의 관계 (Food Preference and Nutrient Intake Status of High School Students in Rural Area of Korea)

  • 이건순;유영상
    • 동아시아식생활학회지
    • /
    • 제7권2호
    • /
    • pp.199-210
    • /
    • 1997
  • The purpose of this study was to investigate the mutual relationship between food preference and nutrient intake status of high school students, based on the their personal characters which are sex, age, family type, number of family, mother's age, occupation, and school career. 439 students were selected with random stratified cluster sampling method. The study used a self-administrated questionnaire and 24-hour recall method for 5 days as instrument tools. Statistical methods applied to analyze the data were frequency, percent, Willcoxon Rank-sum test, Kruskal-Wallis test, ${x^2}-test$ by contingence table, and Spearman's correlation coefficient in non parametric statistical methods. Some of interesting results are as follows : 1. The correlation between sex and the set of characters of mother's age, school career and income is highly significant. However there is no any significant difference on the kinds of job and the types of family. 2. The relation between the preference of main dishes and the nutrient intake show a significant difference except to the noodles. This marks that preference of main dishes shows a direct proportion with the nutrient intakes except for the fat, vitamin A, vitamin C. 3. The preference of animal food marks a direct proportion with the nutrients such as energy, protein, fat, fiber, phosphorus, iron, vitamin $B_{1}$, vitamin $B_{2}$, and niacin 4. The preference of vegetable food gives some influence on the nutrient intake but the preference of soup is insignificant, the preference of Kimchi is in reverse proportion, and the preference of vegetable marks a direct proportion with the nutrient intake. 5. The preference of snacks marks a direct proportion with all kinds of nutrients intake except for the vitamin A, and vitamin C.

  • PDF

텍스트 네크워크 분석을 이용한 임상간호연구 게재논문의 연구동향 분석: 2000년부터 2017년까지 (Research Trends of Articles Published in the Journal of Korean Clinical Nursing Research from 2000 to 2017: Text Network Analysis of Keywords)

  • 김연희;문성미;권인각;김광성;정금희;신은숙;오향순;김수현
    • 임상간호연구
    • /
    • 제25권1호
    • /
    • pp.80-90
    • /
    • 2019
  • Purpose: The aim of this study was to identify the research trends of articles published in the Journal of Korean Clinical Nursing Research from 2000 to 2017 by a text network analysis using keywords. Methods: This study analyzed 600 articles. The R program was used for text mining that extracted frequency, centrality rank, and keyword network. Results: From 2000 to 2009, keywords with high-frequency were 'nurse', 'pain', 'anxiety', 'knowledge', 'attitude', and so on. 'Pain', 'nurse', and 'knowledge' showed a high centrality. 'Fatigue' showed no high frequency but a high centrality. Keywords such as 'nurse', 'knowledge', and 'pain' also showed high frequency and centrality between 2010 and 2017. 'Hemodialysis' and 'intensive care unit' were added to keywords with high frequency and centrality during the period. Conclusion: The frequency and centrality of keywords such as 'nurse', 'pain', 'knowledge', 'hemodialysis', and 'intensive care unit' reflect the research trends in clinical nursing between 2000 and 2017. Further studies need to expand the keyword networks by connecting the main keywords.

문장 및 단어 중요도를 통한 한국어 문서 연관 이미지 검색 (Relevant Image Retrieval of Korean Documents based on Sentence and Word Importance)

  • 김남규;강신재
    • 한국산학기술학회논문지
    • /
    • 제20권3호
    • /
    • pp.43-48
    • /
    • 2019
  • 텍스트로만 이루어진 글에서 알지 못하는 단어가 나온다면, 글을 읽는 도중 집중이 되지 않고 내용을 이해함에 있어 어려움이 생긴다. 또한 이미 알고 있는 단어라도 아이들의 경우 경험이 적기 때문에 글에서 상황을 묘사하는 표현이 생소하거나 애매하다면 머릿속에 떠올리기 힘들다. 이에 본 논문에서는 글을 이해를 돕고 독자의 흥미를 증가시키기 위해서 글의 텍스트들을 분석하여 중요하다고 판단되는 내용을 선택하고, 이 내용과 가장 관련 있는 이미지를 웹에서 자동으로 가져와 연결하여 보여주는 시스템을 구현하고자 한다. 시스템의 구현은 글을 문단 단위로 나누어 글을 분석하고, 문단마다 중요한 문장을 선택한 후, 중요한 문장 내에서 이 문장을 가장 잘 표현할 수 있는 중요한 단어들을 선택하여 웹에서 연관 이미지를 검색하고, 검색된 이미지 결과를 이전에 나눈 각 문단마다 연결시켜준다. 실험으로 글에서 중요한 문장을 선택하는 방법과 문장 내 중요한 단어를 선택하는 방법을 제시하였다. 실험한 결과, 선택된 이미지 3개와 해당 중요 문장과의 연관 여부를 정확률로 평가하였을 때 60%의 성능을 얻을 수 있었다.

질의 어휘와의 근접도를 반영한 단어 그래프 기반 질의 확장 (Query Expansion based on Word Graph using Term Proximity)

  • 장계훈;이경순
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.37-42
    • /
    • 2012
  • 잠정적 적합성 피드백모델은 초기 검색 결과의 상위에 순위화된 문서를 적합 문서라 가정하고, 상위문서에서 빈도가 높은 어휘를 확장 질의로 선택한다. 빈도수를 이용한 질의 확장 방법의 단점은 문서 안에서 포함된 어휘들 사이의 근접도에 상관없이 각 어휘를 독립적으로 생각한다는 것이다. 본 논문에서는 어휘빈도를 이용한 질의 확장을 대체할 수 있는 어휘 근접도를 반영한 단어 그래프 기반 질의 확장을 제안한다. 질의 어휘 주변에 발생한 어휘들을 노드로 표현하고, 어휘들 사이의 근접도를 에지의 가중치로 하여 단어 그래프를 표현한다. 반복된 연산을 통해 확장 질의를 선택함으로써 성능을 향상시키는 기법을 제안한다. 유효성 검증을 위해 웹문서 집합인 TREC WT10g 테스트 컬렉션에 대한 실험에서 언어모델 보다 MAP 평가 기준에서 6.4% 향상됨을 보였다.

TV 건강프로그램의 '노화의 의료화' 의미화 방식: KBS <비타민>의 텍스트 분석을 중심으로 (A Study on the Signification of 'The Medicalization of Aging' in TV Health Programs: A Text Analysis of Focus on the 'Vitamin' in KBS)

  • 김주미;한혜경
    • 한국언론정보학보
    • /
    • 제61권
    • /
    • pp.159-179
    • /
    • 2013
  • 본 연구는 고령사회로 진입한 한국 사회에서 미디어가 어떻게 '잘 나이 들기(Aging Well)'에 대한 의미를 구성해내는지 고찰해보고자 하였다. 구체적으로 TV 건강프로그램이 어떠한 모습으로 노화를 그려내고 있으며, 노화 과정을 재현하는 방식의 사회문화적 의미는 무엇인가라는 질문에 답하고자 하였다. 이를 위해 KBS <비타민>에 대한 텍스트 분석을 진행한 결과, <비타민>은 정보의 오락화를 추구하는 과정에서 노화된 몸을 희화화시켜 조소의 대상으로 재현하고 있으며, 노화방지를 하지 못한 출연자가 실패자로 낙인찍히는 과정을 보여주어 노화에 대한 공포심을 강화하고 있다. 이 과정에서 노화된 몸을 수명이 다한 기계로 의미화 하고 측정 가능한 노화 지수를 만들어 그 기준에 미치지 못한 노년은 의료전문가와 의료 기술의 도움이 필요함을 강조한다. 과거에는 질병으로 간주되지 않았던 노화를 의료의 영역으로 끌어들여 치료의 대상으로 삼는 '노화의 의료화' 담론은 의료전문가의 통제권을 강조하고 사회문제를 개인화시키는 결과를 확산시키고 있다.

  • PDF