• 제목/요약/키워드: Frequency based Text Analysis

검색결과 239건 처리시간 0.035초

빅데이터 텍스트 마이닝 분석을 활용한 아메카지 패션 트렌드 특징 고찰 (A Study on the Characteristics of Amekaji Fashion Trends Using Big Data Text Mining Analysis)

  • 김지형
    • 패션비즈니스
    • /
    • 제26권3호
    • /
    • pp.138-154
    • /
    • 2022
  • The purpose of this study is to identify the characteristics of domestic American casual fashion trends using big data text mining analysis. 108,524 posts and 2,038,999 extracted keywords from Naver and Daum related to American casual fashion in the past 5 years were collected and refined by the Textom program, and frequency analysis, word cloud, N-gram, centrality analysis, and CONCOR analysis were performed. The frequency analysis, 'vintage', 'style', 'daily look', 'coordination', 'workwear', 'men's wear' appeared as the main keywords. The main nationality of the representative brands was Japanese, followed by American, Korean, and others. As a result of the CONCOR analysis, four clusters were derived: "general American casual trend", "vintage taste", "direct sales mania", and "American styling". This study results showed that Japanese American casual clothes are influenced by American casual clothes, and American casual fashion in Korea, which has been reinterpreted, is completed with various coordination and creative styles such as workwear, street, military, classic, etc., focusing on items and brands. Looks were worn and shared on social networks, and the existence of an active consumer group and market potential to obtain genuine products, ranging from second-hand transactions for limited edition vintages to individual transactions were also confirmed. The significance of this study is that it presented the characteristics of American casual fashion trends academically based on online text data that the public actually uses because it has been spread by the public.

텍스트 마이닝 기법을 활용한 인공지능과 헬스케어 융·복합 분야 연구동향 분석 (Research Trend Analysis by using Text-Mining Techniques on the Convergence Studies of AI and Healthcare Technologies)

  • 윤지은;서창진
    • 한국IT서비스학회지
    • /
    • 제18권2호
    • /
    • pp.123-141
    • /
    • 2019
  • The goal of this study is to review the major research trend on the convergence studies of AI and healthcare technologies. For the study, 15,260 English articles on AI and healthcare related topics were collected from Scopus for 55 years from 1963, and text mining techniques were conducted. As a result, seven key research topics were defined : "AI for Clinical Decision Support System (CDSS)", "AI for Medical Image", "Internet of Healthcare Things (IoHT)", "Big Data Analytics in Healthcare", "Medical Robotics", "Blockchain in Healthcare", and "Evidence Based Medicine (EBM)". The result of this study can be utilized to set up and develop the appropriate healthcare R&D strategies for the researchers and government. In this study, text mining techniques such as Text Analysis, Frequency Analysis, Topic Modeling on LDA (Latent Dirichlet Allocation), Word Cloud, and Ego Network Analysis were conducted.

텍스트 마이닝을 활용한 경제정책기록서비스 연구: 경제정책방향을 중심으로 (A Study on the Archival Information Services of Economic Policy Using Text Mining Methods: Focusing on Economic Policy Directions)

  • 연지현;김성원
    • 한국기록관리학회지
    • /
    • 제22권2호
    • /
    • pp.117-133
    • /
    • 2022
  • 자의적으로 구성한 기록 콘텐츠만으로는 이용자가 필요한 기간과 맥락에 대한 이해 없이 이용하게 됨으로써 주요한 경제정책기록에 효율적으로 접근하기에 어려움을 겪는다. 이러한 현재의 기록 서비스를 개선하기 위한 방안을 모색하고자 한다. 본 연구에서 1991년부터 2021년까지 30년간의 경제정책방향을 대상으로 경제정책기록에 텍스트 마이닝 기법을 활용하여 정부별 주요하게 다뤄진 경제 키워드와 변화과정을 도출하였다. 대책 배경, 주요 내용, 본문 텍스트를 수집하여 전처리를 진행한 후 텍스트 빈도분석, TF-IDF, 네트워크분석, 시계열 분석을 진행하였다. 분석 결과 '일자리', '경쟁력', '구조조정' 순으로 가장 높은 빈도수를 기록하였다. 정부별로 주요 키워드를 한눈에 볼 수 있었으며 '일자리', '부동산', '기업'의 연도별 상대비율을 시계열 순으로 분석하였다. 본 연구 결과를 바탕으로 향후 경제정책기록서비스의 발전과 저변확대를 위한 시사점을 제언하였다.

『동의보감사전』 편찬을 위한 표제어 추출에 관한 연구 - 코퍼스 분석방법을 바탕으로 - (Study on Extraction of Headwords for Compilation of 「Donguibogam Dictionary」 - Based on Corpus-based Analysis -)

  • 정지훈;김도훈;김동율
    • 한국의사학회지
    • /
    • 제29권1호
    • /
    • pp.47-54
    • /
    • 2016
  • This article attempts to extract headwords for complication of "Donguibogam Dictionary" with Corpus-based Analysis. The computerized original text of Donguibogam is changed into a text file by a program 'EM Editor'. Chinese characters of high frequency of exposure among Chinese characters of Donguibogam are extracted by a Corpus-based analytical program 'AntConc'. Two-syllable, three-syllable, four-syllable, and five-syllable words including each Chinese characters of high frequency are extracted through n-cluster, one of functions of AntConc. Lastly, The output that is meaningful as a word is sorted. As a result, words that often appear in Donguibogam can be sorted in this article, and the names of books, medical herbs, disease symptoms, and prescriptions often appear especially. This way to extract headwords by this Corpus-based Analysis can suggest better headwords list for "Donguibogam Dictionary" in the future.

빅데이터 환경에서 텍스트마이닝 기법을 활용한 공공문서 분류체계의 적용사례 연구 (Case Study on Public Document Classification System That Utilizes Text-Mining Technique in BigData Environment)

  • 심장섭;이강욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.1085-1089
    • /
    • 2015
  • 과거의 텍스트마이닝기법은 텍스트 자체의 복잡성과 텍스트 내에 산재한 변수의 자유도 때문에 분석 알고리즘을 구현하는데 어려움이 있었다. 의미 있는 정보를 얻기 위하여 어렵게 알고리즘을 구현했다고 하더라도, 기계적으로 텍스트 분석에 소요되는 시간이 텍스트를 사람이 직접 읽어 분석 하는 것보다 많은 시간이 요구 되었다. 그러나 최근 하드웨어와 분석 알고리즘의 발전과 함께 빅데이터라는 기술이 등장하였으며, 앞에서 설명한 제약사항을 극복할 수 있게 되었고, 텍스트마이닝을 통한 분석이 현실세계에서 그 가치를 충분히 인정받고 있다. 만약, 텍스트의 탐색 수준에서 벗어나 마이닝을 통하여 분석이 가능하다면 텍스트 분석에 소비되는 인적, 물적 자원의 비용을 절감할 수 있기 때문에 공공분야에서 절실히 요구되는 창조적인 일에 더 많은 자원을 효과적으로 활용할 수 있을 것이다. 이에 본 논문에서는 인적 자원이 수작업으로 하는 공공분야 문서 분류의 결과값과 빅데이터 환경에서 텍스트마이닝기반의 문서내 단어 빈도수(TF-IDF)와 문서간 코사인 유사도(Cosine Similarity)를 활용한 공공분야 문서분류의 결과값을 비교하여 평가한다.

  • PDF

빅데이터 분석을 이용한 디지털 패션 테크에 대한 인식 연구 (Perceptions and Trends of Digital Fashion Technology - A Big Data Analysis -)

  • 송은영;임호선
    • 한국의류산업학회지
    • /
    • 제23권3호
    • /
    • pp.380-389
    • /
    • 2021
  • This study aimed to reveal the perceptions and trends of digital fashion technology through an informational approach. A big data analysis was conducted after collecting the text shown in a web environment from April 2019 to April 2021. Key words were derived through text mining analysis and network analysis, and the structure of perception of digital fashion technology was identified. Using textoms, we collected 8144 texts after data refinement, conducted a frequency of emergence and central component analysis, and visualized the results with word cloud and N-gram. The frequency of appearance also generated matrices with the top 70 words, and a structural equivalent analysis was performed. The results were presented with network visualizations and dendrograms. Fashion, digital, and technology were the most frequently mentioned topics, and the frequencies of platform, digital transformation, and start-ups were also high. Through clustering, four clusters of marketing were formed using fashion, digital technology, startups, and augmented reality/virtual reality technology. Future research on startups and smart factories with technologies based on stable platforms is needed. The results of this study contribute to increasing the fashion industry's knowledge on digital fashion technology and can be used as a foundational study for the development of research on related topics.

유비쿼터스도시종합계획과 유비쿼터스도시계획 비교 연구 -U-서비스 계획을 중심으로- (A Comparative Study between Ubiquitous City Comprehensive Plan and Ubiquitous City Plan - Focusing on U-Service Plan)

  • 유지송;정다운;이미숙;민경주
    • Spatial Information Research
    • /
    • 제23권2호
    • /
    • pp.83-93
    • /
    • 2015
  • 최근 U-City 계획을 수립한 지자체의 U-서비스는 시설 및 도시 관리 위주의 서비스로 구현되고 있으며, 시민 맞춤형 U-서비스는 계획에만 그치고 있는 실정이다. 이에 본 연구는 U-City 종합계획과 U-City 계획의 U-서비스 내용을 네트워크 텍스트 분석과 단어 빈도 분석을 통해 비교 검토하여 향후 시민 맞춤형 U-서비스 제공을 위한 시사점을 제시하였다. 제1, 2차 U-City 종합계획과 4개 지방자치단체의 U-City 계획 중 U-서비스 계획 내용을 추출하여 주요 단어들을 산출하였고, 도출된 단어를 통해 네트워크 텍스트 분석과 단어 빈도 분석을 실시하였다. 분석 결과를 바탕으로 향후 U-City 종합계획에서는 지자체의 특색에 따른 서비스 추가와 정책 재정 지원 및 시민의 필요사항을 반영하여 다양한 분야의 시민 맞춤형 U-서비스 개발과 같은 시사점을 도출하였으며, 이를 통해 U-City에 대한 시민들의 인식 또한 증가될 것으로 기대할 수 있다.

주제어 네트워크 분석(network analysis)을 통한 국내 감정노동의 연구동향 탐색 (Exploration of Emotional Labor Research Trends in Korea through Keyword Network Analysis)

  • 이남연;김준환;문형진
    • 융합정보논문지
    • /
    • 제9권3호
    • /
    • pp.68-74
    • /
    • 2019
  • 본 연구는 최근 10년 동안(2009-2018) 국내 학술지에 발표된 감정노동(emotional labor) 관련 892편의 논문을 텍스트 마이닝(text-mining) 및 네트워크 분석(network analysis)을 활용하여 연구동향을 파악하는 것이 목적이다. 이를 위해 이들 논문의 주제어를 수집 및 코딩하여 최종적으로 871개의 노드(node)와 2625개의 링크(link)로 변환시켜 네트워크 텍스트로 분석하였다. 첫째, 네트워크 텍스트 분석 결과로 동시출현빈도에 따른 상위 4개 주요 주제어는 번아웃, 이직의도, 직무스트레스, 직무만족 순으로 나타났으며, 연결중심성에 따른 상위 4개 주제어들의 빈도와 연결중심성 모두 비교적 높은 것으로 확인되었다. 둘째, 연결중심성 상위 4개의 주제어를 바탕으로 자아(ego)연결망 분석을 실시하여 각 네트워크의 연결중심도에 대한 주제어를 제시하였다.

빅데이터 기반 시민의견 모니터링 방안 연구 : "경기지역화폐"를 중심으로 (A Study on Monitoring Method of Citizen Opinion based on Big Data : Focused on Gyeonggi Lacal Currency (Gyeonggi Money))

  • 안순재;이새미;유승의
    • 디지털융복합연구
    • /
    • 제18권7호
    • /
    • pp.93-99
    • /
    • 2020
  • 본 연구에서는 비정형적인 대용량의 텍스트 자료로부터 유의미한 정보를 추출하는 빅데이터 분석방법 중 텍스트 마이닝을 이용하여 시행 중인 정책과 제도에 대한 시민의견을 모니터링 할 수 있는지 확인하였다. '경기지역화폐'와 관련된 5,108건의 신문기사와 748건의 온라인 카페글을 수집하여 빈도분석, TF-IDF분석, 연관분석, 워드트리 시각화 분석을 수행하였다. 그 결과로 기사에서는 지역화폐의 도입 목적, 제공되는 혜택, 사용방법에 관련된 내용이 많았고 카페글에서는 지역화폐의 실사용과 관련된 내용 위주로 작성이 되어있음을 확인하였다. 또한 지역화폐 활성화를 위해서 뉴스는 정보전달자로서 지역화폐의 홍보에 관여하고 있었고 카페글은 지역화폐 사용자인 시민들의 의견으로 이루어져 사용과 관련된 실제적인 정보 교환의 장으로 기능하고 있었다. 지역화폐뿐만 아니라 다양한 정책과 제도에 관해서도 SNS와 텍스트 마이닝을 통해 시민들의 의견을 수렴하여 효과적으로 활성화시킬 수 있을 것으로 보인다.

Predicting numeric ratings for Google apps using text features and ensemble learning

  • Umer, Muhammad;Ashraf, Imran;Mehmood, Arif;Ullah, Saleem;Choi, Gyu Sang
    • ETRI Journal
    • /
    • 제43권1호
    • /
    • pp.95-108
    • /
    • 2021
  • Application (app) ratings are feedback provided voluntarily by users and serve as important evaluation criteria for apps. However, these ratings can often be biased owing to insufficient or missing votes. Additionally, significant differences have been observed between numeric ratings and user reviews. This study aims to predict the numeric ratings of Google apps using machine learning classifiers. It exploits numeric app ratings provided by users as training data and returns authentic mobile app ratings by analyzing user reviews. An ensemble learning model is proposed for this purpose that considers term frequency/inverse document frequency (TF/IDF) features. Three TF/IDF features, including unigrams, bigrams, and trigrams, were used. The dataset was scraped from the Google Play store, extracting data from 14 different app categories. Biased and unbiased user ratings were discriminated using TextBlob analysis to formulate the ground truth, from which the classifier prediction accuracy was then evaluated. The results demonstrate the high potential for machine learning-based classifiers to predict authentic numeric ratings based on actual user reviews.