• Title/Summary/Keyword: media text

검색결과 825건 처리시간 0.029초

카이제곱 통계량을 이용한 문서분류 자질 자동추출 방법 (Text Categorization Features Automatic Extraction Method Using Chi-squared Statistic)

  • 박종현;박소영;장준호;길태숙
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 추계학술대회
    • /
    • pp.695-697
    • /
    • 2010
  • 문서에 포함되는 어휘는 문서 분류의 정보를 가지므로 문서를 분석하여 유용한 단어를 추출하는 것은 다양한 서비스와 연계되어 사용될 수 있어 매우 유용한 일이다. 문서 자동 분류에서는 분류자질 선정 방식에 따라 분류정확도가 서로 달라질 수 있으며, 문서에서 추출되는 유용한 단어에 따라 인지되는 분야가 달라질 수 있다. 이에 본 논문에서는 각 문서에 포함되는 단어에 대한 카이제곱 통계량 점수를 사용하여 단어별 문서 분류에 대한 단어의 자질을 평가하고 문서의 분류별 유용한 단어를 자동 추출하는 방법을 제안하고 개발한다.

  • PDF

Reorganizing Social Issues from R&D Perspective Using Social Network Analysis

  • Shun Wong, William Xiu;Kim, Namgyu
    • Journal of Information Technology Applications and Management
    • /
    • 제22권3호
    • /
    • pp.83-103
    • /
    • 2015
  • The rapid development of internet technologies and social media over the last few years has generated a huge amount of unstructured text data, which contains a great deal of valuable information and issues. Therefore, text mining-extracting meaningful information from unstructured text data-has gained attention from many researchers in various fields. Topic analysis is a text mining application that is used to determine the main issues in a large volume of text documents. However, it is difficult to identify related issues or meaningful insights as the number of issues derived through topic analysis is too large. Furthermore, traditional issue-clustering methods can only be performed based on the co-occurrence frequency of issue keywords in many documents. Therefore, an association between issues that have a low co-occurrence frequency cannot be recognized using traditional issue-clustering methods, even if those issues are strongly related in other perspectives. Therefore, in this research, a methodology to reorganize social issues from a research and development (R&D) perspective using social network analysis is proposed. Using an R&D perspective lexicon, issues that consistently share the same R&D keywords can be further identified through social network analysis. In this study, the R&D keywords that are associated with a particular issue imply the key technology elements that are needed to solve a particular issue. Issue clustering can then be performed based on the analysis results. Furthermore, the relationship between issues that share the same R&D keywords can be reorganized more systematically, by grouping them into clusters according to the R&D perspective lexicon. We expect that our methodology will contribute to establishing efficient R&D investment policies at the national level by enhancing the reusability of R&D knowledge, based on issue clustering using the R&D perspective lexicon. In addition, business companies could also utilize the results by aligning the R&D with their business strategy plans, to help companies develop innovative products and new technologies that sustain innovative business models.

텐서보팅과 마르코프 랜덤 필드를 이용한 자연 영상의 텍스트 이진화 (Natural Scene Text Binarization using Tensor Voting and Markov Random Field)

  • 최현수;이귀상
    • 스마트미디어저널
    • /
    • 제4권4호
    • /
    • pp.18-23
    • /
    • 2015
  • 본 논문에서는 텐서보팅을 이용하여 기존 마르코프 랜덤 필드 메소드 안의 가우시안 혼합 모델 함수의 성능을 향상시킬 수 있는 적합한 클러스터 개수 검출 방법을 제시한다. 제안하는 방법의 핵심 포인트는 텐서보팅의 인풋 데이터 토큰의 연속성인 saliency map을 통한 중심점 개수의 추출이다. 우리는 가장 먼저 주어진 자연 영상에서 전경 및 배경 후보 영역을 분리한다. 다음으로, 분리된 각 후보 영역에 대하여 텐서보팅을 적용하여 적절한 클러스터 개수를 추출한다. 우리는 검출된 클러스터 개수를 이용하여 정확한 가우시안 혼합 모델 모델링을 수행할 수 있다. 그리고 이를 적용한 마르코프 랜덤 필드의 unary term과 pairwise term을 계산하여 자연 영상의 텍스트 이진화 결과를 반환한다. 실험 결과, 제안된 방법이 최적의 클러스터 개수를 반환하고, 향상된 텍스트 이진화 결과를 반환함을 확인하였다.

텍스트 마이닝을 활용한 '학교 공간 혁신' 정책 키워드 분석 - 뉴스 기사를 중심으로 - (An Analysis of Keywords on 'School Space Innovation' Policies using Text Mining - Focused on News Articles -)

  • 이동국
    • 교육녹색환경연구
    • /
    • 제19권2호
    • /
    • pp.11-20
    • /
    • 2020
  • 본 연구의 목적은 텍스트 마이닝을 활용하여 한국의 주요 언론 매체를 통해 드러난 학교 공간 혁신 정책의 실행과 관련 이슈를 알아보는 것이다. 이러한 목적을 달성하기 위하여 언론에서 발행한 학교 공간 혁신 관련 기사 총 519개를 수집하여 빈도 분석과 네트워크 분석을 하였다. 연구 결과를 기반으로 학교 공간 혁신의 특징을 다음과 같이 요약할 수 있다. 첫째, 학교 공간 혁신은 미래교육에 대한 대응으로 추진되고 있다. 둘째, 사용자가 학교 공간 혁신의 주체로 참여한다. 셋째, 전문가는 협력 체제를 갖추어 학교 공간 혁신을 지원하고 있다. 넷째, 학교 공간 혁신에 지역사회를 적극적으로 참여시키고 있다. 다섯째, 교육부와 교육청의 주요 사업으로, 상향식과 하향식이 조화를 이루어 진행되고 있다. 본 연구 결과는 학교 공간 혁신 정책의 주요 이슈를 이해하고, 차후 연구와 실천에 시사점을 제공할 수 있을 것이다.

디자인 분야에서 빅데이터를 활용한 감성평가방법 모색 -한복 연관 디자인 요소, 감성적 반응, 평가어휘를 중심으로- (An Investigation of a Sensibility Evaluation Method Using Big Data in the Field of Design -Focusing on Hanbok Related Design Factors, Sensibility Responses, and Evaluation Terms-)

  • 안효선;이인성
    • 한국의류학회지
    • /
    • 제40권6호
    • /
    • pp.1034-1044
    • /
    • 2016
  • This study seeks a method to objectively evaluate sensibility based on Big Data in the field of design. In order to do so, this study examined the sensibility responses on design factors for the public through a network analysis of texts displayed in social media. 'Hanbok', a formal clothing that represents Korea, was selected as the subject for the research methodology. We then collected 47,677 keywords related to Hanbok from 12,000 posts on Naver blogs from January $1^{st}$ to December $31^{st}$ 2015 and that analyzed using social matrix (a Big Data analysis software) rather than using previous survey methods. We also derived 56 key-words related to design elements and sensibility responses of Hanbok. Centrality analysis and CONCOR analysis were conducted using Ucinet6. The visualization of the network text analysis allowed the categorization of the main design factors of Hanbok with evaluation terms that mean positive, negative, and neutral sensibility responses. We also derived key evaluation factors for Hanbok as fitting, rationality, trend, and uniqueness. The evaluation terms extracted based on natural language processing technologies of atypical data have validity as a scale for evaluation and are expected to be suitable for utilization in an index for sensibility evaluation that supplements the limits of previous surveys and statistical analysis methods. The network text analysis method used in this study provides new guidelines for the use of Big Data involving sensibility evaluation methods in the field of design.

이미지와 텍스트 정보의 카테고리 분류에 의한 SNS 팔로잉 추천 방법 (Recommendation Method of SNS Following to Category Classification of Image and Text Information)

  • 홍택은;신주현
    • 스마트미디어저널
    • /
    • 제5권3호
    • /
    • pp.54-61
    • /
    • 2016
  • 다양한 스마트 디바이스의 발전에 따라 거리, 공간의 제약 없이 실시간으로 의사소통, 정보공유 등이 가능한 SNS(Social Network Service)를 즐기는 사용자(User)가 증가하고 있다. 의사소통, 관계 형성에 중점을 두었던 SNS 사용자들이 정보공유의 기능으로 SNS를 활용하는 추세이다. 본 논문에서는 사용자의 SNS 게시글을 이용하여 카테고리를 추출하고 정보제공자(Information provider)를 팔로잉 추천해주는 방법을 기술한다. 게시글의 텍스트에서 단어를 분류하고 빈도수를 측정하며, 머신 러닝 기법 중 하나인 CNN(Convolutional Neural Network)을 바탕으로 구축한 Inception-v3 모델을 이용하여 이미지를 단어로 분류한다. 텍스트와 이미지에서 분류한 단어를 DMOZ 기준으로 카테고리 분류하여 정보제공자 DB를 구축한다. 정보제공자 DB의 카테고리와 게시글에서 분류한 사용자의 카테고리를 비교한다. 카테고리가 일치할 경우 카테고리에 분류되어 있는 정보 제공자들를 대상으로 유사도를 측정하여 가장 비슷한 정보제공자의 계정을 추천해주는 방법에 대해 제안한다.

텍스트 마이닝 기법을 활용한 동남권 신공항 신문기사 분석 (Analysis of News Regarding New Southeastern Airport Using Text Mining Techniques)

  • 한무명초;김양석;이충권
    • 스마트미디어저널
    • /
    • 제6권1호
    • /
    • pp.47-53
    • /
    • 2017
  • 사회적 이슈는 정책의 방향을 결정하는 중요한 요인이며, 신문은 사회적 이슈를 반영하는 중요한 채널이다. 신문기사의 텍스트를 분석하는 것은 사회적 이슈를 이해하는 데 기여할 수 있지만, 대규모의 비정형 데이터인 뉴스를 수작업으로 분석하는 것은 매우 어렵다. 따라서 본 연구는 텍스트 분석기법과 연관분석 기법을 활용해 비정형 신문기사 내용을 정형화하여 사회적 이슈의 이해관계자들 간 관점 차이를 시스템적으로 분석하는 것을 목적으로 한다. 본 연구 수행을 위해 각 지역을 대표하는 신문사(조선일보, 중앙일보, 동아일보, 매일신문, 부산일보)를 선정한 후 기사 115건과 댓글 6,772건을 2주간 수집하여 분석하였다. 연구 결과 전국 일간지들은 해당 지역과 정치적인 관계에 초점을 맞춘 반면에, 지역 일간지들은 속해 있는 지자체를 대변하는 논조로 기사가 작성된 측면이 강하게 나타났다.

Big Data Analysis on the Perception of Home Training According to the Implementation of COVID-19 Social Distancing

  • Hyun-Chang Keum;Kyung-Won Byun
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제15권3호
    • /
    • pp.211-218
    • /
    • 2023
  • Due to the implementation of COVID-19 distancing, interest and users in 'home training' are rapidly increasing. Therefore, the purpose of this study is to identify the perception of 'home training' through big data analysis on social media channels and provide basic data to related business sector. Social media channels collected big data from various news and social content provided on Naver and Google sites. Data for three years from March 22, 2020 were collected based on the time when COVID-19 distancing was implemented in Korea. The collected data included 4,000 Naver blogs, 2,673 news, 4,000 cafes, 3,989 knowledge IN, and 953 Google channel news. These data analyzed TF and TF-IDF through text mining, and through this, semantic network analysis was conducted on 70 keywords, big data analysis programs such as Textom and Ucinet were used for social big data analysis, and NetDraw was used for visualization. As a result of text mining analysis, 'home training' was found the most frequently in relation to TF with 4,045 times. The next order is 'exercise', 'Homt', 'house', 'apparatus', 'recommendation', and 'diet'. Regarding TF-IDF, the main keywords are 'exercise', 'apparatus', 'home', 'house', 'diet', 'recommendation', and 'mat'. Based on these results, 70 keywords with high frequency were extracted, and then semantic indicators and centrality analysis were conducted. Finally, through CONCOR analysis, it was clustered into 'purchase cluster', 'equipment cluster', 'diet cluster', and 'execute method cluster'. For the results of these four clusters, basic data on the 'home training' business sector were presented based on consumers' main perception of 'home training' and analysis of the meaning network.

코로나19 발생 후 지역농산물 이용 간편식에 대한 시장 이슈 변화: 온라인 빅데이터의 텍스트마이닝 (Change in Market Issues on HMR (Home Meal Replacements) Using Local Foods after the COVID-19 Outbreak: Text Mining of Online Big Data)

  • 주유정;변우진;윤지현
    • 한국식생활문화학회지
    • /
    • 제38권1호
    • /
    • pp.1-14
    • /
    • 2023
  • This study was conducted to explore the change in the market issues on HMR (Home Meal Replacements) using local foods after the COVID-19 outbreak. Online text data were collected from internet news, social media posts, and web documents before (from January 2016 to December 2019) and after (from January 2020 to November 2022) the COVID-19 outbreak. TF-IDF analysis showed that 'Trend', 'Market', 'Consumption', and 'Food service industry' were the major keywords before the COVID-19 outbreak, whereas 'Wanju-gun', 'Distribution', 'Development', and 'Meal-kit' were main keywords after the COVID-19 outbreak. The results of topic modeling analysis and categorization showed that after the COVID-19 outbreak, the 'Market' category included 'Non-face-to-face market' instead of 'Event,' and 'Delivery' instead of 'Distribution'. In the 'Product' category, 'Marketing' was included instead of 'Trend'. Additionally, in the 'Support' category, 'Start-up' and 'School food service' appeared as new topics after the COVID-19 outbreak. In conclusion, this study showed that meaningful change had occurred in market issues on HMR using local foods after the COVID-19 outbreak. Therefore, governments should take advantage of such market opportunity by implementing policy and programs to promote the development and marketing of HMR using local foods.

Multimodal Approach for Summarizing and Indexing News Video

  • Kim, Jae-Gon;Chang, Hyun-Sung;Kim, Young-Tae;Kang, Kyeong-Ok;Kim, Mun-Churl;Kim, Jin-Woong;Kim, Hyung-Myung
    • ETRI Journal
    • /
    • 제24권1호
    • /
    • pp.1-11
    • /
    • 2002
  • A video summary abstracts the gist from an entire video and also enables efficient access to the desired content. In this paper, we propose a novel method for summarizing news video based on multimodal analysis of the content. The proposed method exploits the closed caption data to locate semantically meaningful highlights in a news video and speech signals in an audio stream to align the closed caption data with the video in a time-line. Then, the detected highlights are described using MPEG-7 Summarization Description Scheme, which allows efficient browsing of the content through such functionalities as multi-level abstracts and navigation guidance. Multimodal search and retrieval are also within the proposed framework. By indexing synchronized closed caption data, the video clips are searchable by inputting a text query. Intensive experiments with prototypical systems are presented to demonstrate the validity and reliability of the proposed method in real applications.

  • PDF