• 제목/요약/키워드: Text mining

검색결과 1,466건 처리시간 0.026초

텍스트 마이닝 기법을 이용한 컴퓨터 네트워크의 침입 탐지 (Using Text Mining Techniques for Intrusion Detection Problem in Computer Network)

  • 오승준;원민관
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권5호
    • /
    • pp.27-32
    • /
    • 2005
  • 최근 들어 데이터 마이닝 기법을 컴퓨터 네트워크의 침입 탐지에 적용하려는 많은 연구가 진행되고 있다. 본 논문에서는 침입 탐지 분야에서 프로그램 행위가 정상적인지 비정상적인지를 분류하기 위한 방법을 연구한다. 이를 위해, 택스트 마이닝 기법중의 하나인 k 최근접 이웃 (kNN) 분류기를 이용한 새로운 방법을 제안한다. 본 논문에서는 택스트 분류 기법을 적용하기 위해 각각의 시스템 호출을 단어로 간주하고, 시스템 호출의 집합들을 문서로 간주한다. 이러한 문서들은 kNN 분류기를 이용하여 분류된다. 간단한 예제를 통하여 제안하는 절차를 소개한다.

  • PDF

소설 내러티브의 변화: 텍스트마이닝 기반 장르별 내러티브 분석 (A Convergent Study on the Narration of Novel through Text-mining)

  • 박정식;박미선
    • 영미문화
    • /
    • 제17권1호
    • /
    • pp.81-106
    • /
    • 2017
  • Using recently emerging quantitative methods, this article provides a comparative study of the diachronic changes in the narrations of novel, history, and science from the early 18th-century to the 20th-century. To trace the narrative changes in different genres, this article discusses how text-mining methodology can be introduced in literary studies. We compared the traces of narrative in three genres—novel, history, and science—as a pilot study, with the three major grammatical elements of narrative: pronoun, subordinating conjunction, and action verbs in past tense. The results of data-mining show that the use of pronoun and action verb has increased in the genre of novel toward the $20^{th}$ century, while history and science has developed less story-like writing styles.

Table based Matching Algorithm for Soft Categorization of News Articles in Reuter 21578

  • Jo, Tae-Ho
    • 한국멀티미디어학회논문지
    • /
    • 제11권6호
    • /
    • pp.875-882
    • /
    • 2008
  • This research proposes an alternative approach to machine learning based ones for text categorization. For using machine learning based approaches for any task of text mining, documents should be encoded into numerical vectors; it causes two problems: huge dimensionality and sparse distribution. Although there are various tasks of text mining such as text categorization, text clustering, and text summarization, the scope of this research is restricted to text categorization. The idea of this research is to avoid the two problems by encoding a document or documents into a table, instead of numerical vectors. Therefore, the goal of this research is to improve the performance of text categorization by proposing approaches, which are free from the two problems.

  • PDF

사용자 의견 추출을 위한 텍스트 마이닝 기반 비정형 데이터 정량화 방안 (Unstructured Data Quantification Scheme Based on Text Mining for User Feedback Extraction)

  • 조중흠;정용택;최성욱;옥창수
    • 산업경영시스템학회지
    • /
    • 제41권4호
    • /
    • pp.131-137
    • /
    • 2018
  • People write reviews of numerous products or services on the Internet, in their blogs or community bulletin boards. These unstructured data contain important emotions and opinions about the author's product or service, which can provide important information for future product design or marketing. However, this text-based information cannot be evaluated quantitatively, and thus they are difficult to apply to mathematical models or optimization problems for product design and improvement. Therefore, this study proposes a method to quantitatively extract user's opinion or preference about a specific product or service by utilizing a lot of text-based information existing on the Internet or online. The extracted unstructured text information is decomposed into basic unit words, and positive rate is evaluated by using existing emotional dictionaries and additional lists proposed in this study. This can be a way to effectively utilize unstructured text data, which is being generated and stored in vast quantities, in product or service design. Finally, to verify the effectiveness of the proposed method, a case study was conducted using movie review data retrieved from a portal website. By comparing the positive rates calculated by the proposed framework with user ratings for movies, a guideline on text mining based evaluation of unstructured data is provided.

웹 캐스트와 텍스트 마이닝을 이용한 축구 경기의 심층 분석 (In-depth Analysis of Soccer Game via Webcast and Text Mining)

  • 정호석;이종욱;유재학;이한성;박대희
    • 한국콘텐츠학회논문지
    • /
    • 제11권10호
    • /
    • pp.59-68
    • /
    • 2011
  • 축구 경기를 분석하고 이를 팀 전략 수립에 활용하는 축구 분석관의 역할이 강조됨에 따라, 방송용 축구 경기에서 주요 이벤트의 탐지와 같은 절차적 기능 이상의 고수준의 해석 방법들이 요구되고 있다. 본 논문에서는 인터넷 기반의 텍스트 방송인 축구 웹 캐스트에서 실시간으로 제공하는 텍스트 정보를 기반으로 텍스트 마이닝을 이용한 축구 경기의 전략 수립이 가능한 고수준의 해석 기법을 제안한다. 제안하는 해석기법은 축구 웹 캐스트의 텍스트 정보와 도메인 지식을 기반으로 축구 경기의 다양한 속성, 동작 그리고 이벤트 등 메타데이터를 추출하고, 인덱싱하고, 텍스트 마이닝의 다양한 해석 기법인 연관 규칙 마이닝, 성장도 분석, 그리고 패스파인더 네트워크 분석 기법 등을 사용함으로써 유용한 지식을 추출한다. 실제 2010년 월드컵의 스페인 팀 경기들을 중계한 웹 캐스트의 텍스트 정보를 대상으로 제안된 기법의 타당성을 실험적으로 검증한다.

텍스트 마이닝과 오피니언 마이닝 분석을 활용한 국내외 스포츠용품 브랜드 비교·분석 연구 (Comparison and Analysis of Domestic and Foreign Sports Brands Using Text Mining and Opinion Mining Analysis)

  • 김재환;이재문
    • 한국콘텐츠학회논문지
    • /
    • 제18권6호
    • /
    • pp.217-234
    • /
    • 2018
  • 본 연구는 국내외 스포츠용품 브랜드에 대한 빅데이터 분석을 실시하였다. 이를 위해 소셜 매트릭스 프로그램인 텍스톰과 패션데이터 분석 플랫폼인 MISP를 통해 텍스트 마이닝, TF-IDF, 오피니언 마이닝, 관심도 그래프를 실시하였으며, 스포츠브랜드에 대한 최근 인식을 살펴보기 위해 2017년 1월 1일부터 2017년 12월 31일까지 1년간을 연구대상 기간으로 한정하였다. 분석 결과, 첫째, 각 브랜드를 대표하는 상품을 확인할 수 있었다. 둘째, 각 브랜드를 대표하는 마케팅을 확인할 수 있었다. 셋째, 각 브랜드에서 공통적으로 추출된 단어를 확인할 수 있었다. 넷째, 각 브랜드의 긍정 및 부정에 대한 감정을 확인할 수 있었다.

Text Mining and Visualization of Papers Reviews Using R Language

  • Li, Jiapei;Shin, Seong Yoon;Lee, Hyun Chang
    • Journal of information and communication convergence engineering
    • /
    • 제15권3호
    • /
    • pp.170-174
    • /
    • 2017
  • Nowadays, people share and discuss scientific papers on social media such as the Web 2.0, big data, online forums, blogs, Twitter, Facebook and scholar community, etc. In addition to a variety of metrics such as numbers of citation, download, recommendation, etc., paper review text is also one of the effective resources for the study of scientific impact. The social media tools improve the research process: recording a series online scholarly behaviors. This paper aims to research the huge amount of paper reviews which have generated in the social media platforms to explore the implicit information about research papers. We implemented and shown the result of text mining on review texts using R language. And we found that Zika virus was the research hotspot and association research methods were widely used in 2016. We also mined the news review about one paper and derived the public opinion.

Building Topic Hierarchy of e-Documents using Text Mining Technology

  • Kim, Han-Joon
    • 한국전자거래학회:학술대회논문집
    • /
    • 한국전자거래학회 2004년도 e-Biz World Conference
    • /
    • pp.294-301
    • /
    • 2004
  • ·Text-mining approach to e-documents organization based on topic hierarchy - Machine-Learning & information Theory-based ㆍ 'Category(topic) discovery' problem → document bundle-based user-constraint document clustering ㆍ 'Automatic categorization' problem → Accelerated EM with CU-based active learning → 'Hierarchy Construction' problem → Unsupervised learning of category subsumption relation

  • PDF

A View from the Bottom: Project-Oriented Risk Mining Approach for Overseas Construction Projects

  • Lee, JeeHee;Son, JeongWook;Yi, June-Seong
    • 국제학술발표논문집
    • /
    • The 6th International Conference on Construction Engineering and Project Management
    • /
    • pp.97-100
    • /
    • 2015
  • Analysis of construction tender documents in overseas projects is a very important issue from a risk management point of view. Unfortunately, majority of construction firms are biased by winning contracts without in-depth analysis of tender documents. As a result, many contractors have incurred loss in overseas projects. Although a lot of risk analysis techniques have been introduced, most of them focus project's external unexpected risks such as country conditions and owner's financial standing. However, because those external risks are difficult to control and take preemptive action, we need to concentrate on project inherent risks. Based on this premise, this paper proposes a project-oriented risk mining approach which could detect and extract project risk factors automatically before they are materialized and assess them. This study presents a methodology regarding how to extract potential risks which exist in owner's project requirements and project tender documents using state of the art data analysis method such as text mining, data mining, and information visualization. The project-oriented risk mining approach is expected to effectively reflect project characteristics to the project risk management and could provide construction firms with valuable business intelligence.

  • PDF

사회과학을 위한 양적 텍스트 마이닝: 이주, 이민 키워드 논문 및 언론기사 분석 (Quantitative Text Mining for Social Science: Analysis of Immigrant in the Articles)

  • 이수정;최두영
    • 한국콘텐츠학회논문지
    • /
    • 제20권5호
    • /
    • pp.118-127
    • /
    • 2020
  • 본 연구는 최근 사회과학에서 실시되고 있는 양적 텍스트 분석의 흐름과 분석을 실시함에 있어 주의해야 할 사례를 포함하여 기술 하였다. 특히, 2017년부터 2019년까지 3년간 학술지와 언론에서 사용된 "이주", "이민" 키워드를 기반으로 사례연구를 실시하였다. 이를 위해 최근 사회과학분야에서 주목 받는 자연어 처리 기술(NLP)를 이용한 양적 텍스트 분석 (Quantitate text analysis)을 사용하였다. 양적 텍스트 분석은 문서를 구조적 데이터로 변환하여, 가설의 발견 및 검증을 실시하는 데이터 과학의 영역으로, 데이터의 모델링 및 가시화 등이 가능하고, 특히 비구조화 된 데이터를 구조화할 수 있다는 점에서 사회과학 분야에 많이 도입하였다. 따라서 본 연구는 양적 텍스트 분석을 통해 "이주", "이민"을 키워드로 한 연구 및 언론 기사에 대한 통계 분석을 실시하고 도출된 결론에 대한 해석을 실시하였다.