• 제목/요약/키워드: Extract Keywords

검색결과 126건 처리시간 0.022초

텍스트마이닝과 연관규칙을 이용한 외부감사 실시내용의 그룹별 핵심어 추출 (Group-wise Keyword Extraction of the External Audit using Text Mining and Association Rules)

  • 성윤석;이동희;정욱
    • 품질경영학회지
    • /
    • 제50권1호
    • /
    • pp.77-89
    • /
    • 2022
  • Purpose: In order to improve the audit quality of a company, an in-depth analysis is required to categorize the audit report in the form of a text document containing the details of the external audit. This study introduces a systematic methodology to extract keywords for each group that determines the differences between groups such as 'audit plan' and 'interim audit' using audit reports collected in the form of text documents. Methods: The first step of the proposed methodology is to preprocess the document through text mining. In the second step, the documents are classified into groups using machine learning techniques and based on this, important vocabularies that have a dominant influence on the performance of classification are extracted. In the third step, the association rules for each group's documents are found. In the last step, the final keywords for each group representing the characteristics of each group are extracted by comparing the important vocabulary for classification with the important vocabulary representing the association rules of each group. Results: This study quantitatively calculates the importance value of the vocabulary used in the audit report based on machine learning rather than the qualitative research method such as the existing literature search, expert evaluation, and Delphi technique. From the case study of this study, it was found that the extracted keywords describe the characteristics of each group well. Conclusion: This study is meaningful in that it has laid the foundation for quantitatively conducting follow-up studies related to key vocabulary in each stage of auditing.

동시 출현 키워드를 활용한 지중해지역 연구 동향 분석 (Research Trends Analysis on the Mediterranean Area Studies using Co-appearance Keywords)

  • 이동열;강지훈;문상호
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제6권5호
    • /
    • pp.409-419
    • /
    • 2016
  • 일반적으로 지역학 연구를 수행하는데 있어 연구 동향을 파악하는 것은 매우 중요하다. 그러나 지역학의 연구 분야는 매우 다양하며, 모든 지역학 연구 분야에 대한 연구가 동시에 진행되는 것은 매우 어렵다. 이로 인해 지역학연구는 시대에 따라 연구 분야 및 연구 동향이 변화 하였다. 이와 함께 지역학의 연구 동향을 이해하려는 관심이 꾸준히 증가되고 있다. 본 논문에서는 국내의 지중해지역 연구를 대상으로 동시 출현 키워드를 기반으로 연구 동향을 분석한다. 이를 위하여 국내 지중해지역 연구의 대표 학술지인 『지중해지역연구』에 게재된 논문들을 대상으로 논문 유형 분석 및 키워드를 추출하여 정제 과정을 거쳐 동시 출현 키워드를 생성하였다. 세부적으로 논문의 유형 분석을 통해 기본적인 동향 분석을 수행하였고, 논문의 동시 출현 키워드를 이용하여 단순 정량 분석보다 심층적인 분석을 수행하고, 동시출현 키워드를 통해 생성된 네트워크 그래프 형태의 시각화를 통해 분석을 수행한다.

Data Mining with Constructing Database and Researching Trend Investigation Related with the Field of Nonlinear Problem

  • Niimi, Ayahiko
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 ISIS 2003
    • /
    • pp.292-295
    • /
    • 2003
  • In this paper, we propose an approach which contains with constructing a bibliography information database, extracting the fields of research, and researching trend of them, using data mining. To apply our approach to IEICE Technical Report (nonlinear problem society), the database was constructed based on its report, keywords were analyzed using the frequency analysis and the association analysis, and we discussed about the result. We could extract some field of research from the result.

  • PDF

색상 기반 회화 감성 추출 방법에 관한 연구 (A Study on Method for Extracting Emotion from Painting Based on Color)

  • 심현오;박성주;윤경현
    • 한국멀티미디어학회논문지
    • /
    • 제19권4호
    • /
    • pp.717-724
    • /
    • 2016
  • Paintings can evoke emotions in viewers. In this paper, we propose a method for extracting emotion from paintings by using the colors that comprise the paintings. For this, we generate color spectrum from input painting and compare the color spectrum and color combination for finding most similarity color combination. The found color combinations are mapped with emotional keywords. Thus, we extract emotional keyword as the emotion evoked by the painting. Also, we vary the form of algorithms for matching color spectrum and color combinations and extract and compare results by using each algorithm.

사용자 웹 로그를 이용한 적응형 웹 검색 (Adaptive Web Search based on User Web Log)

  • 윤태복;이지형
    • 한국산학기술학회논문지
    • /
    • 제15권11호
    • /
    • pp.6856-6862
    • /
    • 2014
  • 웹 사용 마이닝은 웹 사용자의 로그 정보를 기반으로 의미 있는 패턴을 추출하는 방법이다. 하지만 기존의 웹 사용 마이닝을 이용한 패턴 추출에는 사용자들의 다양한 성향을 고려하지 않은 개별적인 모델을 생성하는데 주를 이루고 있다. 웹에서 사용된 사용자들의 검색 키워드는 그들의 검색 의도나 배경지식에 따라 다양한 의미를 가질 수 있고, 그런 개개인의 검색의도에 맞는 검색 서비스가 제공할 수 있는 기술이 요구된다. 본 논문은 사용자 검색 키워드에 대한 웹 페이지 사용 행위 정보 및 방문한 웹 페이지 리스트를 수집하고 분석하여 웹 사용자의 패턴을 추출한다. 웹 사용자 패턴은 사용자들의 검색 키워드에 대해 가질 수 있는 다양한 검색 의도에 따른 방문 웹 페이지 연결망을 생성한다. 또한, 웹 사용자 패턴은 웹 페이지 추천을 위하여 유용하게 사용할 수 있으며, 실험을 통하여 제안하는 방법의 유효함을 확인하였다.

웹 사용 정보에 기반한 다중 성향 키워드 모델의 설계와 응용 (Design and Application of Multi Concept Keyword Model based on Web-using Information)

  • 윤태복;이승훈;윤광호;이지형
    • 인터넷정보학회논문지
    • /
    • 제10권5호
    • /
    • pp.95-105
    • /
    • 2009
  • 웹의 방대한 데이터에서 사용자에게 유용한 정보를 제공하기 위하여 다양한 연구가 시도되고 있다. 그 중에서 웹 사용 마이닝은 웹 사용자의 로그 정보를 기반으로 의미 있는 패턴을 추출하는 방법이다. 하지만 기존의 웹 사용 마이닝을 이용한 패턴 추출에는 사용자들의 다양한 성향을 고려하지 않은 개별적인 모델을 생성하는데 주를 이루고 있다. 웹에서 사용된 사용자들의 검색 키워드는 그들의 검색 의도나 배경지식에 따라 다양한 의미를 가질 수 있고, 그런 개개인의 검색의도에 맞는 검색 서비스가 제공할 수 있는 기술이 요구된다. 본 논문은 사용자 검색 키워드에 대한 웹 페이지 사용 행위 정보 및 방문한 웹 페이지 리스트를 수집하고 분석하여 다중 성향 키워드 모델(Multi Concept Keyword Model : MCK-Model)을 생성한다. MCK-Model은 사용자들이 특정 키워드를 이용하여 검색 후 방문한 웹 페이지 리스트를 통합하여 생성한 것으로, 사용자들이 검색 키워드에 대해 가지고 있는 다양한 검색 의도에 따라 방문하는 웹 페이지의 정보를 포함하고 있다. 생성된 MCK-Model은 웹 페이지 추천을 위하여 유용하게 사용할 수 있으며, 실험을 통하여 제안하는 방법의 유효함을 확인하였다.

  • PDF

빅데이터 분석 기반의 오피니언 마이닝을 이용한 정보화 사업 평가 분석 (An Analysis of IT Proposal Evaluation Results using Big Data-based Opinion Mining)

  • 김홍삼;김종수
    • 산업경영시스템학회지
    • /
    • 제41권1호
    • /
    • pp.1-10
    • /
    • 2018
  • Current evaluation practices for IT projects suffer from several problems, which include the difficulty of self-explanation for the evaluation results and the improperly scaled scoring system. This study aims to develop a methodology of opinion mining to extract key factors for the causal relationship analysis and to assess the feasibility of quantifying evaluation scores from text comments using opinion mining based on big data analysis. The research has been performed on the domain of publicly procured IT proposal evaluations, which are managed by the National Procurement Service. Around 10,000 sets of comments and evaluation scores have been gathered, most of which are in the form of digital data but some in paper documents. Thus, more refined form of text has been prepared using various tools. From them, keywords for factors and polarity indicators have been extracted, and experts on this domain have selected some of them as the key factors and indicators. Also, those keywords have been grouped into into dimensions. Causal relationship between keyword or dimension factors and evaluation scores were analyzed based on the two research models-a keyword-based model and a dimension-based model, using the correlation analysis and the regression analysis. The results show that keyword factors such as planning, strategy, technology and PM mostly affects the evaluation result and that the keywords are more appropriate forms of factors for causal relationship analysis than the dimensions. Also, it can be asserted from the analysis that evaluation scores can be composed or calculated from the unstructured text comments using opinion mining, when a comprehensive dictionary of polarity for Korean language can be provided. This study may contribute to the area of big data-based evaluation methodology and opinion mining for IT proposal evaluation, leading to a more reliable and effective IT proposal evaluation method.

키워드를 활용한 온톨로지 인스턴스 생성에 관한 연구 (A Study on Ontology Instance Generation Using Keywords)

  • 한광록;강현민;손석원
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권5호
    • /
    • pp.1-11
    • /
    • 2010
  • 시맨틱 웹의 성공 여부는 온톨로지 구축과 생성을 위해서 지식을 체계화하는 시맨틱 어노테이션에 달려있다. 그러므로 각 분야의 많은 지식 표현을 변환하여 온톨로지 인스턴스로 생성하기 위해서 시맨틱 어노테이션의 효율성이 중요하다. 본 논문에서는 기존 웹에서 시맨틱 어노테이션 작업을 통하여 온톨로지 인스턴스를 정확하고 효율적으로 생성하는 규칙기반 온톨로지 인스턴스 생성 시스템을 제안한다. 기존연구에서는 사용자가 관련 정보를 찾아서 온톨로지와 대조하여 정보를 입력하는 수동적인 과정이 필요하였다. 그러나 제안한 방식에서는 추출할 정보들에 관한 키워드 데이터와 규칙정보를 분할해서 관리한다. 따라서 소수의 키워드와 규칙정보들을 추가함으로써 다양한 웹문서의 효율적 정보 추출이 가능하다. 이것은 여러 사이트에서 규칙과 키워드를 재사용할 수 있는 온톨로지 인스턴스 생성이 가능하다는 것을 보여준다.

단어 간 의미적 연관성을 고려한 어휘 체인 기반의 개선된 자동 문서요약 방법 (An Improved Automatic Text Summarization Based on Lexical Chaining Using Semantical Word Relatedness)

  • 차준석;김정인;김판구
    • 스마트미디어저널
    • /
    • 제6권1호
    • /
    • pp.22-29
    • /
    • 2017
  • 최근 스마트 디바이스의 급속한 발달과 보급으로 인하여 인터넷 웹상에서 등장하는 문서의 데이터는 하루가 다르게 증가 하고 있다. 이러한 정보의 증가로 인터넷 웹상에서는 대량의 문서가 증가하여 사용자가 해당 문서의 데이터를 이해하는데, 어려움을 겪고 있다. 그렇기 때문에 자동 문서 요약 분야에서 문서를 효율적으로 요악하기 위해 다양한 연구가 진행 되고 있다. 효율적으로 문서를 요약하기 위해 본 논문에서는 텍스트랭크 알고리즘을 이용한다. 텍스트랭크 알고리즘은 문장 또는 키워드를 그래프로 표현하며, 단어와 문장 간의 의미적 연관성을 파악하기 위해 그래프의 정점과 간선을 이용하여 문장의 중요도를 파악한다. 문장의 상위 키워드를 추출 하고 상위 키워드를 기반으로 중요 문장 추출 과정을 거친다. 중요 문장 추출 과정을 거치기 위해 단어 그룹화 과정을 거친다. 단어그룹화는 특정 가중치 척도를 이용하여 가중치 점수가 높은 문장을 선별하여 선별된 문장들을 기반으로 중요 문장을 중요 문장을 추출하여, 문서를 요약을 하게 된다. 이를 통해 기존에 연구 되었던 문서요약 방법보다 향상된 성능을 보였으며, 더욱 효율적으로 문서를 요약할 수 있음을 증명하였다.

영미 아동 모험 소설에 관한 코퍼스 분석 연구: 『보물섬』을 중심으로 (A Corpus Analysis of British-American Children's Adventure Novels: Treasure Island)

  • 최은샘;정채관
    • 한국콘텐츠학회논문지
    • /
    • 제21권1호
    • /
    • pp.333-342
    • /
    • 2021
  • 본 연구에서는 대표적인 영미 아동 모험 소설 『보물섬』의 언어적 특징을 파악하기 위해 『보물섬』을 코퍼스화 하여 어휘, 리마, 키워드, n-그램을 분석하였다. 이 연구를 통해 고빈도 어휘가 텍스트의 핵심어라는 일반적인 주장과 달리 『보물섬』의 고빈도 어휘는 『보물섬』과 직접 관련이 없는 기능어, 고유명사 등이 최상위층에 포진하고 있다는 것을 발견하였고, 통계적인 방법으로 추출한 『보물섬』 키워드 역시 『보물섬』의 내용을 가늠하기에 충분하지 않음을 발견하였다. 따라서 1차 정량적인 키워드 분석 후 진행된 2차 정성적인 키워드 분석을 통해 추출한 30개의 핵심 키워드를 통해 『보물섬』 내용을 신속하고 구체적으로 파악하는 단초를 마련하였고, 이를 바탕으로 그동안 직관적으로만 회자 되던 『보물섬』에 나타난 남성성을 계량적으로 분석할 수 있었다. 또한, n-그램 분석을 통해 『보물섬』의 작가가 다른 작가에 비해 선호하고 자주 사용하는 연속어휘구를 발견하였고, 이를 토대로 문학 작품의 계량적 연구가 가능한 코퍼스 문체론 연구의 가능성을 탐색하였다. 본 연구를 통해 밝혀낸 연구결과가 영미 아동문학 콘텐츠의 확산과 코퍼스 문체론 연구에 도움이 되기를 희망한다.