• 제목/요약/키워드: Cosine Similarity Analysis

검색결과 81건 처리시간 0.024초

사례기반추론과 텍스트마이닝 기법을 활용한 KTX 차량고장 지능형 조치지원시스템 연구 (An Intelligence Support System Research on KTX Rolling Stock Failure Using Case-based Reasoning and Text Mining)

  • 이형일;김종우
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.47-73
    • /
    • 2020
  • KTX 차량은 수많은 기계, 전기 장치 및 부품들로 구성되어 있는 하나의 시스템으로 차량의 유지보수에는 상당히 많은 전문성과 유지보수 작업자들의 경험을 필요로 한다. 차량 고장발생 시 유지보수자의 지식과 경험에 따라 문제 해결의 시간과 작업의 질적 차이가 발생하며 그에 따른 차량의 가용율이 달라진다. 일반적으로 문제해결은 고장 매뉴얼을 기반으로 하지만 경험이 많고 능숙한 전문가의 경우는 이와 더불어 개인의 노하우를 접목하여 신속하게 진단하고 조치를 취한다. 이러한 지식은 암묵지 형태로 존재하기 때문에 후임자에게 완전히 전수되기 어려우며, 이를 위해 사례기반의 철도차량 전문가시스템을 개발하여 데이터화된 지식으로 바꾸려고 하는 연구들이 있어왔다. 하지만, 간선에 가장 많이 투입되고 있는 KTX 차량에 대한 연구나 텍스트의 특징을 추출하여 유사사례를 검색하는 시스템 개발은 아직 미비하다. 따라서, 본 연구에서는 이러한 차량 유지보수 전문가들의 노하우를 통해 수행된 고장들에 대한 진단과 조치 이력을 문제 해결의 사례로 활용하여 새롭게 발생하는 고장에 대한 조치가이드를 제공하는 지능형 조치지원시스템을 제안하고자 한다. 이를 위하여, 2015년부터 2017년동안 생성된 차량고장 데이터를 수집하여 사례베이스를 구축하였고, 차원축소 기법인 비음수 행렬 인수분해(NMF), 잠재의미분석(LSA), Doc2Vec을 통해 고장의 특징을 추출하여 벡터 간의 코사인 거리를 측정하는 방식으로 유사 사례를 검색하였으며, 위의 알고리즘에 의해 제안된 조치내역들 간 성능을 비교하였다. 분석결과, 고장 내역의 키워드가 적은 경우의 유사 사례 검색과 조치 제안은 코사인 유사도를 직접 적용하는 경우에도 좋은 성능을 낸다는 것을 알 수 있었고 차원 축소 기법들의 성능 비교를 통해 문맥적 의미를 보존하는 차원 축소 방식 중 Doc2Vec을 적용하는 것이 가장 좋은 성능을 나타낸다는 것을 알 수 있었다. 텍스트 마이닝 기술은 여러 분야에서 활용을 위한 연구들이 이루어지고 있는 추세이나, 본 연구에서 활용하고자 하는 분야처럼 전문적인 용어들이 다수이고 데이터에 대한 접근이 제한적인 환경에서 이러한 텍스트 데이터를 활용한 연구는 아직 부족한 실정이다. 본 연구는 이러한 관점에서 키워드 기반의 사례 검색을 보완하고자 텍스트 마이닝 기법을 접목하여 고장의 특징을 추출하는 방식으로 사례를 검색해 조치를 제안하는 지능형 진단시스템을 제시하였다는 데에 의의가 있다. 이를 통해 현장에서 바로 사용 가능한 진단시스템을 단계적으로 개발하는데 기초자료로써 시사점을 제공할 수 있을 것으로 기대한다.

주제 균형 지능형 텍스트 요약 기법 (Subject-Balanced Intelligent Text Summarization Scheme)

  • 윤여일;고은정;김남규
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.141-166
    • /
    • 2019
  • 최근 다양한 매체를 통해 생성되는 방대한 양의 텍스트 데이터를 효율적으로 관리 및 활용하기 위한 방안으로써 문서 요약에 대한 연구가 활발히 진행되고 있다. 특히 최근에는 기계 학습 및 인공 지능을 활용하여 객관적이고 효율적으로 요약문을 도출하기 위한 다양한 자동 요약 기법이(Automatic Summarization) 고안되고 있다. 하지만 현재까지 제안된 대부분의 텍스트 자동 요약 기법들은 원문에서 나타난 내용의 분포에 따라 요약문의 내용이 구성되는 방식을 따르며, 이와 같은 방식은 비중이 낮은 주제(Subject), 즉 원문 내에서 언급 빈도가 낮은 주제에 대한 내용이 요약문에 포함되기 어렵다는 한계를 갖고 있다. 본 논문에서는 이러한 한계를 극복하기 위해 저빈도 주제의 누락을 최소화하는 문서 자동 요약 기법을 제안한다. 구체적으로 본 연구에서는 (i) 원문에 포함된 다양한 주제를 식별하고 주제별 대표 용어를 선정한 뒤 워드 임베딩을 통해 주제별 용어 사전을 생성하고, (ii) 원문의 각 문장이 다양한 주제에 대응되는 정도를 파악하고, (iii) 문장을 주제별로 분할한 후 각 주제에 해당하는 문장들의 유사도를 계산한 뒤, (iv) 요약문 내 내용의 중복을 최소화하면서도 원문의 다양한 내용을 최대한 포함할 수 있는 자동적인 문서 요약 기법을 제시한다. 제안 방법론의 평가를 위해 TripAdvisor의 리뷰 50,000건으로부터 용어 사전을 구축하고, 리뷰 23,087건에 대한 요약 실험을 수행한 뒤 기존의 단순 빈도 기반의 요약문과 주제별 분포의 비교를 진행하였다. 실험 결과 제안 방법론에 따른 문서 자동 요약을 통해 원문 내각 주제의 균형을 유지하는 요약문을 도출할 수 있음을 확인하였다.

A SNA Based Loads Analysis of Naval Submarine Maintenance

  • Song, Ji-Seok;Kang, Dongsu;Lee, Sang-Hoon
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권11호
    • /
    • pp.201-210
    • /
    • 2020
  • 해군 잠수함은 여러 구성장비가 탑재된 복합 무기체계로 개발되기 때문에 이는 잠수함 정비의 어려움으로 직결된다. 또한, 잠수함 정비계획을 수립하는 방법은 인원수, 대상 함정의 수, 소비시간 등 통계적 접근에 의존하기 때문에 효율적인 정비에 제한적이다. 효율적인 정비를 위해서는 정비대상에 대한 이해를 바탕으로 주요 정비요소를 도출하여 정비하는 것이 필요하다. 따라서 본 논문에서는 핵심 정비요소로 정비부하율을 정의하고, 분석 대상의 관계에 중점을 두어 현상을 식별하는 SNA 기법을 사용하여 잠수함 정비데이터를 분석한다. 이를 통해 기존에 정량적 분석에서 드러나지 않은 정비부하 특성을 도출하여 정비자 또는 정비계획자가 집중해야 하는 분야를 식별한다.

빅데이터 검색 정확도에 미치는 다양한 측정 방법 기반 검색 기법의 효과 (Impact of Diverse Document-evaluation Measure-based Searching Methods in Big Data Search Accuracy)

  • 김지영;한다현;김종권
    • 정보과학회 논문지
    • /
    • 제44권5호
    • /
    • pp.553-558
    • /
    • 2017
  • 빅데이터의 공급이 늘어남에 따라, 이로부터 유용한 정보를 추출해내기 위한 학계와 업계의 연구가 활발히 진행 되고 있다. 특히 분석한 정보의 특징과 함께, 정보 검색 시 검색자의 의도를 함께 반영하여 정보를 여과해 주는 것이 대부분의 연구의 최종 목표이다. 정확하게 분석된 자료는 기업이 제공하는 서비스에 대한 사용자의 충성도를 높여주고, 사용자 스스로 보다 효율적이고 효과적으로 정보를 이용할 수 있게 된다. 본 논문에서는 가장 높은 빈도로 사용되는 검색 분야인 기사를 검색하는 경우의 정확도를 높이기 위해, 관련 데이터를 TF-IDF, 결정 트리, 코사인 유사도, 단순 베이지안 분류기 등의 다양한 측도방법으로 평가해 보고, 이를 분석하였다. 또한, 분석 결과를 바탕으로 가장 적합한 측도 방법을 제안한다.

웰니스 콘텐츠 추천을 위한 메타데이터 구성 및 웰니스 특성 분석 기법 (Meta-data Configuration and Wellness Feature Analysis Technique for Wellness Content Recommendation)

  • 홍민성;이오준;이원진;이재동
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권8호
    • /
    • pp.83-93
    • /
    • 2014
  • 최근 웰니스에 대한 관심이 대두되면서 웰니스와 IT 융합의 대표적인 연구로 웰니스를 위한 추천 시스템 등의 연구가 시도되었다. 하지만 기존 연구들은 웰니스 영역의 신체적, 정신적, 정서적, 사회적, 지적 영역 중 한 영역 또는 두 가지 이상의 영역만을 다루기 때문에 웰니스를 위한 추천 시 사용자들의 신뢰도와 만족도가 떨어지는 결과를 초래할 수 있다. 따라서 콘텐츠의 웰니스 영역별 특성을 통합하여 관리 및 분석할 수 있는 기법이 필요하다. 본 논문에서는 이를 위한콘텐츠의 메타데이터 구성과 웰니스 영역별 특성분석 방법을 제안한다. 또한 사전 설문과 제안하는 웰니스 영역별 계산 방법을 적용하여 분석한 콘텐츠의 웰니스 영역별 특성의 코사인 유사도를 분석하여 제안하는 방법의 효율성을 증명한다. 이를 통해 콘텐츠의 웰니스적 특징을 분석할 수 있고, 나아가 웰니스를 위한 맞춤화된 추천 서비스가 가능해질 것이다.

Map/Reduce를 이용한 블로그 연결망 분석 시스템 설계 (The Design of Blog Network Analysis System using Map/Reduce Programming Model)

  • 조인휘;박재균
    • 한국통신학회논문지
    • /
    • 제35권9B호
    • /
    • pp.1259-1265
    • /
    • 2010
  • 최근, 인터넷의 발달로 인해 온라인 사회연결망이 증가하고 있으며 이 중 블로그 서비스가 대표적이다. 본 논문에서는 블로그 연결망을 분석하기 위한 방법론을 제시하며, 대용량의 연결망 데이터를 안정적으로 분산 처리할 수 있는 방안을 제시한다. 우선, 각 연결망 데이터의 시간 경과에 따른 행위 가중치의 값을 보정하여, 최근의 행위가 과거의 행위보다 높은 연결강도를 가질 수 있도록 한다. 둘째로, 명시적으로 연결행위를 가지지 않은 블로그의 경우 블로그의 성격을 대표할 수 있는 키워드간의 유사도를 추출하여, 묵시적으로 연결망 내에 흡수하도록한다. 따라서 이전의 방법론과는 달리 더 많은 블로그 노드 간의 연결을 분석할 수 있다. 본 논문이 제시한 블로그 연결망 분석 시스템의 설계로 기존에 제시되었던 방법론보다 약 40% 더 많은 블로그 간 연결망을 추출 할 수 있음을 보였으며, 시간의 흐름에 따른 연결강도의 변화에 대한 타당성을 입증하였다.

SNS대상의 지능형 자연어 수집, 처리 시스템 구현을 통한 한국형 감성사전 구축에 관한 연구 (Research on Designing Korean Emotional Dictionary using Intelligent Natural Language Crawling System in SNS)

  • 이종화
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제29권3호
    • /
    • pp.237-251
    • /
    • 2020
  • Purpose The research was studied the hierarchical Hangul emotion index by organizing all the emotions which SNS users are thinking. As a preliminary study by the researcher, the English-based Plutchick (1980)'s emotional standard was reinterpreted in Korean, and a hashtag with implicit meaning on SNS was studied. To build a multidimensional emotion dictionary and classify three-dimensional emotions, an emotion seed was selected for the composition of seven emotion sets, and an emotion word dictionary was constructed by collecting SNS hashtags derived from each emotion seed. We also want to explore the priority of each Hangul emotion index. Design/methodology/approach In the process of transforming the matrix through the vector process of words constituting the sentence, weights were extracted using TF-IDF (Term Frequency Inverse Document Frequency), and the dimension reduction technique of the matrix in the emotion set was NMF (Nonnegative Matrix Factorization) algorithm. The emotional dimension was solved by using the characteristic value of the emotional word. The cosine distance algorithm was used to measure the distance between vectors by measuring the similarity of emotion words in the emotion set. Findings Customer needs analysis is a force to read changes in emotions, and Korean emotion word research is the customer's needs. In addition, the ranking of the emotion words within the emotion set will be a special criterion for reading the depth of the emotion. The sentiment index study of this research believes that by providing companies with effective information for emotional marketing, new business opportunities will be expanded and valued. In addition, if the emotion dictionary is eventually connected to the emotional DNA of the product, it will be possible to define the "emotional DNA", which is a set of emotions that the product should have.

A Knowledge-based Model for Semantic Oriented Contextual Advertising

  • Maree, Mohammed;Hodrob, Rami;Belkhatir, Mohammed;Alhashmi, Saadat M.
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권5호
    • /
    • pp.2122-2140
    • /
    • 2020
  • Proper and precise embedding of commercial ads within Webpages requires Ad-hoc analysis and understanding of their content. By the successful implementation of this step, both publishers and advertisers gain mutual benefits through increasing their revenues on the one hand, and improving user experience on the other. In this research work, we propose a novel multi-level context-based ads serving approach through which ads will be served at generic publisher websites based on their contextual relevance. In the proposed approach, knowledge encoded in domain-specific and generic semantic repositories is exploited in order to analyze and segment Webpages into sets of contextually-relevant segments. Semantically-enhanced indexes are also constructed to index ads based on their textual descriptions provided by advertisers. A modified cosine similarity matching algorithm is employed to embed each ad from the Ads repository into one or more contextually-relevant segments. In order to validate our proposal, we have implemented a prototype of an ad serving system with two datasets that consist of (11429 ads and 93 documents) and (11000 documents and 15 ads), respectively. To demonstrate the effectiveness of the proposed techniques, we experimentally tested the proposed method and compared the produced results against five baseline metrics that can be used in the context of ad serving systems. In addition, we compared the results produced by our system with other state-of-the-art models. Findings demonstrate that the accuracy of conventional ad matching techniques has improved by exploiting the proposed semantically-enhanced context-based ad serving model.

데이터분석을 이용한 서술형 강의평가 연구 (A Study on the Data Analysis of the Written Comments in Lecture Evaluation)

  • 최정웅;안동규
    • 디지털융복합연구
    • /
    • 제14권11호
    • /
    • pp.101-106
    • /
    • 2016
  • 대학 교육현장에서 강의와 관련한 수많은 비정형화된 데이터가 생산되고 있는데 그중 관심 있게 볼 부분은 학생들의 서술형 강의평가이며, 본 논문에서는 대학에서 시행하는 서술형 강의평가를 활용하여 분석하였다. 분석방법으로 먼저 학기가 끝난 후 수행된 강의평가에서 동일학과 유사과목을 강의했던 교수자 2인을 선택하고 학생들이 평가한 서술형 강의평가 내용에서 기존 문헌연구를 통해 얻은 학습자 상호작용과 관련한 키워드를 추출하고 이를 코사인유사도 분석을 이용해 상호작용 점수를 도출한 후 기존의 5점척도 강의평가 점수와 비교하였다. 분석을 위해 텍스트 마이닝 기법을 활용하였으며 분석결과 수업에서 필요한 학습자 상호작용은 주로 흥미, 기회, 열정, 재미, 참여, 유익, 친절 등으로 나타났다. 기존의 5점 척도 강의평가 점수와 새롭게 도출한 서술형 강의평가 점수를 비교했을 때 유사한 것으로 나타났으며 특히, 상호작용이 높을수록 더 높은 점수가 나타났다. 본 연구에서는 상호작용점수라는 새로운 지표를 만들었고 이에 대한 가능성을 확인하였다. 향후 학과단위 또는 학교단위의 데이터분석을 통해 정성적, 정량적 강의평가 지표를 개발함으로써 기존의 평가방식을 개선할 필요가 있다.

특이 벡터 영역에서 디지털 영상 워터마킹 방법 (Digital Image Watermarking Scheme in the Singular Vector Domain)

  • 이적식
    • 융합신호처리학회논문지
    • /
    • 제16권4호
    • /
    • pp.122-128
    • /
    • 2015
  • 멀티미디어 정보들이 인터넷 공간에 확산됨에 따라서 원래 정보 소유자의 권리 보호와 원본 증명 등의 문제가 대두되고 있다. DCT, DFT, DWT 등의 여러 영상 변환들을 이용하여 소유권의 징표로 워터마크를 원본 영상에 삽입하는 방법을 많이 사용하였으나, 보다 최근에는 수치해석 분야에 많이 쓰이는 SVD(Singular Value Decomposition) 방법을 부가적으로 사용하고 있다. 본 논문에서는 SVD의 특이 벡터와 동시에 Gabor 코사인과 사인 변환을 이용하여 디지털 표지 영상에 워터마크를 삽입하고 추출하는 방법을 제안한다. 워터마크가 삽입된 영상에 잡음, 공간 변형, 필터링, 압축 등의 공격을 가한 후, GCST-SVD의 워터마크 추출 알고리즘을 적용한다. 워터마킹 성능을 평가하기 위해서 삽입한 워터마크와 추출한 워터마크 사이의 유사성 척도로써 정규화한 상관계수값을 측정한다. 또한 추출한 워터마크 영상으로부터 시각적으로 직접 원본 워터마크인지를 판단한다. 가장 낮은 수직 교류 주파수 대역에 워터마크를 삽입한 실험으로부터 SVD의 특이 벡터를 이용한 워터마킹 방법은 대부분 공격에서 0.9이상의 큰 상관값과 삽입한 워터마크의 특징들을 시각적으로 파악할 수 있었다.