• 제목/요약/키워드: 유사 키워드

검색결과 311건 처리시간 0.024초

사례기반추론과 텍스트마이닝 기법을 활용한 KTX 차량고장 지능형 조치지원시스템 연구 (An Intelligence Support System Research on KTX Rolling Stock Failure Using Case-based Reasoning and Text Mining)

  • 이형일;김종우
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.47-73
    • /
    • 2020
  • KTX 차량은 수많은 기계, 전기 장치 및 부품들로 구성되어 있는 하나의 시스템으로 차량의 유지보수에는 상당히 많은 전문성과 유지보수 작업자들의 경험을 필요로 한다. 차량 고장발생 시 유지보수자의 지식과 경험에 따라 문제 해결의 시간과 작업의 질적 차이가 발생하며 그에 따른 차량의 가용율이 달라진다. 일반적으로 문제해결은 고장 매뉴얼을 기반으로 하지만 경험이 많고 능숙한 전문가의 경우는 이와 더불어 개인의 노하우를 접목하여 신속하게 진단하고 조치를 취한다. 이러한 지식은 암묵지 형태로 존재하기 때문에 후임자에게 완전히 전수되기 어려우며, 이를 위해 사례기반의 철도차량 전문가시스템을 개발하여 데이터화된 지식으로 바꾸려고 하는 연구들이 있어왔다. 하지만, 간선에 가장 많이 투입되고 있는 KTX 차량에 대한 연구나 텍스트의 특징을 추출하여 유사사례를 검색하는 시스템 개발은 아직 미비하다. 따라서, 본 연구에서는 이러한 차량 유지보수 전문가들의 노하우를 통해 수행된 고장들에 대한 진단과 조치 이력을 문제 해결의 사례로 활용하여 새롭게 발생하는 고장에 대한 조치가이드를 제공하는 지능형 조치지원시스템을 제안하고자 한다. 이를 위하여, 2015년부터 2017년동안 생성된 차량고장 데이터를 수집하여 사례베이스를 구축하였고, 차원축소 기법인 비음수 행렬 인수분해(NMF), 잠재의미분석(LSA), Doc2Vec을 통해 고장의 특징을 추출하여 벡터 간의 코사인 거리를 측정하는 방식으로 유사 사례를 검색하였으며, 위의 알고리즘에 의해 제안된 조치내역들 간 성능을 비교하였다. 분석결과, 고장 내역의 키워드가 적은 경우의 유사 사례 검색과 조치 제안은 코사인 유사도를 직접 적용하는 경우에도 좋은 성능을 낸다는 것을 알 수 있었고 차원 축소 기법들의 성능 비교를 통해 문맥적 의미를 보존하는 차원 축소 방식 중 Doc2Vec을 적용하는 것이 가장 좋은 성능을 나타낸다는 것을 알 수 있었다. 텍스트 마이닝 기술은 여러 분야에서 활용을 위한 연구들이 이루어지고 있는 추세이나, 본 연구에서 활용하고자 하는 분야처럼 전문적인 용어들이 다수이고 데이터에 대한 접근이 제한적인 환경에서 이러한 텍스트 데이터를 활용한 연구는 아직 부족한 실정이다. 본 연구는 이러한 관점에서 키워드 기반의 사례 검색을 보완하고자 텍스트 마이닝 기법을 접목하여 고장의 특징을 추출하는 방식으로 사례를 검색해 조치를 제안하는 지능형 진단시스템을 제시하였다는 데에 의의가 있다. 이를 통해 현장에서 바로 사용 가능한 진단시스템을 단계적으로 개발하는데 기초자료로써 시사점을 제공할 수 있을 것으로 기대한다.

온톨로지 기반 영화 메타데이터간 연관성을 활용한 영화 추천 기법 (The Ontology Based, the Movie Contents Recommendation Scheme, Using Relations of Movie Metadata)

  • 김재영;이석원
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.25-44
    • /
    • 2013
  • 최근 IPTV와 스마트 TV 등의 등장과 영상 콘텐츠를 시청하고 검색할 수 있는 웹 서비스의 등장으로 영상 콘텐츠의 접근이 용이해져 사용자들은 자신이 원하는 콘텐츠를 찾고자 하는 요구가 증가하고 있다. 하지만 서비스되는 콘텐츠의 양이 방대하여 영상 콘텐츠를 검색할 때 사용하는 키워드 기반의 검색은 많은 양의 결과를 가져오며 사용자가 필요로 하지 않은 결과가 검색된다. 따라서 사용자가 원하는 콘텐츠의 검색 시간과 노력이 증가 하게 되었다. 이를 극복 하기 위해 콘텐츠 추천 및 검색에 대한 연구가 수행되어 왔다. 기존의 연구에는 사용자의 선호도 분석을 통하여 영상 콘텐츠를 추천하거나 비슷한 성향을 가지는 사용자들을 분류하여 콘텐츠를 추천하는 기법들이 연구되어 왔다. 본 논문에서는 영상 콘텐츠 중 영화의 추천을 위해 사용자 개인의 영화 메타데이터의 선호도를 분석하고, 영화의 메타데이터와 영화의 유사성을 도출하여 이를 기반으로 영화 추천 기법을 제안한다. 영화의 특징을 담고 있고, 사용자의 영화 선호도에 영향을 끼치는 장르, 줄거리, 배우, 키워드 등의 영화 메타데이터를 기반으로 온톨로지를 구축하고, 확률 기법을 통한 메타 데이터간의 유사성을 분석하여 유사 메타데이터를 연결한다. 또한 사용자의 선호도와 그룹을 정의하고, 사용자 정보를 활용하기 위한 사용자 모델을 정의한다. 제안하는 추천 기법은 1) 사용자 정보기반의 후보 영화 검색 컴포넌트, 2) 사용자 선호기반의 후보 영화 검색 컴포넌트, 3) 1)과 2)의 결과를 통합하고 가중치를 부여하는 컴포넌트, 4) 최종결과의 분석을 통한 개인화된 영화 추천 컴포넌트 등 총 4가지 컴포넌트로 구성된다. 제안하는 추천 기법의 실험을 위하여 20대 남/녀 10명씩 20명을 대상으로 실험을 진행하였으며, 실험결과 평균 Top-5에서 2.1개 Top-10에서 3.35개 Top-20에서 6.35의 영화가 보고 싶은 영화로 선택되었다. 본 논문에서는 영화 메타데이터간의 연관성 도출을 통하여 영화간의 유사성을 도출하고 이를 기반으로 사용자의 기본적인 정보를 활용한 추천뿐만 아니라 사용자가 예상하지 못한 영화의 추천이 가능하다.

미세먼지 저감을 위한 그린인프라 계획요소 도출 - 텍스트 마이닝을 활용하여 - (Derivation of Green Infrastructure Planning Factors for Reducing Particulate Matter - Using Text Mining -)

  • 석영선;송기환;한효주;이정아
    • 한국조경학회지
    • /
    • 제49권5호
    • /
    • pp.79-96
    • /
    • 2021
  • 그린인프라 계획은 미세먼지 저감을 위한 대표적인 조경 계획 방안 중 하나이다. 이에, 본 연구에서는 미세먼지 저감을 위한 그린인프라 계획 시 활용될 수 있는 요소를 텍스트 마이닝 기법을 활용하여 도출하고자 하였다. 미세먼지 저감계획, 그린인프라 계획 요소 등의 키워드를 중심으로 관련 선행연구, 정책보고서 및 법률 등을 수집하여 텍스트 마이닝을 통해 단어 빈도-역 문서 빈도(Term Frequency-Inverse Document Frequency, 이하 TF-IDF) 분석, 중심성 분석, 연관어 분석, 토픽 모델링 분석을 실시하였다. 연구결과, 첫째, TF-IDF 분석을 통해 미세먼지 및 그린인프라와 관련된 주요 주제어는 크게 환경문제(미세먼지, 환경, 탄소, 대기 등), 대상 공간(도시, 공원, 지역, 녹지 등), 그리고 적용 방법(분석, 계획, 평가, 개발, 생태적 측면, 정책적 관리, 기술, 리질리언스 등)으로 구분할 수 있었다. 둘째, 중심성 분석 결과, TF-IDF와 유사한 결과가 도출되었으며, 주요 키워드들을 연결하는 중심단어는 '그린뉴딜', '유휴부지'임을 확인할 수 있었다. 셋째, 연관어 분석 결과, 미세먼지 저감을 위한 그린인프라 계획 시, 숲과 바람길의 계획이 필요하며, 미기후 조절의 측면에서 수분에 대한 고려가 반드시 필요한 것으로 확인되었다. 또한, 유휴공간의 활용 및 혼효림의 조성, 미세먼지 저감 기술의 도입과 시스템의 이해가 그린인프라 계획 시 중요한 요소가 될 수 있음을 확인할 수 있었다. 넷째, 토픽 모델링 분석을 통해 그린인프라의 계획요소를 생태적·기술적·사회적 기능을 중심으로 분류하였다. 생태적 기능의 계획요소는 그린인프라의 형태적 부분(도시림, 녹지, 벽면녹화 등)과 기능적 부분(기후 조절, 탄소저장 및 흡수, 야생동물의 서식처와 생물 다양성 제공 등), 기술적 기능의 계획요소는 그린인프라의 방재 기능, 완충 효과, 우수관리 및 수질정화, 에너지 저감 등, 사회적 기능의 계획요소는 지역사회 커뮤니티 기능, 이용객의 건강성 회복, 경관 향상 등의 기능으로 분류되었다. 이와 같은 결과는 미세먼지 저감을 위한 그린인프라 계획 시 리질리언스 및 지속가능성과 같은 개념적 키워드 중심의 접근이 필요하며, 특히, 미세먼지 노출 저감의 측면에서 그린인프라 계획요소의 적용이 필요함을 시사한다고 볼 수 있다.

MCML 기반 모션캡처 데이터 저장 및 퍼지 기반 모션 검색 기법 (Storing and Retrieving Motion Capture Data based on Motion Capture Markup Language and Fuzzy Search)

  • 이성주;정현숙
    • 한국지능시스템학회논문지
    • /
    • 제17권2호
    • /
    • pp.270-275
    • /
    • 2007
  • 모션 캡처 기술은 현실감 있는 캐릭터 동작을 얻기 위해 많이 사용되고 있지만, 모션 캡처 데이터의 상이한 포맷들로 인하여 효율적인 모션 데이터의 저장과 검색이 어려운 문제점을 가지고 있다. 본 논문에서는 상이한 형식의 모션 캡처 데이터를 통합하고 효과적으로 저장 및 검객하기 위한 프레임워크를 제안한다. 상이한 모션 캡처 데이터 포맷들을 통합하기 위한 XML 기반의 표준 포맷을 MCML(Motion Capture Markup Language)로 정의하고 있으며 서로 다른 포맷의 모션 캡처 데이터 파일을 하나의 단일화된 MCML 파일로 변환하여 관계형 데이터베이스 또는 XML 데이베이스에 저장함으로써 동일 데이터의 중복 저장 및 공유 문제를 해결한다. 모션캡처 데이터의 검색은 퍼지 문자열 검색(Fuzzy string searching) 기법에 의한 유사어 검색으로 특정 키워드를 포함하는 MCML 문서들을 찾거나 특정 위치의 시작 프레임에서 일련의 프레임들을 선택적으로 추출할 수 있는 모션클립(motion clips) 검색이 가능하도록 하였다.

이용자 태그를 활용한 비디오 스피치 요약의 자동 생성 연구 (Investigating an Automatic Method in Summarizing a Video Speech Using User-Assigned Tags)

  • 김현희
    • 한국문헌정보학회지
    • /
    • 제46권1호
    • /
    • pp.163-181
    • /
    • 2012
  • 본 연구는 스피치 요약의 알고리즘을 구성하기 위해서 방대한 스피치 본문의 복잡한 분석 없이 적용될 수 있는 이용자 태그 기법, 문장 위치 및 문장 중복도 제거 기법의 효율성을 분석해 보았다. 그런 다음, 이러한 분석 결과를 기초로 하여 스피치 요약 방법을 구성, 평가하여 효율적인 스피치 요약 방안을 제안하는 것을 연구 목적으로 하고 있다. 제안된 스피치 요약 방법은 태그 및 표제 키워드 정보를 활용하고 중복도를 최소화하면서 문장 위치에 대한 가중치를 적용할 수 있는 수정된 Maximum Marginal Relevance 모형을 사용하여 구성하였다. 제안된 요약 방법의 성능은 스피치 본문의 단어 빈도 및 단어 위치 정보를 적용하여 상대적으로 복잡한 어휘 처리를 한 Extractor 시스템의 성능과 비교되었다. 비교 결과, 제안된 요약 방법을 사용한 경우가 Extractor 시스템의 경우 보다 평균 정확률은 통계적으로 유의미한 차이를 보이며 더 높았고, 평균 재현율은 더 높았지만 통계적으로 유의미한 차이를 보이지는 못했다.

금융기관의 지식 관리 개선 방안 연구 - 토픽맵 개념을 활용한 학습, 지식 및 정보 객체를 연결시키는 통합 리포지토리 설계를 중심으로 - (Investigating the Promotion Methods of Korean Financial Firms' Knowledge Management in the e-Learning Environment Focusing on the Implementation of TopicMap-Based Repository Model)

  • 김현희
    • 한국문헌정보학회지
    • /
    • 제40권2호
    • /
    • pp.103-123
    • /
    • 2006
  • 금융기관의 지식경영 초기 단계 이후부터는 지속적인 지식 창출과 효율적인 지식 검색이 지식경영의 핵심 요인으로 보고, 지식 창출의 한 방안으로 e-러닝을 제시하고, 효율적인 지식 검색 체제를 구축하기 위해서 리포지토리에 저장된 학습객체, 지식객체, 자료실 정보객체를 유사성에 따라 분류하고 상호 연관관계를 맺음으로써 키워드 검색은 물론 분류 검색과 연관 검색을 가능하게 하는 토픽맵 개념에 기반을 둔 지식맵을 활용한 통합 리포지토리 모형을 제안해 보았다. 모형 구현을 위해서 사용된 연구 방법에는 지식 관리 현황을 파악하기 위해서 세 보험회사들을 대상으로 사례 연구를 실시하였고, 기존의 토픽맵 기반의 실험적인 정보시스템들도 분석, 참조하였다. 디렉토리 형식의 전통적인 지식맵은 관련된 지식을 연계시키기가 어려워 지식관리시스템의 효율적인 브라우징이나 검색에 걸림돌로 작용하고 있는데 본 연구에서 제안된 모형은 이러한 문제점들을 개선할 하나의 안으로 이용될 수 있을 것이다.

콘텐츠 정보의 연관성을 고려한 Ajax기반의 깊이 검색 시스템 구현 (The implementation of the depth search system for relations of contents information based on Ajax)

  • 김운용;박석규
    • 한국항행학회논문지
    • /
    • 제12권5호
    • /
    • pp.516-523
    • /
    • 2008
  • 최근 웹은 집단지성을 근간으로 참여형 구조를 형성하고 이를 바탕으로 빠르게 성장하고 있다. 이 환경에서 사용자에 의해 생성된 콘텐츠는 정보의 주류를 형성하고 있으며 이들의 효율적인 검색기법이 요구된다. 현재 콘텐츠의 검색은 주로 키워드용 기반으로 운영 되고 있으며, 언어의 유사성과 관계를 고려한 시맨틱 웹(Semantic web)에 대한 연구나 웹2.0환경의 사용자 태그 활용에 대한 연구가 활발히 진행되고 있다. 일반적으로 참여형 구조의 웹 환경은 사용자에 의해 생성된 대량의 콘텐츠와 다양한 형태 및 분류 구조를 가진다. 그 결과 이들의 효율적인 분류와 검색 기법이 요구된다. 이에 본 논문에서는 콘텐츠 검색을 위한 태그들 간의 연관성을 고려한 깊이 검색 시스템을 제시한다. 이를 통해 불필요한 콘텐츠 검색을 줄이고 집단에 포함된 제시어 서비스를 통해 콘텐츠 검색의 효율성을 증가시킬 수 있을 것이다.

  • PDF

검색 질의 확장을 위한 인기도 기반 단어 가중치 측정 (A Term Weight Mensuration based on Popularity for Search Query Expansion)

  • 이정훈;전서현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권8호
    • /
    • pp.620-628
    • /
    • 2010
  • 인터넷의 활용이 보편화 됨에 따라 사람들이 많은 정보를 웹을 통해 접할 수 있게 되었다. 정보의 양이 급격히 늘어나면서 검색 엔진은 사용자가 필요로 하지 않는 정보까지 보여주는 검색 성능의 한계를 가져왔다. 따라서 사용자는 원하는 정보를 검색하기 위해 과거보다 더 많은 시간과 노력이 필요하게 되었다. 이 연구에서는 질의 확장을 이용하여 사용자가 필요로 하는 정확한 정보를 신속하게 찾아서 제공할 수 있는 방법을 제안한다. 제안된 단어 가중치 평가방법은 검색 주제의 변동 없이 하나의 검색 주제를 검색할 경우 TF-IDF 또는 단순 인기도 측정법 보다 우수한 성능을 보인다. 또한 검색 중 주제를 변경하였을 때에도 검색 주제 변경 전과 유사한 성능으로 기존의 측정법 보다 빠르게 새로운 주제와 관련된 단어를 추출하고 정확한 가중치를 측정한다.

정확한 해답 추출을 위한 개념 기반의 질의 분석 (Concept-based Question Analysis for Accurate Answer Extraction)

  • 신승은;강유환;안영민;박희근;서영훈
    • 한국콘텐츠학회논문지
    • /
    • 제7권1호
    • /
    • pp.10-20
    • /
    • 2007
  • 본 논문에서는 정확한 해답 추출을 위해 키워드보다 중요한 역할을 하는 개념을 분석하는 개념 기반 질의 분석에 대해 기술한다 해답 유형이 같은 질의들에서 나타나는 개념은 유사하기 때문에 이러한 개념들을 잘 정의하여 이용할 경우, 해답을 포함하는 다양한 형태의 구문으로부터 보다 정확한 해답을 추출할 수 있다는 것이 본 논문의 주요 아이디어이다. 즉, 해답을 포함하는 문서와 그 문서 내에 있는 해답을 좀더 정확하게 추출하기 위해 질문에 있는 각 단어나 구절들의 구문 및 의미 역할을 파악하고자 하는 것이다. 이를 위해, 정답 유형별로 그 유형의 질문에서 공통으로 나타나는 주요 개념들로 구성된 개념 프레임을 정의하고, 사용자 질의를 분석하여 개념 프레임을 채우는 과정으로 질의 분석을 수행한다. 실험 결과 본 논문에서 제안한 개념 기반 방식이 기존의 질의분석 기법에 비해 높은 정답 추출 성능을 보여주었다. 본 논문에서 제안한 개념 기반 접근 방법은 언어에 관계없이 적용 가능한 모델이며, 또한 기존 방식과 함께 사용할 수 있는 장점도 있다.

대용량 멀티미디어 데이터의 내용 기반 검색을 위한 고확장 지원 색인 기법 (A Scalable Index for Content-based Retrieval of Large Scale Multimedia Data)

  • 최현화;이미영;이규철
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2009년도 춘계 종합학술대회 논문집
    • /
    • pp.726-730
    • /
    • 2009
  • 카메라 기술의 발전 및 사용자 중심의 인터넷 패러다임인 웹 2.0을 토대로 멀티미디어 데이터가 급증하면서, 멀티미디어 검색은 인터넷 서비스로서 그 중요성이 날로 증가되고 있다. 현재 멀티미디어 검색은 단순한 키워드(keyword) 검색에 의존하고 있는 실정으로, 정보 검색의 정확도 및 사용자의 만족도를 충족시키기 위해서는 내용 기반 검색 지원이 필요하다. 본 논문에서는 대용량의 멀티미디어 데이터의 내용 기반 검색을 지원하기 위하여, 데이터의 분포에 따른 다중 길이의 시그니처를 기반으로 한 새로운 분산 인덱스 구조를 제안한다. 제안하는 인덱스 구조는 고차원 데이터의 클러스터링에 따라 데이터의 분포를 분석하여 서로 다른 요약 파일을 분산 생성하고, 이를 기반으로 유사 검색을 병렬로 수행할 수 있도록 설계되었다. 그리하여, 클러스터 환경 하에서 고차원 데이터의 분산 저장이 용이하고, 각 노드들은 서로 다른 시그니처 파일을 기반으로 검색을 병렬 수행함으로써 효율적인 검색을 지원한다.

  • PDF