• 제목/요약/키워드: Data dictionary

검색결과 346건 처리시간 0.022초

한국어 목적격조사의 몽골어 격 어미 번역 (Translation of Korean Object Case Markers to Mongolian's Suffixes)

  • ;신준철;옥철영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권2호
    • /
    • pp.79-88
    • /
    • 2019
  • 최근 기계 번역에 관한 연구들이 활발하게 이루어지고 있고 한국어와 몽골어 간의 상호 기계 번역 시스템도 개발되고 있다. 한국어와 몽골어는 계통적으로 같은 어족에 속하며 '주어+목적어+서술어'라는 비교적 자유로운 어순을 가지는 언어이고 어미와 조사가 발달한 것이 그 특징이다. 따라서 기계 번역 시 양언어의 조사나 어미의 의미를 잘 번역하는 것이 중요하다. 그러나 한국어 목적격 조사를 몽골어로 번역할 때 한국어 목적격 조사가 몽골어의 여러 격 어미로 번역이 될 수 있는데, 기존의 연구들은 한 가지 격 어미로만 번역해 정확한 의미를 전달하지 못하는 문제점이 있다. 본 논문에서는 이러한 문제점을 개선하기 위하여 한국어 형태소 분석과 동시에 품사 및 동형이의어 태깅 시스템인 유태거(UTagger)를 기반으로 하여 한국어 목적격 조사의 몽골어 격 어미 결정 방법을 제안한다. 제안하는 방법에서는 한국어 목적격 조사에 대응하는 몽골어 격 어미들을 살펴보고 데이터 테이블을 설계하여 적절한 격 어미를 결정한다. 제안한 방법의 성능을 검증하기 위하여 한국어기초사전에서 데이터를 추출하고 유태거와 비교 실험하였다. 실험 결과 목적격 조사를 바로 대격 어미로 번역한 유태거의 정확률은 46.9%인데 반해 본 논문에서 제안한 방법은 88.38%로 제안한 방법이 41.48%p 더 우수한 결과를 보였다.

스마트폰 사용자의 사용습관 및 하드웨어 특성이 기능 수행도에 미치는 영향 (Effect of Usage Habits and Hardware Characteristics of Smartphone Users on Functional Performance)

  • 윤철호
    • 한국산학기술학회논문지
    • /
    • 제20권5호
    • /
    • pp.599-604
    • /
    • 2019
  • 본 연구에서는 스마트폰 사용자의 사용습관 및 하드웨어 특성이 스마트폰의 기능 수행도에 어떻게 영향을 미치는지를 알아보았다. 특히 스마트폰 기능 요소와 사용습관과의 상관관계를 이해하는데 중점을 두었다. 기능성으로는 전부 11 종류의 기능 요소를 정의하였다. 스마트폰 특성은 하드웨어적 특성 및 사용자 사용습관 특성으로 정하였다. 스마트폰 기능별 실측치를 구하기 위해 전부 80명으로 구성된 평가단을 편성하였다. 평가단은 미리 정의된 11개의 기능 요소들에 대해 각 기능 수행에 실제로 소요되는 시간을 스톱워치를 이용하여 측정하였으며 각 기능 요소별로 5회씩 관측하고 데이터를 수집하였다. 기능 요소별 실측치를 종속변수로, 설문지를 통해 수집한 하드웨어 특성, 사용자의 사용습관 등을 전부 12개의 독립변수로 분류하여 Minitab ver.14를 이용하여 회귀분석을 실시하였다. 전반적으로 볼 때, 스마트폰 사용자의 인구통계학적 특성, 하드웨어 특성은 기능 수행에 크게 영향을 미치지 않았다. 그러나 스마트폰 사용습관과 관련한 변수들은 전체적으로 스마트폰 기능 수행도에 커다란 영향을 미쳤으며 그 결과, 과제 수행 시간이 증가하였다. 단순입력 변수 또는 시청 변수에서는 사용성에 미치는 영향은 비교적 미미했지만, 적극 활용 변수에서는 전화걸기, 전화번호 찾기, 사전 검색을 제외한 모든 과제에서 수행시간이 10% - 30%로 크게 증가하였다. 지금까지 스마트폰의 사용자 인터페이스 방식이 크고 단순한 방식으로 일률적으로 제공되었다면, 사용습관이 다양한 계층은 입력 방식이나 과제 처리 방식에 있어서 좀 더 복잡하고 다양한 형태의 인터페이스 방식이 제공되더라도 충분히 활용할 수 있다고 생각한다.

딥러닝 기반 소셜미디어 한글 텍스트 우울 경향 분석 (A Deep Learning-based Depression Trend Analysis of Korean on Social Media)

  • 박서정;이수빈;김우정;송민
    • 정보관리학회지
    • /
    • 제39권1호
    • /
    • pp.91-117
    • /
    • 2022
  • 국내를 비롯하여 전 세계적으로 우울증 환자 수가 매년 증가하는 추세이다. 그러나 대다수의 정신질환 환자들은 자신이 질병을 앓고 있다는 사실을 인식하지 못해서 적절한 치료가 이루어지지 않고 있다. 우울 증상이 방치되면 자살과 불안, 기타 심리적인 문제로 발전될 수 있기에 우울증의 조기 발견과 치료는 정신건강 증진에 있어 매우 중요하다. 이러한 문제점을 개선하기 위해 본 연구에서는 한국어 소셜 미디어 텍스트를 활용한 딥러닝 기반의 우울 경향 모델을 제시하였다. 네이버 지식인, 네이버 블로그, 하이닥, 트위터에서 데이터수집을 한 뒤 DSM-5 주요 우울 장애 진단 기준을 활용하여 우울 증상 개수에 따라 클래스를 구분하여 주석을 달았다. 이후 구축한 말뭉치의 클래스 별 특성을 살펴보고자 TF-IDF 분석과 동시 출현 단어 분석을 실시하였다. 또한, 다양한 텍스트 특징을 활용하여 우울 경향 분류 모델을 생성하기 위해 단어 임베딩과 사전 기반 감성 분석, LDA 토픽 모델링을 수행하였다. 이를 통해 문헌 별로 임베딩된 텍스트와 감성 점수, 토픽 번호를 산출하여 텍스트 특징으로 사용하였다. 그 결과 임베딩된 텍스트에 문서의 감성 점수와 토픽을 모두 결합하여 KorBERT 알고리즘을 기반으로 우울 경향을 분류하였을 때 가장 높은 정확률인 83.28%를 달성하는 것을 확인하였다. 본 연구는 다양한 텍스트 특징을 활용하여 보다 성능이 개선된 한국어 우울 경향 분류 모델을 구축함에 따라, 한국 온라인 커뮤니티 이용자 중 잠재적인 우울증 환자를 조기에 발견해 빠른 치료 및 예방이 가능하도록 하여 한국 사회의 정신건강 증진에 도움을 줄 수 있는 기반을 마련했다는 점에서 의의를 지닌다.

남북한 음향학 전문용어 비교 분석 및 통합안 제시 (Comparative analysis of inter-Korean acoustic terminology and proposal for integration)

  • 김지완
    • 한국음향학회지
    • /
    • 제42권4호
    • /
    • pp.271-284
    • /
    • 2023
  • 본 연구는 IEC 60050-801:1994 국제 표준을 기준으로 남한 산업표준과 북한 국가규격의 음향학 전문용어 431개를 비교 분석하고 통합 알고리즘을 사용하여 남북한 음향학 용어 통합안을 제시하였다. 용어가 완전히 같은 형태인 AA형은 139개(32.3 %), 어문규범의 차이로 인해 표기 형태가 다른 Aa형은 35개(8.1 %), 형태가 완전히 다른 AB유형은 257개(59.6 %)로 확인되었다. 형태적으로 같은 유형의 용어보다 다른 유형의 용어가 2배 이상 많았으나 내용 면에서 대부분 용어는 충분히 이해하고 유추할 수 있는 범위 안에 있었다. 형태가 다른 음향학 전문용어 통합에서는 북한 전문용어가 178개(61 %), 남한 전문용어가 76개(26 %)로 채택되었다. 이와 같은 결과는 북한 전문용어가 고유성이 압도적으로 높았고, 남한 전문용어는 경제성이 상대적으로 높았기 때문이다. 용어 순화를 통한 고유성과 최신 기술 용어의 대중 활용을 높일 수 있는 경제성 기준을 충족하는 음향학 전문용어 통합 체계 구축이 필요하다. 본 연구는 남북한 음향학 전문용어를 최초로 비교하고 통합안 제시에 의의가 있으며 다음과 같은 제언으로 연구 한계를 극복하고자 한다. 첫째, 정부는 남북한 학술 교류 및 표준화 공통 안을 마련할 수 있도록 지원 및 법적인 장치를 마련하고 북한 관련 연구 데이터에 쉽게 접근할 수 있는 연구 환경을 조성해야 한다. 둘째, 음향학 용어 데이터를 남북한이 공유하고 통합 음향학 용어사전을 발간하도록 노력해야 한다. 셋째, 추후 남북이 전문용어 위원회를 함께 발족하여 표준 개정이 동시에 이루어지도록 노력해야 한다.

이미지 감성분류를 위한 CNN과 K-means RGB Cluster 이-단계 학습 방안 (A Two-Stage Learning Method of CNN and K-means RGB Cluster for Sentiment Classification of Images)

  • 김정태;박은비;한기웅;이정현;이홍주
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.139-156
    • /
    • 2021
  • 이미지 분류에서 딥러닝 모형을 사용하는 가장 큰 이유는 이미지의 전체적인 정보에서 각 지역 특징을 추출하여 서로의 관계를 고려할 수 있기 때문이다. 하지만 이미지의 지역 특징이 없는 감정 이미지 데이터는 CNN 모델이 적합하지 않을 수 있다. 이러한 감정 이미지 분류의 어려움을 해결하기 위하여 매년 많은 연구자들이 감정 이미지에 적합한 CNN기반 아키텍처를 제시하고 있다. 색깔과 사람 감정간의 관계에 대한 연구들도 수행되었으며, 색깔에 따라 다른 감정이 유도된다는 결과들이 도출되었다. 딥러닝을 활용한 연구에서도 색깔정보를 활용하여 이미지 감성분류에 적용하는 연구들이 있어왔으며, 이미지만을 가지고 분류 모형을 학습한 경우보다 이미지의 색깔 정보를 추가로 활용한 경우가 이미지 감성 분류 정확도를 더 높일 수 있었다. 본 연구는 사람이 이미지의 감정을 분류하는 기준 중 많은 부분을 차지하는 색감을 이용하여 이미지 감성 분류 정확도를 향상시키는 방안을 제안한다. 이미지의 RGB 값에 K 평균 군집화 방안을 적용하여 이미지를 대표하는 색을 추출하여, 각 감성 클래스 별 해당 색깔이 나올 확률을 가중치 식으로 변형 후 CNN 모델의 최종 Layer에 적용하는 이-단계 학습방안을 구현하였다. 이미지 데이터는 6가지 감정으로 분류되는 Emotion6와 8가지 감정으로 분류되는 Artphoto를 사용하였다. 학습에 사용한 CNN 모델은 Densenet169, Mnasnet, Resnet101, Resnet152, Vgg19를 사용하였으며, 성능 평가는 5겹 교차검증으로 CNN 모델에 이-단계 학습 방안을 적용하여 전후 성과를 비교하였다. CNN 아키텍처만을 활용한 경우보다 색 속성에서 추출한 정보를 함께 사용하였을 때 더 좋은 분류 정확도를 보였다.

온라인 주식 포럼의 핫토픽 탐지를 위한 감성분석 모형의 개발 (Development of Sentiment Analysis Model for the hot topic detection of online stock forums)

  • 홍태호;이태원;리징징
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.187-204
    • /
    • 2016
  • 소셜 미디어를 이용하는 사용자들이 직접 작성한 의견 혹은 리뷰를 이용하여 상호간의 교류 및 정보를 공유하게 되었다. 이를 통해 고객리뷰를 이용하는 오피니언마이닝, 웹마이닝 및 감성분석 등 다양한 연구분야에서의 연구가 진행되기 시작하였다. 특히, 감성분석은 어떠한 토픽(주제)를 기준으로 직접적으로 글을 작성한 사람들의 태도, 입장 및 감성을 알아내는데 목적을 두고 있다. 고객의 의견을 내포하고 있는 정보 혹은 데이터는 감성분석을 위한 핵심 데이터가 되기 때문에 토픽을 통한 고객들의 의견을 분석하는데 효율적이며, 기업에서는 소비자들의 니즈에 맞는 마케팅 혹은 투자자들의 시장동향에 따른 많은 투자가 이루어지고 있다. 본 연구에서는 중국의 온라인 시나 주식 포럼에서 사용자들이 직접 작성한 포스팅(글)을 이용하여 기존에 제시된 토픽들로부터 핫토픽을 선정하고 탐지하고자 한다. 기존에 사용된 감성 사전을 활용하여 토픽들에 대한 감성값과 극성을 분류하고, 군집분석을 통해 핫토픽을 선정하였다. 핫토픽을 선정하기 위해 k-means 알고리즘을 이용하였으며, 추가로 인공지능기법인 SOM을 적용하여 핫토픽 선정하는 절차를 제시하였다. 또한, 로짓, 의사결정나무, SVM 등의 데이터마이닝 기법을 이용하여 핫토픽 사전 탐지를 하는 감성분석을 위한 모형을 개발하여 관심지수를 통해 선정된 핫토픽과 탐지된 핫토픽을 비교하였다. 본 연구를 통해 핫토픽에 대한 정보 제공함으로써 최신 동향에 대한 흐름을 알 수 있게 되고, 주식 포럼에 대한 핫토픽은 주식 시장에서의 투자자들에게 유용한 정보를 제공하게 될 뿐만 아니라 소비자들의 니즈를 충족시킬 수 있을 것이라 기대된다.

영한 기계 번역에서 미가공 텍스트 데이터를 이용한 대역어 선택 중의성 해소 (Target Word Selection Disambiguation using Untagged Text Data in English-Korean Machine Translation)

  • 김유섭;장정호
    • 정보처리학회논문지B
    • /
    • 제11B권6호
    • /
    • pp.749-758
    • /
    • 2004
  • 본 논문에서는 미가공 말뭉치 데이터를 활용하여 영한 기계번역 시스템의 대역어 선택 시 발생하는 중의성을 해소하는 방법을 제안한다. 이를 위하여 은닉 의미 분석(Latent Semantic Analysis : LSA)과 확률적 은닉 의미 분석(Probabilistic LSA : PLSA)을 적용한다. 이 두 기법은 텍스트 문단과 같은 문맥 정보가 주어졌을 때, 이 문맥이 내포하고 있는 복잡한 의미 구조를 표현할 수 있다 본 논문에서는 이들을 사용하여 언어적인 의미 지식(Semantic Knowledge)을 구축하였으며 이 지식은 결국 영한 기계번역에서의 대역어 선택 시 발생하는 중의성을 해소하기 위하여 단어간 의미 유사도를 추정하는데 사용된다. 또한 대역어 선택을 위해서는 미리 사전에 저장된 문법 관계를 활용하여야 한다. 본 논문에서는 이러한 대역어 선택 시 발생하는 데이터 희소성 문제를 해소하기 위하여 k-최근점 학습 알고리즘을 사용한다. 그리고 위의 두 모델을 활용하여 k-최근점 학습에서 필요한 예제 간 거리를 추정하였다. 실험에서는, 두 기법에서의 은닉 의미 공간을 구성하기 위하여 TREC 데이터(AP news)론 활용하였고, 대역어 선택의 정확도를 평가하기 위하여 Wall Street Journal 말뭉치를 사용하였다. 그리고 은닉 의미 분석을 통하여 대역어 선택의 정확성이 디폴트 의미 선택과 비교하여 약 10% 향상되었으며 PLSA가 LSA보다 근소하게 더 좋은 성능을 보였다. 또한 은닉 공간에서의 축소된 벡터의 차원수와 k-최근점 학습에서의 k값이 대역어 선택의 정확도에 미치는 영향을 대역어 선택 정확도와의 상관관계를 계산함으로써 검증하였다.젝트의 성격에 맞도록 필요한 조정만을 통하여 품질보증 프로세스를 확립할 수 있다. 개발 된 패키지의 효율적인 활용이 내조직의 소프트웨어 품질보증 구축에 투입되는 공수 및 어려움을 줄일 것으로 기대된다.도가 증가할 때 구기자 열수 추출 농축액은 $1.6182{\sim}2.0543$, 혼합구기자 열수 추출 농축액은 $1.7057{\sim}2.1462{\times}10^7\;J/kg{\cdot}mol$로 증가하였다. 이와 같이 구기자 열수 추출 농축액과 혼합구기자 열수 추출 농축액의 리올리지적 특성에 큰 차이를 나타내지는 않았다. security simultaneously.% 첨가시 pH 5.0, 7.0 및 8.0에서 각각 대조구의 57, 413 및 315% 증진되었다. 거품의 열안정성은 15분 whipping시, pH 4.0(대조구, 30.2%) 및 5.0(대조구, 23.7%)에서 각각 $0{\sim}38.0$$0{\sim}57.0%$이었고 pH 7.0(대조구, 39.6%) 및 8.0(대조구, 43.6%)에서 각각 $0{\sim}59.4$$36.6{\sim}58.4%$이었으며 sodium alginate 첨가시가 가장 양호하였다. 전체적으로 보아 거품안정성이 높은 것은 열안정성도 높은 경향이며, 표면장력이 낮으면 거품형성능이 높아지고, 비점도가 높으면 거품안정성 및 열안정성이 높아지는 경향이 있었다.protocol.eractions between application agents that are developed using different

온라인 언급이 기업 성과에 미치는 영향 분석 : 뉴스 감성분석을 통한 기업별 주가 예측 (Influence analysis of Internet buzz to corporate performance : Individual stock price prediction using sentiment analysis of online news)

  • 정지선;김동성;김종우
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.37-51
    • /
    • 2015
  • 인터넷 기술의 발전과 인터넷 상 데이터의 급속한 증가로 인해 데이터의 활용 목적에 적합한 분석방안 연구들이 활발히 진행되고 있다. 최근에는 텍스트 마이닝 기법의 활용에 대한 연구들이 이루어지고 있으며, 특히 문서 내 텍스트를 기반으로 문장이나 어휘의 긍정, 부정과 같은 극성 분포에 따라 의견을 스코어링(scoring)하는 감성분석과 관련된 연구들도 다수 이루어지고 있다. 이러한 연구의 연장선상에서, 본 연구는 인터넷 상의 특정 기업에 대한 뉴스 데이터를 수집하여 이들의 감성분석을 실시함으로써 주가의 등락에 대한 예측을 시도하였다. 개별 기업의 뉴스 정보는 해당 기업의 주가에 영향을 미치는 요인으로, 적절한 데이터 분석을 통해 주가 변동 예측에 유용하게 활용될 수 있을 것으로 기대된다. 따라서 본 연구에서는 개별 기업의 온라인 뉴스 데이터에 대한 감성분석을 바탕으로 개별 기업의 주가 변화 예측을 꾀하였다. 이를 위해, KOSPI200의 상위 종목들을 분석 대상으로 선정하여 국내 대표적 검색 포털 서비스인 네이버에서 약 2년간 발생된 개별 기업의 뉴스 데이터를 수집 분석하였다. 기업별 경영 활동 영역에 따라 기업 온라인 뉴스에 나타나는 어휘의 상이함을 고려하여 각 개별 기업의 어휘사전을 구축하여 분석에 활용함으로써 감성분석의 성능 향상을 도모하였다. 분석결과, 기업별 일간 주가 등락여부에 대한 예측 정확도는 상이했으며 평균적으로 약 56%의 예측률을 보였다. 산업 구분에 따른 주가 예측 정확도를 통하여 '에너지/화학', '생활소비재', '경기소비재'의 산업군이 상대적으로 높은 주가 예측 정확도를 보임을 확인하였으며, '정보기술'과 '조선/운송' 산업군은 주가 예측 정확도가 낮은 것으로 확인되었다. 본 논문은 온라인 뉴스 정보를 활용한 기업의 어휘사전 구축을 통해 개별 기업의 주가 등락 예측에 대한 분석을 수행하였으며, 향후 감성사전 구축 시 불필요한 어휘가 추가되는 문제점을 보완한 연구 수행을 통하여 주가 예측 정확도를 높이는 방안을 모색할 수 있을 것이다.

비정형 데이터 마이닝을 활용한 한국농수산대학 재학생의 학교생활 감성 분석(1) (An Analysis of School Life Sensibility of Students at Korea National College of Agriculture and Fisheries Using Unstructured Data Mining(1))

  • 주진수;이소영;김종숙;송천영;신용광;박노복
    • 현장농수산연구지
    • /
    • 제21권1호
    • /
    • pp.99-114
    • /
    • 2019
  • 본 논문은 빅 데이터 분석기법을 이용하여 한국농수산대학 학생들의 대학생활 요소에 대한 선호도를 연구하기 위하여 비정형 데이터 분석기법으로서 감성 분석(opinion mining) 기법과 텍스트 마이닝 기법을 활용하였다. 분석도구로는 RStudio를 이용하였으며, 긍정과 부정의 감성을 분류하고 선호도를 평가하기 위한 긍정어 사전과 부정어 사전을 새롭게 작성하여 프로그래밍하였다. 비정형 텍스트에 대한 분석 결과는 도표와 워드 클라우드를 이용한 시각화 자료로 나타내어 정보를 추출하였다. 학교생활 요소로는 '나의 현재', '10년 후 모습', '교우관계', '한농제(대학 축제)', '후생관(식사)', '청학관(기숙사)', '한농대', '장기현장실습' 등 학생들에게 밀접한 8가지 주제를 대상으로 하였다. 분석 결과 한농대 학생들은 '후생관 식사'과 ' 교우관계'의 주제에 대해서 85% 이상의 긍정적 감성을 나타냈으나 '장기현장실습'과 '청학관(기숙사)'에 대해서는 긍정적 감성이 60%를 넘지 않는 만족도를 갖는 것으로 나타났다. 그리고 '나의 현재', '10년 후 모습', '한농제(대학 축제)' 및 'KNCAF' 등의 주제에 대해서는 69.3~74.2% 정도의 긍정적 감성을 나타냈다. 남녀 학생별 차이를 보면 '나의 현재', '10년 후 모습', '교우관계', '청학과(기숙사)' 및 '장기현장실습' 주제에서는 남학생의 긍정적 감성이 높게 나타났으며, '한농제(대학 축제)', '후생관' 및 '한농대' 주제에서는 여학생의 긍정적 감성이 높게 나타났다. 전공별 특징을 살펴보면 학생들은 '현재'나 '10년 후'의 자신의 모습에 대하여 71% 이상 긍정적 자신감을 지니고 있는 것으로 나타났다. 특히 축산계열 학생들의 긍정적 감성이 높게 나타났으며, 화훼학과 학생들은 다른 전공의 학생들에 비하여 긍정적 감성이 낮게 나타나 자신감이 부족한 결과를 보였다. '교우관계'에 대해서는 화훼학과를 제외하고 80% 이상의 긍정적 감성을 나타냈으며, 중소가축학과 학생들은 93%를 초과하는 적극적인 교우관계를 맺고 있는 것으로 나타났다. 대학 축제인 '한농제'에 대하여 전체 학생들의 긍정적 감성은 약 70% 정도이나 과수학과와 수산양식학과 학생들의 호감도는 60% 미만으로 축제에 대한 부정적 이미지가 높게 나타났다. '후생관 식사'에 대한 전체 학생들의 긍정적 감성은 85%를 넘어 매우 높은 만족도를 나타냈으나 수산양식학과 학생(남학생)들의 만족도는 매우 낮게 나타났다. 모든 학생들이 공동생활을 하는 '청학관'에 대한 학생들의 호감도는 59.5%로 낮게 나타났으며, 과수학과와 수산양식학과 학생들의 만족도는 약 42% 미만으로 더욱 부정적인 감성을 나타냈다. 또한 자신들이 3년간 학업을 재학한 한농대에 대해서는 74% 이상이 긍정적인 평가를 하는 것으로 나타났다. 특히 학생들의 호감도가 가장 낮게 나타난 장기현장실습에 대한 화훼학과, 채소학과, 중소가축학과 학생들의 호감도는 50%를 넘지 않는 매우 부정적 감성을 나타냈다. 빅 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하기 위하여 텍스트 마이닝 기법으로 구조화되지 않은 텍스트에서 주요 단어를 긍정어와 부정어로 나누어 추출하고 그 단어들의 word cloud를 작성하여 학생들의 감성을 시각화하였다. 한농대는 학생들에게 지금보다 더욱 긍정적인 감성을 가지고 밝고 환한 말, 힘이 되고 용기를 주는 말, 사람을 기쁘게 하는 말을 많이 할 수 있도록 여건을 제공함으로써 학생들은 삶의 활기가 넘치고 성공적인 인생을 살아가는 행복을 만들 수 있으리라 여겨진다.

사례기반추론과 텍스트마이닝 기법을 활용한 KTX 차량고장 지능형 조치지원시스템 연구 (An Intelligence Support System Research on KTX Rolling Stock Failure Using Case-based Reasoning and Text Mining)

  • 이형일;김종우
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.47-73
    • /
    • 2020
  • KTX 차량은 수많은 기계, 전기 장치 및 부품들로 구성되어 있는 하나의 시스템으로 차량의 유지보수에는 상당히 많은 전문성과 유지보수 작업자들의 경험을 필요로 한다. 차량 고장발생 시 유지보수자의 지식과 경험에 따라 문제 해결의 시간과 작업의 질적 차이가 발생하며 그에 따른 차량의 가용율이 달라진다. 일반적으로 문제해결은 고장 매뉴얼을 기반으로 하지만 경험이 많고 능숙한 전문가의 경우는 이와 더불어 개인의 노하우를 접목하여 신속하게 진단하고 조치를 취한다. 이러한 지식은 암묵지 형태로 존재하기 때문에 후임자에게 완전히 전수되기 어려우며, 이를 위해 사례기반의 철도차량 전문가시스템을 개발하여 데이터화된 지식으로 바꾸려고 하는 연구들이 있어왔다. 하지만, 간선에 가장 많이 투입되고 있는 KTX 차량에 대한 연구나 텍스트의 특징을 추출하여 유사사례를 검색하는 시스템 개발은 아직 미비하다. 따라서, 본 연구에서는 이러한 차량 유지보수 전문가들의 노하우를 통해 수행된 고장들에 대한 진단과 조치 이력을 문제 해결의 사례로 활용하여 새롭게 발생하는 고장에 대한 조치가이드를 제공하는 지능형 조치지원시스템을 제안하고자 한다. 이를 위하여, 2015년부터 2017년동안 생성된 차량고장 데이터를 수집하여 사례베이스를 구축하였고, 차원축소 기법인 비음수 행렬 인수분해(NMF), 잠재의미분석(LSA), Doc2Vec을 통해 고장의 특징을 추출하여 벡터 간의 코사인 거리를 측정하는 방식으로 유사 사례를 검색하였으며, 위의 알고리즘에 의해 제안된 조치내역들 간 성능을 비교하였다. 분석결과, 고장 내역의 키워드가 적은 경우의 유사 사례 검색과 조치 제안은 코사인 유사도를 직접 적용하는 경우에도 좋은 성능을 낸다는 것을 알 수 있었고 차원 축소 기법들의 성능 비교를 통해 문맥적 의미를 보존하는 차원 축소 방식 중 Doc2Vec을 적용하는 것이 가장 좋은 성능을 나타낸다는 것을 알 수 있었다. 텍스트 마이닝 기술은 여러 분야에서 활용을 위한 연구들이 이루어지고 있는 추세이나, 본 연구에서 활용하고자 하는 분야처럼 전문적인 용어들이 다수이고 데이터에 대한 접근이 제한적인 환경에서 이러한 텍스트 데이터를 활용한 연구는 아직 부족한 실정이다. 본 연구는 이러한 관점에서 키워드 기반의 사례 검색을 보완하고자 텍스트 마이닝 기법을 접목하여 고장의 특징을 추출하는 방식으로 사례를 검색해 조치를 제안하는 지능형 진단시스템을 제시하였다는 데에 의의가 있다. 이를 통해 현장에서 바로 사용 가능한 진단시스템을 단계적으로 개발하는데 기초자료로써 시사점을 제공할 수 있을 것으로 기대한다.