• 제목/요약/키워드: Semantic Network

검색결과 746건 처리시간 0.028초

텍스트 마이닝을 이용한 감정 유발 요인 'Emotion Trigger'에 관한 연구 (A Study of 'Emotion Trigger' by Text Mining Techniques)

  • 안주영;배정환;한남기;송민
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.69-92
    • /
    • 2015
  • 최근 소셜 미디어의 사용이 폭발적으로 증가함에 따라 이용자가 직접 생성하는 방대한 데이터를 분석하기 위한 다양한 텍스트 마이닝(text mining) 기법들에 대한 연구가 활발히 이루어지고 있다. 이에 따라 텍스트 분석을 위한 알고리듬(algorithm)의 정확도와 수준 역시 높아지고 있으나, 특히 감성 분석(sentimental analysis)의 영역에서 언어의 문법적 요소만을 적용하는데 그쳐 화용론적 의미론적 요소를 고려하지 못한다는 한계를 지닌다. 본 연구는 이러한 한계를 보완하기 위해 기존의 알고리듬 보다 의미 자질을 폭 넓게 고려할 수 있는 Word2Vec 기법을 적용하였다. 또한 한국어 품사 중 형용사를 감정을 표현하는 '감정어휘'로 분류하고, Word2Vec 모델을 통해 추출된 감정어휘의 연관어 중 명사를 해당 감정을 유발하는 요인이라고 정의하여 이 전체 과정을 'Emotion Trigger'라 명명하였다. 본 연구는 사례 연구(case study)로 사회적 이슈가 된 세 직업군(교수, 검사, 의사)의 특정 사건들을 연구 대상으로 선정하고, 이 사건들에 대한 대중들의 인식에 대해 분석하고자 한다. 특정 사건들에 대한 일반 여론과 직접적으로 표출된 개인 의견 모두를 고려하기 위하여 뉴스(news), 블로그(blog), 트위터(twitter)를 데이터 수집 대상으로 선정하였고, 수집된 데이터는 유의미한 연구 결과를 보여줄 수 있을 정도로 그 규모가 크며, 추후 다양한 연구가 가능한 시계열(time series) 데이터이다. 본 연구의 의의는 키워드(keyword)간의 관계를 밝힘에 있어, 기존 감성 분석의 한계를 극복하기 위해 Word2Vec 기법을 적용하여 의미론적 요소를 결합했다는 점이다. 그 과정에서 감정을 유발하는 Emotion Trigger를 찾아낼 수 있었으며, 이는 사회적 이슈에 대한 일반 대중의 반응을 파악하고, 그 원인을 찾아 사회적 문제를 해결하는데 도움이 될 수 있을 것이다.

국방 온톨로지를 통한 지능형 의사결정지원시스템 구축 및 활용 - 공군 군수상황관리체계 적용 사례 (Construction and Application of Intelligent Decision Support System through Defense Ontology - Application example of Air Force Logistics Situation Management System)

  • 조원기;김학진
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.77-97
    • /
    • 2019
  • 제 4차 산업혁명의 초연결 환경에서 발생하는 많은 양의 데이터는 제 4차 산업혁명을 기존의 생산 환경과 구분지어 주는 주요한 요소이다. 이러한 환경은 데이터를 필요로 하는 동시에 데이터를 생산하는 양면적인 특징을 가진다. 때문에 앞으로의 정보 시스템은 기존의 정보시스템보다 양적인 측면에서 더 많은 데이터를 처리해야 하며, 질적인 측면에서는 많은 데이터 중 사용자의 목적에 부합하는 목표 데이터만을 추출하는 능력이 요구된다. 작은 규모의 정보 시스템에서는 사람이 그 시스템을 정확히 이해하고 필요한 정보를 획득하는 것이 가능하지만, 시스템에 대해 정확한 이해가 어려워진 다양하고 복잡한 시스템에서는 원하는 정보를 획득하는 것이 점점 더 어려워진다. 이러한 문제는 데이터를 사람뿐 아니라 컴퓨터가 이해할 수 있는 온톨로지로 표현하여 다양한 정보처리가 가능하도록 하는 시맨틱 웹(Semantic Web) 구축이 해결책이 될 수 있다. 군에서도 현재 대부분의 업무가 정보 시스템을 통해 이루어지고 있는데, 정보의 입력이나 가공 등 단순처리 중심으로 구축된 기존 시스템이 점점 더 많은 양의 데이터를 포함하게 되면서 시스템을 쉽게 활용하기 위한 노력이 필요한 상황이다. 본 연구에서는 온톨로지를 통한 지능형 의사결정지원시스템의 예로 온톨로지 기반 군수상황관리체계를 제안하고자 한다. 온톨로지 기반 군수상황관리체계는 기존의 군수정보체계의 복잡한 정보를 직관적으로 보여주기 위해 구축된 군수상황관리체계를 온톨로지를 통해 구축하였으며, 성과기반군수지원 계약관리, 부품사전 등의 유용한 기능을 추가 식별하여 온톨로지에 포함하였다. 또한 구축된 온톨로지가 의사결정지원에 활용할 수 있는지를 확인하기 위해 시맨틱 웹 기술을 통해 기본적인 질의응답은 물론 추론 및 함수를 통한 분석기능을 구현하였다.

문장 분류를 위한 정보 이득 및 유사도에 따른 단어 제거와 선택적 단어 임베딩 방안 (Selective Word Embedding for Sentence Classification by Considering Information Gain and Word Similarity)

  • 이민석;양석우;이홍주
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.105-122
    • /
    • 2019
  • 텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다. 사전에 정의된 단어의 긍정 및 부정 점수에 따라 단어의 임베딩을 수정하는 방법 또한 시도하였다. 본 연구는 문장 분류 문제에 대해 선택적 단어 제거를 수행하고 임베딩을 적용하여 문장 분류 정확도를 향상시키는 방안을 제안한다. 텍스트 데이터에서 정보 이득 값이 낮은 단어들을 제거하고 단어 임베딩을 적용하는 방식과, 정보이득 값이 낮은 단어와 코사인 유사도가 높은 주변 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 단어 임베딩을 재구성하는 방식이다. 본 연구에서 제안하는 방안을 수행함에 있어 데이터는 Amazon.com의 'Kindle' 제품에 대한 고객리뷰, IMDB의 영화리뷰, Yelp의 사용자 리뷰를 사용하였다. Amazon.com의 리뷰 데이터는 유용한 득표수가 5개 이상을 만족하고, 전체 득표 중 유용한 득표의 비율이 70% 이상인 리뷰에 대해 유용한 리뷰라고 판단하였다. Yelp의 경우는 유용한 득표수가 5개 이상인 리뷰 약 75만개 중 10만개를 무작위 추출하였다. 학습에 사용한 딥러닝 모델은 CNN, Attention-Based Bidirectional LSTM을 사용하였고, 단어 임베딩은 Word2Vec과 GloVe를 사용하였다. 단어 제거를 수행하지 않고 Word2Vec 및 GloVe 임베딩을 적용한 경우와 본 연구에서 제안하는 선택적으로 단어 제거를 수행하고 Word2Vec 임베딩을 적용한 경우를 비교하여 통계적 유의성을 검정하였다.

딥러닝 기반 옥수수 포장의 잡초 면적 평가 (Deep Learning Approaches for Accurate Weed Area Assessment in Maize Fields)

  • 박혁진;권동원;상완규;반호영;장성율;백재경;이윤호;임우진;서명철;조정일
    • 한국농림기상학회지
    • /
    • 제25권1호
    • /
    • pp.17-27
    • /
    • 2023
  • 포장에서 잡초의 발생은 농작물의 생산량을 크게 떨어트리는 원인 중 하나이고 SSWM을 기반으로 잡초를 변량 방제하기 위해서 잡초의 발생 위치, 밀도 그리고 이를 정량화하는 것은 필수적이다. 본 연구에서는 2020년의 국립식량과학원에서 잡초 피해를 입은 옥수수 포장의 영상데이터를 무인항공기를 활용해서 수집하였고 이를 배경과 옥수수로 분리하여 딥러닝 기반 영상 분할 모델 제작을 위한 학습데이터를 획득하였다. DeepLabV3+, U-Net, Linknet, FPN의 4가지의 영상 분할 네트워크들의 옥수수의 검출 정확도를 평가하기 위해 픽셀정확도, mIOU, 정밀도, 재현성의 지표를 활용해서 정확도를 검증하였다. 검증 결과 DeepLabV3+ 모델이 0.76으로 가장 높은 mIOU를 나타냈고, 해당 모델과 식물체의 녹색 영역과 배경을 분리하는 지수인 ExGR을 활용해서 잡초의 면적을 정량화, 시각화하였다. 이러한 연구의 결과는 무인항공기로 촬영된 영상을 활용해서 넓은 면적의 옥수수 포장에서 빠르게 잡초의 위치와 밀도를 특정하고 정량화하는 것으로 잡초의 밀도에 따른 제초제의 변량 방제를 위한 의사결정에 도움이 될 것으로 기대한다.

텍스트 마이닝 기법을 활용한 고전 추리 소설 작가 간 문체적 차이와 문체 구조에 대한 연구 (A study on detective story authors' style differentiation and style structure based on Text Mining)

  • 문석형;강주영
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.89-115
    • /
    • 2019
  • 본 연구는 고전 추리 소설 작가로 유명한 아서 코난 도일과 애거서 크리스티의 문체적 차이점을 데이터 분석을 통해 제시하고, 나아가 텍스트 마이닝에 입각한 문체 연구의 해석적 방법론을 제시하고자 시행되었다. 추리 소설의 핵심 요소인 사건과 인물에 더해 작가의 문법적인 집필 방식을 문체로 정의하고 분석을 시도하였다. 작가 별로 각 2권, 총 4권의 책을 선정하였으며 문장 단위로 텍스트를 나누어 데이터를 확보하였다. 각 문장에 따른 감성 점수를 부여한 뒤 페이지 진행에 따른 감성을 시각화하였으며, 페이지에 따라 토픽 모델링을 적용하여 소설 속 사건 진행 흐름을 파악할 수 있었다. 동시 발생 매트릭스(co-occurrence matrix)를 구성하고 네트워크 분석(Network Analysis)을 시행함으로써 사건이 진행되는 과정에서 인물들 간 관계의 변화를 확인할 수 있었다. 또한 전체 문장을 총 6가지 문체를 기준으로 문법적인 체계를 나누어 작가 간, 그리고 작품 간 집필 방식의 차이점을 확인하였다. 이러한 일련의 연구 과정은 문체에 대한 이해를 바탕으로 글 전체의 맥락을 파악할 수 있도록 도움을 줄 수 있으며, 나아가 기존에 개별적으로 진행되었던 문체 연구를 통합시킴으로써 문체 구조에 대한 이해를 도울 수 있다. 그리고 이러한 선행된 이해를 통해 온라인 텍스트를 비롯한 비정형 데이터 속 문체의 존재를 발견하고 구체화하는 작업에 기여할 수 있다. 뉴미디어를 포함한 온라인 텍스트를 심도 있게 분석하고자 하는 시도가 증가하고 있는 상황에서 해당 연구들과 연계를 통해 보다 의미 있는 온라인 텍스트 분석에 기여할 것으로 기대된다.

뉴럴 텐서 네트워크 기반 주식 개별종목 지식개체명 추출 방법에 관한 연구 (A Study on Knowledge Entity Extraction Method for Individual Stocks Based on Neural Tensor Network)

  • 양윤석;이현준;오경주
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.25-38
    • /
    • 2019
  • 정보화 시대의 넘쳐나는 콘텐츠들 속에서 사용자의 관심과 요구에 맞는 양질의 정보를 선별해내는 과정은 세대를 거듭할수록 더욱 중요해지고 있다. 정보의 홍수 속에서 사용자의 정보 요구를 단순한 문자열로 인식하지 않고, 의미적으로 파악하여 검색결과에 사용자 의도를 더 정확하게 반영하고자 하는 노력이 이루어지고 있다. 구글이나 마이크로소프트와 같은 대형 IT 기업들도 시멘틱 기술을 기반으로 사용자에게 만족도와 편의성을 제공하는 검색엔진 및 지식기반기술의 개발에 집중하고 있다. 특히 금융 분야는 끊임없이 방대한 새로운 정보가 발생하며 초기의 정보일수록 큰 가치를 지녀 텍스트 데이터 분석과 관련된 연구의 효용성과 발전 가능성이 기대되는 분야 중 하나이다. 따라서, 본 연구는 주식 관련 정보검색의 시멘틱 성능을 향상시키기 위해 주식 개별종목을 대상으로 뉴럴 텐서 네트워크를 활용한 지식 개체명 추출과 이에 대한 성능평가를 시도하고자 한다. 뉴럴 텐서 네트워크 관련 기존 주요 연구들이 추론을 통해 지식 개체명들 사이의 관계 탐색을 주로 목표로 하였다면, 본 연구는 주식 개별종목과 관련이 있는 지식 개체명 자체의 추출을 주목적으로 한다. 기존 관련 연구의 문제점들을 해결하고 모형의 실효성과 현실성을 높이기 위한 다양한 데이터 처리 방법이 모형설계 과정에서 적용되며, 객관적인 성능 평가를 위한 실증 분석 결과와 분석 내용을 제시한다. 2017년 5월 30일부터 2018년 5월 21일 사이에 발생한 전문가 리포트를 대상으로 실증 분석을 진행한 결과, 제시된 모형을 통해 추출된 개체명들은 개별종목이 이름을 약 69% 정확도로 예측하였다. 이러한 결과는 본 연구에서 제시하는 모형의 활용 가능성을 보여주고 있으며, 후속 연구와 모형 개선을 통한 성과의 제고가 가능하다는 것을 의미한다. 마지막으로 종목명 예측 테스트를 통해 본 연구에서 제시한 학습 방법이 새로운 텍스트 정보를 의미적으로 접근하여 관련주식 종목과 매칭시키는 목적으로 사용될 수 있는 가능성을 확인하였다.

단순 RDF 메시지의 온톨로지 상호 운용성을 위한 변환 규칙들의 연쇄 조합 (Cascade Composition of Translation Rules for the Ontology Interoperability of Simple RDF Message)

  • 김재훈;박석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권6호
    • /
    • pp.528-545
    • /
    • 2007
  • 최근 모바일과 유비쿼터스 컴퓨팅에서 보다 지능적인 다양한 서비스를 제공하고자 하는 비즈니스 전략과 함께 온톨로지 기술이 큰 관심이 되고 있다. 온톨로지를 이용하는 응용 도메인에서의 본질적 문제점은 모든 영역 구성원, 에이전트, 응용 프로그램이 온톨로지에서 정의된 동일 개념을 공유해야 하는 것이다. 하지만, 다양한 제조업자에 의해서 만들어지는 다양한 모바일 디바이스, 센싱 디바이스, 네트워크 구성요소, 다양한 통신 사업자, 다양한 서비스 제공업자 들이 모여 이루어지는 모바일과 유비쿼터스 컴퓨팅 환경에서는 서로 상이한 온톨로지가 공존할 가능성이 높다. 이러한 의미적 상호 운용성의 문제를 해결하고자 했던 다수의 연구가 있다. 이를 크게 분류하면, 맵핑, 합병, 변환에 의한 방법들이다. 본 연구에서는 이러한 방법들 중 OntoMorph와 같이 상이한 온톨로지 데이타들 간에 변환 규칙을 직접 작성하여 사용하는 방법에 초점을 맞춘다. 하지만 이러한 변환 규칙을 수작업으로 직접 작성하는 방법은, 그 자체도 어려울뿐더러 N개의 온톨로지가 존재할 경우 최악의 경우 $O(N^2)$의 변환 규칙 작성 복잡도를 갖는다. 따라서 본 논문에서는 이러한 복잡도를 개선하기 위한, 웹의 개방성에 근거한 연쇄 조합 변환 규칙 생성의 개념을 소개한다. 연구 성과는 변환 규칙의 변환의 신속성, 변환의 적합성, 변환 규칙 작성의 용이성 등의 중요한 평가 요소를 도출할 수 있었으며, 몇 가지 실험 및 기존 연구와의 비교 분석을 통하여 제안된 방법이 신속성과 정확성을 보장하면서 보다 높은 용이성을 가짐을 확인할 수 있었다.

교육용 어학 영상의 내용 기반 특징 분석에 의한 샷 구분 및 색인에 대한 연구 (A Study on Shot Segmentation and Indexing of Language Education Videos by Content-based Visual Feature Analysis)

  • 한희준
    • 정보관리학회지
    • /
    • 제34권1호
    • /
    • pp.219-239
    • /
    • 2017
  • IT기술이 급속히 발달하고 스마트 기기의 개인보급이 늘어나면서 정보의 전달 매체로 시청각 자료 중에서도 특히 영상 자료가 많이 활용된다. 문헌정보서비스 콘텐츠로서 영상자료는 필수 요소가 되었으며, TV를 통한 단방향 전달, 인터넷을 통한 양방향 서비스, 도서관 시청각 자료 대출 등 다양한 방법으로 활용되고 있다. 특히 인터넷 환경에서 스마트 기기를 통한 영상서비스 관점에서 정보 제공자는 제공 정보에 대한 가공에 적은 노력과 비용을 들이고자 하고, 또한 사용자는 과도한 데이터 사용량에 대한 부담과 시간, 공간적인 제약으로 인해 원하는 부분만을 효율적으로 이용하고자 한다. 따라서 영상에 대한 내용을 유사한 부분끼리 자동으로 구분하고 요약, 색인하여 이용 편의성을 높일 필요가 있다. 본 논문에서는 교육용 어학 영상의 내용과 그 특성을 분석하여 영상을 이루는 샷을 자동으로 구분하고 비주얼 특징을 조합하여 어학 영상의 세분화된 내용 정보를 결정하고 색인하는 방법을 제안한다. 외국어 강의 영상을 이용한 실험에 의해 의미기반의 샷 결정에 높은 정확률을 보였으며, 교육용 어학 영상의 요약 서비스에 효율적으로 적용 가능함을 확인하였다.

토픽맵과 카산드라를 이용한 그래프 구조와 트랜잭션 동시 처리 기법 (Technique for Concurrent Processing Graph Structure and Transaction Using Topic Maps and Cassandra)

  • 신재현
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제1권3호
    • /
    • pp.159-168
    • /
    • 2012
  • SNS, 클라우드, Web3.0과 같은 새로운 IT환경은 '관계(relation)'가 중요한 요소가 되고 있다. 그리고 이들 관계(relation)는 거래, 즉, 트랜잭션을 발생시킨다. 그러나 우리가 사용하고 있는 관계형 데이터베이스(RDBMS)나 그래프 데이터베이스는 관계(relation)를 나타내는 그래프 구조와 트랜잭션을 동시에 처리하지 못한다. 본 논문은 확장 가능한 복잡 네트워크 시스템에서 활용할 수 있는 그래프 구조와 트랜잭션을 동시에 처리할 수 있는 방법을 제안한다. 제안 기법은 토픽맵의 데이터 모델을 응용하여 그래프 구조와 트랜잭션을 동시에 저장하고 탐색한다. 토픽맵은 시멘틱 웹(Web3.0)을 구현하는 온톨로지 언어 중 하나로써, 정보자원들 사이의 연관 '관계(relation)'를 통해 정보의 네비게이터로써 활용되고 있다. 또한 본 논문에서는 컬럼형 데이터베이스인 카산드라를 이용하여 제안 기법의 아키텍처를 설계, 구현하였다. 이는 분산처리를 이용하여 빅데이터 레벨의 데이터까지 처리할 수 있도록 하기 위함이다. 마지막으로 대표적인 RDBMS인 오라클과 제안 기법을 동일한 데이터 소스, 동일한 질문에 대해 저장 및 질의를 하는 과정을 실험으로 보였다. 이는 조인(join) 없이 관계(relation)를 표현함으로써 RDBMS의 역할까지 충분히 대체 가능함을 보이고자 한다.

이동 데이타베이스 시스템에서 데이타의 위치와 영역 특성을 고려한 캐쉬 교체 기법 (Cache Replacement Strategies considering Location and Region Properties of Data in Mobile Database Systems)

  • 김호숙;용환승
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제27권1호
    • /
    • pp.53-63
    • /
    • 2000
  • 최근 저가의 무선 통신 기술의 발달과 고성능 이동 컴퓨팅 장비의 보급에 따라 이동 컴퓨팅 시장은 점차로 확대되는 추세에 있다. 이동 컴퓨팅 환경에서의 제한된 대역폭, 잦은 단절과 배터리 제한 등의 제약성에 효율적으로 대처하기 위하여 여러 방법이 제안되었고, 특히 지구국에서 전송된 데이타 중 향후 사용 가능성이 높은 데이타를 캐쉬에 저장하고 이용하는 캐쉬 기법에 대한 많은 연구가 이루어지고 있다. 그러나 기존의 캐쉬 교체 기법들은 사용자의 이동성과 데이타의 공간 속성에 의한 특성을 고려하지 못하고 있기 때문에 그 효율성에서 한계를 가지고 있다. 본 논문은 이동 호스트의 위치 변화에 따라 이동 호스트의 캐쉬 내에 저장된 데이타의 가치와 의미가 변경되는 것을 보인다. 또한 지리(geographic) 데이타의 공간적 위치(location)와 지리 데이타가 영향을 미치는 공간적 범위 즉 영역 (region)을 데이타의 공간 속성 (spatial attributes)으로 정의하고, 시간에 따른 사용자의 이동성과 데이타의 공간 속성을 효과적으로 지원하는 새로운 캐쉬 교체 방법들을 제안하였다. 기존의 방법과 본 논문에서 제안한 캐쉬 교체 방법의 비교를 통하여 이동 호스트의 위치와 연관된 질의에 대한 성능 평가를 수행한 결과, 본 논문에서 제안한 캐쉬 교체 방법에 의한 캐쉬 적중률의 향상을 입증하였다. 또한 데이타 밀집도에 따라 캐쉬 교체 방법들의 성능이 변화함을 밝히고 이를 이용하여 이동 호스트가 지나가는 대상 지역의 데이타 밀집도에 따라 서로 다른 캐쉬 교체 방법의 선택이 필요함을 제시 하였다.

  • PDF