• 제목/요약/키워드: semantic network

검색결과 733건 처리시간 0.039초

문장 분류를 위한 정보 이득 및 유사도에 따른 단어 제거와 선택적 단어 임베딩 방안 (Selective Word Embedding for Sentence Classification by Considering Information Gain and Word Similarity)

  • 이민석;양석우;이홍주
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.105-122
    • /
    • 2019
  • 텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다. 사전에 정의된 단어의 긍정 및 부정 점수에 따라 단어의 임베딩을 수정하는 방법 또한 시도하였다. 본 연구는 문장 분류 문제에 대해 선택적 단어 제거를 수행하고 임베딩을 적용하여 문장 분류 정확도를 향상시키는 방안을 제안한다. 텍스트 데이터에서 정보 이득 값이 낮은 단어들을 제거하고 단어 임베딩을 적용하는 방식과, 정보이득 값이 낮은 단어와 코사인 유사도가 높은 주변 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 단어 임베딩을 재구성하는 방식이다. 본 연구에서 제안하는 방안을 수행함에 있어 데이터는 Amazon.com의 'Kindle' 제품에 대한 고객리뷰, IMDB의 영화리뷰, Yelp의 사용자 리뷰를 사용하였다. Amazon.com의 리뷰 데이터는 유용한 득표수가 5개 이상을 만족하고, 전체 득표 중 유용한 득표의 비율이 70% 이상인 리뷰에 대해 유용한 리뷰라고 판단하였다. Yelp의 경우는 유용한 득표수가 5개 이상인 리뷰 약 75만개 중 10만개를 무작위 추출하였다. 학습에 사용한 딥러닝 모델은 CNN, Attention-Based Bidirectional LSTM을 사용하였고, 단어 임베딩은 Word2Vec과 GloVe를 사용하였다. 단어 제거를 수행하지 않고 Word2Vec 및 GloVe 임베딩을 적용한 경우와 본 연구에서 제안하는 선택적으로 단어 제거를 수행하고 Word2Vec 임베딩을 적용한 경우를 비교하여 통계적 유의성을 검정하였다.

딥러닝 기반 옥수수 포장의 잡초 면적 평가 (Deep Learning Approaches for Accurate Weed Area Assessment in Maize Fields)

  • 박혁진;권동원;상완규;반호영;장성율;백재경;이윤호;임우진;서명철;조정일
    • 한국농림기상학회지
    • /
    • 제25권1호
    • /
    • pp.17-27
    • /
    • 2023
  • 포장에서 잡초의 발생은 농작물의 생산량을 크게 떨어트리는 원인 중 하나이고 SSWM을 기반으로 잡초를 변량 방제하기 위해서 잡초의 발생 위치, 밀도 그리고 이를 정량화하는 것은 필수적이다. 본 연구에서는 2020년의 국립식량과학원에서 잡초 피해를 입은 옥수수 포장의 영상데이터를 무인항공기를 활용해서 수집하였고 이를 배경과 옥수수로 분리하여 딥러닝 기반 영상 분할 모델 제작을 위한 학습데이터를 획득하였다. DeepLabV3+, U-Net, Linknet, FPN의 4가지의 영상 분할 네트워크들의 옥수수의 검출 정확도를 평가하기 위해 픽셀정확도, mIOU, 정밀도, 재현성의 지표를 활용해서 정확도를 검증하였다. 검증 결과 DeepLabV3+ 모델이 0.76으로 가장 높은 mIOU를 나타냈고, 해당 모델과 식물체의 녹색 영역과 배경을 분리하는 지수인 ExGR을 활용해서 잡초의 면적을 정량화, 시각화하였다. 이러한 연구의 결과는 무인항공기로 촬영된 영상을 활용해서 넓은 면적의 옥수수 포장에서 빠르게 잡초의 위치와 밀도를 특정하고 정량화하는 것으로 잡초의 밀도에 따른 제초제의 변량 방제를 위한 의사결정에 도움이 될 것으로 기대한다.

텍스트 마이닝 기법을 활용한 고전 추리 소설 작가 간 문체적 차이와 문체 구조에 대한 연구 (A study on detective story authors' style differentiation and style structure based on Text Mining)

  • 문석형;강주영
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.89-115
    • /
    • 2019
  • 본 연구는 고전 추리 소설 작가로 유명한 아서 코난 도일과 애거서 크리스티의 문체적 차이점을 데이터 분석을 통해 제시하고, 나아가 텍스트 마이닝에 입각한 문체 연구의 해석적 방법론을 제시하고자 시행되었다. 추리 소설의 핵심 요소인 사건과 인물에 더해 작가의 문법적인 집필 방식을 문체로 정의하고 분석을 시도하였다. 작가 별로 각 2권, 총 4권의 책을 선정하였으며 문장 단위로 텍스트를 나누어 데이터를 확보하였다. 각 문장에 따른 감성 점수를 부여한 뒤 페이지 진행에 따른 감성을 시각화하였으며, 페이지에 따라 토픽 모델링을 적용하여 소설 속 사건 진행 흐름을 파악할 수 있었다. 동시 발생 매트릭스(co-occurrence matrix)를 구성하고 네트워크 분석(Network Analysis)을 시행함으로써 사건이 진행되는 과정에서 인물들 간 관계의 변화를 확인할 수 있었다. 또한 전체 문장을 총 6가지 문체를 기준으로 문법적인 체계를 나누어 작가 간, 그리고 작품 간 집필 방식의 차이점을 확인하였다. 이러한 일련의 연구 과정은 문체에 대한 이해를 바탕으로 글 전체의 맥락을 파악할 수 있도록 도움을 줄 수 있으며, 나아가 기존에 개별적으로 진행되었던 문체 연구를 통합시킴으로써 문체 구조에 대한 이해를 도울 수 있다. 그리고 이러한 선행된 이해를 통해 온라인 텍스트를 비롯한 비정형 데이터 속 문체의 존재를 발견하고 구체화하는 작업에 기여할 수 있다. 뉴미디어를 포함한 온라인 텍스트를 심도 있게 분석하고자 하는 시도가 증가하고 있는 상황에서 해당 연구들과 연계를 통해 보다 의미 있는 온라인 텍스트 분석에 기여할 것으로 기대된다.

뉴럴 텐서 네트워크 기반 주식 개별종목 지식개체명 추출 방법에 관한 연구 (A Study on Knowledge Entity Extraction Method for Individual Stocks Based on Neural Tensor Network)

  • 양윤석;이현준;오경주
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.25-38
    • /
    • 2019
  • 정보화 시대의 넘쳐나는 콘텐츠들 속에서 사용자의 관심과 요구에 맞는 양질의 정보를 선별해내는 과정은 세대를 거듭할수록 더욱 중요해지고 있다. 정보의 홍수 속에서 사용자의 정보 요구를 단순한 문자열로 인식하지 않고, 의미적으로 파악하여 검색결과에 사용자 의도를 더 정확하게 반영하고자 하는 노력이 이루어지고 있다. 구글이나 마이크로소프트와 같은 대형 IT 기업들도 시멘틱 기술을 기반으로 사용자에게 만족도와 편의성을 제공하는 검색엔진 및 지식기반기술의 개발에 집중하고 있다. 특히 금융 분야는 끊임없이 방대한 새로운 정보가 발생하며 초기의 정보일수록 큰 가치를 지녀 텍스트 데이터 분석과 관련된 연구의 효용성과 발전 가능성이 기대되는 분야 중 하나이다. 따라서, 본 연구는 주식 관련 정보검색의 시멘틱 성능을 향상시키기 위해 주식 개별종목을 대상으로 뉴럴 텐서 네트워크를 활용한 지식 개체명 추출과 이에 대한 성능평가를 시도하고자 한다. 뉴럴 텐서 네트워크 관련 기존 주요 연구들이 추론을 통해 지식 개체명들 사이의 관계 탐색을 주로 목표로 하였다면, 본 연구는 주식 개별종목과 관련이 있는 지식 개체명 자체의 추출을 주목적으로 한다. 기존 관련 연구의 문제점들을 해결하고 모형의 실효성과 현실성을 높이기 위한 다양한 데이터 처리 방법이 모형설계 과정에서 적용되며, 객관적인 성능 평가를 위한 실증 분석 결과와 분석 내용을 제시한다. 2017년 5월 30일부터 2018년 5월 21일 사이에 발생한 전문가 리포트를 대상으로 실증 분석을 진행한 결과, 제시된 모형을 통해 추출된 개체명들은 개별종목이 이름을 약 69% 정확도로 예측하였다. 이러한 결과는 본 연구에서 제시하는 모형의 활용 가능성을 보여주고 있으며, 후속 연구와 모형 개선을 통한 성과의 제고가 가능하다는 것을 의미한다. 마지막으로 종목명 예측 테스트를 통해 본 연구에서 제시한 학습 방법이 새로운 텍스트 정보를 의미적으로 접근하여 관련주식 종목과 매칭시키는 목적으로 사용될 수 있는 가능성을 확인하였다.

단순 RDF 메시지의 온톨로지 상호 운용성을 위한 변환 규칙들의 연쇄 조합 (Cascade Composition of Translation Rules for the Ontology Interoperability of Simple RDF Message)

  • 김재훈;박석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권6호
    • /
    • pp.528-545
    • /
    • 2007
  • 최근 모바일과 유비쿼터스 컴퓨팅에서 보다 지능적인 다양한 서비스를 제공하고자 하는 비즈니스 전략과 함께 온톨로지 기술이 큰 관심이 되고 있다. 온톨로지를 이용하는 응용 도메인에서의 본질적 문제점은 모든 영역 구성원, 에이전트, 응용 프로그램이 온톨로지에서 정의된 동일 개념을 공유해야 하는 것이다. 하지만, 다양한 제조업자에 의해서 만들어지는 다양한 모바일 디바이스, 센싱 디바이스, 네트워크 구성요소, 다양한 통신 사업자, 다양한 서비스 제공업자 들이 모여 이루어지는 모바일과 유비쿼터스 컴퓨팅 환경에서는 서로 상이한 온톨로지가 공존할 가능성이 높다. 이러한 의미적 상호 운용성의 문제를 해결하고자 했던 다수의 연구가 있다. 이를 크게 분류하면, 맵핑, 합병, 변환에 의한 방법들이다. 본 연구에서는 이러한 방법들 중 OntoMorph와 같이 상이한 온톨로지 데이타들 간에 변환 규칙을 직접 작성하여 사용하는 방법에 초점을 맞춘다. 하지만 이러한 변환 규칙을 수작업으로 직접 작성하는 방법은, 그 자체도 어려울뿐더러 N개의 온톨로지가 존재할 경우 최악의 경우 $O(N^2)$의 변환 규칙 작성 복잡도를 갖는다. 따라서 본 논문에서는 이러한 복잡도를 개선하기 위한, 웹의 개방성에 근거한 연쇄 조합 변환 규칙 생성의 개념을 소개한다. 연구 성과는 변환 규칙의 변환의 신속성, 변환의 적합성, 변환 규칙 작성의 용이성 등의 중요한 평가 요소를 도출할 수 있었으며, 몇 가지 실험 및 기존 연구와의 비교 분석을 통하여 제안된 방법이 신속성과 정확성을 보장하면서 보다 높은 용이성을 가짐을 확인할 수 있었다.

교육용 어학 영상의 내용 기반 특징 분석에 의한 샷 구분 및 색인에 대한 연구 (A Study on Shot Segmentation and Indexing of Language Education Videos by Content-based Visual Feature Analysis)

  • 한희준
    • 정보관리학회지
    • /
    • 제34권1호
    • /
    • pp.219-239
    • /
    • 2017
  • IT기술이 급속히 발달하고 스마트 기기의 개인보급이 늘어나면서 정보의 전달 매체로 시청각 자료 중에서도 특히 영상 자료가 많이 활용된다. 문헌정보서비스 콘텐츠로서 영상자료는 필수 요소가 되었으며, TV를 통한 단방향 전달, 인터넷을 통한 양방향 서비스, 도서관 시청각 자료 대출 등 다양한 방법으로 활용되고 있다. 특히 인터넷 환경에서 스마트 기기를 통한 영상서비스 관점에서 정보 제공자는 제공 정보에 대한 가공에 적은 노력과 비용을 들이고자 하고, 또한 사용자는 과도한 데이터 사용량에 대한 부담과 시간, 공간적인 제약으로 인해 원하는 부분만을 효율적으로 이용하고자 한다. 따라서 영상에 대한 내용을 유사한 부분끼리 자동으로 구분하고 요약, 색인하여 이용 편의성을 높일 필요가 있다. 본 논문에서는 교육용 어학 영상의 내용과 그 특성을 분석하여 영상을 이루는 샷을 자동으로 구분하고 비주얼 특징을 조합하여 어학 영상의 세분화된 내용 정보를 결정하고 색인하는 방법을 제안한다. 외국어 강의 영상을 이용한 실험에 의해 의미기반의 샷 결정에 높은 정확률을 보였으며, 교육용 어학 영상의 요약 서비스에 효율적으로 적용 가능함을 확인하였다.

토픽맵과 카산드라를 이용한 그래프 구조와 트랜잭션 동시 처리 기법 (Technique for Concurrent Processing Graph Structure and Transaction Using Topic Maps and Cassandra)

  • 신재현
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제1권3호
    • /
    • pp.159-168
    • /
    • 2012
  • SNS, 클라우드, Web3.0과 같은 새로운 IT환경은 '관계(relation)'가 중요한 요소가 되고 있다. 그리고 이들 관계(relation)는 거래, 즉, 트랜잭션을 발생시킨다. 그러나 우리가 사용하고 있는 관계형 데이터베이스(RDBMS)나 그래프 데이터베이스는 관계(relation)를 나타내는 그래프 구조와 트랜잭션을 동시에 처리하지 못한다. 본 논문은 확장 가능한 복잡 네트워크 시스템에서 활용할 수 있는 그래프 구조와 트랜잭션을 동시에 처리할 수 있는 방법을 제안한다. 제안 기법은 토픽맵의 데이터 모델을 응용하여 그래프 구조와 트랜잭션을 동시에 저장하고 탐색한다. 토픽맵은 시멘틱 웹(Web3.0)을 구현하는 온톨로지 언어 중 하나로써, 정보자원들 사이의 연관 '관계(relation)'를 통해 정보의 네비게이터로써 활용되고 있다. 또한 본 논문에서는 컬럼형 데이터베이스인 카산드라를 이용하여 제안 기법의 아키텍처를 설계, 구현하였다. 이는 분산처리를 이용하여 빅데이터 레벨의 데이터까지 처리할 수 있도록 하기 위함이다. 마지막으로 대표적인 RDBMS인 오라클과 제안 기법을 동일한 데이터 소스, 동일한 질문에 대해 저장 및 질의를 하는 과정을 실험으로 보였다. 이는 조인(join) 없이 관계(relation)를 표현함으로써 RDBMS의 역할까지 충분히 대체 가능함을 보이고자 한다.

생명 현상에 대한 과학적 가설 생성과 수리 연산에서 나타나는 두뇌 활성: fMRI 연구 (Brain Activation in Generating Hypothesis about Biological Phenomena and the Processing of Mental Arithmetic: An fMRI Study)

  • 권용주;신동훈;이준기;양일호
    • 한국과학교육학회지
    • /
    • 제27권1호
    • /
    • pp.93-104
    • /
    • 2007
  • 이 연구의 목적은 과학적 가설 생성 과정의 두뇌 활성화 특성을 수리 연산 과정과 비교하여 3.0T fMRI를 이용하여 규명하는 것이다. 이를 위하여 16명의 건강한 남자 피험자가 실험에 자발적으로 참여하였으며, 과학적 가설 생성 과제와 수리 연산 과제를 684초 동안 수행하여 fMRI 영상을 측정하였다. 측정한 후 언어적 보고 자료를 수집하여 fMRI 영상 자료의 신뢰도를 확보하였다. 언어적 보고의 분석 결과 수집한 fMRI 영상 자료 전부를 통계적 분석 대상 자료에 포함시켰다. SPM2 프로그램을 이용하여 통계적으로 분석한 결과, 과학적 가설 생성 과정은 수리 연산 과정과 다른 독립적인 두뇌 네트 을 가지고 있는 것으로 나타났다. 과학적 가설 생성 과정에서는 측두엽의 방추이랑(fusiform gyrus)에서 의문 상황 분석으로 이끌어내진 의미가 전두엽에서 부호화하는 과정이 일어난다고 할 수 있다. 수리 연산 과정은 전두엽과 두정엽의 연합된 영역이 중요한 역할을 하며 기능적 숙련도는 두정엽 영역이 관여하는 것으로 생각된다. 또한 과학적 가설 생성 과정에서는 과학적 감성의 생성도 동반하는 것으로 밝혀졌다. 이러한 연구 결과는 과학적 가설 생성 과정을 두뇌 과학적 측면에서 고찰 할 수 있도록 하였으며, 과학적 가설 생성 학습 프로그램 개발을 위한 기초 자료로 활용될 수 있을 것이다. 또한 과학적 가설 생성 학습 프로그램은 두뇌-기반 학습의 한 전형으로 제안할 수 있다.

이동 데이타베이스 시스템에서 데이타의 위치와 영역 특성을 고려한 캐쉬 교체 기법 (Cache Replacement Strategies considering Location and Region Properties of Data in Mobile Database Systems)

  • 김호숙;용환승
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제27권1호
    • /
    • pp.53-63
    • /
    • 2000
  • 최근 저가의 무선 통신 기술의 발달과 고성능 이동 컴퓨팅 장비의 보급에 따라 이동 컴퓨팅 시장은 점차로 확대되는 추세에 있다. 이동 컴퓨팅 환경에서의 제한된 대역폭, 잦은 단절과 배터리 제한 등의 제약성에 효율적으로 대처하기 위하여 여러 방법이 제안되었고, 특히 지구국에서 전송된 데이타 중 향후 사용 가능성이 높은 데이타를 캐쉬에 저장하고 이용하는 캐쉬 기법에 대한 많은 연구가 이루어지고 있다. 그러나 기존의 캐쉬 교체 기법들은 사용자의 이동성과 데이타의 공간 속성에 의한 특성을 고려하지 못하고 있기 때문에 그 효율성에서 한계를 가지고 있다. 본 논문은 이동 호스트의 위치 변화에 따라 이동 호스트의 캐쉬 내에 저장된 데이타의 가치와 의미가 변경되는 것을 보인다. 또한 지리(geographic) 데이타의 공간적 위치(location)와 지리 데이타가 영향을 미치는 공간적 범위 즉 영역 (region)을 데이타의 공간 속성 (spatial attributes)으로 정의하고, 시간에 따른 사용자의 이동성과 데이타의 공간 속성을 효과적으로 지원하는 새로운 캐쉬 교체 방법들을 제안하였다. 기존의 방법과 본 논문에서 제안한 캐쉬 교체 방법의 비교를 통하여 이동 호스트의 위치와 연관된 질의에 대한 성능 평가를 수행한 결과, 본 논문에서 제안한 캐쉬 교체 방법에 의한 캐쉬 적중률의 향상을 입증하였다. 또한 데이타 밀집도에 따라 캐쉬 교체 방법들의 성능이 변화함을 밝히고 이를 이용하여 이동 호스트가 지나가는 대상 지역의 데이타 밀집도에 따라 서로 다른 캐쉬 교체 방법의 선택이 필요함을 제시 하였다.

  • PDF

영유아 안전 관련 학술연구의 동향 및 내용 분석: 2010년~2017년 (Analysis on Trends and Contents of Research Related to Young Children's Safety)

  • 성미영;정현심;이서경
    • 한국콘텐츠학회논문지
    • /
    • 제18권6호
    • /
    • pp.504-517
    • /
    • 2018
  • 본 연구에서는 2010년부터 2017년까지 국내 KCI 등재지 및 등재후보지에 게재된 영유아 안전 관련 학술연구의 동향 및 내용을 분석하고자 하였다. 이를 위해 2010년부터 2017년까지 국내 KCI 등재지 및 등재후보지에 게재된 영유아 안전 관련 연구 총 75편을 분석대상으로 선정하였다. 논문은 SPSS Win 23.0 프로그램을 사용하여 빈도와 백분율, 카이검증을 사용해 분석하였다. 본 연구의 주요 결과는 첫째, 영유아 안전관련 논문은 2016년과 2017년 가장 많이 게재되었고, 영아 안전과 관련된 연구가 가장 적었다. 다음으로 연구유형은 41편의 논문이 실천연구로 나타났고, 기초연구, 기타 순이었다. 연구방법의 경우에는 절반 이상의 논문이 양적연구방법에 의해 수행된 것으로 나타났다. 주제어의 경향을 살펴본 결과, 안전교육, 안전지식, 안전사고 등의 주제어가 중요한 주제어로 제시되었다. 본 연구의 결과는 영유아 대상 안전사고가 빈번하게 발생하고 영유아 안전의 중요성이 더욱 강조되는 상황에서 영유아 안전 관련 연구 동향과 내용을 분석하여 안전교육의 필요성을 제시해주었다는 점에서 의의를 가지며, 안전 관련 후속연구에서 추가적인 연구가 필요한 재난안전과 같은 연구주제 탐색에 대한 기초자료를 제공하는 역할을 담당할 것으로 예측된다.