• 제목/요약/키워드: unstructured format

검색결과 37건 처리시간 0.024초

이기종 DBMS간 데이터 교환과 복제를 위한 XML 웹 에이전트 설계 및 구현 (Design and Implementation of XML Web Agent for Data Exchange and Replication between Heterogeneous DBMSs)

  • 유신영;이춘근;임재홍
    • 한국멀티미디어학회논문지
    • /
    • 제7권7호
    • /
    • pp.967-975
    • /
    • 2004
  • 오늘날 지식과 정보 교류의 기반이 인터넷으로 옮겨지면서 기업도 인터넷을 활용한 정보공유와 경제활동에 대한 요구가 증대되고 있다. 표현 위주의 하이퍼텍스트 마크업 언어(HTML : HyperText Markup Language)는 제한된 태그들을 사용하므로 문서를 구조화시키지 못하고 정보를 저장하거나 추출하는 방법이 비효율적이다. 반면에, 확장성 마크업 언어(XML : eXtensible Markup Language)는 사용자가 문서상에 사용될 태그를 정의할 수 있고 구조적인 데이터를 위해 만들어진 언어이므로 HTML에 비해 정보추출이 용이하다. 따라서 기업의 상업적인 데이터가 저장되어 있는 데이터베이스에서 필요한 데이터를 추출하여 웹에서 교환하기 위해서는 HTML보다는 XML이 더 적합하다. 본 논문에서는 이기종 데이터베이스 관리 시스템(DBMS : DataBase Management System)간의 데이터 관리와 XML 문서와 데이터베이스간의 정보 교환에 대하여 연구하고 XML을 매개물로 이용하여 이기종 DBMS간의 정보를 교환할 수 있는 웹 에이전트 시스템을 설계하고 구현하였다.

  • PDF

텍스트 마이닝 기법을 이용한 경찰청 업무 트렌드 분석 (Analysis of the National Police Agency business trends using text mining)

  • 선현석;임창원
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.301-317
    • /
    • 2019
  • 최근 통계적인 기법을 이용하여 대량으로 생산되고 있는 텍스트 데이터를 통해 다양한 인사이트 발굴을 하기 위한 연구가 활발히 진행되고 있다. 본 연구는 경찰청에서 생산하는 텍스트 데이터를 통해 연도별 경찰청의 업무 트렌드를 파악하고, 각 지방청별로 생산되는 문서에서 주요 키워드를 파악하여 지방청 간의 업무 특성을 비교하고자 하였다. 의미 있는 결론을 도출하기 위해 각 자료 특성에 맞는 전처리 과정을 시행하고 문서별 단어 빈도수를 계산하였다. 문서에 나타난 키워드의 단순 출현 빈도로는 해당 키워드가 문서에서 갖는 중요도를 설명하기 힘들기 때문에 단어-역문서 가중치를 이용하여 각 단어에 대한 빈도수를 새롭게 계산하였고 단어의 문서별 및 연도별 빈도 비교를 위해 L2 정규화 기법을 이용하였다. 이러한 분석은 향후 경찰청 업무 개선 정책에 새롭게 활용될 수 있는 기초 자료로 사용될 수 있으며, 경찰청 업무 효율성 향상 및 청내 업무 개선 수요 파악을 위한 방법으로 활용될 수 있다.

트윗의 타임 시퀀스를 활용한 DTM 분석 : 2019 남북미정상회동 이벤트를 중심으로 (Tweets analysis using a Dynamic Topic Modeling : Focusing on the 2019 Koreas-US DMZ Summit)

  • 고은지;최선영
    • 한국정보통신학회논문지
    • /
    • 제25권2호
    • /
    • pp.308-313
    • /
    • 2021
  • 이 연구는 2019년 판문점 남북미 정상 회동 트윗을 타임 시퀀스와 함께 수집하여 시퀀셜 토픽모델링인 DTM으로 분석하였다. 트위터와 같은 마이크로 블로깅 서비스는 단일 이벤트에 뉴스와 오피니언이 혼재된 비정형 데이터가 대규모로 동시에 발생하고, 정보와 반응이 동일 메시지 형식으로 생산된다. 때문에 토픽 트렌드를 파악하려면 시퀀셜 데이터의 특성을 반영하여 패턴 분석을 해야 맥락적 의미를 알 수 있다. 토픽 일관성 점수를 구해 LDA를 평가한 후 DTM을 계산한 결과, 뉴스 보도와 오피니언 관련 토픽 30개가 도출되었고, 각 토픽과 키워드는 시간에 따라 발생 확률이 역동적으로 진화하고 있었다. 결론적으로 DTM은 특정 이벤트에 대한 사회 전반에 나타난 통합적 토픽 추이를 시간에 따라 분석하는데 적합한 모델임을 밝혔다.

영화 비디오를 위한 클러스터링 기반의 계층적 장면 구조 구축 (Clustering-based Hierarchical Scene Structure Construction for Movie Videos)

  • 최익원;변혜란
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권5호
    • /
    • pp.529-542
    • /
    • 2000
  • 최근 들어 멀티 미디어 정보의 사용이 급격히 증가하면서, 여러 미디어 형태 중 비디오가 많은 각광을 받으며, 다른 타입의 모든 미디어 정보를 하나의 자료 흐름으로 묶고 있다. 디지털 비디오의 실용 가능성은 크게 증대되고 있으나 비디오의 방대한 길이와 비구조적 형식 때문에 효과적인 비디오의 접근은 어려운 실정이다. 따라서 최근에 개발되는 영상과 비디오 정보 관리 시스템은 본 논문에서 제안하는 사용자의 최소 상호 작용과 비디오 구조의 명확한 정의를 필요로 한다. 본 논문에서는 사용자가 쉽게 비디오 내용을 요약한 형태로 보고, 임의로 접근 할 수 있도록 클러스터링 기반 비디오 계층 구조 구축 시스템을 제시한다. 제안된 시스템은 크게 샷 경계면 검출과 계층 구조 구축 단계로 이루어진다. 샷 경계면 검출 단계에서는 복수 특징들을 추출하고, 이웃한 프레임 쌍들에 대한상호관계를 고려한 시간 적응적 필터링 기법을 이용하여 오판될 수 있는 왜곡 성분을 제거함으로써 성능을 향상시켰다. 처리된 복수 특징들은 임계치를 필요로 하지 않는 k-means 클러스터링의 입력으로 사용되어 샷 경계면을 검출한다. 결과인 순차적인 샷 리스트는 시간 지역성과 장면 구조를 효과적으로 모델링하는 특성을 가진 지능적 비감독 클러스터링 기법에 의해 계층 구조로 표현된다. 실험은 정적 영화 비디오와 동적 영화 비디오를 대상으로 수행하였으며, 샷 경계면 검출에서는 평균적으로 95%의 정확성을 보였으며 장면 경계면 검출을 하는 비디오 계층 구조 구축에서도 어느 정도 정확한 장면 경계면 검출 결과를 보였다.

  • PDF

Latent Dirichlet Allocation 기법을 활용한 해외건설시장 뉴스기사의 토픽 모델링(Topic Modeling) (Topic Modeling of News Article about International Construction Market Using Latent Dirichlet Allocation)

  • 문성현;정세환;지석호
    • 대한토목학회논문집
    • /
    • 제38권4호
    • /
    • pp.595-599
    • /
    • 2018
  • 해외건설 프로젝트를 기획하고 수행하는 과정에서 현지 시장의 상황을 신속하고 정확하게 파악하는 것은 수익성 창출에 매우 큰 영향을 미친다. 뉴스기사 데이터는 정치, 경제, 사회 등 다양한 관한 정보를 담고 있기 때문에 시장의 상황을 파악하는 데 사용할 수 있는 좋은 데이터이다. 텍스트의 형태로 존재하는 대량의 뉴스기사 데이터로부터 정보를 추출하고 내용을 요약하는 과정에서 인력, 비용, 시간의 소모를 줄이기 위해 텍스트마이닝 기술이 필요하다. 본 연구에서는 뉴스기사에 다양한 주제가 공존한다는 특성으로 인해 발생하는 정보 추출의 한계를 극복하기 위해 잠재 디리클레 할당(Latent Dirichlet Allocation) 방법론을 사용하여 토픽 모델링을 수행했다. 문서 집단에 존재하는 주제의 개수가 10개라고 가정했을 때, 이용자들의 편의 증진을 위한 프로젝트(2번 주제)와 아프리카 지역의 빈곤 문제를 해결하기 위한 민간 차원의 지원(4번 주제) 등의 주제 집단이 존재하는 것을 확인했다. 이와 같이 문서 집단의 주제를 구분함으로써 더욱 의미있는 정보를 추출하고, 요약 결과의 활용성을 높일 수 있다.

SNS감성 분석을 이용한 주가 방향성 예측: 네이버 주식토론방 데이터를 이용하여 (Stock Price Prediction Using Sentiment Analysis: from "Stock Discussion Room" in Naver)

  • 김명진;류지혜;차동호;심민규
    • 한국전자거래학회지
    • /
    • 제25권4호
    • /
    • pp.61-75
    • /
    • 2020
  • 주식의 가격을 이해하고 예측하기 위해서 활용되는 데이터의 범위는 기존의 정형화된 데이터에서 비정형화된 다양한 종류의 데이터로 확대되고 있다. 본 연구는 SNS에서 수집된 댓글 데이터가 주식의 미래 가격의 변동에 영향을 미치는지를 조사한다. 가장 많은 주식투자자가 참여하는 커뮤니티인 네이버 주식토론방에서 20개 종목에 대한 6개월 간의 댓글 데이터를 수집하여, 이들 데이터가 1시간 후의 가격 변동의 방향과 가격 변동의 폭에 대한 예측력을 가지는지 조사한다. 예측 관계는 LSTM과 CNN등의 딥뉴럴네트워크 기법을 활용하여 모델링하였다. 20개 종목에 대해 조사하여 13개 종목에서 미래의 주가 이동 방향을 50% 이상의 정확도로 예측할 수 있다는 결과를 얻었고, 16개 종목에서 미래의 주가 변동폭을 50% 이상의 정확도로 예측할 수 있다는 결과를 얻었다. 본 연구는 네이버 주식토론방과 같은 SNS에서 형성된 여론이 주식 종목의 수급에 영향을 주어 가격의 변동 요인으로도 작용할 수 있다는 점을 확인한다.

CNN-LSTM 조합모델을 이용한 영화리뷰 감성분석 (Sentiment Analysis of Movie Review Using Integrated CNN-LSTM Mode)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.141-154
    • /
    • 2019
  • 인터넷 기술과 소셜 미디어의 빠른 성장으로 인하여, 구조화되지 않은 문서 표현도 다양한 응용 프로그램에 사용할 수 있게 마이닝 기술이 발전되었다. 그 중 감성분석은 제품이나 서비스에 내재된 사용자의 감성을 탐지할 수 있는 분석방법이기 때문에 지난 몇 년 동안 많은 관심을 받아왔다. 감성분석에서는 주로 텍스트 데이터를 이용하여 사람들의 감성을 사전 정의된 긍정 및 부정의 범주를 할당하여 분석하며, 이때 사전 정의된 레이블을 이용하기 때문에 다양한 방향으로 연구가 진행되고 있다. 초기의 감성분석 연구에서는 쇼핑몰 상품의 리뷰 중심으로 진행되었지만, 최근에는 블로그, 뉴스기사, 날씨 예보, 영화 리뷰, SNS, 주식시장의 동향 등 다양한 분야에 적용되고 있다. 많은 선행연구들이 진행되어 왔으나 대부분 전통적인 단일 기계학습기법에 의존한 감성분류를 시도하였기에 분류 정확도 면에서 한계점이 있었다. 본 연구에서는 전통적인 기계학습기법 대신 대용량 데이터의 처리에 우수한 성능을 보이는 딥러닝 기법과 딥러닝 중 CNN과 LSTM의 조합모델을 이용하여 감성분석의 분류 정확도를 개선하고자 한다. 본 연구에서는 대표적인 영화 리뷰 데이터셋인 IMDB의 리뷰 데이터 셋을 이용하여, 감성분석의 극성분석을 긍정 및 부정으로 범주를 분류하고, 딥러닝과 제안하는 조합모델을 활용하여 극성분석의 예측 정확도를 개선하는 것을 목적으로 한다. 이 과정에서 여러 매개 변수가 존재하기 때문에 그 수치와 정밀도의 관계에 대해 고찰하여 최적의 조합을 찾아 정확도 등 감성분석의 성능 개선을 시도한다. 연구 결과, 딥러닝 기반의 분류 모형이 좋은 분류성과를 보였으며, 특히 본 연구에서 제안하는 CNN-LSTM 조합모델의 성과가 가장 우수한 것으로 나타났다.