• 제목/요약/키워드: 데이터통합기법

검색결과 718건 처리시간 0.031초

텍스트 마이닝 기법을 활용한 고전 추리 소설 작가 간 문체적 차이와 문체 구조에 대한 연구 (A study on detective story authors' style differentiation and style structure based on Text Mining)

  • 문석형;강주영
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.89-115
    • /
    • 2019
  • 본 연구는 고전 추리 소설 작가로 유명한 아서 코난 도일과 애거서 크리스티의 문체적 차이점을 데이터 분석을 통해 제시하고, 나아가 텍스트 마이닝에 입각한 문체 연구의 해석적 방법론을 제시하고자 시행되었다. 추리 소설의 핵심 요소인 사건과 인물에 더해 작가의 문법적인 집필 방식을 문체로 정의하고 분석을 시도하였다. 작가 별로 각 2권, 총 4권의 책을 선정하였으며 문장 단위로 텍스트를 나누어 데이터를 확보하였다. 각 문장에 따른 감성 점수를 부여한 뒤 페이지 진행에 따른 감성을 시각화하였으며, 페이지에 따라 토픽 모델링을 적용하여 소설 속 사건 진행 흐름을 파악할 수 있었다. 동시 발생 매트릭스(co-occurrence matrix)를 구성하고 네트워크 분석(Network Analysis)을 시행함으로써 사건이 진행되는 과정에서 인물들 간 관계의 변화를 확인할 수 있었다. 또한 전체 문장을 총 6가지 문체를 기준으로 문법적인 체계를 나누어 작가 간, 그리고 작품 간 집필 방식의 차이점을 확인하였다. 이러한 일련의 연구 과정은 문체에 대한 이해를 바탕으로 글 전체의 맥락을 파악할 수 있도록 도움을 줄 수 있으며, 나아가 기존에 개별적으로 진행되었던 문체 연구를 통합시킴으로써 문체 구조에 대한 이해를 도울 수 있다. 그리고 이러한 선행된 이해를 통해 온라인 텍스트를 비롯한 비정형 데이터 속 문체의 존재를 발견하고 구체화하는 작업에 기여할 수 있다. 뉴미디어를 포함한 온라인 텍스트를 심도 있게 분석하고자 하는 시도가 증가하고 있는 상황에서 해당 연구들과 연계를 통해 보다 의미 있는 온라인 텍스트 분석에 기여할 것으로 기대된다.

웹서비스 유사성 평가 방법들의 실험적 평가 (Evaluation of Web Service Similarity Assessment Methods)

  • 황유섭
    • 지능정보연구
    • /
    • 제15권4호
    • /
    • pp.1-22
    • /
    • 2009
  • 월드와이드웹(WWW)은 유용한 정보를 포함하는 자료들의 집합에서 유용한 작업을 수행할 수 있는 서비스들의 집합으로 변화하고 있다. 새롭게 등장하고 있는 웹서비스 기술은 향후 웹의 기술적 변화를 추구하며 최근의 웹의 변화에 중요한 역할을 수행할 것으로 기대된다. 웹서비스는 어플리케이션 간의 통신을 위한 호환성 표준을 제시하며 기업 내/외를 아우를 수 있는 어플리케이션 상호작용 및 통합을 촉진한다. 웹서비스를 서비스 중심 컴퓨팅환경으로서 운용하기 위해서는 웹서비스 저장소는 조직화되어 있어야 할 뿐 아니라, 사용자들의 요구에 맞는 웹서비스 컴포넌트를 찾을 수 있는 효율적인 도구들을 제공하여야 한다. 서비스 중심 컴퓨팅을 위한 웹서비스의 중요성이 증대됨에 따라 웹서비스 발견을 효율적으로 제공할 수 있는 기법의 수요 또한 증대된다. 웹서비스 발견을 위한 많은 기법들이 제안되어 왔지만, 대부분의 선행연구들은 활용하기에는 제대로 발달하지 못하였거나 특정 도메인에 너무 치중하여 일반화하기 어려웠다. 이 논문에서는 군집화기법과 XML기반의 서비스 기술표준인 WSDL의 의미적 가치를 활용하여 다수의 웹서비스를 군집화하는 프레임워크를 제안한다. 웹서비스 발견이라는 연구영역에 최초로 데이터마이닝 기법을 적용한 연구이다. 본 논문에서 제안하는 방식은 여러 흥미로운 요소들이 있다: (1) 서비스 사용자와 제공자들의 사전지식 요구를 최소화한다 (2) 특정 도메인에 과도하게 치중한 온톨로지를 피한다 (3) 웹서비스들 간의 의미론적 관계를 시각화할 수 있다. 이 논문에서 인공신경 정신망 네트워크를 기반으로 하여 프로토타입 시스템을 개발하였으며, 실제 운용되고 있는 웹서비스 저장소로부터 획득한 실제 웹서비스들을 사용하여 제안하는 웹서비스 조직화 프레임워크를 실증적으로 평가하였으며 제안하는 방식의 효용성을 보여주는 실험결과를 보고한다.

  • PDF

다중센서 고해상도 위성영상의 딥러닝 기반 영상매칭을 위한 학습자료 구성에 관한 연구 (A Study on Training Dataset Configuration for Deep Learning Based Image Matching of Multi-sensor VHR Satellite Images)

  • 강원빈;정민영;김용일
    • 대한원격탐사학회지
    • /
    • 제38권6_1호
    • /
    • pp.1505-1514
    • /
    • 2022
  • 영상정합은 다시기 및 다중센서 고해상도 위성영상을 효과적으로 활용하기 위해 필수적으로 선행되는 중요한 과정이다. 널리 각광받고 있는 딥러닝 기법은 위성영상에서 복잡하고 세밀한 특징을 추출하여 영상 간 빠르고 정확한 유사도 판별에 사용될 수 있음에도 불구하고, 학습자료의 양과 질이 결과에 영향을 미치는 딥러닝 모델의 한계와 고해상도 위성영상 기반 학습자료 구축의 어려움에 따라 고해상도 위성영상의 정합에는 제한적으로 적용되어 왔다. 이에 본 연구는 영상정합에서 가장 많은 시간을 소요하는 정합쌍 추출 과정에서 딥러닝 기반 기법의 적용성을 확인하기 위하여, 편향성이 존재하는 고해상도 위성영상 데이터베이스로부터 딥러닝 영상매칭 학습자료를 구축하고 학습자료의 구성이 정합쌍 추출 정확도에 미치는 영향을 분석하였다. 학습자료는 12장의 다시기 및 다중센서 고해상도 위성영상에 대하여 격자 기반의 Scale Invariant Feature Transform(SIFT) 알고리즘을 이용하여 추출한 영상쌍에 참과 거짓의 레이블(label)을 할당한 정합쌍과 오정합쌍의 집합으로 구축되도록 하였다. 구축된 학습자료로부터 정합쌍 추출을 위해 제안된 Siamese convolutional neural network (SCNN) 모델은 동일한 두 개의 합성곱 신경망 구조에 한 쌍을 이루는 두 영상을 하나씩 통과시킴으로써 학습을 진행하고 추출된 특징의 비교를 통해 유사도를 판별한다. 본 연구를 통해 고해상도 위성영상 데이터 베이스로부터 취득된 자료를 딥러닝 학습자료로 활용 가능하며 이종센서 영상을 적절히 조합하여 영상매칭 과정의 효율을 높일 수 있음을 확인하였다. 다중센서 고해상도 위성영상을 활용한 딥러닝 기반 영상매칭 기법은 안정적인 성능을 바탕으로 기존 수작업 기반의 특징 추출 방법을 대체하고, 나아가 통합적인 딥러닝 기반 영상정합 프레임워크로 발전될 것으로 기대한다.

텍스트 마이닝을 활용한 신문사에 따른 내용 및 논조 차이점 분석 (A Study on Differences of Contents and Tones of Arguments among Newspapers Using Text Mining Analysis)

  • 감미아;송민
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.53-77
    • /
    • 2012
  • 본 연구는 경향신문, 한겨레, 동아일보 세 개의 신문기사가 가지고 있는 내용 및 논조에 어떠한 차이가 있는지를 객관적인 데이터를 통해 제시하고자 시행되었다. 본 연구는 텍스트 마이닝 기법을 활용하여 신문기사의 키워드 단순빈도 분석과 Clustering, Classification 결과를 분석하여 제시하였으며, 경제, 문화 국제, 사회, 정치 및 사설 분야에서의 신문사 간 차이점을 분석하고자 하였다. 신문기사의 문단을 분석단위로 하여 각 신문사의 특성을 파악하였고, 키워드 네트워크로 키워드들 간의 관계를 시각화하여 신문사별 특성을 객관적으로 볼 수 있도록 제시하였다. 신문기사의 수집은 신문기사 데이터베이스 시스템인 KINDS에서 2008년부터 2012년까지 해당 주제로 주제어 검색을 하여 총 3,026개의 수집을 하였다. 수집된 신문기사들은 불용어 제거와 형태소 분석을 위해 Java로 구현된 Lucene Korean 모듈을 이용하여 자연어 처리를 하였다. 신문기사의 내용 및 논조를 파악하기 위해 경향신문, 한겨레, 동아일보가 정해진 기간 내에 일어난 특정 사건에 대해 언급하는 단어의 빈도 상위 10위를 제시하여 분석하였고, 키워드들 간 코사인 유사도를 분석하여 네트워크 지도를 만들었으며 단어들의 네트워크를 통해 Clustering 결과를 분석하였다. 신문사들마다의 논조를 확인하기 위해 Supervised Learning 기법을 활용하여 각각의 논조에 대해 분류하였으며, 마지막으로는 분류 성능 평가를 위해 정확률과 재현률, F-value를 측정하여 제시하였다. 본 연구를 통해 문화 전반, 경제 전반, 정치분야의 통합진보당 이슈에 대한 신문기사들에 전반적인 내용과 논조에 차이를 보이고 있음을 알 수 있었고, 사회분야의 4대강 사업에 대한 긍정-부정 논조에 차이가 있음을 발견할 수 있었다. 본 연구는 지금까지 연구되어왔던 한글 신문기사의 코딩 및 담화분석 방법에서 벗어나, 텍스트 마이닝 기법을 활용하여 다량의 데이터를 분석하였음에 의미가 있다. 향후 지속적인 연구를 통해 분류 성능을 보다 높인다면, 사람들이 뉴스를 접할 때 그 뉴스의 특정 논조 성향에 대해 우선적으로 파악하여 객관성을 유지한 채 정보에 접근할 수 있도록 도와주는 신뢰성 있는 툴을 만들 수 있을 것이라 기대한다.

그룹 몰입도 판단을 위한 움직임 동기화 연구 (A Study of the Reactive Movement Synchronization for Analysis of Group Flow)

  • 류준모;박승보;김재경
    • 지능정보연구
    • /
    • 제19권1호
    • /
    • pp.79-94
    • /
    • 2013
  • 최근 문화 예술 분야를 활용하여 고부가가치를 창출하며 지속적으로 발전하는 공연예술 시장 환경 속에서 공연 기획자들이나 투자자들은 공연에서 성공을 하기 위한 객관적인 지표를 원한다. 성공적인 공연을 위해서는 관람객들에게 편의를 제공하여 만족도를 높여 주어야 하며, 따라서 재미와 감동, 가치를 높이는 방안도 모색해야 한다. 기존의 만족도 확인 방법으로는 공연기간, 설문조사, 입소문 등 주관적인 평가가 대부분이다. 이것들은 관람객들의 만족도에 대한 평가 기준이 될 수 는 없다. 최근에는 공연에서 관람객의 몰입 정도가 공연의 주요 성공 요인으로 평가되기 시작했다. 공연에 대한 몰입도가 높으면 만족도도 높아진다는 연구 결과도 있다. 그래서 공연에 대한 관람객의 몰입을 실시간으로 확인하는 지표를 개발하는 것은 관람객들의 만족도를 평가하는데 유용하게 사용될 수 잇다. 기존의 몰입도 추출 연구는 대부분 1인을 대상으로 한 연구들이며 전체 관람객들의 몰입도는 개별 몰입도를 통합하여 측정하여 왔다. 하지만, 공연장에서 관람객들의 몰입도를 개별적으로 측정하기에는 경제적으로나 환경적으로 어려운 상황이다. 이러한 문제를 해결하기 위하여 본 연구에서는, 공연장의 전체 관람객 몰입도를 측정하기 위하여 차영상 기반의 동기화 기법을 활용하는 모형을 제시 한다. 이 기법은 우선 카메라를 통해 관람객 영상을 수집하고, 이를 차영상 기법을 이용하여 동일 장소, 시간 내 관람객들의 움직임 변화량을 측정하여 동기화 여부를 판단하는 것이다. 본 논문에서 동기화가 되었다는 의미는 관람객들이 몰입하고 있을 때, 자극원에 대하여 동시성을 가지고 반응하는 것을 말한다. 이것을 차영상 기법을 통하여 움직임의 변화량으로 환산하고, 이것을 이용하여 동적 동기화와 정적 동기화인지 구분한다. 그런 후 전체 관람객들의 움직임 변화량들을 비교하여 관람객들의 몰입도를 판단하는 모형을 구축하는 것이다. 이 연구에서는 전체 관객의 몰입도 판단 모형을 제시하고, 실제 관객의 반응 데이터를 이용한 평가를 하여 제시한 연구모형이 실제 공연장에서 그룹 관람객들의 몰입도를 측정할 수 있는 것을 확인할 수 있었다.

식품가공처리가 농산물 잔류농약에 미치는 영향에 대한 메타분석 (Meta-Analytic Approach to the Effects of Food Processing Treatment on Pesticide Residues in Agricultural Products)

  • 김남훈;박경애;정소영;조성애;김윤희;박혜원;이정미;이상미;유인실;정권
    • 농약과학회지
    • /
    • 제20권1호
    • /
    • pp.14-22
    • /
    • 2016
  • 메타분석이라는 통계적 기법을 이용하여 일상생활에서 많이 사용되는 식품가공처리 (수돗물 세척, 껍질제거, 데치기 및 오븐건조)에 의한 농산물 중 농약 잔류량의 변화를 관찰한 기존의 문헌들이 제공하는 데이터들을 통계적으로 통합하고 정량화하는 작업을 수행하였다. 각 식품가공처리법의 가중평균 response ratio ($R^*$)를 살펴보면 껍질제거는 0.140, 데치기는 0.344, 오븐건조는 0.462 및 수돗물 세척은 0.522이었으며 껍질제거에 의해 농산물 중 잔류농약이 최대로 감소됨을 확인할 수 있었다. 수돗물 세척에 의한 12종 농약성분의 옥탄올물분배계수와 가중평균 response ratio ($R^*$)와의 상관분석을 실시한 결과, 피어슨상관계수는 r=0.624 (p=0.03)로서 양의 상관관계가 있음을 확인하였다. 본 연구결과는 보다 정확한 위해성 평가를 위한 가공계수를 산출하는데 참고자료로 활용될 수 있으며 또한 잔류농약과 식품안전성에 대한 소비자의 이해를 돕는 자료로도 활용될 수 있을 것이다.

제품 디자인을 위한 증강현실 기반 정량구조 시뮬레이션 기법에 대한 연구 (A Study on a Quantified Structure Simulation Technique for Product Design Based on Augmented Reality)

  • 이우훈
    • 디자인학연구
    • /
    • 제18권3호
    • /
    • pp.85-94
    • /
    • 2005
  • 최근 대부분의 제품 디자이너들이 3차원 CAD 시스템을 필수적인 디자인 도구로서 활용하고 있고 이를 기반으로 많은 신제품들이 동시공학적 프로세스로 개발되고 있다. 그런데 초심 디자이너들이 3차원 CAD시스템을 사용하며 겪는 어려움 중 하나는 스크린을 통해 모델링한 오브젝트의 실체적 느낌을 정확히 판단하기 어렵다는 것이다. 이러한 '실체성 결여'의 문제는 3차원 CAD시스템에서의 모델링 작업이 가상공간 안에서만 이루어지기 때문에 촉각적 상호작용이 부재하고 현실공간에 대한 맥락정보가 결여되어 있는 것이 그 원인이라고 착 수 있다. 문제해결을 위해 본 연구에서는 증강현실기술을 활용하여 3차원 CAD 모델링 오브젝트를 현실공간에 정합시킴으로서 제품디자인에서 상호작용적인 정량구조 시뮬레이션의 가능성을 탐색하고자 하였다. 본 연구는 우선 증강현실 기반 정량구조 시뮬레이션 시스템을 구축하고 그 속에서 인간이 가상 오브젝트의 크기를 얼마나 정확하게 인지하고 조정할 수 있는지 실험하였다. 실험 결과 상대오차 1.3%이내(상대표준편차 5.3%이내)로서 상당히 정확하고 정밀한 크기 인지와 조정이 가능한 것으로 나타났다. 실험조건에 따라서는 주변참조물이 풍부한 경우 오브젝트에 대한 크기인지가 용이하고 HDM보다는 LCD 패널을 사용할 경우 더욱 정확한 크기 조정이 가능한 것으로 나타났다. 연구를 통해 제안한 증강현실 기반 정량구조 시뮬레이션시스템의 응용가능성을 탐색하기 위해 홈 서비스 로봇의 외관에 대해 사용자의 선호경향을 파악하는데 적용해 보았다. 아직 홈 서비스 로봇에 대한 전형적 이미지가 미비해서인지 외관특성에 대한 실험참가자의 선호경향에는 큰 편차가 보였고 군집분석을 통해 몇 그룹으로 세분화할 수 있었다. 그러나 팔이라는 조형요소의 유무에 따라 민감한 반응을 보인 점과 인체와 같이 신장과 팔길이 사이에 강한 상관성이 존재하는 것은 흥미로운 발견이었다. 프로세스를 제안하고자 한다.0 이용과 복제제한에 관한 주기(terms governing use and reproduction notes), 541 직접적 출처주기(immediate source of acquisition note), 545 행정연혁/개인이력주기(biographical or historical note), 581 출판주기(publication note), 850 소장처(holding institution) 데이터필드의 식별기호를 재구성, 추가하였다.근방법과 컨조인트 분석)의 조화를 이룰 수 있는 이론적 기초가 될 수 있다. 즉, 제품디자인의 결정요인 분석결과는 QFD의 접근방법에, 제품 디자인 파급효과 분석결과는 컨조인트 분석에 각각 보완적 기여를 할 수 있다. 이와 동시에, 실증적 분석결과는 Ettlie(1997)의 디자인 통합(DI) 이론에 대한 실증적 기반을 제공할 수 있다. 마지막으로, 성공적인 디자인 경영(DM)을 위해서는 최고 경영자의 지원뿐만 아니라 부처 간 의사소통의 장애요인을 제거하고 CFT(cross-functional team)를 운영함으로써 동시적 엔지니어링(CE) 및 제품 및 공정 디자인의 개발이 제품 개발의 속도를 가속화하고 디자인 품질을 높이며 시장 성공을 보증할 수 있도록 해야 한다.임과 채팅은 긍정적인 상호관련을 가진 것으로 나타난 반면 전자메일 서비스 이용은 성적 만족과 부정적인 상호관련을 가진 것으로 분석되었다. 이는 대학생들이 지루하게 느끼거나 외로움을 느낄 때 전자메일을 주로 이용하지만 성적 만족을 위해 전자메일을 이용하지 않고 있다는 사실을 보여주는 것이다. (3) 인터넷 이용 이후 다른 미디어와 면대면 커뮤니케이션과의 관계 인터넷을 이용한 후 응답자들의 전통적인 미디어(텔레비전, 라디오, 신문, 잡지, 편지, 전화) 이용이 감소되었으며 친구, 가족, 이성친구와의 면대면 커뮤니케이션 역시 감소된

  • PDF

온라인 과학 기사 텍스트 마이닝을 통해 분석한 에너지 용어 사용의 맥락 (Analyzing Different Contexts for Energy Terms through Text Mining of Online Science News Articles)

  • 오치영;강남화
    • 과학교육연구지
    • /
    • 제45권3호
    • /
    • pp.292-303
    • /
    • 2021
  • 본 연구에서는 일상생활에서 에너지 용어가 사용되는 맥락을 알아보기 위하여 온라인 과학 기사를 수집하여 언어 네트워크, 토픽 모델링 분석 기법을 활용해 에너지 관련 기사에 사용된 용어의 빈도, 용어 네트워크, 기사의 주제를 분석하였다. 분석에 사용된 자료는 2018.3.1.부터 1년간의 온라인 과학 분야의 기사 중 에너지를 검색어로 하여 10개의 국내 중앙지에서 검색 및 선정된 2,171편이다. 이 기사들을 자연어 처리하여 51,224개의 문장과 507,901개의 단어로 데이터를 구성하였다. R 프로그램을 활용하여 용어 빈도수 분석 및 언어 네트워크 분석을 실시하였고, 에너지 용어 사용의 맥락 탐색을 위해 구조적 토픽 모델링 분석을 적용해 기사의 주제를 도출하였다. 기사에 사용된 용어 중 빈도수가 유난히 높은 용어는 기술, 연구, 개발로 새로운 소식을 알리는 기사의 특성을 반영한 것으로 나타났다. 한편, 기사 2편당 한 번 이상의 빈도로 사용되는 용어에는 산업 관련 용어(산업, 제품, 시스템, 생산, 시장)와 '전기', '환경'과 같이 에너지 관련 용어로 충분히 기대되는 용어들이 있었다. 한편, 에너지 관련 과학 수업에서 자주 사용되는 '태양', '열', '온도', '발전'도 빈도수 상위에 속하는 용어로 드러났다. 용어 네트워크 분석에서는 산업 및 기술과 관련된 용어와 기초과학 및 연구 관련 용어들이 약한 강도이지만 서로 군집을 이루는 것을 확인하였다. 한편, 에너지와 쌍을 이루는 용어의 분석에서는 '에너지 효율'을 비롯해 '에너지 절감', '에너지 소비' 등과 같이 에너지의 사용에 관한 용어들이 다수를 이루고 그 사용 빈도가 가장 높았다. 에너지 용어가 사용되는 맥락은 16개의 주제를 분류한 4가지 영역으로 '첨단산업', '산업', '기초과학', '환경 및 건강'으로 나타났다. 에너지 사용 관련 용어가 상당히 많이 사용된다는 결과는 에너지 수업의 시작점으로 에너지 저급화 개념의 도입이 효과적일 수 있음을 시사한다. 또한, 첨단산업이나 환경 및 건강의 맥락을 에너지 학습에 도입할 필요성도 보여준다. 본 연구에서 드러난 16개 주제에서 보이는 다양한 에너지 용어가 사용되는 맥락을 재구성해 에너지 관련 수업에 활용한다면 학생들이 학교에서의 에너지 학습과 일상적 상황을 통합적으로 인식하는 데 도움이 될 것이다.