• 제목/요약/키워드: 접근

검색결과 26,378건 처리시간 0.054초

텍스트 마이닝을 활용한 신문사에 따른 내용 및 논조 차이점 분석 (A Study on Differences of Contents and Tones of Arguments among Newspapers Using Text Mining Analysis)

  • 감미아;송민
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.53-77
    • /
    • 2012
  • 본 연구는 경향신문, 한겨레, 동아일보 세 개의 신문기사가 가지고 있는 내용 및 논조에 어떠한 차이가 있는지를 객관적인 데이터를 통해 제시하고자 시행되었다. 본 연구는 텍스트 마이닝 기법을 활용하여 신문기사의 키워드 단순빈도 분석과 Clustering, Classification 결과를 분석하여 제시하였으며, 경제, 문화 국제, 사회, 정치 및 사설 분야에서의 신문사 간 차이점을 분석하고자 하였다. 신문기사의 문단을 분석단위로 하여 각 신문사의 특성을 파악하였고, 키워드 네트워크로 키워드들 간의 관계를 시각화하여 신문사별 특성을 객관적으로 볼 수 있도록 제시하였다. 신문기사의 수집은 신문기사 데이터베이스 시스템인 KINDS에서 2008년부터 2012년까지 해당 주제로 주제어 검색을 하여 총 3,026개의 수집을 하였다. 수집된 신문기사들은 불용어 제거와 형태소 분석을 위해 Java로 구현된 Lucene Korean 모듈을 이용하여 자연어 처리를 하였다. 신문기사의 내용 및 논조를 파악하기 위해 경향신문, 한겨레, 동아일보가 정해진 기간 내에 일어난 특정 사건에 대해 언급하는 단어의 빈도 상위 10위를 제시하여 분석하였고, 키워드들 간 코사인 유사도를 분석하여 네트워크 지도를 만들었으며 단어들의 네트워크를 통해 Clustering 결과를 분석하였다. 신문사들마다의 논조를 확인하기 위해 Supervised Learning 기법을 활용하여 각각의 논조에 대해 분류하였으며, 마지막으로는 분류 성능 평가를 위해 정확률과 재현률, F-value를 측정하여 제시하였다. 본 연구를 통해 문화 전반, 경제 전반, 정치분야의 통합진보당 이슈에 대한 신문기사들에 전반적인 내용과 논조에 차이를 보이고 있음을 알 수 있었고, 사회분야의 4대강 사업에 대한 긍정-부정 논조에 차이가 있음을 발견할 수 있었다. 본 연구는 지금까지 연구되어왔던 한글 신문기사의 코딩 및 담화분석 방법에서 벗어나, 텍스트 마이닝 기법을 활용하여 다량의 데이터를 분석하였음에 의미가 있다. 향후 지속적인 연구를 통해 분류 성능을 보다 높인다면, 사람들이 뉴스를 접할 때 그 뉴스의 특정 논조 성향에 대해 우선적으로 파악하여 객관성을 유지한 채 정보에 접근할 수 있도록 도와주는 신뢰성 있는 툴을 만들 수 있을 것이라 기대한다.

소셜 뉴스를 위한 시간 종속적인 메타데이터 기반의 컨텍스트 공유 프레임워크 (Context Sharing Framework Based on Time Dependent Metadata for Social News Service)

  • 가명현;오경진;홍명덕;조근식
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.39-53
    • /
    • 2013
  • 인터넷의 발달과 SNS의 등장으로 정보흐름의 방식이 크게 바뀌었다. 이러한 변화에 따라 소셜 미디어가 급부상하고 있으며 소셜 미디어와 비디오 콘텐츠가 융합된 소셜 TV, 소셜 뉴스의 중요성이 강조되고 있다. 이러한 환경 속에서 사용자들은 단순히 콘텐츠를 탐색만 하는 것이 아니라 같은 콘텐츠를 이용하고 있는 친구들이나 지인들과 콘텐츠에 대한 정보나 경험들을 공유하고 더 나아가 새로운 콘텐츠를 만들어내기도 한다. 하지만 기존의 소셜 뉴스에서는 이러한 사용자들의 특성을 반영해 주지 못하고 있다. 특히 이용자들의 참여성만을 고려하고 있어서 서비스간의 차별화가 어렵고 뉴스 콘텐츠에 대한 정보나 경험 공유 시 컨텍스트 공유가 어렵다는 문제가 있다. 이를 해결하기 위해 본 논문에서는 뉴스를 내용별로 분할하고 분할된 뉴스에서 추출된 시간 종속적인 메타데이터를 제공하는 프레임워크를 제안한다. 제안하는 프레임워크에서는 스토리 분할 방법을 이용하여 뉴스 대본을 내용별로 분할한다. 또한 뉴스 전체내용을 대표하는 태그, 분할된 뉴스를 나타내는 서브 태그, 분할된 뉴스가 비디오에서 시작하는 위치 즉, 시간 종속적인 메타데이터를 제공한다. 소셜 뉴스 이용자들에게 시간 종속적인 메타데이터를 제공한다면 이용자들은 전체의 뉴스 내용 중에 자신이 원하는 부분만을 탐색 할 수 있으며 이 부분에 대한 견해를 남길 수 있다. 그리고 뉴스의 전달이나 의견 공유 시 메타데이터를 함께 전달함으로써 전달하고자 하는 내용에 바로 접근이 가능하며 프레임워크의 성능은 추출된 서브 태그가 뉴스의 실제 내용을 얼마나 잘 나타내 주느냐에 따라 결정된다. 그리고 서브 태그는 스토리 분할의 정확성과 서브 태그를 추출하는 방법에 따라 다르게 추출된다. 이 점을 고려하여 의미적 유사도 기반의 스토리 분할 방법을 프레임워크에 적용하였고 벤치마크 알고리즘과 성능 비교 실험을 수행하였으며 분할된 뉴스에서 추출된 서브 태그들과 실제 뉴스의 내용을 비교하여 서브 태그들의 정확도를 분석하였다. 결과적으로 의미적 유사도를 고려한 스토리 분할 방법이 더 우수한 성능을 보였으며 추출된 서브 태그들도 컨텍스트와 관련된 단어들이 추출 되었다.

쇼핑몰 이미지 저작권보호를 위한 영상 워터마킹 (Image Watermarking for Copyright Protection of Images on Shopping Mall)

  • 배경율
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.147-157
    • /
    • 2013
  • 디지털 환경의 도래와 언제 어디서나 접근할 수 있는 고속 네트워크의 도입으로 디지털 콘텐츠의 자유로운 유통과 이용이 가능해졌다. 이러한 환경은 역설적으로 다양한 저작권 침해를 불러 일으키고 있으며, 온라인 쇼핑몰에서 사용하는 상품 이미지의 도용이 빈번하게 발생하고 있다. 인터넷 쇼핑몰에 올라오는 상품 이미지와 관련해서는 저작물성에 대한 시비가 많이 일어나고 있다. 2001년 대법원 판결에 의하면 햄 광고를 위하여 촬영한 사진은 단순히 제품의 모습을 전달하는 사물의 복제에 불과할 뿐 창작적인 표현이 아니라고 적시하였다. 다만 촬영자의 손해액에 대해서는 인정함으로써 광고사진 촬영에 소요되는 통상적인 비용을 손해액으로 산정하게 하였다. 상품 사진 이외의 실내사진이라 하여도 '한정된 공간에서 촬영되어 누가 찍어도 동일한 사진'이 나올 수 밖에 없는 경우에는 창작성을 인정하지 않고 있다. 2003년 서울지방법원의 판례는 쇼핑몰에 사용된 사진에서 피사체의 선정, 구도의 설정, 빛의 방향과 양의 조절, 카메라 각도의 설정, 셔터의 속도, 셔터찬스의 포착 기타 촬영방법, 현상 및 인화 등의 과정에서 촬영자의 개성과 창조성이 인정되면 저작권법에 의하여 보호되는 저작물에 해당한다고 선고하여 손해를 인정하였다. 결국 쇼핑몰 이미지도 저작권법상의 보호를 받기 위해서는 단순한 제품의 상태를 전달하는 것이 아니라 촬영자의 개성과 창조성이 인정될 수 있는 노력이 필요하다는 것이며, 이에 따라 쇼핑몰 이미지를 제작하는 비용이 상승하고 저작권보호의 필요성은 더욱 높아지게 되었다. 온라인 쇼핑몰의 상품 이미지는 풍경사진이나 인물사진과 같은 일반 영상과 달리 매우 독특한 구성을 갖고 있으며, 따라서 일반 영상을 위한 이미지 워터마킹 기술로는 워터마킹 기술의 요구사항을 만족시킬 수 없다. 쇼핑몰에서 주로 사용되는 상품 이미지들은 배경이 흰색이거나 검은색, 또는 계조(gradient)색상으로 이루어져 있어서 워터마크를 삽입할 수 있는 공간으로 활용이 어렵고, 약간의 변화에도 민감하게 느껴지는 영역이다. 본 연구에서는 쇼핑몰에 사용되는 이미지의 특성을 분석하고 이에 적합한 이미지 워터마킹 기술을 제안하였다. 제안된 이미지 워터마킹 기술은 상품 이미지를 작은 블록으로 분할하고, 해당 블록에 대해서 DCT 양자화 처리를 함으로써 워터마크 정보를 삽입할 수 있도록 하였다. 균일한 DCT 계수 양자화 값의 처리는 시각적으로 영상에 블록화 현상을 불러오기 때문에 제안한 알고리즘에서는 블록의 경계 면에 붙어있는 영상 값에 대해서는 양자화 값의 분배를 작게 하고, 경계 면에서 멀리 떨어져있는 영상 값에 대해서는 양자화 값의 분배를 크게 함으로써 영상의 객관적 품질뿐 아니라 시각적으로 느끼는 주관적 품질도 향상 시켰다. 제안한 알고리즘에 의해서 워터마크가 삽입된 쇼핑몰 이미지의 PSNR(Peak Signal to Noise Ratio)은 40.7~48.5[dB]로 매우 우수한 품질을 보였으며, 일반 쇼핑몰 이미지에서 많이 사용되는 JPEG 압축은 QF가 70 이상인 경우에는 BER이 0이 나왔다.

A Study on Legal and Institutional Improvement Measures for the Effective Implementation of SMS -Focusing on Aircraft Accident Investigation-

  • Yoo, Kyung-In
    • 항공우주정책ㆍ법학회지
    • /
    • 제32권2호
    • /
    • pp.101-127
    • /
    • 2017
  • 가장 진보된 항공기술의 발전에도 불구하고 항공기사고는 지속적으로 발생하고 있는 반면 승객수송 항공교통량은 향후 15년간 갑절로 증폭할 것으로 예상되고 있다. 항공기사고 발생 후에 안전조치로 수행되는 항공기사고조사만으로는 항공안전을 확보할 수 없기 때문에, 선제적이고 예측적인 사고예방대책의 필요성에 대한 공감대가 형성되었다. 이러한 명목으로 항공안전관리시스템(SMS)이 2008년부터 도입되어 2011년부터 본격적으로 수행되고 있다. SMS는 선제적이고 예측적인 항공기사고 예방대책으로서, 항공안전과 관련된 기술적 요소, 인적요소를 넘어 조직적 요소에 접근함으로써 근원적인 위험요인을 차단할 수 있는 메커니즘이다. 방법론적으로는 항공기운항에 필요한 모든 현장에서 잠재되어 있는 위험요소를 수집하여 데이터베이스를 구축하고, 위험을 분석하여, 위험을 관리함으로써, 위험을 수용가능하거나 그 이하로 유지하는 방법이다. 따라서 SMS의 부적절한 이행은 항공기사고 예방의 미흡함을 나타내며 항공기사고와 직결된다. SMS에 있어 자신의 실수를 포함하여 업무상 발생하는 위험요소의 보고가 필수적이고, 가장 중요한 요소로 간주된다. 이를 위하여 자발적 보고에 대한 공정문화의 정책 하에, 정보제공자의 익명성, 비처벌 및 비문책 보장이 기본적인 것으로 되어있으나, 조직에 대한 신뢰의 부족으로 보고는 미미한 수준으로 정체되어 있는 상황이다. 최고관리자가 고위관리자와 더불어 자신의 조직에 대한 안전과 수익의 균형을 유지할 수 있는 안전의식을 갖고, 공정문화가 주축이 된 안전문화의 주도적 역할이 필요하다. 이에 대한 법적 제도적 근거는 국토교통부 훈령인 "항공안전관리시스템 인 및 운영지침"에 최고관리자가 및 고위관리자가 받아야할 교육이 명시되어있으나, 법적 구속력이 없는 상태이다. 따라서 법적 구속력이 있는 고시인 "국가항공안전프로그램"의 항공안전관리시스템 승인신청서의 구비서류에, 최고관리자 및 고위관리자의 SMS 교육이수증명서가 추가되어야 할 필요가 있다. 또한 항공기사고조사에 SMS항목이 누락되어 있어 안전문화와 관련된 조직적 요소 및 위험관리 부분에 대한 조사가 수행되지 않고 있다. 이는 근원적인 원인에 대한 규명이 불가능하여 향후 사고예방에 장애요소로 작용된다. ICAO가 발행한 항공기사고조사매뉴얼에는 SMS조사가 포함되어 있지만, 국제민간항공조약 부속서 13의 최종보고서 양식에는 포함되어있지 않다. 또한 전 세계적으로 항공기사고조사의 실질적 표본이 되고 미국교통안전위원회가 SMS조사에 미온적인 것으로 나타나고 있다. 이러한 이유들로 부속서 13에 의거 조사를 수행하고 있는 조사기구들은 SMS조사를 조사항목에 포함시키지 않고 있는 상황이며, 항공기사고 조사관들은 SMS 조사방법이나 기법에 노출되어 있지 않다. 이러한 맥락에서 부속서 13의 최종보고서 양식 중 조직 및 관리정보 목에 SMS조사를 포함시킬 필요가 있다. 국내적으로는 항공 철도사고조사위원회의 운영규정 중 최종보고서양식에 동일하게 SMS항목을 추가되어야 한다. 이러한 법적 제도적 개선방법이 보완되면 SMS의 이행이 효율적으로 이행되어 향후 항공안전증진에 기여하리라고 기대한다.

  • PDF

스티브 팩스톤(Steve Paxton)의 작품에서 나타난 일상적 움직임의 특성에 관한 연구: , , 를 중심으로 (Characteristics of Everyday Movement Represented in Steve Paxton's Works: Focused on Satisfyin' Lover, Bound, Contact at 10th & 2nd-)

  • 김현희
    • 트랜스-
    • /
    • 제3권
    • /
    • pp.109-135
    • /
    • 2017
  • 본 논문의 목적은 스티브 팩스톤의 작품에서 드러난 일상적 움직임 특성을 분석하는 것이다. 예술작품은 오랜 시간동안 고급문화로서 높은 계층의 사람들에게만 향유되는 특별한 대상으로서 인식되어왔다. 일상과 예술의 간극은 크게 존재해왔고 때문에 예술작품에서 일상적인 요소의 출현은 사회적 변화를 수반한 대중의 인식전환을 의미한다. 예술과 일상의 경계가 불분명해지는 시대로서 포스트모더니즘의 시대는 2차 세계대전 이후의 전후사회 그리고 후기 자본주의사회로서 급변하는 정세를 배경으로 가진다. 이 시기의 변화는 학자들에게 일상과 관련한 개념들을 학문적으로 접근하게 하는 계기가 되어졌으며 예술가들에게는 총체성을 거부하는 다원주의 성향의 포스트모더니즘의 시대정신으로서 영향을 미쳤다. 같은 시기 현대 무용역시 포스트모던댄스로의 전환기를 맞이하게 되었다. 2차 세계대전 이후 현대무용은 그 한계점에 도달한 것으로 평가되기 시작했으며 이러한 상황에서 저드슨 댄스 씨어터를 비롯한 무용가들을 필두로 포스트모던댄스는 전개되었다. 저드슨 댄스의 설립자 중 한 명인 스티브 팩스톤은 머스 커닝햄의 무용수로 활동을 하며 움직임이 생성되는 과정과 계급적인 사회구조를 지닌 무용단의 생태에 문제의식을 가지게 되었다. 이러한 그의 사고는 일상적인 동작을 그대로 작품에 실현하는 시도로서 초기 작품 활동에 드러난다. 일상적인 동작의 활용이 포스트모던댄스의 공공연한 특징으로 간주되어지고 있음에도 이에 주목한 선행연구가 드물다는 점, 그리고 팩스톤 관련 연구들은 접촉즉흥에 관련한 것으로 편향되어 있다는 것에서 본 연구는 시작되었다. 때문에 접촉즉흥 기법에 치중하기 이전 일상적인 동작의 사용으로서 작품활동을 시작한 것에 주목하여 그 연결선상으로서 이후의 작품들을 살펴볼 것이다. 본 연구는 팩스톤의 작품인 ,,를 분석하고 이를 토대로 일상적 특성을 도출하였다. 일상에 관련한 개념을 고찰하고 포스트모던댄스의 무용사적 흐름을 파악하기 위하여 관련 저서와 학술 논문, 무용기사 및 평론을 참고하여 진행하였다. 팩스톤은 무용적 정제를 거치지 않은 일상에서의 동작을 작품에 그대로 차용하였으며 그 시작으로 보행동작은 비무용수인 공연자들의 보행으로서 일상적인 움직임에 미적 의의를 부여하였다. 팩스톤이 심취한 접촉즉흥의 움직임 역시 자연스러운 에너지의 흐름을 중시하는 것으로 일상적인 측면을 지니며 이후의 작품인 에서도 그는 이완된 신체로 평범한 동작들을 선보였다. 작품에 등장한 일상적 움직임의 특성은 반복되는 삶에서의 실천과 특별하지 않은 평범한 것이라는 기준으로서 분석되었다. 그의 작품에 내재된 일상적 움직임은 한 시대의 무용장르의 변화를 비롯하여 전통적으로 유지되어온 무용예술 작품에 관한 인식의 전환을 대변하는 것이다. 파격적인 시도와 실험성으로 점철된 그의 활동은 현대무용이 지녔던 한계점을 극복하기 위한 노력으로서 보다 높게 평가 되어져야 할 것이다.

  • PDF

부정 탐지를 위한 이상치 분석 활용방안 연구 : 농수산 상장예외품목 거래를 대상으로 (A Study on the Application of Outlier Analysis for Fraud Detection: Focused on Transactions of Auction Exception Agricultural Products)

  • 김동성;김기태;김종우;박성기
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.93-108
    • /
    • 2014
  • 기업 의사 결정 지원을 위하여 거래 데이터를 다양한 관점에서 분석하고 활용하려는 노력과 관심들이 증가하고 있다. 이러한 노력들은 고객 관리나 마케팅에만 국한되는 것이 아니라 부정행위에 대한 감시와 탐지를 목적으로도 다양한 분석 방안들이 연구되고 있다. 부정행위는 기술의 발전을 악용하여 다양한 형태로 진화하고 있으며, 이에 따라 목적에 맞는 부정탐지 방안 연구와 적용을 통하여 탐지 효용의 극대화를 위한 노력의 필요성이 증가하고 있다. 이러한 연구 동향의 일환으로 본 연구에서는 대용량 거래 데이터가 저장 관리되고 있는 국내 최대 농수산물 유통 시장의 2008년부터 2010년까지 상장예외품목의 거래 가격을 분석하여 부정 탐지 규칙을 도출하였으며, 전문가 검증을 통하여 도출 된 규칙의 신뢰성을 확보하였다. 본 연구의 주요 부정거래 분석 방안으로는 정상적인 데이터들은 발생 확률이 높은 반면에 특이한 데이터들의 발생 확률은 낮다고 가정하는 통계적 접근을 통한 이상치 식별 방안을 활용하였다. 이에 따라 부정거래 분석 별로 정의 된 Z-Score 값보다 클 경우 부정거래 탐지 대상이 된다. 다만 상장예외품목 거래의 경우 취급 가능한 중도매인의 수가 제한되어 있으며, 일반적인 상장품목의 거래보다 거래량이 적기 때문에 소수의 이상치가 품목의 평균에 미치는 영향이 크다. 그 예로 다른 소수의 중도매인들이 해당 품목을 정상적인 가격에 거래하였더라도, 특정한 중도매인 한 명이 지나치게 비정상적인 가격에 거래할 경우 모든 거래들이 부정거래로 탐지 될 가능성도 있다. 이러한 문제를 해결하기 위하여 기존의 Z-Score의 개념을 활용하여 수정된 Z-Score(Self-Eliminated Z-Score)를 사용하였다. 또한 부정 유형별 탐지 규칙 관리와 활용을 위한 시스템 프로토타입(prototype) 개발을 수행하였다. 이를 통하여 실제 부정거래 탐지 업무에 적용할 수 있는 효과적인 방안을 제시하였고, 농수산 유통시장의 공정성 및 투명성 확보를 위한 관리 감독의 기능 강화가 가능할 것이다.

온톨로지 기반 영화 메타데이터간 연관성을 활용한 영화 추천 기법 (The Ontology Based, the Movie Contents Recommendation Scheme, Using Relations of Movie Metadata)

  • 김재영;이석원
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.25-44
    • /
    • 2013
  • 최근 IPTV와 스마트 TV 등의 등장과 영상 콘텐츠를 시청하고 검색할 수 있는 웹 서비스의 등장으로 영상 콘텐츠의 접근이 용이해져 사용자들은 자신이 원하는 콘텐츠를 찾고자 하는 요구가 증가하고 있다. 하지만 서비스되는 콘텐츠의 양이 방대하여 영상 콘텐츠를 검색할 때 사용하는 키워드 기반의 검색은 많은 양의 결과를 가져오며 사용자가 필요로 하지 않은 결과가 검색된다. 따라서 사용자가 원하는 콘텐츠의 검색 시간과 노력이 증가 하게 되었다. 이를 극복 하기 위해 콘텐츠 추천 및 검색에 대한 연구가 수행되어 왔다. 기존의 연구에는 사용자의 선호도 분석을 통하여 영상 콘텐츠를 추천하거나 비슷한 성향을 가지는 사용자들을 분류하여 콘텐츠를 추천하는 기법들이 연구되어 왔다. 본 논문에서는 영상 콘텐츠 중 영화의 추천을 위해 사용자 개인의 영화 메타데이터의 선호도를 분석하고, 영화의 메타데이터와 영화의 유사성을 도출하여 이를 기반으로 영화 추천 기법을 제안한다. 영화의 특징을 담고 있고, 사용자의 영화 선호도에 영향을 끼치는 장르, 줄거리, 배우, 키워드 등의 영화 메타데이터를 기반으로 온톨로지를 구축하고, 확률 기법을 통한 메타 데이터간의 유사성을 분석하여 유사 메타데이터를 연결한다. 또한 사용자의 선호도와 그룹을 정의하고, 사용자 정보를 활용하기 위한 사용자 모델을 정의한다. 제안하는 추천 기법은 1) 사용자 정보기반의 후보 영화 검색 컴포넌트, 2) 사용자 선호기반의 후보 영화 검색 컴포넌트, 3) 1)과 2)의 결과를 통합하고 가중치를 부여하는 컴포넌트, 4) 최종결과의 분석을 통한 개인화된 영화 추천 컴포넌트 등 총 4가지 컴포넌트로 구성된다. 제안하는 추천 기법의 실험을 위하여 20대 남/녀 10명씩 20명을 대상으로 실험을 진행하였으며, 실험결과 평균 Top-5에서 2.1개 Top-10에서 3.35개 Top-20에서 6.35의 영화가 보고 싶은 영화로 선택되었다. 본 논문에서는 영화 메타데이터간의 연관성 도출을 통하여 영화간의 유사성을 도출하고 이를 기반으로 사용자의 기본적인 정보를 활용한 추천뿐만 아니라 사용자가 예상하지 못한 영화의 추천이 가능하다.

텍스트 마이닝을 이용한 2012년 한국대선 관련 트위터 분석 (Analysis of Twitter for 2012 South Korea Presidential Election by Text Mining Techniques)

  • 배정환;손지은;송민
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.141-156
    • /
    • 2013
  • 최근 소셜미디어는 전세계적 커뮤니케이션 도구로서 사용에 전문적인 지식이나 기술이 필요하지 않기 때문에 이용자들로 하여금 콘텐츠의 실시간 생산과 공유를 가능하게 하여 기존의 커뮤니케이션 양식을 새롭게 변화시키고 있다. 특히 새로운 소통매체로서 국내외의 사회적 이슈를 실시간으로 전파하면서 이용자들이 자신의 의견을 지인 및 대중과 소통하게 하여 크게는 사회적 변화의 가능성까지 야기하고 있다. 소셜미디어를 통한 정보주체의 변화로 인해 데이터는 더욱 방대해지고 '빅데이터'라 불리는 정보의 '초(超)범람'을 야기하였으며, 이러한 빅데이터는 사회적 실제를 이해하기 위한 새로운 기회이자 의미 있는 정보를 발굴해 내기 위한 새로운 연구분야로 각광받게 되었다. 빅데이터를 효율적으로 분석하기 위해 다양한 연구가 활발히 이루어지고 있다. 그러나 지금까지 소셜미디어를 대상으로 한 연구는 개괄적인 접근으로 제한된 분석에 국한되고 있다. 이를 적절히 해결하기 위해 본 연구에서는 트위터 상에서 실시간으로 방대하게 생성되는 빅스트림 데이터의 효율적 수집과 수집된 문헌의 다양한 분석을 통한 새로운 정보와 지식의 마이닝을 목표로 사회적 이슈를 포착하기 위한 실시간 트위터 트렌드 마이닝 시스템을 개발 하였다. 본 시스템은 단어의 동시출현 검색, 질의어에 의한 트위터 이용자 시각화, 두 이용자 사이의 유사도 계산, 트렌드 변화에 관한 토픽 모델링 그리고 멘션 기반 이용자 네트워크 분석의 기능들을 제공하고, 이를 통해 2012년 한국 대선을 대상으로 사례연구를 수행하였다. 본 연구를 위한 실험문헌은 2012년 10월 1일부터 2012년 10월 31일까지 약 3주간 1,737,969건의 트윗을 수집하여 구축되었다. 이 사례연구는 최신 기법을 사용하여 트위터에서 생성되는 사회적 트렌드를 마이닝 할 수 있게 했다는 점에서 주요한 의의가 있고, 이를 통해 트위터가 사회적 이슈의 변화를 효율적으로 추적하고 예측하기에 유용한 도구이며, 멘션 기반 네트워크는 트위터에서 발견할 수 있는 고유의 비가시적 네트워크로 이용자 네트워크의 또 다른 양상을 보여준다.

전역 토픽의 지역 매핑을 통한 효율적 토픽 모델링 방안 (Efficient Topic Modeling by Mapping Global and Local Topics)

  • 최호창;김남규
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.69-94
    • /
    • 2017
  • 최근 빅데이터 분석 수요의 지속적 증가와 함께 관련 기법 및 도구의 비약적 발전이 이루어지고 있으며, 이에 따라 빅데이터 분석은 소수 전문가에 의한 독점이 아닌 개별 사용자의 자가 수행 형태로 변모하고 있다. 또한 전통적 방법으로는 분석이 어려웠던 비정형 데이터의 활용 방안에 대한 관심이 증가하고 있으며, 대표적으로 방대한 양의 텍스트에서 주제를 도출해내는 토픽 모델링(Topic Modeling)에 대한 연구가 활발히 진행되고 있다. 전통적인 토픽 모델링은 전체 문서에 걸친 주요 용어의 분포에 기반을 두고 수행되기 때문에, 각 문서의 토픽 식별에는 전체 문서에 대한 일괄 분석이 필요하다. 이로 인해 대용량 문서의 토픽 모델링에는 오랜 시간이 소요되며, 이 문제는 특히 분석 대상 문서가 복수의 시스템 또는 지역에 분산 저장되어 있는 경우 더욱 크게 작용한다. 따라서 이를 극복하기 위해 대량의 문서를 하위 군집으로 분할하고, 각 군집별 분석을 통해 토픽을 도출하는 방법을 생각할 수 있다. 하지만 이 경우 각 군집에서 도출한 지역 토픽은 전체 문서로부터 도출한 전역 토픽과 상이하게 나타나므로, 각 문서와 전역 토픽의 대응 관계를 식별할 수 없다. 따라서 본 연구에서는 전체 문서를 하위 군집으로 분할하고, 각 하위 군집에서 대표 문서를 추출하여 축소된 전역 문서 집합을 구성하고, 대표 문서를 매개로 하위 군집에서 도출한 지역 토픽으로부터 전역 토픽의 성분을 도출하는 방안을 제시한다. 또한 뉴스 기사 24,000건에 대한 실험을 통해 제안 방법론의 실무 적용 가능성을 평가하였으며, 이와 함께 제안 방법론에 따른 분할 정복(Divide and Conquer) 방식과 전체 문서에 대한 일괄 수행 방식의 토픽 분석 결과를 비교하였다.

시계열 군집분석을 통한 디지털 음원의 순위 변화 패턴 분류 (Derivation of Digital Music's Ranking Change Through Time Series Clustering)

  • 유인진;박도형
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.171-191
    • /
    • 2020
  • 본 연구는 현대 사회에서 가장 가치 있는 문화자산이자 한류의 흐름에서 특히 중요한 위치를 차지하는 디지털 음악에 초점을 두었다. 디지털 음악에 대하여 공신력 있는 음원 차트인 '가온 차트'에 진입한 음원들의 73주간 순위 변화를 수집하였으며 유사한 특징을 가지는 패턴들로 분류하였다. 이후 각 순위 변화 패턴으로부터 주목할 만한 특징에 대한 설명적 분석을 수행하였다. 구체적으로 음원에 대한 신뢰도 이슈가 발생하기 이전 기간의 국내 발매된 디지털 음원들로 한정하여 시점을 일치시킨 후 시계열 군집분석을 통해 패턴을 도출하고자 하였다. 데이터 수집과 전처리를 통하여 742건의 중복되지 않는 음원들을 확보하였고, 시계열 순위 변화에 대한 시계열 군집분석 결과 16개의 패턴들이 도출되었다. 이후 도출된 패턴들을 기반으로 '스테디셀러'와 '원 히트 원더'의 두 가지 유형의 대표적인 패턴을 확인하였다. 나아가 두 패턴에 대하여 차트 내에서 음원의 생존 기간과 음원 순위에 관점에서 다섯 가지의 세분화된 패턴으로 분류하였다. 각 패턴들이 가지는 중요한 특징들은 다음과 같다. 원 히트 원더형 패턴에서 아티스트의 슈퍼스타 효과와 편승효과가 강하게 나타났으며, 소비자들의 디지털 음원 선택에 강한 영향을 미친다는 것을 확인하였다. 나아가 스테디셀러형 패턴을 통해서 매우 오랜시간 소비자들의 선택을 받는 음원들을 확인하였고, 소비자의 니즈를 관통하며 가장 많은 선택을 받는 음원들이 오히려 원 히트 원더형 패턴이 아니라 스테디셀러: 중기 패턴에 포진하고 있음을 확인하였다. 특히 주목할 만한 점은 스테디셀러형 패턴을 통해 기존의 패턴과는 상반되는 '차트 역주행' 현상을 확인했다는 것이다. 본 연구는 디지털 음원을 중심으로 상대적으로 소외되었던 분야인 시간의 흐름에 따른 음원의 순위 변화에 초점을 두었고, 음원의 흥행과 순위를 예측하는 것이 아니라 순위 변화의 패턴을 세분화함으로써 음원 연구에 대한 새로운 접근을 시도하였다는 점에서 의의가 있다.