• 제목/요약/키워드: Contents-based retrieval

검색결과 367건 처리시간 0.023초

텍스트 마이닝을 이용한 2012년 한국대선 관련 트위터 분석 (Analysis of Twitter for 2012 South Korea Presidential Election by Text Mining Techniques)

  • 배정환;손지은;송민
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.141-156
    • /
    • 2013
  • 최근 소셜미디어는 전세계적 커뮤니케이션 도구로서 사용에 전문적인 지식이나 기술이 필요하지 않기 때문에 이용자들로 하여금 콘텐츠의 실시간 생산과 공유를 가능하게 하여 기존의 커뮤니케이션 양식을 새롭게 변화시키고 있다. 특히 새로운 소통매체로서 국내외의 사회적 이슈를 실시간으로 전파하면서 이용자들이 자신의 의견을 지인 및 대중과 소통하게 하여 크게는 사회적 변화의 가능성까지 야기하고 있다. 소셜미디어를 통한 정보주체의 변화로 인해 데이터는 더욱 방대해지고 '빅데이터'라 불리는 정보의 '초(超)범람'을 야기하였으며, 이러한 빅데이터는 사회적 실제를 이해하기 위한 새로운 기회이자 의미 있는 정보를 발굴해 내기 위한 새로운 연구분야로 각광받게 되었다. 빅데이터를 효율적으로 분석하기 위해 다양한 연구가 활발히 이루어지고 있다. 그러나 지금까지 소셜미디어를 대상으로 한 연구는 개괄적인 접근으로 제한된 분석에 국한되고 있다. 이를 적절히 해결하기 위해 본 연구에서는 트위터 상에서 실시간으로 방대하게 생성되는 빅스트림 데이터의 효율적 수집과 수집된 문헌의 다양한 분석을 통한 새로운 정보와 지식의 마이닝을 목표로 사회적 이슈를 포착하기 위한 실시간 트위터 트렌드 마이닝 시스템을 개발 하였다. 본 시스템은 단어의 동시출현 검색, 질의어에 의한 트위터 이용자 시각화, 두 이용자 사이의 유사도 계산, 트렌드 변화에 관한 토픽 모델링 그리고 멘션 기반 이용자 네트워크 분석의 기능들을 제공하고, 이를 통해 2012년 한국 대선을 대상으로 사례연구를 수행하였다. 본 연구를 위한 실험문헌은 2012년 10월 1일부터 2012년 10월 31일까지 약 3주간 1,737,969건의 트윗을 수집하여 구축되었다. 이 사례연구는 최신 기법을 사용하여 트위터에서 생성되는 사회적 트렌드를 마이닝 할 수 있게 했다는 점에서 주요한 의의가 있고, 이를 통해 트위터가 사회적 이슈의 변화를 효율적으로 추적하고 예측하기에 유용한 도구이며, 멘션 기반 네트워크는 트위터에서 발견할 수 있는 고유의 비가시적 네트워크로 이용자 네트워크의 또 다른 양상을 보여준다.

나이브베이즈 분류모델과 협업필터링 기반 지능형 학술논문 추천시스템 연구 (A Study of Intelligent Recommendation System based on Naive Bayes Text Classification and Collaborative Filtering)

  • 이상기;이병섭;박병용;황혜경
    • 정보관리연구
    • /
    • 제41권4호
    • /
    • pp.227-249
    • /
    • 2010
  • 정보기술과 인터넷의 발달로 학술정보가 폭발적으로 증가하고 있다. 정보 과잉으로 인해 연구자들은 필요한 정보를 찾거나 필터링하는데 더 많은 시간과 노력을 투입하고 있다. 이용자들이 원하는 정보를 예측하여 관심 가질만한 정보를 선별하여 추천하는 시스템을 전문가시스템, 데이터마이닝, 정보검색 등 다양한 분야에서 오래 전부터 연구하여 왔다. 최근에는 콘텐츠기반추천시스템과 협업필터링을 결합하거나 다른 분야 모델을 접목한 하이브리드 추천시스템으로 발전하고 있다. 본 연구에서는 기존 추천시스템 문제를 해결하고 대규모 정보센터나 도서관에서 학술논문을 효율적이고 지능적으로 추천하기 위해 협업필터링과 나이브베이즈모델을 결합한 새로운 방식의 추천시스템을 제시하였다. 즉, 협업필터링 방식으로 과도한 특성화(Over-specialization) 문제를 해결하고, 나이브베이즈모델을 통해 평가정보나 이용정보가 부족한 신규콘텐츠 추천문제를 해소하였다. 본 모델을 검증하기 위해 한국과학기술정보연구원 NDSL에서 제공하는 식품과 전기 분야 학술논문에 적용하여 실험하였다. 현재 NDSL 이용자 4명에게 피드백을 받은 결과 추천논문에 상당히 만족하는 것으로 나타났다.

주제명 활용 분석을 통한 국립중앙도서관 주제명표목표의 현황 연구 (A Study on the Current Status of National Library of Korea Subject Headings List through Utilization Analysis of Subject Headings)

  • 이혜경;이용구
    • 정보관리학회지
    • /
    • 제40권2호
    • /
    • pp.157-182
    • /
    • 2023
  • 이 연구는 국립중앙도서관에서 개발한 주제명표목표의 구성 현황과 2003년부터 2022년까지 국가서지 1,218,867건에 부여된 주제명의 현황을 분석하였다. 그 결과 첫째, 주제명표목표의 전체 주제명 중 우선어는 257,103개로 전체 용어의 50.2% 이상이었으며, 외국어가 169,466개(33.1%), 비우선어가 61,442개(12.0%) 등으로 구성되었다. 우선어 중에 활용된 주제명은 57,312종으로 22.3%에 해당하며 이 중 54.7%인 31,351종의 주제명은 부여횟수 5회 미만으로, 전체 중에서 적은 수의 주제명만을 활용하고 있음을 파악하였다. 둘째, 관계지시기호의 빈도는 RT, BT, NT 순으로 나타났으며, 최상위 주제명은 12,602종, 최하위 주제명은 143,704종이었고 최대 심도는 17수준이었다. 셋째, 서지 당 평균 1.72회의 주제명이 부여되었으며, 자료의 내용이 특정적일수록 주제명 부여 횟수가 많아지고 심도도 깊어지는 경향을 보였다. 그리고 최근에 입력한 서지일수록 부여된 주제명 수가 증가하였고 심도도 깊어졌으나, KDC 주류에 따라 서지 당 부여된 주제명 수는 편차가 있는 것으로 나타났다. 현황 분석을 통해 결과적으로 주제명표목표가 수록한 용어의 범위에 대한 평가와 주제명의 계층 관계 및 심도의 재정비가 요구되며, 주제명표목표의 세목 개발을 통한 개선이 필요한 것으로 판단하였다.

해운시황정보서비스시스템 구현 사례연구 (A Case Study on Implementation of the Shipping Market Information Service System)

  • 이석용;정명환
    • 한국항만경제학회지
    • /
    • 제29권3호
    • /
    • pp.73-94
    • /
    • 2013
  • 해운시황정보의 중요성과 해운시황정보서비스의 필요성이 대두됨에 따라 기존의 해운시황정보 제공주체 및 제공서비스에 관한 탐색적 선행연구가 수행되어 왔으나, 해운시황정보를 제공하는 정보원천과 정보서비스주체를 연계하고 보다 최적화된 해운시황정보서비스를 위해 정보기술을 활용한 구체적인 연구는 없었다. 본 연구에서는 최소의 리서치자원으로 최대의 정보서비스를 효율적으로 제공하기 위해 정보제공주체의 편의를 도모하는 인터페이스, 입수된 정보를 가공 및 분석하는데 최적화된 컨텐츠관리시스템, 분석된 정보의 도식화 및 스프레드시트, 배포를 위한 웹 및 모바일서비스를 제공하는 서비스시스템을 구현하고자 하였다. 이를 위해 첫째, 서비스가 필요한 정보를 식별하고 둘째, 해외사례조사를 통해 해운정보 제공주체들과 정보서비스를 검토하여 서비스 할 정보항목을 확정하며 셋째, 최근정보기술 동향을 조사하여 적합한 기술을 선정, 이를 적용한 서비스시스템을 구현하며 산출된 정보를 제공할 채널을 결정해야 한다. 따라서 성공적인 해외 해운시황정보서비스를 검토하여 본 시스템을 통해 서비스할 해운시황정보서비스를 정의하고, 싱글 윈도우기반의 정보입수 및 관리에 적합한 기술인 X-Internet 기반의 WCMS를 적용하였으며, 다양한 형태의 그래프 표현 및 입력된 정보가 사전에 정의된 규칙에 따라 산정된 최신정보로 유지되도록 스프레드시트기능을 추가하였다. 또한 일련의 분석을 통해 산출된 정보를 수요자에게 적절히 제공하기 위해 분석된 수치 또는 그래프 형태의 정보를 리포트에 즉시 옮기고 Web Portal 및 Hybrid App으로 서비스할 수 있는 해운시황정보서비스를 위한 시스템을 구현하였다.

시각적 특징을 기반한 샷 클러스터링을 통한 비디오 씬 탐지 기법 (Video Scene Detection using Shot Clustering based on Visual Features)

  • 신동욱;김태환;최중민
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.47-60
    • /
    • 2012
  • 비디오 데이터는 구조화되지 않은 복합 데이터의 형태를 지닌다. 이러한 비디오 데이터의 효율적인 관리 및 검색을 위한 비디오 데이터 구조화의 중요성이 대두되면서 콘텐츠 내 시각적 특징을 기반으로 비디오 씬(scene)을 탐지하고자 하는 연구가 활발히 진행되었다. 기존의 연구들은 주로 색상 정보만을 이용하여 샷(shot) 간의 유사도 평가를 기반한 클러스터링(clustering)을 통해 비디오 씬을 탐지하고자 하였다. 하지만 비디오 데이터의 색상 정보는 노이즈(noise)를 포함하고, 특정 사물의 개입 등으로 인해 급격하게 변화하기 때문에 색상만을 특징으로 고려할 경우, 비디오 샷 혹은 씬에 대한 올바른 식별과 디졸브(dissolve), 페이드(fade), 와이프(wipe)와 같은 화면의 점진적인 전환(gradual transitions) 탐지는 어렵다. 이러한 문제점을 해결하기 위해, 본 논문에서는 프레임(frame)의 컬러 히스토그램과 코너 에지, 그리고 객체 컬러 히스토그램에 해당하는 시각적 특징을 기반으로 동일한 이벤트를 구성하는 의미적으로 유사한 샷의 클러스터링을 통해 비디오 씬을 탐지하는 방법(Scene Detector by using Color histogram, corner Edge and Object color histogram, SDCEO)을 제안한다. SDCEO는 샷 바운더리 식별을 위해 컬러 히스토그램 분석 단계에서 각 프레임의 컬러 히스토그램 정보를 이용하여 1차적으로 연관성 있는 연속된 프레임을 샷 바운더리로 병합한 후, 코너 에지 분석 단계에서 병합된 샷 내 처음과 마지막 프레임의 코너 에지 특징 비교를 통하여 샷 바운더리를 정제하여 최종 샷을 식별한다. 키프레임 추출 단계에서는 샷 내 프레임간 유사도 비교를 통해 모든 프레임과 가장 유사한 프레임을 각 샷을 대표하는 키프레임으로 추출한다. 그 후, 비디오 씬 탐지를 위해, 컬러 히스토그램과 객체 컬러 히스토 그램에 해당하는 프레임의 시각적 특징을 기반으로 상향식 계층 클러스터링 방법을 이용하여 의미적인 연관성을 지니는 샷의 군집화를 통해 비디오 씬을 탐지하는 방법이다. 본 논문에서는 SDCEO의 프로토 타입을 구축하고 3개의 비디오 데이터를 이용한 실험을 통하여 SDCEO의 효율성을 평가하였고 샷 바운더리 식별의 성능의 정확도는 평균 93.3%, 비디오 씬 탐지 성능의 정확도는 평균 83.3%로 만족할만한 성능을 보였다.

법령정보 검색을 위한 생활용어와 법률용어 간의 대응관계 탐색 방법론 (Term Mapping Methodology between Everyday Words and Legal Terms for Law Information Search System)

  • 김지현;이종서;이명진;김우주;홍준석
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.137-152
    • /
    • 2012
  • 인터넷 환경에서 월드 와이드 웹이 등장한 이후 웹을 통해 수많은 웹 페이지들이 생산됨에 따라 사용자가 원하는 정보를 검색하기 위한 다양한 형태의 검색 서비스가 여러 분야에서 개발되어 활용되고 있다. 특히 법령 검색은 사용자가 현재 자신이 처한 상황에 필요한 법령을 검색하여 법령에 대한 지식을 얻기 위한 창구로써 국민의 편의를 제공하기 위해 반드시 필요한 서비스 중 하나이다. 이에 법제처는 2009년부터 국민 누구나 편리하게 법령에 관련된 정보를 검색할 수 있도록 국가의 법령뿐만 아니라 행정규칙이나 판례 등 모든 법령정보를 검색할 수 있는 검색 서비스를 제공하고 있다. 하지만 현재까지의 검색엔진 기술은 기본적으로 사용자가 입력한 질의어를 문서에 포함하고 있는지의 여부에 따라 해당 문서를 검색 결과로 제시한다. 법령 검색 서비스 또한 해당 법령에 등장하는 키워드를 활용하여 사용자에게 검색 결과를 제공해주고 있다. 따라서 법제처의 이런 노력에도 불구하고 법령이 전문가의 시각에서 작성되었기 때문에 법에 익숙하지 않은 일반 사용자는 자신이 필요한 법령을 검색하기 어려운 한계점을 가지고 있다. 이는 일반적으로 법령에 사용되는 용어들과 일반 사용자가 실생활에 사용하는 단어가 서로 상이하기 때문에 단순히 키워드의 단순 매칭 형태의 검색엔진에서는 사용자들이 주로 사용하는 생활용어를 이용해서 원하는 법령을 검색할 수 없다. 본 연구에서는 법률용어에 관한 사전지식이 부족한 일반 사용자가 일상에서 주로 사용되는 생활용어를 이용하여 키워드 기반의 법령정보 검색 사이트에서 정확한 법령정보 검색이 가능하도록 생활용어와 법률용어 간의 대응관계를 탐색하고 이를 이용하여 법령을 검색할 수 있는 방법론을 제안하고자 한다. 우선 생활용어와 법률용어 간의 대응관계를 발견하기 위해 본 논문에서는 사용자들의 집단지성을 활용한다. 이를 위해 사용자들이 블로그의 분류 및 관리, 검색에 활용하기 위해 작성한 태그 정보를 이용하여 질의어인 생활용어와 관련된 태그들을 수집한다. 수집된 태그들은 K-means 군집분석 기법을 통해 태그들을 클러스터링하고, 생활용어와 가장 가까운 법률용어를 찾기 위한 평가 방법을 통해 생활용어에 대응될 수 있는 적절한 법률용어를 선택한다. 선택된 법률용어는 해당 생활용어와 명시적인 관계성이 부여되며, 이러한 생활용어와 법률용어와의 관계는 온톨로지 기반의 시소러스를 기술하기 위한 SKOS를 이용하여 표현된다. 이렇게 구축된 온톨로지는 사용자가 생활용어를 이용하여 검색을 수행할 경우 생활용어에 대응되는 적절한 법률용어를 찾아 법령 검색을 수행하고 그 결과를 사용자에게 제시한다. 본 논문에서 제시하고자 하는 방법론을 통해 법령 및 법률용어에 관련된 사전 지식이 없는 일반 사용자도 편리하고 효율적으로 법령을 검색할 수 있는 서비스를 제공할 것으로 기대한다.

웹툰의 사운드 표현에 관한 연구 (A Study of Sound Expression in Webtoon)

  • 목혜정
    • 만화애니메이션 연구
    • /
    • 통권36호
    • /
    • pp.469-491
    • /
    • 2014
  • 웹툰은 출판만화에서 사운드를 시각적으로 표현했던 방법을 발전시켜왔으며, 웹 기술의 발전을 토대로 직접 소리를 들려주기까지 한다. 직접 들리는 소리는 당연히 사운드 분석의 대상이 된다. 그러나 들리지 않는 사운드도 분석 대상이 될 수 있다. 본 연구는 들리지 않는 소리를 분석할 수 있다는 것의 이론적 토대를 인지심리학의 이중부호 개념에 둔다. 작가는 자신의 청각적 기억을 시각적으로 기호화할 수 있고, 독자는 기억과 인출의 과정을 통해 시각화된 기호를 보고 사운드를 떠올릴 수 있다. 이와 같은 웹툰의 들리지는 않지만 떠올릴 수 있는 사운드와 직접 들리는 사운드 두 경우를 본 연구는 함께 분석대상으로 한다. 구체적 분석을 위해서는 이론적 성과물이 있는 영화 사운드 분석 방법을 활용할 수 있다. 소리를 구성하는 세 요소인 음량, 음조, 음색은 음향학에서는 주파수 등으로 설명되고 직접 들을 때는 느낌으로 알지만, 시각적으로는 사운드를 표현한 글자나 이미지의 선의 굵기와 위치, 음원의 이미지 등으로 알 수 있다. 내화면 사운드와 외화면 사운드의 시각적 표현은 만화의 칸과 관련이 있다. 일반적으로는 칸 외부로 외화면 사운드를 표현하지만 웹툰에서는 듣는 자를 강조하는 방법으로 칸 내부에 외화면 소리를 표현하기도 한다. 그리고 영화의 호러 장르가 장르 효과를 높이기 위해 사운드를 많이 사용하는데 웹툰에서도 호러 장르가 같은 효과를 위해 사운드를 많이 사용한다. 이러한 영화 사운드 분석 방법을 활용해 사운드를 이미지로 표현한 작품들을 분석해볼 때, 초창기 출판만화에서부터 시작한 사운드의 청각적 표현들이 계속 발전해서 웹툰에서 창의적으로 표현되고 있음을 알 수 있다. 특히 세로 이동을 활용한 칸의 배치 및 소리표현의 방식들은 웹툰이 보여준 새로운 방법들이며, 칸 모양도 훨씬 다양해졌다. 직접 들려주는 소리로는 BGM이 가장 먼저 사용되었는데 최근에는 한 회의 분위기에 맞춰 음향효과까지 섞어 맞춤 작곡된 곡들이 사용된다. 그리고 스크롤 이동에 맞춰 소리를 들려주는 프로그램이 개발되면서 특정 순간의 음향효과나 특정 장면에 어울리는 음악들을 들을 수 있게 되었다. 특히 호러 장르에서는 특정한 이미지와 공포를 불러일으키는 사운드를 같이 사용하여 장르적 효과를 배가시킨다. 이렇게 웹툰에서는 다양한 사운드 시각화 방법이 계속 창조되고 있으며 기술과 접목된 새로운 시도들이 이루어지고 있다. 이러한 발전은 웹툰이 하나의 문화콘텐츠로서의 융합의 장이 될 수 있음을 보여준다.