• 제목/요약/키워드: 최대 부분 집합

검색결과 30건 처리시간 0.026초

영어 트위터 감성 분석을 위한 SentiWordNet 활용 기법 비교 (A Comparative Study on Using SentiWordNet for English Twitter Sentiment Analysis)

  • 강인수
    • 한국지능시스템학회논문지
    • /
    • 제23권4호
    • /
    • pp.317-324
    • /
    • 2013
  • 트위터 감성 분석은 트윗글의 감성을 긍정과 부정으로 분류하는 작업이다. 이 연구에서는 SentiWordNet(SWN) 감성 사전에 기반한 트윗글 감성 분석을 다룬다. SWN은 전체 영어 단어에 대해 단어의 의미별로 긍정, 부정의 감성 강도를 저장해 둔 감성 사전이다. 기존 SWN 기반 감성 분석 연구들은 문서에 출현하는 각 용어의 감성을 SWN으로부터 결정한 다음 이를 바탕으로 문서 전체의 감성을 결정하였는데, 그 방법들이 매우 다양하다. 예를 들어, 한 용어의 감성 결정 시 해당 용어의 SWN 내 의미별 긍정, 부정 감성 강도 차이들의 평균을 계산하거나 긍정과 부정 각각의 감성 강도 평균 혹은 최대값을 구하기도 하며, 문서 전체의 감성을 결정하는 경우에도 문서 내 용어들의 감성 값들에 대해 평균 혹은 최대값을 취하기도 하였다. 또한 SWN 내 형용사, 동사, 명사, 부사의 품사 집합 전체 혹은 특정 부분집합에 대해 위의 감성 결정 작업을 적용하기도 한다. 이처럼 기존 연구에서는 SWN 기반의 다양한 감성 자질 추출 절차가 시도되고 있으나 이들 자질 추출 기법 전반에 대한 성능 비교 연구는 찾기 힘들다. 이 연구에서는 SWN을 트위터 감성 분석에 활용하는 다양한 방법들을 일반화하는 절차들을 소개하고 각 방법들의 성능 비교 및 분석 결과를 제시한다.

피라미드 상호연결망의 기반 그래프로서의 2n-정방형 메쉬 그래프의 간선 특성 (Edge Property of 2n-square Meshes as a Base Graphs of Pyramid Interconnection Networks)

  • 장정환
    • 한국콘텐츠학회논문지
    • /
    • 제9권12호
    • /
    • pp.582-591
    • /
    • 2009
  • 피라미드 그래프는 정방형 메쉬와 트리 구조를 기반으로 하는 상호연결망 토폴로지이다. 본 논문에서는 피라미드 그래프의 각 계층을 구성하고 있는 기반 그래프로서의 정방형 메쉬 그래프의 간선들을 두개의 서로 다른 그룹으로 분류하는 전략을 채택한다. 메쉬 내의 간선 집합은 해당 간선의 양 끝 정점들에 인접된 부모 정점들이 상위 계층 내에서 서로 이웃하는 관계인지 아니면 공유하는 관계인지에 따라서 각각 NPC-간선과 SPC-간선이라는 이름으로 불리는 두 개의 서로 다른 부분집합으로 나누어질 수 있다. 아울러 원래 그래프에서의 SPC-간선들을 압축된 결과 그래프에서는 압축된 슈퍼-정점 내부로 숨김으로써 NPC-간선들에만 초점을 맞출 수 있도록 하기 위해 압축 그래프의 개념을 소개한다. 본 논문에서는 $2^n\times2^n$ 2-차원 정방형 메쉬 내에서 헤밀톤 사이클 구성 시 포함할 수 있는 NPC-간선 개수의 하한 및 상한이 각각 $2^{2n-2}$$3*(2^{2n-2}-2^{n-1})$임을 분석한다. 이 결과를 피라미드 그래프로 확장시킴으로써 n-차원 피라미드 내에서 헤밀톤 사이클에 포함가능한 NPC-간선의 최대 개수가 $4^{n-1}-3*2^{n-1}$-2n+7 임을 증명한다.

개선된 피라미드 네트워크에서 토러스 부그래프의 사이클 확장성 (Cycle Extendability of Torus Sub-Graphs in the Enhanced Pyramid Network)

  • 장정환
    • 한국멀티미디어학회논문지
    • /
    • 제13권8호
    • /
    • pp.1183-1193
    • /
    • 2010
  • 피라미드 그래프는 병렬처리 분야에서 정방형 메쉬와 트리 구조를 기반으로 하는 상호연결망 위상으로 잘 알려져 있다. 개선된 피라미드 그래프는 이러한 피라미드 그래프보다 성능을 향상시키기 위해 메쉬를 토러스로 대체시킨 구조를 말한다. 본 논문에서는 개선된 피라미드 그래프의 각 계층을 형성하고 있는 기반 부-그래프로서의 정방형 토러스 그래프의 간선들을 두 개의 서로 다른 그룹으로 분류하는 전략을 채택한다. 토러스 그래프 내의 간선 집합은 해당 간선의 양 끝 정점들에 인접된 부모 정점들이 상위 계층에서 서로 인접하는지 아니면 공유하는 관계 인지에 따라 각각 NPC-간선과 SPC-간선이라 불리는 두 개의 서로 다른 부분집합으로 나누어 고려한다. 아울러 원래 그래프에서의 SPC-간선들을 압축된 결과 그래프에서는 압축된 슈퍼-정점 내부로 은닉시킴으로써 NPC-간선들에 대해서만 초점을 맞추도록 하기 위해 압축 그래프의 개념을 소개한다. 본 연구에서는 $2^n{\times}2^n$ 2-차원 정방형 토러스 내에서 헤밀톤 사이클 구성 시 포함할 수 있는 NPC-간선 개수의 하한 및 상한이 각각 $2^{2n-2}$$3{\cdot}2^{2n-2}$임을 분석한다. 이 결과를 개선된 피라미드 그래프로 확장시킴으로써 개선된 n-차원 피라미드 그래프 내에서 헤밀톤 사이클에 포함할 수 있는 NPC-간선의 최대 개수는 $4^{n-1}$-2n+1 개임을 증명한다.

사용자 이분그래프모형을 이용한 온라인 커뮤니티 토론 네트워크의 군집성과 극성 분석 (Cluster and Polarity Analysis of Online Discussion Communities Using User Bipartite Graph Model)

  • 김성환;탁해성;조환규
    • 인터넷정보학회논문지
    • /
    • 제19권5호
    • /
    • pp.89-96
    • /
    • 2018
  • 온라인 커뮤니티에서는 많은 수의 참여자들이 시공간적인 제약을 받지 않고 서로간의 다양한 의견을 댓글로 교환한다. 온라인 공간은 시공간적인 제약으로부터 자유롭기 때문에 신속하고 자유로운 의사소통을 가능하게 하지만, 동시에 불필요한 언쟁과 갈등을 쉽게 유발시킬 수 있다는 문제점이 있다. 토론 과정에서 형성되는 참여자 간의 네트워크는 참여자들 간의 대립 양상을 파악하고 앞으로 일어날 분쟁을 예측하여 방지하기 위한 중요한 단서가 된다. 본 논문에서는 온라인 커뮤니티에서의 댓글 교환으로 나타나는 사용자 토론 네트워크상에서 관찰되는 집단의 극성을 분석하기 위한 이분그래프 기반의 정량적 지표를 제안한다. 제안 기법은 댓글 교환 정보를 이용하여 사용자 상호작용 네트워크 그래프를 구성하고, 구성한 그래프 상에서 최대신장트리를 구한 후 버텍스 컬러링을 통하여 사용자를 두 부분집합으로 분할한다. 분할된 사용자 집합 간의 댓글 교환 비율을 이용하여 극성 지표를 계산함으로써 주어진 토론의 참가자들이 양분화된 정도를 정량적으로 측정한다. 실험을 통해 제안 기법이 진영의 양분화를 탐지하는데 효과적임을 보임과 동시에 온라인 커뮤니티에서 발생하는 개별 토론의 참여자들이 두 진영으로 양분되어 논쟁을 벌이는 것을 확인하였다.

PET/CT 2D와 3D 영상 획득에서 방사능 집적에 따른 방사능 농도의 평가 (Evaluation of Radioactivity Concentration According to Radioactivity Uptake on Image Acquisition of PET/CT 2D and 3D)

  • 박선명;홍건철;이혁;김기;최춘기;석재동
    • 핵의학기술
    • /
    • 제14권1호
    • /
    • pp.111-114
    • /
    • 2010
  • 양전자 방출 단층촬영은 세포의 생화학적 변화에 따른 방사성의약품의 집적 정도를 영상화함으로서 암을 조기에 진단할 수 있는 검사방법으로 알려져 있다. 이러한 집적 정도는 여러 가지 원인에 따라 발생될 수 있는 것으로 $^{18}F$-FDG 주사량, 종양의 크기, 혈중 포도당 농도 등이 있다. 본 연구에서는 집적방사능과 2D와 3D 영상 획득이 방사능 농도(kBq/mL)에 미치는 영향에 대하여 평가하고자 한다. GE Discovery STe 16 PET/CT에서 1994 NEMA PET phantom을 이용하였으며, 배후방사능과 열소의 방사능 농도비가 1:2, 1:4, 1:8, 1:10, 1:20, 1:30 표준이 되도록 하여 2D와 3D로 영상을 획득하였다. 재구성 방법으로 2D와 3D 모두에서 반복연산법으로 반복횟수 2회, 부분집합 20을 적용하였다. 그리고 CT 감쇠보정법과 획득 시간은 10분으로 설정하였다. 또한 영상분석은 열소의 중심과 배후방사능에 동일한 관심영역을 설정 한 후 각 부분의 방사능 농도를 측정하여 비교 분석하였다. 설정된 관심영역의 배후방사능과 열소의 방사능 농도 비는 2D에서 1:1.93, 1:3.86, 1:7.79, 1:8.04, 1:18.72, 1:26.90, 3D는 1:1.95, 1:3.71, 1:7.10, 1:7.49, 1:15.10, 1:23.24 값을 얻었다. 또한 표준 방사능 농도비를 기준으로 한 백분율 차이(% Difference)는 2D에서 3.50%, 3.47%, 8.12%, 8.02%, 10.58%, 11.06%로 최소 3.47%에서 최대 11.06% 차이가 있고 3D는 3.66%, 4.80%, 8.38%, 23.92%, 23.86%, 22.69%로 최소 3.66%에서 최대 23.92%까지의 차이를 나타냈다. 방사능 농도가 증가할수록 실제 집적된 방사능 농도의 차이가 커짐을 알 수 있으며, 2D가 3D보다 평균 약 10.6% 높게 집적되어 방사능 농도 변화에 영향을 적게 받는 것으로 나타났다. 따라서 임상환자의 추적 검사에서 영상 획득 방법을 변화할 시 정확한 정량 평가를 위해서 이점을 고려하여 적용하여야 한다.

  • PDF

문맥을 고려한 예제 기반 동영상 검색 알고리즘 (Content Based Video Retrieval by Example Considering Context)

  • 박주현;낭종호;김경수;하명환;정병희
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제30권12호
    • /
    • pp.756-771
    • /
    • 2003
  • 효율적인 동영상 검색 방법은 많은 양의 동영상 데이터를 관리하는 디지털 비디오 라이브러리 시스템에서 필수적으로 요구되는 기능이다. 본 논문에서는 샷 단위 동영상을 문맥, 전경, 배경, 오디오로 나누어 비교하여 질의 동영상과 비슷한 동영상을 찾아내는 예제 기반 동영상 검색 알고리즘을 제안하였고, 제안한 알고리즘에 따라서 저작 및 검색도구를 구현하였다. 샷간의 관계 정보 즉, 문맥을 고려한다는 것은 인접한 샷들 간의 오디오, 움직임 정보들과 같은 저급 수준 내용 정보 간에 변화 패턴을 비교한다는 것이다. 두 번째 비교 요소인 전경은 움직이는 객체들의 집합을 의미하고, 세 번째 비교 요소인 배경은 전경을 제외한 나머지 비디오 정보를 의미한다. 이러한 비교 방법은 동영상 제작 과정에 근거한 것으로써 사용자로 하여금 직관적인 비교를 할 수 있게 한다. 또한 질의 신을 직접 구성할 수 있게 하였고, 각각의 비교요소에 가중치를 부여할 수 있도록 하여서 사용자의 검색의도를 자유롭게 반영할 수 있도록 하였다. 본 논문에서는 동영상이 가지고 있는 의미 정보를 검색에 완전히 반영하지는 못하지만, 문맥을 통해서 부분적인 의미 정보를 사용할 수 있도록 하였으며, 질의 신 구성과 직관적인 비교 요소를 사용함으로써 사용자의 검색 의도를 최대한 반영하고자 하였다.

제품군의 재사용 가능한 클론 코드의 메소드 경로 통일을 위한 코드 클러스터링 방법 (A Code Clustering Technique for Unifying Method Full Path of Reusable Cloned Code Sets of a Product Family)

  • 김태영;이지현;김은미
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권1호
    • /
    • pp.1-18
    • /
    • 2023
  • 유사한 소프트웨어는 기존 산출물을 복제하고 수정하는 클론-앤-오운(clone-and-own, CAO) 방법으로 개발되곤 한다. 그러나 클론-앤-오운 방법은 복제된 제품의 수가 늘면서 유지보수를 어렵게 만들기 때문에 나쁜 프랙티스로 간주된다. 소프트웨어 제품라인 공학은 체계적인 재사용을 통해 소프트웨어 제품군을 개발하는 방법으로 클론-앤-오운 방법의 문제를 해결할 수 있다. CAO 방식으로 개발되어 온 제품패밀리를 제품라인 공학으로 마이그레이션하는 작업은 여러 소프트웨어 제품에서 클로닝된 부분들을 찾아 통합하고 재사용 가능한 자산으로 구축하는 것으로부터 시작된다. 그러나 클로닝이 디렉토리부터 코드 라인까지 다양한 수준에서 발생하고 그 과정에서 이들의 구조에 변경이 일어날 수 있어 단순하게 클로닝을 찾아내는 것만으로는 고품질의 제품라인 코드베이스를 구축하기 어렵다. 성공적인 마이그레이션을 위해서는 소스 코드들 사이의 클로닝 관계를 찾는 것 이외에도 소스 코드들의 파일 경로와 클래스 이름, 메소드 시그니처 등의 동일성을 확보는 작업이 선행되어야 한다. 이에 본 연구는 CAO 기반으로 개발된 제품들로부터 마이그레이션 대상 제품들을 선정한 후 제품들에 흩어져 있는 유사 코드 집합을 검출하여 메소드 경로의 통일이 필요한 대상을 식별하는 클러스터링 방법을 제안한다. 제안 방법의 효과를 보이기 위해 CAO 방식으로 진화해온 ApoGames 제품군에 제안 방법을 적용하여 실험을 진행하였다. 그 결과, 전처리 없이 수행된 파일의 상대 경로 기반 클러스터링 방법의 평균 정밀도는 0.91이며 식별된 공통 클러스터의 개수는 0개인 반면에 이 논문에서 제안하는 전처리와 함께 수행된 메소드 시그니처 기반 클러스터링 방법의 평균 정밀도는 0.98로 개선되었으며 식별된 공통 클러스터는 최대 15개까지 증가하였다.

생물계면활성제를 이용한 Phenanthrene의 생물학적 처리 (Enhanced Bioremediation of Phenanthrene Using Biosurfactant)

  • 신경희;김경웅
    • 자원환경지질
    • /
    • 제36권5호
    • /
    • pp.375-380
    • /
    • 2003
  • 본 연구에서는 생물계면활성제와 비이온계 계면활성제 용액의 pH 변화가 phenanthrene의 용해도 증가에 미치는 영향을 수용액 시스템에서 조사하고자 하였으며, PAHs-분해균주가 phenanthrene을 분해할 경우 이러한 용해도의 변화가 분해균주의 활성과 전체 분해율에 주는 영향을 파악하고자 하였다. 생물계면활성제 rhamnolipid와 비이온계 합성계면활성제 tween 80의 phenanthrene에 대한 solubilization capacity를 조사하기 위한 회분식 실험의 결과 MSR (Molar Solubilization Ratio)은 각각 0.0425와 0.1449로 나타났으며, 생물계면활성제 첨가로 인한 phenanthrene olubilization 기작이 평형에 도달하기 위한 시간은 24시간 정도로 나타났다. 임계마이셀 농도의 약 4.3배에 해당하는 240ppm의 생물계면활성제를 첨가하였을 경우, 증류수만을 첨가하였을 경우 용해도보다 약 9배 이상 phenanthrene의 용해도가 증가하였다. 또한, 생물계면활성제의 pH 변화가 phenanthrene solubility에 주는 영향을 살펴본 결과, 가장 높은 용해도를 나타낸 pH는 240ppm과 2000ppm의 생물계면활성제를 첨가한 경우 모두 pH 범위 4.5-5.5로 나타났다. 이는 rhamnolipid의 친수성 부분의 음전하 세기가 pH에 따라 달라지는 현상에 기인한 것으로 보여진다. 생물계면 활성제가 존재하지 않는 조건에서, pH의 변화가 phenanthrene 분해균주인 CRE7의 생장률과 분해능에 주는 영향을 조사한 결과, 최대 비성장률은 pH 6에서 나타났지만, pH 5-7 범위에서 크게 변화하지 않았다. 이러한 비성장률의 차이가 분해능에 미치는 영향을 확인한 결과, 높은 비성장률은 결과적으로 높은 분해율을 나타내는 것으로 보여졌다. 생물계면활성제를 첨가한 경우, 생물계면활성제를 첨가하지 않은 실험결과에 비교해 볼 때, pH 4를 제외하고 전체적으로 비성장률이 증가한 경향을 보였으며, 전체 분해율도 증가하는 추세를 나타내었다. 생물계면활성제의 첨가로 인해 pH 5에서의 비성장률은 첨가하지 않았을 경우에 비해 약 1.5배 증가하였으며, 이는 생물계면활성제가 phenanthrene의 용해도를 pH 5에서 약 5배이상 증가시킨 것과 비교하여 볼 때, 그 증가폭이 적다고 할 수 있다. 이러한 결과는 생물계면활성제의 첨가로 인해 마이셀 구조안으로 용해되어진 phenanthrene 의 경우 분해균주의 접근이 용이하지 않아 분해되기 어렵다는 것을 말해주며, pH에 따라 나타나는 서로 다른 구조의 phenanthrene-rhamnolipid의 집합체는 생물학적 이용도 또한 달라질 수 있음을 의미한다.

PET 영상의 정량적 개선을 위한 리스트-이벤트 데이터 재추출 (List-event Data Resampling for Quantitative Improvement of PET Image)

  • 우상근;유정우;김지민;강주현;임상무;김경민
    • 한국의학물리학회지:의학물리
    • /
    • 제23권4호
    • /
    • pp.309-316
    • /
    • 2012
  • 다중영상화기술은 진단 및 치료 반응평가의 성능향상을 위하여 활발히 연구되고 있으며 하드웨어의 통합에도 불구하고 기기간의 획득방법의 차이에 따라 영상간의 불일치와 계수부족으로 인하여 정합도를 떨어뜨린다. 이에 본 연구에서는 소동물 PET 리스트모드 데이터의 저장형식을 분석하고 잡음 및 통계적 특성을 향상시키기 위하여 이벤트 데이터를 재추출하여 정량적으로 개선된 PET 영상을 획득하고자 하였다. 소동물 리스트모드 Inveon PET 데이터는 소동물에 37 MBq/0.1 ml를 꼬리정맥에 주사하고 60분 후 10분 동안 정적데이터를 획득하였다. 생체신호와 같이 획득된 리스트모드 데이터형식은 48 비트의 패킷크기로 이루어져 있으며 패킷 내에서는 8 비트의 헤더와 40 비트의 payload 영역으로 나누어져 있다. 사이노그램 생성은 그레이코드로 각 패킷의 순서와 흐름을 평가하고 각 패킷의 순서를 CPU에서 검출기위치 변환과 단순 증가 그리고 비모수 부트스트랩 기법을 이용하여 재추출하여 새로운 사이노그램을 생성하였다. 영상은 3 span과 31 ring difference로 설정하여 생성된 사이노그램은 산란 및 감쇠보정을 고려하지 않고 16부분 집합으로 4회 반복하는 OSEM 2D 알고리즘을 이용하여 재구성하였다. 획득된 PET 데이터의 헤더정보에서의 동시계수의 총수는 1,394만 계수였으며, 리스트-이벤트 데이터의 패킷을 분석한 동시계수의 총수는 1,293만 계수였다. PET 데이터의 단순 증가는 최대값이 1.336에서 1.743으로 향상되었으나 잡음이 같이 증가됨을 확인하였다. PET 데이터 재추출 성능은 순차적인 패킷의 payload 값을 시프트연산을 통해 데이터의 위치를 이동시킴으로써 특정 잡음이 제거되거나 대조도가 향상되는 영상을 획득할 수 있었다. 부트스트랩 재추출 기법은 영상의 잡음과 통계적 특성이 개선된 PET 영상을 제공하여 다중영상화시 정합도를 향상시켜 질환의 조기 진단 성능을 향상시킬 수 있을 것으로 기대된다.

웹검색 트래픽 정보를 활용한 유커 인바운드 여행 수요 예측 모형 및 유커마이닝 시스템 개발 (Development of Yóukè Mining System with Yóukè's Travel Demand and Insight Based on Web Search Traffic Information)

  • 최유지;박도형
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.155-175
    • /
    • 2017
  • 최근 독감 예측이나 당선인 예측, 구매 패턴, 투자 등 다방면에서 웹검색 트래픽 정보. 소셜 네트워크 내용 등 거대한 데이터를 통해 사회적 현상, 소비 패턴을 분석하는 시도가 이전보다 늘어났다. 구글, 네이버, 바이두 등 인터넷 포털 업체들의 웹검색 트래픽 정보 공개 서비스와 함께 웹검색 트래픽 정보를 활용하여 소비자나 사용자와 관련된 연구가 실시되기 시작했다. 웹검색 트래픽 정보를 활용한 사회 현상, 소비 패턴 분석을 연구는 많이 수행되었으나, 그에 비해서 도출된 여행 수요 모델을 토대로 의사결정을 위한 실질적 대책 수립으로 이어지는 연구는 많이 진행되지 않은 실정이다. 관광산업은 상대적으로 많은 고용을 가능하게 하고 외자를 유치하는 등 고부가가치를 창출하여 경제 전체에 선순환 효과를 일으키는 중요한 산업이다. 그 중에서도 국내 입국외래객중 수년간 2위와의 큰 차이로 1위를 차지해왔던 중국 국적의 관광객 '유커' 및 그들이 지출하는 1인당 평균 관광 수지는 한국 경제에 매우 중요한 한 부분이다. 관광 수요의 예측은 효율적인 자원 배분과 합리적인 의사 결정에 있어서 공공부문 및 민간부문 모두 중요하다. 적절한 관광 수요 예측을 통해서 한정된 자원을 더욱 효과적으로 활용하여 더욱 많은 부가가치를 창출하기 위한 것이다. 본 연구는 중국인 인바운드를 예측하는 방법에 있어, 이전보다 더 최신의 트렌드를 즉각적으로 반영하고 개인들의 집합의 관심도가 포함되어 예측 성능이 개선된 방법을 제안한다. 해외여행은 고관여 소비이기 때문에 잠재적 여행객들이 입국하기 전 웹검색을 통해 적극적으로 자신의 여정과 관련된 정보를 취득하기 위한 활동을 한다. 따라서 웹검색 트래픽 수치가 중국인 여행객의 관심정도를 대표할 수 있다고 보았다. 중국인 여행객들이 한국 여행을 준비하는 단계에서 검색할만한 키워드를 선정해 실제 중국인 입국자 수와 상관관계가 있음을 검증하고자 하였다. 중국 웹검색 엔진 시장에서 80%의 점유율을 가지는 중국 최대 웹검색 엔진 '바이두'에서 공개한 웹검색 데이터를 활용하여 그 관심 정도를 대표할 수 있을 것이라 추정했다. 수집에 필요한 키워드의 선정 단계에서는 잠재적 여행객이 여정을 계획하고 구체화하는 단계에서 일반적으로 검색하게 되는 키워드 후보군을 선정하였다. 키워드의 선정에는 중국 국적의 잠재적 여행객 표본과의 인터뷰를 거쳤다. 트래픽 대소 관계 확인 결과에 따라서 최종 선정된 키워드들을 한국여행이라는 주제와 직접적인 연관을 가지는 키워드부터, 간접적인 연관을 가지는 키워드까지 총 세 가지 레벨의 카테고리로 분류하였다. 분류된 카테고리 내의 키워드들은 바이두'가 제공하는 웹검색 트래픽 데이터 제공 서비스 '바이두 인덱스'를 통해 웹검색 트래픽 데이터를 수집했다. 공개된 데이터 페이지 특성을 고려한 웹 크롤러를 직접 설계하여 웹검색 트래픽 데이터를 수집하였고, 분리되어 수집된 변수에는 필요한 변수 변환 과정을 수행했다. 자동화 수집된 웹검색 트래픽 정보들을 투입하여 중국 여행 인바운드에 대한 유의한 영향 관계를 확인하여 중국인 여행객의 한국 인바운드 여행 수요를 예측하는 모형을 개발하고자 하였다. 정책 의사결정 및 관광 경영 의사결정 같은 실무적 활용을 고려하여 각 변수의 영향력을 정량적으로 설명할 수 있고 설득이 명료한 방법인 다중회귀분석방법을 적용해 선형 식을 도출하였다. 수집된 웹검색 트래픽 데이터를 기존 검증된 모형 독립변인들에 추가적으로 투입함으로써 전통적인 독립변인으로만 구성된 연구 모형과 비교하여 가장 뛰어난 성능을 보이는 모형을 확인하였다. 본 연구에서 검증하려는, 웹검색 트래픽으로 대표되는 독립변인을 투입한 최종 도출된 모형을 통해 중국인 관광 수요를 예측할 때 유의한 영향을 끼치는 웹검색 트래픽 변수를 확인할 수 있다. 최적 모형 설명력을 가지는 모형을 기반으로 최종 회귀 식을 만들었고 이를 '유커마이닝' 시스템 내부에 도입하였다. 데이터 분석에서 더 나아가 도출된 모형을 직관적으로 시각화하고, 웹검색 트래픽 정보를 활용하여 도출할 수 있는 인사이트를 함께 보여주는 데이터 분석 기반의 '유커마이닝' 솔루션의 시스템 알고리즘과 UX를 제안하였다. 본 연구가 제안하는 모형과 시스템은 관광수요 예측모형 분야에서 웹검색 트래픽 데이터라는 정보 탐색을 하는 과정에 놓인 개인들의 인터랙티브하고 즉각적인 변수를 활용한 새로운 시도이다. 실무적으로 관련 정책결정자나 관광사, 항공사 등이 활용 가능한 실제적인 가치를 가지고, 정책적으로도 효과적인 관광 정책 수립에 활용될 수 있다.