• 제목/요약/키워드: Mining sites

검색결과 260건 처리시간 0.024초

사용자 리뷰의 평가기준 별 이슈 식별 방법론: 호텔 리뷰 사이트를 중심으로 (Methodology for Identifying Issues of User Reviews from the Perspective of Evaluation Criteria: Focus on a Hotel Information Site)

  • 변성호;이동훈;김남규
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.23-43
    • /
    • 2016
  • 최근 IT기술의 발전에 따라 많은 사람들이 자신들의 여가활동에 대한 경험을 공유하고 있으며, 역으로 다른 사람들의 여가활동에 대한 경험을 참고하여 더 나은 여가활동을 누릴 수 있는 기회를 얻게 되었다. 이러한 현상은 영화, 숙박, 음식, 여행 등 여가활동 전반에 걸쳐 나타나고 있으며, 그 중심에는 여가활동에 대한 정보를 요약하여 제공하는 수많은 사이트가 있다. 대부분의 여가활동 정보 사이트는 각 상품에 대한 평균 평점뿐만 아니라 상세 리뷰를 제공함으로써, 해당 상품을 구매하고자 하는 잠재고객의 의사결정을 지원하고 있다. 하지만 기존 대부분의 사이트는 한 단계의 평가기준에 따라 평점과 리뷰를 제공하기 때문에, 각 평가기준을 구성하는 세부요소에 대한 특징과 평가기준 별 주요 이슈를 파악하기 위해서는 상당히 많은 수의 리뷰를 직접 읽어야 한다는 불편이 따른다. 즉 사용자는 자신이 중요한 것으로 생각하는 평가기준에 대한 조건을 파악하기 위해, 많은 수의 리뷰를 하나하나 읽어보는 과정에서 많은 시간과 노력을 소비하게 된다. 예를 들어 호텔의 접근성, 객실, 서비스, 음식 등 한 단계의 평가기준만을 사용하여 평점과 리뷰를 제공하는 사이트의 경우, 접근성 중 특히 지하철역과의 거리, 객실 중 특히 욕실의 상태를 살펴보고자 하는 사용자에게 필요한 정보를 충분히 제공하지 못하게 된다. 따라서 본 연구에서는 기존 여가활동 정보 사이트의 한계, 즉 평가기준별로 입력된 리뷰를 신뢰하기 어렵다는 점과 평가기준을 구성하고 있는 세부 내용을 파악하기 어렵다는 점을 극복하기 위한 방안을 제시하고자 한다. 본 연구에서 제안하는 방법론은 사용자가 별도의 구분 없이 입력한 리뷰를 그 내용에 따라 평가기준별로 자동 분류하고, 각 평가 기준 별 주요 이슈를 요약하여 제공한다. 제안 방법론은 최근 텍스트 분석에 활발하게 사용되고 있는 토픽 모델링(Topic Modeling)에 기반을 두고 있으며, 각 리뷰를 하나의 문서 단위로 사용하는 것이 아니라 리뷰를 문장 단위로 끊어 개별 리뷰 유닛(Review Unit)으로 분해한 뒤, 평가기준별로 리뷰 유닛을 재구성하여 분석한다는 측면에서 기존의 토픽 모델링 기반 연구와 큰 차이가 있다고 할 수 있다. 본 논문에서는 제안 방법론을 실제 호텔 정보 사이트에서 수집한 423건의 리뷰 문서에 적용하여 6가지 평가기준에 대해 총 4,860건의 리뷰 유닛을 재구성하고, 이에 대한 분석 결과를 소개함으로써 제안 방법론의 유용성을 간접적으로 보인다.

모바일 러닝에서의 신규 융합서비스 도출을 위한 분석: 사회연결망 분석과 연관성 분석 사례 (An Analysis for Deriving New Convergent Service of Mobile Learning: The Case of Social Network Analysis and Association Rule)

  • 백헌;김진화;김용진
    • 경영정보학연구
    • /
    • 제15권3호
    • /
    • pp.1-37
    • /
    • 2013
  • 본 연구는 모바일 러닝의 활성화를 위한 서비스 융합의 가능성을 보고자 하였다. 이를 위해 모바일 러닝의 유형 및 특성을 분석 하였다. 먼저 현재 모바일 러닝 서비스는 어떤 서비스를 중심으로 활성화되고 있으며, 이러한 서비스를 중심으로 사용자의 활용도가 높은 서비스는 무엇인지 알아 보았다. 두 번째로는 모바일에서 주로 이뤄지고 있는 서비스와 이러닝에서 주로 이뤄지고 있는 서비스의 복합적 융합가능성을 살펴 보았다. 세 번째로는 모바일에서의 서비스와 이러닝에서의 공통된 서비스를 중심으로 앞으로 융합이 활성화 될 가능성을 살펴보았다. 분석을 위하여 포털 사이트에서 관련 웹페이지를 통하여 변수를 추출하였으며, 사회 네트워크 분석과 연관성 분석을 사용하였다. 이는 웹페이지마다 변수의 종류와 수가 다르기 때문에 전체적인 웹 상에서 각각의 변수들의 위치와 네트워크상에서의 복잡한 연결 정도를 살펴보기 힘들다. 이러한 문제점을 해결하기 위해 사회 네트워크 분석을 하였으며, 변수들 간의 연관규칙을 발견하고자 연관성 분석을 하였다. 규칙의 해석을 위해서는 사회 네트워크 분석 결과와 연관규칙을 함께 고려하여 살펴보았다. 분석 결과, 모바일에서 제공되는 서비스와 이러닝에서 제공되고 있는 공통된 서비스 중에서 빈도수가 높은 서비스로는 게임과 SNS로 나타났으며, 이외 결제, 광고, 메일, 이벤트, 동영상, 클라우드, 전자책, 증강현실, 취업 등으로 발견되었다. 이러한 서비스를 중심으로 이러닝의 다양한 서비스와 융합하여 이뤄지고 있음을 알 수 있었다. 공통된 서비스와 함께 모바일에서는 검색, 뉴스, GPS 등의 서비스가 활성화 되고 있으며, 이러닝에서는 시뮬레이션, 교양, 공교육 등의 서비스가 활성화 되고 있음을 알 수 있었다. 모바일과 이러닝의 공통된 변수를 기반으로 각각의 서비스의 융합이 높게 나타난 변수로는 모바일에서는 게임과 SNS, 게임과 스포츠, SNS와 광고, 게임과 이벤트, SNS와 전자책, 게임과 커뮤니티가 융합이 높게 나타났으며, 이러닝에서는 게임, 동영상, 상담, 전자책을 전항으로 하여 시뮬레이션, 말하기, 공교육, 출결관리 등의 서비스의 융합정도가 높게 나타난 것을 알 수 있었다. 다음으로 모바일서비스와 이러닝서비스의 공통된 서비스중에서, 모바일 러닝 서비스에서 활성화가 높은 서비스와 사용자를 기반한 모바일 러닝 서비스의 활성화가 높은 서비스인 게임, SNS, 전자책을 기준으로 서비스 융합 활성화 가능성을 예측했다. 본 연구결과를 통해 모바일을 활용한 이러닝 서비스의 관련 서비스 융합으로, 모바일 러닝의 활성화에 대한 전략적 방향성을 제안할 수 있을 것이다.

  • PDF

Landsat과 ASTER 위성영상 자료를 이용한 광물자원탐사로의 적용 가능성을 위한 예비연구 (Preliminary Study on the Application of Remote Sensing to Mineral Exploration Using Landsat and ASTER Data)

  • 이홍진;박맹언;김의준
    • 자원환경지질
    • /
    • 제43권5호
    • /
    • pp.467-475
    • /
    • 2010
  • Landsat과 ASTER 위성영상을 이용한 암상구분은 반건조-건조 지역을 대상으로 활발한 연구가 이루진 바 있으며, 미국 네바다 금속광화대 지역을 중심으로 광물자원탐사를 위한 초기 단계에서 유용한 방법으로서의 가능성에 관한 검증이 이루어졌다. 연구대상 지역인 중앙, 삼성, 경주, 내남 납석광산이 위치하고 있는 경상분지 남동부의 지질은 주로 백악기 하양층군에 속하는 진동층을 기저로 하여 유천층군에 해당하는 중성질 화산암류, 정각산층, 건천리층, 산성 화산암류와 후기에 이들 층을 관입하는 불국사 화강암류들로 구성되어 있다. 위성영상으로부터 납석광상을 추출하기 위한 비연산 모델을 제시하기 위해서, 중앙납석광산으로부터 채취된 응회암질 모암과 열수변질작용에 의해 형성된 납석을 대상으로 이들의 분광반사률을 측정하였다. 이들 분광반사률을 Landsat 영상과 ASTER 영상의 밴드별 분광반사율 곡선을 이용하여 재배열한 결과, Landsat 영상에 대해서는 밴드 5번에서 강한 반사 특성을 보이고, 밴드 7번에서 강한 흡수 특성을 보였다. ASTER 영상에서는 밴드 5와 8번에서 강한 흡수 특성을 밴드 4와 7번에서 반사특성이 나타났다. 이를 바탕으로 Landsat 위성영상의 DN (Digital Number) 값을 이용한 $Py_{Landsat}$ 모델을 적용한 결과, 열수변질대 지역은 1.94 이상으로 상대적으로 높은 값을 보이는데 반해서 이외의 지역은 1.19~1.49 사이의 낮은 값을 갖는 것으로 나타났다. 또한 $Py_{ASTER}$ 모델의 적용결과 납석광산과 다른 대상물간의 치는 콘크리트와 0.472, 나대지와 0.399로, $OHI_b$과, PAK모델의 적용결과 0.452, 0.371과 0.365, 0.311로 보다 큰 차이가 나타남을 알 수 있다. 따라서 이번 연구에서 제안한 $Py_{ASTER}$ 모델은 납석광상을 보다 더 명확하게 규명할 수 있는 것으로 나타났다.

기간별 이슈 매핑을 통한 이슈 생명주기 분석 방법론 (Analyzing the Issue Life Cycle by Mapping Inter-Period Issues)

  • 임명수;김남규
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.25-41
    • /
    • 2014
  • 최근 스마트 기기를 통해 소셜미디어에 참여하는 사용자가 급격히 증가하고 있다. 이에 따라 빅데이터 분석에 대한 관심이 높아지고 있으며 최근 포털 사이트에서 검색어로 자주 입력되거나 다양한 소셜미디어에서 자주 언급되는 단어에 대한 분석을 통해 사회적 이슈를 파악하기 위한 시도가 이루어 지고 있다. 이처럼 다량의 텍스트를 통해 도출된 사회적 이슈의 기간별 추이를 비교하는 분석을 이슈 트래킹이라 한다. 하지만 기존의 이슈 트래킹은 두 가지 한계를 가지고 있다. 첫째, 전통적 방식의 이슈 트래킹은 전체 기간의 문서에 대해 일괄 토픽 분석을 실시하고 각 토픽의 기간별 분포를 파악하는 방식으로 이루어지므로, 새로운 기간의 문서가 추가되었을 때 추가된 문서에 대해서만 분석을 추가 실시하는 것이 아니라 전체 기간의 문서에 대한 분석을 다시 실시해야 한다는 실용성 측면의 한계를 갖고 있다. 둘째, 이슈는 끊임 없이 생성되고 소멸될 뿐 아니라, 때로는 하나의 이슈가 둘 이상의 이슈로 분화하고 둘 이상의 이슈가 하나로 통합되기도 한다. 즉, 이슈는 생성, 변화(병합, 분화), 그리고 소멸의 생명주기를 갖게 되는데, 전통적 이슈 트래킹은 이러한 이슈의 가변성을 다루지 않았다는 한계를 갖는다. 본 연구에서는 이러한 한계를 극복하기 위해 대상 기간 전체의 문서를 한꺼번에 분석하는 방식이 아닌 세부 기간별 문서에 대해 독립적인 분석을 수행하고 이를 통합할 수 있는 방안을 제시하였으며, 이를 통해 새로운 이슈가 생성되고 변화하며 소멸되는 전체 과정을 규명하였다. 또한 실제 인터넷 뉴스에 대해 제안 방법론을 적용함으로써, 제안 방법론의 실무 적용 가능성을 분석하였다.

카나다 보포트-맥켄지 분지의 일라이트/스멕타이트의 원소 지화학 및 산소동위원소 연구 (Major, Trace and Rare Earth Element Geochemistry, and Oxygen-Isotope Systematics of Illite/smectite in the Reindeer D-27 Well, Beaufort-Mackenzie Basin, Arctic Canada)

  • 고재홍
    • 자원환경지질
    • /
    • 제28권4호
    • /
    • pp.351-367
    • /
    • 1995
  • 보포트-맥켄지 분지의 리인디어 D-27 시추공 시료에 대한 원소 지화학 및 산소동위원소 연구가 수행되었다. $K_2O$, Rb, 희토류원소의 함량 증가, Mg, Ti, Sc, Zn, Zr 등의 팔면체 원소의 감소, Be, V 등의 사면체 원소의 증가는 깊이에 따라 일라이트층의 구성비가 증가하는 일라이트/스멕타이트의 속성경향과 대비된다. 스멕타이트층과 일라이트층의 구조식은 각각 $[Al_{1.57}Fe_{.19}Mg_{.31}Ti_{.07}][Si_{3.84}A_{1.16}]O_{10}(OH)_2$$[Al_{1.84}Mg_{.16}][Si_{3.33}Al_{.67}]O_{10}(OH)_2$로 추정된다. 일라이트/스멕타이트의 속성과 연관하여 희토류원소의 유동이 관찰되었다. 희토류원소, 특히 La와 Ce의 깊이에 따른 함량 증가는 높은 전하가를 갖는 사면체 원소 ($V^{5+}$)의 유입과 관련이 있다. $V^{5+}$에 의한 잉여 전하는 부분적으로 낫은 전하가를 갖는 $Be^{2+}$에 의하여 상쇄되며, 또한 $Be^{2+}$에 의하여 발생되는 지엽적인 전하 불균형은 층간 이온으로는 높은 전하가 (+3)를 갖는 희토류 원소에 의하여 해소된다. 일라이트/스멕타이트의 ${\delta}^{18}O$가 (SMOW)는 2.91~15.72‰의 범위를 보이며, 걸프연안 등의 일라이트/스멕타이트와는 달리 깊이에 따라 증가한다. 일라이트/스멕타이트의 ${\delta}^{18}O$가의 증가는 공극수의 ${\delta}^{18}O$ 증가도가 깊이에 따라 증가하는 온도로 인한 동위원소 분별작용정수 (${\Delta}_{I/S-water}$)의 감소도보다 크기 때문이다. 일라이트/스멕타이트와 평형인 공극수의 ${\delta}^{18}O$가의 계산결과는 공극수의 근원이 지표수임을 지시한다. 중간 깊이에서 낮은 ${\delta}^{18}O$가를 보이는 450m 두께의 구간은 공극수가 층상화되어 있음을 의미한다. 그러나 이 깊이 구간이 낮은 일라이트층 구성비와 낮은 $K_2O$ 함량을 보이는 구간과 일치하지 않는 것으로 볼때 동위원소 교환 반응과 광물학적, 지화학적 반응은 서로 독립적으로 일어나는 것으로 해석된다.

  • PDF

답토양중(畓土壤中) Cadmium의 형태별(形態別) 분포(分布)와 현미중(玄米中) Cadmium 함량(含量)과의 관계연구(関係硏究) (Distribution of Cadminum Fractions in Paddy Soils and Their Relation to Cadmium Content in Brown Rice)

  • 임선욱;김선관
    • 한국토양비료학회지
    • /
    • 제16권1호
    • /
    • pp.28-35
    • /
    • 1983
  • 연(鉛) 아연광산(亜鉛鉱山) 인근답중(隣近畓中) Cd오염(汚染)이 심(甚)할 것으로 여상(予想)되는 지점(地点) 36개소(個所)에서 토양(土壤)과 현미(玄米)를 수도수확기(水稻收穫期)에 동시(同時)에 채취(採取)하여 토양중(土壤中) Cd을 $KNO_3$ 침출성(浸出性)(치환태(置換態)), NaF 침출성(浸出性)(흡착태(吸着態)), $Na_4P_2O_7$ 침출성(浸出性)(유기태(有機態)), EDTA 침출성(浸出性)(Carbonate태(態)), $HNO_3$ 침출성(浸出性)(Sulfide태(態)), 비침출성(非浸出性)(불용태(不溶態))로 분별분석(分別分析)하여 이들 형태(形態)의 Cd과 토양특성(土壤特性)과 관계(関係) 및 현미중(玄米中) Cd 함량(含量)과의 관계(関係)를 조사(調査)한 결과(結果)는 다음과 같다. 1. 형태별(形態別) Cd 분포비(分布比)는 토양특성(土壤特性)에 따라 차이(差異)가 심(甚)하나 평균치(平均値)를 보면 유기태(有機態)가 대략 44%, 불용태(不溶態)가 약 6%, 기타형태(其他形態)는 10~15% 범위(範囲)였다. 2. pH가 높은 토양(土壤)일수록 치환태(置換態) Cd은 낮아지나 유기태(有機態) 및 Carbonate태(態) Cd은 증가(增加)하는 경향(傾向)이고 타형태(他形態)의 Cd은 pH에 따른 변화(変化)를 보이지 않았다. 3. 유기물(有機物) 함량(含量)이 높은 토양(土壤)일수록 유기태(有機態) Cd만 增加하고 흡착태(吸着態)를 제외(除外)한 다른 형태(形態)의 Cd은 감소(減少)하는 경향(傾向)이었다. 4. CEC와 Cd 형태별(形態別) 분포(分布)와의 관계(関係)는 유기물(有機物) 함량(含量)에 따른 Cd의 분포양상(分布樣相)과 유사(類似)하였다. 5. 현미중(玄米中) Cd은 유기태(有機態) Cd과 가장 높은 정(正)의 상관(相関)을 보였으며, Carbonate태(態) Cd도 유의성(有意性)있는 정(正)의 상관(相関)을 보였으나 다른 형태(形態)의 Cd와는 유의성(有意性)있는 상관(相関)을 보이지 않았다.

  • PDF

답양중(畓壤中)의 Cadmium 분석방법(分析方法)에 관(關)한 연구(硏究) (Studies on the Method of Cadmium Analysis in Paddy Soils)

  • 이민효;김복진;박영선;빈영호
    • 한국토양비료학회지
    • /
    • 제14권4호
    • /
    • pp.230-235
    • /
    • 1982
  • 토양중(土壤中)의 가용성(可溶性) 카드뮴 정량(定量)을 위한 가장 효과적인 침출액(浸出液)을 찾아내기 위하여 카드뮴 오염도(汚染度)가 높은 답토양(沓土壤)과 그 토양(土壤)에서 재배(栽培)된 정조(正組)를 대상(對象)으로 수종의 침출액(浸出液)을 사용(使用)하여 시험(試驗)한 결과(結果)는 다음과 같다. 1. 침출액별(浸出液別) 토양중(土壤中)의 카드뮴 침출력(浸出力)은 IN-HCl>0.1N-HCl > 0.075N-Mixture > $IN-Nh_4OAC(H4.8)$ > $DTPA-CaCl_2$ > 5% Acetic acid > $IN-NH_4OAC(pH7.0)$ > $IN-NH_4NO_3$의 순(順)으로 강(强)하였다. 2. 침출액별(浸出液別) 토양중(土壤中)의 카드뮴함량(含量)과 그 토양(土壤)에서 재배(栽培)한 현미중(玄米中)의 카드뮴함량간(含量間)에는 공시(供試)한 침출액(浸出液) 모두 유의성(有意性) 있는 정(正)의 상관(相關)을 나타내었으며 이중 $IN-NH_4OAC(pH7.0)$ 침출액(浸出液)이 상관계수(相關係數)가 가장 높았다. 3. 토양중(土壤中) 카드뮴함량(含量) 및 토성(土性)의 분류(分類)에 따른 토양중(土壤中)의 가용성(可溶性) 카드뮴함량(含量)과 현미중(玄米中)의 카드뮴함량간(含量間)에는 침출액(浸出液)에 따라 상관정도(相關程度)가 달랐다. 4. $IN-NH_4OAC(pH7.0)$ 침출액(浸出液)은 토양중(土壤中) 가용성(可溶性) 카드뮴함량(含量)과 현미중(玄米中) 카드뮴함량간(含量間)에 가장 높은 상관(相關)을 나타내었으나 침출력(浸出力)이 낮았다. 5. 0.075N-Mixture침출액(浸出液)은 $IN-NH_4OAC(pH7.0)$침출액(浸出液)에 비(比)하여 토양중(土壤中)의 카드뮴함량(含量)과 현미중(玄米中) 카드뮴함량간(含量間)에 상관(相關)은 다소(多少) 낮았으나, 0.1N-HCl침출액(浸出液)에 비(比)하여 침출력(浸出力)이 비슷하면서도 더 높은 상관(相關)을 나타내었다.

  • PDF

텍스트 분석을 활용한 정보의 수요 공급 기반 뉴스 가치 평가 방안 (A Method for Evaluating News Value based on Supply and Demand of Information Using Text Analysis)

  • 이동훈;최호창;김남규
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.45-67
    • /
    • 2016
  • 최근 정보 유통의 주요 매체인 인터넷 뉴스와 SNS의 매체 간 특성 차이를 주목한 많은 연구가 있었음에도 불구하고, 양 매체의 차이를 정보의 수요 및 공급 관점에서 파악한 연구는 상대적으로 매우 부족하다. 일반적으로 새로운 정보는 언론사의 뉴스 기사를 통해 대중에게 노출되고, 대중은 이러한 기사에 대한 의견 또는 추가정보를 SNS를 통해 공유함으로써 해당 정보를 수용함과 동시에 확산시킨다. 이러한 측면에서 언론사가 뉴스를 제공하는 행위를 정보의 공급으로 파악할 수 있으며, 대중은 SNS를 통해 이에 대한 관심을 능동적으로 나타냄으로써 해당 정보에 대한 소비 수요를 표출하는 것으로 이해할 수 있다. 이는 상품 및 서비스의 가격이 수요와 공급의 관계에 의해 결정되는 것과 유사한 원리로, 정보의 가치를 정보 수요와 정보 공급의 관계에 기반을 두어 측정할 수 있음을 시사한다. 본 연구에서는 정보 공급의 대표 매체로 인터넷 뉴스 기사를, 정보 수요를 나타내는 대표 매체로 트위터를 선정하고, 특정 이슈에 대한 뉴스의 정보로서의 가치를 이와 관련된 트위터의 양으로 평가하는 뉴스가치지수(NVI, News Value Index)를 고안하여 제시한다. 구체적으로 제안 방법론은 각 이슈별로 NVI를 도출하고 이를 통해 시간의 흐름에 따른 정보 가치의 변화를 시각화하여 나타낸다. 또한 본 연구에서는 제안 방법론의 실무 적용 가능성을 평가하기 위해 인터넷 뉴스 387,018건과 트윗 31,674,795건에 대한 실험을 수행하였다. 그 결과 대부분의 이슈가 전체 정보 시장의 평균 가치에 수렴하는 형태로 변화함을 알 수 있었으며, 꾸준히 평균 이상의 가치를 가지며 정보 시장을 장악하는 등 특이한 양상을 보이는 흥미로운 이슈도 존재함을 파악할 수 있었다.

텍스트 분석을 통한 이종 매체 카테고리 다중 매핑 방법론 (Mapping Categories of Heterogeneous Sources Using Text Analytics)

  • 김다솜;김남규
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.193-215
    • /
    • 2016
  • 최근 다양한 소셜 네트워크 서비스의 증가로 인해 사용자들은 각자의 목적 및 취향에 따라 여러 매체를 동시에 이용하는 경향을 보이고 있다. 또한 특정 주제에 대한 정보를 수집할 때에도 소셜 네트워크 서비스, 인터넷 뉴스, 블로그 등 여러 매체를 동시에 활용하는 것이 일반적이다. 하지만 다양한 매체를 통해 유통되는 문서들은 서로 유사한 주제, 심지어는 동일한 내용을 다루더라도 각 매체 별 정책 및 기준에 따라 각기 다른 카테고리로 관리되고 있으며, 이는 이종 매체를 아우르는 범위에서 특정 카테고리에 대한 탐색을 수행하고자 하는 시도에 걸림돌로 작용하고 있다. 이러한 제약을 극복하기 위해, 본 연구에서는 기존 매체 고유의 카테고리 체계는 그대로 유지하면서 이종 매체 간 카테고리 매핑을 수행하는 방법을 제시한다. 즉, 개별 문서를 다양한 매체의 관점에서 재분류하고 이러한 결과를 문서에 2차원 레이블로 저장함으로써, 이종 매체에 속한 다양한 문서들을 마치한 매체에 속한 것과 같이 동일한 카테고리 기준으로 탐색할 수 있는 논리적 장치를 제안한다. 본 논문에서는 국내 인터넷 뉴스 포털 사이트 두 곳의 뉴스 기사 6,000건에 대해 제안 방법론을 적용한 실험을 통해 각 기사에 매체와 카테고리 정보로 구성된 2차원 레이블을 부여하였으며, 매체 간, 지도 학습과 준지도 학습 간, 동질 학습 데이터와 이질학습 데이터 간의 정확도 비교 실험을 수행하였다. 특히 매우 흥미롭게도, 일부 카테고리에서 이질 학습 데이터를 사용한 준지도 학습의 분류 정확도가 지도 학습 및 동질 학습 데이터를 사용한 준지도 학습의 분류 정확도보다 높게 나타나는 현상을 발견하였다.

구글맵리뷰 텍스트마이닝을 활용한 공원 이용자의 인식 및 평가 - 서울숲, 보라매공원, 올림픽공원을 대상으로 - (Perception and Appraisal of Urban Park Users Using Text Mining of Google Maps Review - Cases of Seoul Forest, Boramae Park, Olympic Park -)

  • 이주경;손용훈
    • 한국조경학회지
    • /
    • 제49권4호
    • /
    • pp.15-29
    • /
    • 2021
  • 본 연구의 목적은 Google Maps에서 제공하는 장소에 대한 리뷰를 활용하여 실제로 공원을 방문한 이용자의 인식과 평가를 파악하는 것이다. 구글맵리뷰는 Social Network Service(SNS)를 통해 장소에 대한 인식과 평가에 관한 정보를 얻는 온라인 리뷰이며, 일반 리뷰어와 구글맵의 회원으로 등록된 지역 가이드의 관점에서 장소에 대한 이해를 볼 수 있는 서비스이다. 본 연구에서는 구글맵리뷰 분석이 공원 관리에 필요한 이용자들의 인식과 평가를 추출하는데 활용될 수 있는지를 살펴보고자 하였다. 서로 다른 공간특징과 시설을 가지는 3개의 공원(서울숲, 보라매공원, 올림픽공원)을 대상으로 파이썬을 활용한 웹 크롤링을 통해서 구글맵리뷰 내용을 수집하였다. 그리고 텍스트 분석을 통해 공원별 주요 키워드 분석과 네트워크 구조에 따른 특성을 분석하고, 이와 함께 구글맵리뷰에서 제공하는 별점 평갓값과 외국인 리뷰 데이터에 대한 분석도 수행했다. 연구 결과, 3개의 공원에서 공통으로 나타나는 특성으로는 이용목적으로 '산책', '자전거', '휴식', '피크닉'이 있었으며, 동반유형으로 '가족', '아이', '애견'이, 인프라로는 '놀이터', '산책로'가 있었다. 공원별 특색을 보면 서울숲은 자연을 기반으로 하는 야외활동이 많이 나타났고 반면, 주차공간 부족과 주말 혼잡은 공원 이용자에게 부정적인 영향을 미치고 있었다. 보라매공원은 수많은 활동을 제공하는 다양한 시설을 갖춘 도시공원의 모습을 가지고 있었다. 리뷰어들은 반려견을 동반하는 이용자 그룹과 그렇지 않은 다른 이용자 그룹 간의 갈등과 공원의 복잡함에 대한 부정적인 측면을 언급했다. 올림픽공원에는 대형 복합시설이 있으며, 커뮤니티, 문화예술공연과 같은 대규모 문화 이벤트가 많이 언급되었고, 레크리에이션 기능이 강조되었다. 구글맵리뷰는 공원에 대한 이용자의 전반적 경험과 이미지에 대한 특징을 파악하는 유용한 자료라고 할 수 있다. 또한, 다른 소셜미디어 데이터와 비교할 때 특히 구글맵리뷰는 공원에 대한 이용자 평갓값과 만족 및 불만족 요인을 이해할 수 있는 데이터를 제공한다.