• 제목/요약/키워드: Intelligence information technology

검색결과 1,945건 처리시간 0.026초

머신러닝을 활용한 수도권 약수터 수질 예측 모델 개발 (Development of a water quality prediction model for mineral springs in the metropolitan area using machine learning)

  • 임영우;엄지연;곽기영
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.307-325
    • /
    • 2023
  • 코로나19 팬데믹의 장기화로 인해 실내 생활에 지쳐가는 사람들이 우울감, 무기력증 등을 해소하기 위해 근거리의 산과 국립공원을 찾는 빈도가 폭발적으로 증가하였다. 자연으로 나온 수많은 사람들이 오가는 걸음을 멈추고 숨을 돌리며 쉬어가는 장소가 있는데 바로 약수터이다. 산이나 국립공원이 아니더라도 근린공원 또는 산책로에서도 간간이 찾아볼 수 있는 약수터는 수도권에만 약 6백여개가 위치해 있다. 하지만 불규칙적이고 수작업으로 수행되는 수질검사로 인해 사람들은 실시간으로 검사 결과를 알 수 없는 상태에서 약수를 음용하게 된다. 따라서 본 연구에서는 약수터 수질에 영향을 미치는 요인을 탐색하고 다양한 곳에 흩어져 있는 데이터를 수집하여 실시간으로 약수터 수질을 예측할 수 있는 모델을 개발하고자 한다. 데이터 수집의 한계로 인해 서울과 경기로 지역을 한정한 후 데이터 관리가 잘 이루어지고 있는 18개 시의 약 300여개 약수터를 대상으로 2015~2020년의 수질 검사 데이터를 확보하였다. 약수터 수질 적합 여부에 영향을 미칠 것으로 여겨지는 다양한 요인들 중 두 차례의 검토를 거쳐 총 10개의 요인을 최종 선별하였다. 최근 주목받고 있는 자동화 머신러닝 기술인 AutoML 기법을 활용하여 20여가지의 머신러닝 기법들 중 예측 성능 기준 상위 5개의 모델을 도출하였으며 그 중 catboost 모델이 75.26%의 예측 분류 정확도로 가장 높은 성능을 가지고 있음을 확인하였다. 추가로 SHAP 기법을 통해 분석에 사용한 변인들이 예측에 미치는 절대적인 영향력을 살펴본 결과 직전 수질 검사에서 부적합 판정을 받았는지 여부가 가장 중요한 요인이었으며 그 외 평균 기온, 과거 연속 2번 수질 부적합 판정 기록 유무, 수질 검사 당일 기온, 약수터 고도 등이 수질 부적합 여부에 영향을 미치고 있음을 확인하였다.

디지털 뉴딜 정책에 대한 언론 보도량과 주식 시장의 동태적 관계 분석: 4차산업혁명 관련 기업을 중심으로 (An Analysis of the Dynamics between Media Coverage and Stock Market on Digital New Deal Policy: Focusing on Companies Related to the Fourth Industrial Revolution)

  • 손권상;권오병
    • 한국전자거래학회지
    • /
    • 제26권3호
    • /
    • pp.33-53
    • /
    • 2021
  • 제4차 산업혁명의 확산과 코로나 19의 장기화로 인한 사회적 변화의 기로에서 한국 정부는 2020년 7월 디지털 뉴딜 정책을 발표했다. 디지털 뉴딜 정책은 데이터, 네트워크, 인공지능 기술을 중심으로 공공분야 및 산업의 디지털 전환을 가속화함으로써 새로운 비즈니스를 창출하는 것을 주요 과제로 삼고 있다. 그러나 급변하는 사회환경에서 기술의 미래 이익에 대한 정보비대칭은 정책의 방향과 효과에 대한 대중의 분석 능력의 차이를 야기할 수 있으며, 이로 인해 정책의 실질적 효과에 대한 불확실성이 발생하게 된다. 한편, 언론은 정부 정책을 대중에 전파하는 전달자 역할을 통해 담론 형성을 주도하며, 보도를 통해 특정 이슈에 대한 제반 지식을 대중에게 제공하는 역할을 한다. 즉, 특정 정책에 대한 언론의 보도량이 증가할수록 이슈 집중도는 높아지며, 이를 통해 대중의 의사결정에도 영향을 미치게 된다. 따라서 본 연구의 목적은 한국 정부의 디지털 뉴딜 정책에 대한 언론 보도량과 주식 시장의 동태적 관계를 그랜저 인과관계(Granger causality), 충격반응함수, 분산분해분석을 이용하여 검증하는 것이다. 이를 위해 디지털 뉴딜 정책에 대한 언론 보도량, 키워드 검색량과 KOSDAQ 상장 기업 중 디지털 뉴딜 정책과 관련이 있는 디지털 기술 기반 기업들의 일일주식회전율, 일일주가수익률, EWMA 변동성을 변수로 설정하였으며, 정책발표 시점 전후 60 거래일, 총 120 거래일 간의 데이터를 이용했다. 분석 결과, 언론 보도량은 키워드 검색량, 일일주식회전율, EWMA 변동성과 양방향 그랜저 인과관계가 존재하였으며, 언론 보도량의 증가는 디지털 뉴딜 정책에 대한 키워드 검색량에 높은 영향을 미치는 것으로 나타났다. 또한 언론 보도량에 대한 충격반응분석 결과 EWMA 변동성을 큰 폭으로 하락시키는 양상을 보였으며, 시간이 지날수록 영향력이 점차 증가하며 주식 시장의 변동성을 완화시키는 역할을 하는 것으로 나타났다. 본 연구의 분석 결과를 토대로 디지털 뉴딜에 대한 언론 보도량은 주식 시장과 유의한 동태적 관계가 있음을 확인할 수 있었다.

텍스트마이닝을 활용한 공개데이터 기반 기업 및 산업 토픽추이분석 모델 제안 (Development of Topic Trend Analysis Model for Industrial Intelligence using Public Data)

  • 박선영;이진무;김유일;서진이
    • 기술혁신연구
    • /
    • 제26권4호
    • /
    • pp.199-232
    • /
    • 2018
  • 빅데이터 분석을 통한 기업 경영환경에 대한 이해와 통찰을 구하고자 하는 요구가 산업 및 기업 경영 전반에 증가하고 있다. 이러한 사회적 요구에 따라 산업의 이해와 기업 경영의 이해를 위하여 기업의 경영실적 및 향후 계획을 포괄적으로 담고 있는 기업공시정보를 활용한 연구가 주목을 받고 있다. 이러한 기업공시정보는 대표적인 비정형 데이터로써 텍스트마이닝 방법론을 적용하여 그 범위와 수준에 대한 다양한 접근을 통하여 산업 수준 및 기업 수준에서 다양한 활용이 가능하다. 그러나 아직은 이러한 기업공시자료를 활용한 산업 및 기업 레벨에서 적용가능한 수준의 분석모델이 부족한 것으로 파악된다. 따라서 본 연구에서는 실제 활용 가능한 공개데이터를 활용한 산업 및 기업 수준의 분석모델을 제안하고자 한다. 미국상장기업의 공시자료인 미국 SEC EDGAR 자료를 기반으로 텍스트마이닝 알고리즘을 적용하여 산업 및 기업 수준의 경영주제(토픽)에 대한 추이분석이 가능한 모델을 제안하고자한다. SEC EDGAR의 10-K 문서를 대상으로 LDA 토픽 모델링을 통하여 산업 수준에서 전체 산업의 주제분야 분류를 파악하였고, 산업간 비교 측면에서 소프트웨어 산업과 하드웨어 산업 분야의 사례를 통해 최근 20년간의 토픽추이를 비교분석 하였다. 또한 최근 20년간의 기업의 경영주제 변화를 소프트웨어 산업에 속한 2개 기업을 중심으로 살펴보았다. 이를 통해 산업 및 기업 수준에서의 경영주제의 추이 변화를 파악하여 쇠퇴 및 성장 추세에 있는 경영주제를 확인 할 수 있었다. 한편 word2vec 워드 임베딩 모델과 주성분분석을 통한 차원 축약을 통해 소프트웨어 산업분야의 기업 및 특정 제품(혹은 서비스)에 대한 매핑을 통해 유사한 경영주제(토픽)를 가지는 기업 및 제품(서비스)을 사례를 통해 파악하였으며, 이를 시간적 흐름에 따른 변화 양상도 관찰할 수 있었다. 본 연구의 목적이 공개데이터를 활용한 산업 및 기업 수준의 분석모델을 개발하기 위한 방법론을 제안한 측면에서, 해외 데이터를 사용하여 산업의 경영주제 변화 추이, 기업의 경영주제 변화 추이를 거시적으로 조망할 수 있는 실무적인 방법론의 제안에서 의의가 있을 수 있다. 한편 기업의 기술경영전략 측면에서 기업의 경영토픽의 잦은 변화, 경영주제의 변화의 속도 등 다양한 변화 양상의 차이에 따른 기업의 매출 등의 경영성과와의 연관성 분석, 실제 기업의 제품포트폴리오의 구성에 따른 기업 간의 경쟁상황 등을 파악하는 미시적 모델 제안을 위한 추가 연구가 요구된다.

사회문제 해결형 기술수요 발굴을 위한 키워드 추출 시스템 제안 (A Proposal of a Keyword Extraction System for Detecting Social Issues)

  • 정다미;김재석;김기남;허종욱;온병원;강미정
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.1-23
    • /
    • 2013
  • 융합 R&D가 추구해야 할 바람직한 방향은 이종 기술 간의 결합에 의한 맹목적인 신기술 창출이 아니라, 당면한 주요 문제를 해결함으로써 사회적 니즈를 충족시킬 수 있는 기술을 개발하는 것이다. 이와 같은 사회문제 해결형 기술 R&D를 촉진하기 위해서는 우선 우리 사회에서 주요 쟁점이 되고 있는 문제들을 선별해야 한다. 그런데 우선적이고 중요한 사회문제를 분별하기 위해 전문가 설문조사나 여론조사 등 기존의 사회과학 방법론을 사용하는 것은 참여자의 선입견이 개입될 수 있고 비용이 많이 소요된다는 한계를 지닌다. 기존의 사회과학 방법론이 지닌 문제점을 보완하기 위하여 본 논문에서는 사회적 이슈를 다루고 있는 대용량의 뉴스기사를 수집하고 통계적인 기법을 통하여 사회문제를 나타내는 키워드를 추출하는 시스템의 개발을 제안한다. 2009년부터 최근까지 3년 동안 10개 주요 언론사에서 생산한 약 백 30만 건의 뉴스기사에서 사회문제를 다루는 기사를 식별하고, 한글 형태소 분석, 확률기반의 토픽 모델링을 통해 사회문제 키워드를 추출한다. 또한 키워드만으로는 정확한 사회문제를 파악하기 쉽지 않기 때문에 사회문제와 연관된 키워드와 문장을 찾아서 연결하는 매칭 알고리즘을 제안하다. 마지막으로 사회문제 키워드 비주얼라이제이션 시스템을 통해 시계열에 따른 사회문제 키워드를 일목요연하게 보여줌으로써 사회문제를 쉽게 파악할 수 있도록 하였다. 특히 본 논문에서는 생성확률모델 기반의 새로운 매칭 알고리즘을 제안한다. 대용량 뉴스기사로부터 Latent Dirichlet Allocation(LDA)와 같은 토픽 모델 방법론을 사용하여 자동으로 토픽 클러스터 세트를 추출할 수 있다. 각 토픽 클러스터는 연관성 있는 단어들과 확률값으로 구성된다. 그리고 도메인 전문가는 토픽 클러스터를 분석하여, 각 토픽 클러스터의 레이블을 결정하게 된다. 이를 테면, 토픽 1 = {(실업, 0.4), (해고, 0.3), (회사, 0.3)}에서 토픽 단어들은 실업문제와 관련있으며, 도메인 전문가는 토픽 1을 실업문제로 레이블링 하게 되고, 이러한 토픽 레이블은 사회문제 키워드로 정의한다. 그러나 이와 같이 자동으로 생성된 사회문제 키워드를 분석하여 현재 우리 사회에서 어떤 문제가 발생하고 있고, 시급히 해결해야 될 문제가 무엇인지를 파악하기란 쉽지 않다. 따라서 제안된 매칭 알고리즘을 사용하여 사회문제 키워드를 요약(summarization)하는 방법론을 제시한다. 우선, 각 뉴스기사를 문단(paragraph) 단위로 세그먼트 하여 뉴스기사 대신에 문단 세트(A set of paragraphs)를 가지게 된다. 매칭 알고리즘은 각 토픽 클러스터에 대한 각 문단의 확률값을 측정하게된다. 이때 토픽 클러스터의 단어들과 확률값을 이용하여 토픽과 문단이 얼마나 연관성이 있는지를 계산하게 된다. 이러한 과정을 통해 각 토픽은 가장 연관성이 있는 문단들을 매칭할 수 있게 된다. 이러한 매칭 프로세스를 통해 사회문제 키워드와 연관된 문단들을 검토함으로써 실제 우리 사회에서 해당 사회문제 키워드와 관련해서 구체적으로 어떤 사건과 이슈가 발생하는 지를 쉽게 파악할 수 있게 된다. 또한 매칭 프로세스와 더불어 사회문제 키워드 가시화를 통해 사회문제 수요를 파악하려는 전문가들은 웹 브라우저를 통해 편리하게 특정 시간에 발생한 사회문제가 무엇이며, 구체적인 내용은 무엇인지를 파악할 수 있으며, 시간 순서에 따른 사회이슈의 변동 추이와 그 원인을 알 수 있게 된다. 개발된 시스템을 통해 최근 3년 동안 국내에서 발생했던 다양한 사회문제들을 파악하였고 개발된 알고리즘에 대한 평가를 수행하였다(본 논문에서 제안한 프로토타입 시스템은 http://dslab.snu.ac.kr/demo.html에서 이용 가능함. 단, 구글크롬, IE8.0 이상 웹 브라우저 사용 권장).

고객 간 관계 네트워크가 조직성과에 미치는 영향: 페이스북 기업 팬페이지를 중심으로 (Effects of Customers' Relationship Networks on Organizational Performance: Focusing on Facebook Fan Page)

  • 전수현;곽기영
    • 지능정보연구
    • /
    • 제22권2호
    • /
    • pp.57-79
    • /
    • 2016
  • 최근 소셜 네트워크 서비스는 소비자와의 관계 마케팅 확산 및 확장을 위한 중요한 채널로 인식되며 많은 관심을 받고 있다. 기업이 온라인 환경에서 성공하기 위해서는 기업과 고객 사이의 관계 구축뿐만 아니라 고객들 간의 관계에 초점을 맞출 필요가 있다. 본 연구에서는 페이스북 팬 페이지에 참여하는 사용자들 사이의 네트워크를 분석하여 기업의 비즈니스 성과에 고객 간 네트워크의 구조적 특성이 미치는 영향을 실증적으로 분석하였다. 이를 위해 네트워크 데이터는 코스피 상장 기업 가운데 페이스북 팬 페이지에 100개 이상의 게시글을 올린 54개 기업으로부터 수집하였으며, 수집된 네트워크 데이터는 각 사용자를 노드로 하고 동일한 마케팅 활동에 대해 참여한 사용자간의 관계를 링크로 한 원모드 비방향 이진 네트워크(one-mode undirected binary network)이다. 본 연구에서는 이러한 네트워크 데이터를 핸들링하여 사용자들 간의 활동 관계를 분석할 수 있는 네트워크 지표(밀도, 글로벌 클러스터링 계수, 최단거리평균, 직경)를 도출하였으며, 이러한 고객 간 네트워크의 구조적 특징을 파악할 수 있는 지표와 기업의 과거실적(순이익), 그리고 미래 예측성과(토빈의 Q) 간의 관계를 분석하였다. 본 연구는 학문적 관점에서 소셜 미디어 채널을 비즈니스 관점에서 연구하려는 연구자들에게 소셜네트워크분석 방법을 통한 새로운 접근법을 제시한다. 실무적인 관점에서 본 연구는 소셜미디어를 통해 마케팅 활동을 수행하려는 기업의 관리자들에게 네트워크의 지표를 이용한 지능형 마케팅 서비스를 수행할 수 있는 토대를 제공할 것으로 기대한다.

새로운 결제서비스의 성공요인: 다중사례연구 (Critical Success Factor of Noble Payment System: Multiple Case Studies)

  • 박아름;이경전
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.59-87
    • /
    • 2014
  • 결제서비스에 대한 기존의 연구는 결제서비스의 채택요인 또는 지속적인 사용에 영향을 미치는 요인 등 행동이론을 중심으로 진행되어 왔다. 이러한 요인들이 미치는 영향에 대한 결과는 결제서비스의 종류에 따라 또는 연구 지역에 따라 상이하게 나타나고 있다. 본 연구는 결제 서비스의 종류나 문화등의 변수에 관계없이 새로운 결제 서비스가 성공할 수 있는 일반적인 요인이 무엇인지에 대한 의문에서 시작하게 되었다. 기존 연구에서 중요한 영향을 미친다고 제시한 채택요인들은 실제 결제사례의 결과에 비추어 보면 기존 연구에서 주장한 바와 일치하지 않는 경우를 볼 수 있다. 이러한 이론과 현실사이의 괴리를 발견하고 새로운 결제서비스가 성공하기 위한 근본적이고 결정적인 요인이 무엇인지에 대해 제시하고 사례연구를 통해 가설을 입증하고자 하는 것이 본 연구의 목적이다. 따라서 본 연구는 새로운 결제서비스가 성공하기 위해서는 기존 결제서비스의 비고객에게 이들이 결제할 수 있는 수단을 제공함으로써 새로운 결제 시장을 창출해야 함을 주장한다. 이를 위해 성공한 결제사례인 신용카드, 휴대폰 소액결제, PayPal, Square을 채택하였으며, 기존 결제서비스의 비고객을 3개의 계층으로 분류하여 분석하였다. 그리고 새로운 결제서비스가 어떠한 계층을 타겟으로 하였으며 이들에게 어떠한 결제수단을 제공하여 새로운 시장을 창출하였는지 제시한다. 사례 분석 결과, 성공 사례 모두 본 연구의 가설을 지지하는 것으로 나타났다. 따라서 새로운 결제서비스는 결국 기존의 결제수단으로 거래를 할 수 없었던 이들이 결제를 할 수 있도록 함으로써 성공할 수 있다는 가설을 입증하였다. 모바일 결제서비스가 아직 대중화되지 못한 원인을 본 가설에 비추어 분석해 보면 보면, 기존의 결제 인프라를 이용할 수 있는 바코드, QR코드 기반의 모바일 결제 서비스뿐만 아니라 NFC, BLE, 음파 등의 새로운 기술이 적용된 모바일 결제 서비스가 출시되는 등 새로운 시도가 계속되고 있다. 또한 모바일 월렛은 사용자들이 소지하고 있는 카드정보를 스마트폰에 저장하여 지갑 없이도 결제가 가능하며, 쿠폰 제공, 적립카드 관리, 신분증을 저장하는 등의 다양한 부가적인 기능을 제공하고 있어 성공할 것이라는 전망이 대두되고 있다. 하지만 이러한 서비스들은 본 연구 관점에서 보자면 기존 결제서비스의 비고객이(기존 결제수단을 이용할 수 없었던 사용자) 거래할 수 있는 새로운 결제 수단을 제공해 주지 못하고 있기 때문에 결국 초기사용자에게만 채택될 뿐 대중화되는데 한계가 있을 것으로 예상된다. 반면, 새로운 모바일 결제서비스의 성공사례 중 하나인 PaybyPhone은 기존 코인주차 결제서비스의 비고객인 현금 미소지 고객에게 스마트폰을 이용한 새로운 결제수단을 제공함으로써 새로운 주차 결제 시장을 창출하였으며 현재 미국뿐만 아니라 유럽시장까지 진출하는 등 급성장하고 있다. 결론적으로, 많은 이해관계자들이 모바일 결제시장을 선점하기 위해 다양한 형태의 모바일 결제 서비스를 출시하고 있지만 캐즘을 뛰어넘어 주류 시장에 성공적으로 정착할 수 있느냐는 결국 기존 결제서비스의 비고객군에게 그들이 필요로 하는 새로운 결제수단을 제공하는지의 여부에 달려있다고 볼 수 있다. 따라서 모바일 결제 서비스의 기획자나 매니저들은 서비스 기획 시 기존 결제서비스의 비고객군은 누구인가? 그들은 어떠한 결제수단을 원하는가?를 먼저 고려해야 한다. 본 연구는 새로운 결제서비스가 성공하는데 미치는 요인에 대한 가설을 검증하기 위해 4개의 성공사례를 선택하였으며 각 사례에 동일한 가설을 검증하는 '반복연구논리'를 적용하였다. 본 가설을 더욱 공고히 하기 위해 사례연구방법론에서 제시하고 있는 경쟁가설을 포함한 후속 사례연구가 진행되어야 할 것이다.

데이터마이닝 기법을 활용한 비외감기업의 부실화 유형 분석 (The Pattern Analysis of Financial Distress for Non-audited Firms using Data Mining)

  • 이수현;박정민;이형용
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.111-131
    • /
    • 2015
  • 본 연구에서는 데이터마이닝 기법의 일종인 자기조직화지도(Self-Organizing Map, SOM)를 이용하여 비외감기업의 부실화 유형을 구분하고자 한다. 자기조직화지도는 인공 신경망을 기초로 자율학습을 통해 입력된 값을 유사한 군집끼리 묶어내는 방법으로, 기존의 통계적 군집 분류 방법보다 성능이 뛰어나고, 고차원의 입력데이터를 저차원으로 시각화할 수 있다는 장점 때문에 다양한 분야에서 각광받고 있다. 본 연구에서는 기존 연구의 주요 분석대상이었던 외감기업에 비해 부실화 빈도는 높지만 데이터 수집의 어려움으로 인해 분석대상에서 다소 제외되었던 비외감기업의 부실화 유형에 대해 알아보고, 유형별 구체적인 사례도 소개하고자 한다. 재무자료수집이 가능한 100개의 비외감 부실기업에 대해 분석한 결과, 비외감기업의 부실화 유형은 다섯 가지로 구분되었다. 유형 1은 전체 집단의 약 12%를 차지하며, 수익성, 성장성 등 재무지표가 다른 유형에 비해 열등하였다. 유형 2는 전체 집단의 약 14%로, 유형 1보다는 덜 심각하지만 재무지표가 대체로 열등하였다. 유형 3은 성장성 지표가 열등한 그룹으로 기업간 경쟁이 극심한 가운데 지속적으로 성장하지 못하고 부실화된 경우로 약 30%의 기업이 포함되었다. 유형 4는 성장성은 탁월하나 부채경영 등 과감한 경영으로 인해 유동성 부족이나 현금부족 등의 이유로 부실화된 그룹으로 약 25%의 기업이 포함되었다. 유형 5는 거의 모든 재무지표가 우수한 건전기업으로, 단기적인 경영전략의 실수 또는 중소기업의 특성상 경영자의 개인적 사정으로 부실화 되었을 가능성이 큰 그룹으로 약 18%의 기업이 포함되었다. 본 연구 결과는 부실화 유형을 구분하는데 기존의 통계적 방법이 아닌 자기조직화지도를 이용하였다는 점에서 학문적 의의가 있고, 비외감기업의 재무지표만으로도 1차적인 부실화 징후를 발견할 수 있다는 점에서 실무적 의의가 있다고 할 수 있다.

전역 토픽의 지역 매핑을 통한 효율적 토픽 모델링 방안 (Efficient Topic Modeling by Mapping Global and Local Topics)

  • 최호창;김남규
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.69-94
    • /
    • 2017
  • 최근 빅데이터 분석 수요의 지속적 증가와 함께 관련 기법 및 도구의 비약적 발전이 이루어지고 있으며, 이에 따라 빅데이터 분석은 소수 전문가에 의한 독점이 아닌 개별 사용자의 자가 수행 형태로 변모하고 있다. 또한 전통적 방법으로는 분석이 어려웠던 비정형 데이터의 활용 방안에 대한 관심이 증가하고 있으며, 대표적으로 방대한 양의 텍스트에서 주제를 도출해내는 토픽 모델링(Topic Modeling)에 대한 연구가 활발히 진행되고 있다. 전통적인 토픽 모델링은 전체 문서에 걸친 주요 용어의 분포에 기반을 두고 수행되기 때문에, 각 문서의 토픽 식별에는 전체 문서에 대한 일괄 분석이 필요하다. 이로 인해 대용량 문서의 토픽 모델링에는 오랜 시간이 소요되며, 이 문제는 특히 분석 대상 문서가 복수의 시스템 또는 지역에 분산 저장되어 있는 경우 더욱 크게 작용한다. 따라서 이를 극복하기 위해 대량의 문서를 하위 군집으로 분할하고, 각 군집별 분석을 통해 토픽을 도출하는 방법을 생각할 수 있다. 하지만 이 경우 각 군집에서 도출한 지역 토픽은 전체 문서로부터 도출한 전역 토픽과 상이하게 나타나므로, 각 문서와 전역 토픽의 대응 관계를 식별할 수 없다. 따라서 본 연구에서는 전체 문서를 하위 군집으로 분할하고, 각 하위 군집에서 대표 문서를 추출하여 축소된 전역 문서 집합을 구성하고, 대표 문서를 매개로 하위 군집에서 도출한 지역 토픽으로부터 전역 토픽의 성분을 도출하는 방안을 제시한다. 또한 뉴스 기사 24,000건에 대한 실험을 통해 제안 방법론의 실무 적용 가능성을 평가하였으며, 이와 함께 제안 방법론에 따른 분할 정복(Divide and Conquer) 방식과 전체 문서에 대한 일괄 수행 방식의 토픽 분석 결과를 비교하였다.

부정 탐지를 위한 이상치 분석 활용방안 연구 : 농수산 상장예외품목 거래를 대상으로 (A Study on the Application of Outlier Analysis for Fraud Detection: Focused on Transactions of Auction Exception Agricultural Products)

  • 김동성;김기태;김종우;박성기
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.93-108
    • /
    • 2014
  • 기업 의사 결정 지원을 위하여 거래 데이터를 다양한 관점에서 분석하고 활용하려는 노력과 관심들이 증가하고 있다. 이러한 노력들은 고객 관리나 마케팅에만 국한되는 것이 아니라 부정행위에 대한 감시와 탐지를 목적으로도 다양한 분석 방안들이 연구되고 있다. 부정행위는 기술의 발전을 악용하여 다양한 형태로 진화하고 있으며, 이에 따라 목적에 맞는 부정탐지 방안 연구와 적용을 통하여 탐지 효용의 극대화를 위한 노력의 필요성이 증가하고 있다. 이러한 연구 동향의 일환으로 본 연구에서는 대용량 거래 데이터가 저장 관리되고 있는 국내 최대 농수산물 유통 시장의 2008년부터 2010년까지 상장예외품목의 거래 가격을 분석하여 부정 탐지 규칙을 도출하였으며, 전문가 검증을 통하여 도출 된 규칙의 신뢰성을 확보하였다. 본 연구의 주요 부정거래 분석 방안으로는 정상적인 데이터들은 발생 확률이 높은 반면에 특이한 데이터들의 발생 확률은 낮다고 가정하는 통계적 접근을 통한 이상치 식별 방안을 활용하였다. 이에 따라 부정거래 분석 별로 정의 된 Z-Score 값보다 클 경우 부정거래 탐지 대상이 된다. 다만 상장예외품목 거래의 경우 취급 가능한 중도매인의 수가 제한되어 있으며, 일반적인 상장품목의 거래보다 거래량이 적기 때문에 소수의 이상치가 품목의 평균에 미치는 영향이 크다. 그 예로 다른 소수의 중도매인들이 해당 품목을 정상적인 가격에 거래하였더라도, 특정한 중도매인 한 명이 지나치게 비정상적인 가격에 거래할 경우 모든 거래들이 부정거래로 탐지 될 가능성도 있다. 이러한 문제를 해결하기 위하여 기존의 Z-Score의 개념을 활용하여 수정된 Z-Score(Self-Eliminated Z-Score)를 사용하였다. 또한 부정 유형별 탐지 규칙 관리와 활용을 위한 시스템 프로토타입(prototype) 개발을 수행하였다. 이를 통하여 실제 부정거래 탐지 업무에 적용할 수 있는 효과적인 방안을 제시하였고, 농수산 유통시장의 공정성 및 투명성 확보를 위한 관리 감독의 기능 강화가 가능할 것이다.

온라인 상품평의 내용적 특성이 소비자의 인지된 유용성에 미치는 영향 (Impact of Semantic Characteristics on Perceived Helpfulness of Online Reviews)

  • 박윤주;김경재
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.29-44
    • /
    • 2017
  • 인터넷 상거래에서, 소비자들은 기존에 제품을 구매한 다른 사용자들이 작성한 상품평에 많은 영향을 받는다. 그러나, 상품평이 점차 축적되어감에 따라, 소비자들이 방대한 상품평을 일일이 확인하는데 많은 시간과 노력이 소요되고, 또한 무성의하게 작성된 상품평들은 오히려 소비자들의 불편을 초래하기도 한다. 이에, 본 연구는 온라인 상품평의 유용성에 영향을 미치는 요인들을 분석하여, 소비자들에게 실제로 도움이 될 수 있는 상품평을 선별적으로 제공하는 예측모형을 도출하는 것을 목적으로 한다. 이를 위해, 텍스트마이닝 기법을 사용하여, 상품평에 포함되어있는 다양한 언어적, 심리적, 지각적 요소들을 추출하였으며, 이러한 요소들 중에서 상품평의 유용성에 영향을 미치는 결정요인이 무엇인지 파악하였다. 특히, 경험재인 의류군과 탐색재인 전자제품군에 대한 상품평의 특성 및 유용성 결정요인이 상이할 수 있음을 고려하여, 제품군별로 상품평의 특성을 비교하고, 각각의 결정요인을 도출하였다. 본 연구에는 아마존닷컴(Amazon.com)의 의류군 상품평 7,498건과 전자제품군 상품평 106,962건이 사용되었다. 또한, 언어분석 소프트웨어인 LIWC(Linguistic Inquiry and Word Count)를 활용하여 상품평에 포함된 특징들을 추출하였고, 이후, 데이터마이닝 소프트웨어인 RapidMiner를 사용하여, 회귀분석을 통한, 결정요인 분석을 수행하였다. 본 연구결과, 제품에 대한 리뷰어의 평가가 높고, 상품평에 포함된 전체 단어 수가 많으며, 상품평의 내용에 지각적 과정이 많이 포함되어 있는 반면, 부정적 감정은 적게 포함된 상품평들이 두 제품 모두에서 유용하다고 인식되는 것을 알 수 있었다. 그 외, 의류군의 경우, 비교급 표현이 많고, 전문성 지수는 낮으며, 한 문장에 포함된 단어 수가 적은 간결한 상품평이 유용하다고 인식되고 있었으며, 전자제품의 경우, 전문성 지수가 높고, 분석적이며, 진솔한 표현이 많고, 인지적 과정과 긍정적 감정(PosEmo)이 많이 포함된 상품평이 유용하게 인식되고 있었다. 이러한 연구결과는 향후, 소비자들이 효과적으로 유용한 상품평들을 확인하는데 도움이 될 것으로 기대된다.