• 제목/요약/키워드: number of users

검색결과 3,008건 처리시간 0.031초

X-tree Diff: 트리 기반 데이터를 위한 효율적인 변화 탐지 알고리즘 (X-tree Diff: An Efficient Change Detection Algorithm for Tree-structured Data)

  • 이석균;김동아
    • 정보처리학회논문지C
    • /
    • 제10C권6호
    • /
    • pp.683-694
    • /
    • 2003
  • 인터넷 사용이 급속도로 증가함에 따라 XML/HTML 문서와 같이 트리 구조로 표현되는 데이터의 변화 탐지가 중요한 연구 분야로 등장하고 있다. 본 논문에서는 효율적인 변화 탐지를 위한 데이터 구조로 X-tree와 이에 기초한 휴리스틱 변화 탐지 알고리즘 X-tree Diff 를 제안한다. X-tree Diff 는 X-tree 의 변화 내용에 대한 최소 비용 편집 스크립트를 찾는 알고리즘과는 달리 휴리스틱 트리 대응 알고리즘을 통해 병화 내용을 확인하는 알고리즘으로, X-tree 에 속한 모든 노드에 대해 각각의 노드를 루트로 하는 서브트리의 구조와 서브트리속에 속한 노드들의 데이터들을 128비트 해시값으로 표현한 값인 트리 MD를 각 노드에 저장하고, 이를 변화 탐지 과정에서 활용하여 신-구 버전의 X-tree들에 속한 서브트리들의 비교을 효율적으로 처리한다. X-tree Diff 는 4단계로 구성되며 1)신-구버넌의 X-tree노드들에 대해, 우선 1:1 대응이 가능한 모든 동등한 서브트리 쌍을 찾고, 2) 이들 서브트리 쌍의 루트로부터 신-구 버전의 X-tree의 루트까지의 경로 상에 존재하는 노드들에 대한 대응관계를 결정한다. 3) 그 후 신-구 버전의 X-tree의 루트들로부터 깊이 우선 탐색으로 노드를 방문하며 대응이 결정되지 않은 노드들에 대한 대응여부를 결정해 나간다. 4) 마지막까지 대응여부가 결정되지 않은 도드들은 삭제나 삽입된 것으로 간주한다. X-tree Diff XML 문서들에 대한 버저닝(Versioning) 을 목적으로 설계된 BUILD Diff 알고리즘과 달리 XML/HTML 에 공통적으로 사용할 수 있을 뿐 아니라, 알고리즘이 명확하고 간결하여 다양한 형태의 확장이 가능하다. 알고리즘의 성능도 개선되어 신-구 X-tree의 노드의 수를 n이라 할 때, O(n)의 시간 복잡도를 갖는다. 제안된 알고리즘은 현재 보안 관련 상용 시스템인 WIDS(Web-Document Instrusion Detection System) 에서 사용되고 있으며, 본 논문에서는 WIDS를 이용하여 20여개 신문-방송 사이트에서 변화가 탐지된 11,000 개 페이지에 대한 성능평가를 보이고 있다.

챗봇 환경에서 데이터 시각화 인터랙션을 위한 자연어처리 모델 (Natural Language Processing Model for Data Visualization Interaction in Chatbot Environment)

  • 오상헌;허수진;김성희
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제9권11호
    • /
    • pp.281-290
    • /
    • 2020
  • 스마트폰의 보급으로 인해 개인화된 데이터를 활용하고자 하는 서비스들이 증가하고 있다. 특히, 헬스케어와 관련된 서비스들은 다양한 데이터를 다루며, 이를 효과적으로 보여주기 위해 데이터 시각화 기법을 활용하고 있다. 데이터 시각화 기법이 활용되면서 자연스럽게 시각화에서의 인터랙션 또한 함께 강조되고 있다. PC 환경에서 데이터 시각화에 대한 인터랙션은 마우스로 이루어지기 때문에, 데이터에 대한 필터링이 다양하게 제공되고 있다. 반면, 모바일 환경에서의 인터랙션은 화면의 크기가 작고, 인터랙션 가능 여부를 인지하기 어려워 버튼 터치 방식으로 앱에서 제공하는 제한된 시각화만을 제공받을 수 있다. 이러한 모바일 환경에서의 인터랙션 한계를 극복하기 위해, 챗봇과의 대화를 통해 데이터 시각화 인터랙션을 가능하게 하여 사용자들에게 개개인의 데이터를 다양한 시각화를 통해 확인할 수 있도록 하고자 한다. 이를 위해서는 사용자의 질의를 쿼리로 변환하여, 주기적으로 데이터를 축적하고 있는 데이터베이스에서 변환된 쿼리를 통해 결과 데이터를 불러올 수 있어야 한다. 자연어를 쿼리로 변환하는 연구는 현재 많이 이루어지고 있지만, 시각화를 기반으로 하여 사용자의 질의를 쿼리로 변환하는 연구에 대해서는 아직 이루어지지 않았다. 따라서, 본 논문에서는 사전에 데이터 시각화 기법이 정해진 상황에서의 쿼리 생성에 초점을 맞추고자 한다. 지원하는 인터랙션은 태스크 x-축 값에 대한 필터링 및 두 그룹 간 비교이다. 테스트 시나리오는 걸음 수에 대한 데이터를 활용하였으며, x-축 기간에 대한 필터링은 바 그래프, 두 그룹간 비교는 라인 그래프로 나타내었다. 시각화를 통해 요청한 정보를 제공받을 수 있는 자연어처리 모델을 개발하기 위해 1,000명을 대상으로 한 설문조사를 통해 약 15,800개의 학습 데이터를 수집하였다. 알고리즘 개발 및 성능 평가를 진행한 결과, 분류 모델에서는 약 89%, 쿼리 생성 모델에서는 약 99% 정확도를 보였다.

텍스트 마이닝 기반의 이슈 관련 R&D 키워드 패키징 방법론 (Methodology for Issue-related R&D Keywords Packaging Using Text Mining)

  • 현윤진;윌리엄;김남규
    • 인터넷정보학회논문지
    • /
    • 제16권2호
    • /
    • pp.57-66
    • /
    • 2015
  • 빅데이터 기술에 대한 관심이 급증함에 따라, 소셜 미디어를 통해 유통되는 방대한 양의 비정형 데이터를 분석하고자 하는 시도가 활발히 이루어지고 있다. 이에 따라서 텍스트 형태의 비정형 데이터 분석을 통해 의미 있는 정보를 찾고자 하는 시도가 비즈니스 영역뿐 아니라, 정치, 경제, 문화 등 다양한 영역에서 이루어지고 있다. 특히 최근에는 여러 현안 및 이슈들을 발굴하여 이를 의사결정에 활용하고자 하는 시도가 활발히 이루어지고 있다. 이처럼 빅데이터 분석을 통해 국가현안이나 이슈를 발굴하고자 하는 시도가 꾸준히 이루어져왔음에도 불구하고, 국가현안 및 이슈로부터 이와 관련된 R&D 문서를 효율적으로 제공하는 방안은 마련되지 않고있다. 이는 사용자들이 인식하는 현안 키워드와 실제 사용되는 R&D 키워드 사이의 이질성이 존재하기 때문이다. 따라서 현안 및 R&D키워드간의 이질성을 극복하기 위한 중간 장치가 필요하며, 이 중간 장치를 통해 각 현안 키워드와 R&D 키워드간에 적절한 대응이 이루어져야 한다. 이를 위해 본 연구에서는 (1) 현안 키워드 추출을 위한 하이브리드 방법론, (2) 현안 대응 R&D 정보 패키징 방법론, 그리고 (3) R&D 관점에서의 연관 현안 네트워크 구축 방법론의 총 세 가지 방법론을 제안한다. 제안하는 방법론은 텍스트 마이닝, 소셜네트워크 분석, 그리고 연관 규칙 마이닝 등의 데이터 분석 기법들을 활용하여 수행하였으며, 그 결과, (1)에 의한 키워드 보강률은 42.8%로 나타났으며, (2)의 경우, 현안 키워드와 R&D 키워드간 다수의 연관 규칙이 나타났다. (3)의 경우는 현재 진행 중에 있으며, 향후 가시적 성과를 낼 수 있을 것으로 예상된다.

항공서비스 소비자 분쟁해결제도의 개선방안 (The Improvement Measurement on Dispute Resolution System for Air Service Customer)

  • 이강빈
    • 항공우주정책ㆍ법학회지
    • /
    • 제33권2호
    • /
    • pp.225-266
    • /
    • 2018
  • 2017년 한국소비자원에 접수된 항공여객운송서비스 관련 피해구제 접수건수는 1,252건으로 2016년 1,262건 대비 0.8% 감소하여 2013년 이후 처음으로 감소세를 나타냈다. 그리고 2017년 한국소비자원에 접수된 항공여객운송서비스 분야의 피해구제 접수건 가운데 444건(35.4%)이 합의가 성립되었으며, 합의가 성립되지 않은 건 중에서 정보제공 상담 기타로 종결된 경우가 588건(47.0%)으로 가장 많았고, 소비자분쟁조정위원회에 조정 신청된 경우가 186건(14.9%)이었다. 항공서비스 소비자 피해구제와 분쟁해결을 위한 규정을 두고 있는 주요입법으로는 항공사업법, 소비자기본법 등이 있는데, 항공사업법에서 항공교통사업자의 피해구제절차와 처리계획의 수립 및 이행 그리고 피해구제 신청 접수 및 처리, 항공교통이용자 보호기준의 고시 등에 관하여 규정하고 있으며, 소비자기본법에서 소비자상담기구의 실치 운영, 한국소비자원의 피해구제, 소비자분쟁의 조정, 소비자분쟁해결기준의 제정 등에 관하여 규정하고 있다. 항공서비스 소비자 피해구제 절차로는 항공교통사업자의 피해구제 접수 처리, 소비자상담센터의 상담 및 피해구제 접수 처리, 한국소비자원의 합의권고, 소비자분쟁조정위원회의 분쟁조정제도 등이 있다. 현행 항공서비스 소비자 피해구제 및 분쟁조정 제도에는 항공사업법 상 항공교통사업자의 피해구제계획 수립 및 이행 의무의 면제, 항공부문 소비자분쟁해결기준 상 운송 불이행 및 지연의 경우 면책 등에 대하여 문제점이 있고, 그리고 소비자기본법상 소비자분쟁조정의 절차진행 및 조정성립에 대하여 한계점이 있다. 따라서 항공서비스 소비자에 대한 적절한 피해구제와 원활한 분쟁조정을 위하여 관련 제도의 개선방안을 제시하면 다음과 같다. 첫째 항공서비스 소비자 피해구제 관련 법규의 정비이다. 항공사업법 상 항공교통사업자의 피해구제계획 수립과 이행 의무의 면제규정이 수정되어야 할 것이다. 또한 항공서비스 소비자 보호와 피해구제에 관한 법 규정의 체계화와 전문성 제고를 위해 미국연방규칙 14 CFR 및 EU의 EC 261/2004 규칙과 유사한 별도 입법을 마련할 필요가 있을 것이다. 둘째 항공서비스 소비자 분쟁해결기준의 개선이다. 항공부문 소비자분쟁해결기준 상 항공사업자의 운송 불이행 및 운송지연의 경우 면책사유의 발생 원인이 불가항력이었는지를 규명하여 면책여부를 판별하여야 하고, 상법 항공운송편 및 1999년 몬트리올 협약에 규정된 면책사유와 같이 수정되어야 하며, 대체편이 제공된 운송 불이행의 경우와 운송지연에 대하여 배상기준을 통일하는 것이 필요할 것이다. 셋째 항공서비스 소비자 피해구제를 위한 정보제공의 강화이다. 항공관련 정부기관 및 유관기관들은 항공사 및 공항과 협력하여 항공서비스 소비자 피해구제를 위한 법규와 정책 등 다양한 정보를 항공교통이용자에게 보다 신속 명확하게 제공해야 할 것이다. 넷째 소비자분쟁조정의 효력 등에 관한 보완이다. 분쟁조정에 대한 수락 의사표시가 없을 경우 수락한 것으로 보는 것은 부당하므로 이의신청제도를 추가할 필요가 있을 것이다. 또한 소비자분쟁조정위원회 이외 다른 분쟁조정기구에 중복으로 분쟁해결을 신청한 경우 피해구제 대상에서 제외하고 있으나 당사자가 조정기관을 선택할 수 있도록 해야 할 것이다. 그리고 소비자분쟁이 조정을 통하여 효율적으로 해결될 수 있도록 조정성립률을 높일 수 있는 제도적 방안을 강구할 필요가 있을 것이다. 다섯째 항공서비스 소비자 중재제도의 도입이다. 소비자분쟁 조정제도의 한계점을 보완할 수 있는 방안으로 소비자 중재제도를 도입하되, 소비자기본법 상 중재 도입안과 중재법 상 소비자중재 도입안이 있는데, 후자의 방안이 적합할 것으로 생각된다. 결론적으로, 정책과제로서 항공서비스 소비자의 피해 예방 및 구제를 강화하는 법 제도를 마련하고, 항공서비스 선진화를 위한 소비자 중심의 정책을 수립 추진해야 할 것이다.

쇼핑 웹사이트 탐색 유형과 방문 패턴 분석 (Analysis of shopping website visit types and shopping pattern)

  • 최경빈;남기환
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.85-107
    • /
    • 2019
  • 온라인 소비자는 쇼핑 웹사이트에서 특정 제품군이나 브랜드에 속한 제품들을 둘러보고 구매를 진행할 수 있고, 혹은 단순히 넓은 범위의 탐색 반경을 보이며 여러 페이지들을 돌아보다 구매를 진행하지 않고 이탈할 수 있다. 이러한 온라인 소비자의 행동과 구매에 관련된 연구는 꾸준히 진행되어왔으며, 실무에서도 소비자들의 행동 데이터를 바탕으로 한 서비스 및 어플리케이션이 개발되고 있다. 최근에는 빅데이터 기술의 발달로 소비자 개인 단위의 맞춤화 전략 및 추천 시스템이 활용되고 있으며 사용자의 쇼핑 경험을 최적화하기 위한 시도가 진행되고 있다. 하지만 이와 같은 시도에도 온라인 소비자가 실제로 웹사이트를 방문해 제품 구매 단계까지 전환될 확률은 매우 낮은 실정이다. 이는 온라인 소비자들이 단지 제품 구매를 위해 웹사이트를 방문하는 것이 아니라 그들의 쇼핑 동기 및 목적에 따라 웹사이트를 다르게 활용하고 탐색하기 때문이다. 따라서 단지 구매가 진행되는 방문 외에도 다양한 방문 형태를 분석하는 것은 온라인 소비자들의 행동을 이해하는데 중요하다고 할 수 있다. 이러한 관점에서 본 연구에서는 온라인 소비자의 탐색 행동의 다양성과 복잡성을 설명하기 위해 실제 E-commerce 기업의 클릭스트림 데이터를 기반으로 세션 단위의 클러스터링 분석을 진행해 탐색 행동을 유형화하였다. 이를 통해 각 유형별로 상세 단위의 탐색 행동과 구매 여부가 차이가 있음을 확인하였다. 또한 소비자 개인이 여러 방문에 걸친 일련의 탐색 유형에 대한 패턴을 분석하기 위해 순차 패턴 마이닝 기법을 활용하였으며, 같은 기간 내에 제품 구매까지 완료한 소비자와 구매를 진행하지 않은 채 방문만 진행한 소비자들의 탐색패턴에 대한 차이를 확인할 수 있었다. 본 연구의 시사점은 대규모의 클릭스트림 데이터를 활용해 온라인 소비자의 탐색 유형을 분석하고 이에 대한 패턴을 분석해 구매 과정 상의 행동을 데이터 기반으로 설명하였다는 점에 있다. 또한 온라인 소매 기업은 다양한 형태의 탐색 유형에 맞는 마케팅 전략 및 추천을 통해 구매 전환 개선을 시도할 수 있으며, 소비자의 탐색 패턴의 변화를 통해 전략의 효과를 평가할 수 있을 것이다.

연세지역 아파트 주민의 모자보건에 관한 실태조사 (A Study of Knowledge, Attitude, and Practice Relative to Maternal and Child Health Among Women Residing in Apartments at Yonsei Community Health Area)

  • 유승흠;정영숙;이경자;김광종
    • Journal of Preventive Medicine and Public Health
    • /
    • 제4권1호
    • /
    • pp.77-87
    • /
    • 1971
  • 연세지역 아파트 주민의 모자보건과 가족계획에 대한 지식, 태도와 실천을 파악하기 위하여 1970년 11 월24일부터 12월 30일까지 305명의 유배우가임부인을 대상으로 조사 하였다. 본 연구를 통해 얻어진 결과를 요약하면 다음과 같다. A. 임신과 출산 1. 현 임신율 16.4% 2. 분만장소 출산경험이 있는 281명에 대한 최종아의 분만중 48.0%가 의사 또는 조사원이 개조 하였고 그 나머지 52.0%는 가정분만이었다. 교육정도, 매스메디아 접촉정도가 높을수록, 그리고 도시출생성장일수록 병원 또는 조산원 분만이 높았다. 9. 분만시 방포 사용 종류 가정분만 141예중 세멘트 포대와 비닐을 깐 경우가 합해서 50%이었고 아무것도 깔지 않고 분만한 경우도 4예가 있었다. 4. 제대 절단 용구와 소독 가정 분만 141예중 70.2%가 가위를 사용했고, 소독해서 사용한 예는 불과 24.1%이었다. 5. 산후 휴식기간 산후 1달 혹은 1달이상 휴식한 예가 47.3%이었고 교육정도가 높아짐에 따라 길어지고 있다. 6. 초유처리 초유를 애기에게 먹인 예가 52.4%이있고 교육정도에 따라 유의한 차이가 없었다. 7. 산전 산후의 금기 음식 42.9%가 산전 산후에 먹어서는 안될 음식이 있다는 그릇된 지식을 갖고 있다. B. 아동 보건 1. 예방접종에 관한 지식과 실천 어린이 예방접종 6가지 모두 알고있는 부인은 20.3%이며 93.2%가 1가지 이상 알고있었다. 1가지 이상 실시한 경우는 85.2%이었고 교육정도별 유의한 차이는 없었다. 2. 최종아의 이환과 치료 48.1%가 아픈 일이 있었으며 그중 병원 이용은 41.5%이었다. 3. 육아 상담 76.5%가 상담한 일이 없었으며 세브란스 병원 육아 지도회 이용율은 13.2%의 저율을 보였고 앞으로의 육아지도회 이용할 생각은 54.1%가 생각 없다고 하였다. 4. 수 유 최종아의 이유기간은 6개월${\sim}$1년미만이 33.9%로 수위이며 젖뗀 이유는 모자 보건을 위해서가 수위였다. 5. 출생 및 사망신고장소에 대한 지식과 실천구청으로 답한 옳은 답은 64.6%였고 14일 이내 출생 신고한 비율은 29.2%에 한 하였다. C. 가족계획에 대한 지식, 태도, 실천정도 가족계획 찬성율은 95.0%의 고율을 보이고 있고, 97.7%가 1가지 이상의 방법을 알고 있었으나 가족계획 실천율은 35.4%이었다. 첫아이갖는 이상적인 연령은 $24{\sim}25$세가 수위였다. D. 자녀수 이상적인 평균 자녀수는 3.1명이며 인공유산 경험자는 31.1%이다. 본 논문을 완성함에 있어서 간곡하신 지도와 교열의 수고를 베풀어 주신 연세의대 예방의학교실 김일순 선생님과 연세간호대학 김모임 선생님께 충심으로 감사를 드린다.

  • PDF

딥러닝 오픈소스 프레임워크의 사례연구를 통한 도입 전략 도출 (Deriving adoption strategies of deep learning open source framework through case studies)

  • 최은주;이준영;한인구
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.27-65
    • /
    • 2020
  • 많은 정보통신기술 기업들은 자체적으로 개발한 인공지능 기술을 오픈소스로 공개하였다. 예를 들어, 구글의 TensorFlow, 페이스북의 PyTorch, 마이크로소프트의 CNTK 등 여러 기업들은 자신들의 인공지능 기술들을 공개하고 있다. 이처럼 대중에게 딥러닝 오픈소스 소프트웨어를 공개함으로써 개발자 커뮤니티와의 관계와 인공지능 생태계를 강화하고, 사용자들의 실험, 적용, 개선을 얻을 수 있다. 이에 따라 머신러닝 분야는 급속히 성장하고 있고, 개발자들 또한 여러가지 학습 알고리즘을 재생산하여 각 영역에 활용하고 있다. 하지만 오픈소스 소프트웨어에 대한 다양한 분석들이 이루어진 데 반해, 실제 산업현장에서 딥러닝 오픈소스 소프트웨어를 개발하거나 활용하는데 유용한 연구 결과는 미흡한 실정이다. 따라서 본 연구에서는 딥러닝 프레임워크 사례연구를 통해 해당 프레임워크의 도입 전략을 도출하고자 한다. 기술-조직-환경 프레임워크를 기반으로 기존의 오픈 소스 소프트웨어 도입과 관련된 연구들을 리뷰하고, 이를 바탕으로 두 기업의 성공 사례와 한 기업의 실패 사례를 포함한 총 3 가지 기업의 도입 사례 분석을 통해 딥러닝 프레임워크 도입을 위한 중요한 5가지 성공 요인을 도출하였다: 팀 내 개발자의 지식과 전문성, 하드웨어(GPU) 환경, 데이터 전사 협력 체계, 딥러닝 프레임워크 플랫폼, 딥러닝 프레임워크 도구 서비스. 그리고 도출한 성공 요인을 실현하기 위한 딥러닝 프레임워크의 단계적 도입 전략을 제안하였다: 프로젝트 문제 정의, 딥러닝 방법론이 적합한 기법인지 확인, 딥러닝 프레임워크가 적합한 도구인지 확인, 기업의 딥러닝 프레임워크 사용, 기업의 딥러닝 프레임워크 확산. 본 연구를 통해 각 산업과 사업의 니즈에 따라, 딥러닝 프레임워크를 개발하거나 활용하고자 하는 기업에게 전략적인 시사점을 제공할 수 있을 것이라 기대된다.

텍스트 마이닝 기법을 적용한 뉴스 데이터에서의 사건 네트워크 구축 (Construction of Event Networks from Large News Data Using Text Mining Techniques)

  • 이민철;김혜진
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.183-203
    • /
    • 2018
  • 전통적으로 신문 매체는 국내외에서 발생하는 사건들을 살피는 데에 가장 적합한 매체이다. 최근에는 정보통신 기술의 발달로 온라인 뉴스 매체가 다양하게 등장하면서 주변에서 일어나는 사건들에 대한 보도가 크게 증가하였고, 이것은 독자들에게 많은 양의 정보를 보다 빠르고 편리하게 접할 기회를 제공함과 동시에 감당할 수 없는 많은 양의 정보소비라는 문제점도 제공하고 있다. 본 연구에서는 방대한 양의 뉴스기사로부터 데이터를 추출하여 주요 사건을 감지하고, 사건들 간의 관련성을 판단하여 사건 네트워크를 구축함으로써 독자들에게 현시적이고 요약적인 사건정보를 제공하는 기법을 제안하는 것을 목적으로 한다. 이를 위해 2016년 3월에서 2017년 3월까지의 한국 정치 및 사회 기사를 수집하였고, 전처리과정에서 NPMI와 Word2Vec 기법을 활용하여 고유명사 및 합성명사와 이형동의어 추출의 정확성을 높였다. 그리고 LDA 토픽 모델링을 실시하여 날짜별로 주제 분포를 계산하고 주제 분포의 최고점을 찾아 사건을 탐지하는 데 사용하였다. 또한 사건 네트워크를 구축하기 위해 탐지된 사건들 간의 관련성을 측정을 위하여 두 사건이 같은 뉴스 기사에 동시에 등장할수록 서로 더 연관이 있을 것이라는 가정을 바탕으로 코사인 유사도를 확장하여 관련성 점수를 계산하는데 사용하였다. 최종적으로 각 사건은 각의 정점으로, 그리고 사건 간의 관련성 점수는 정점들을 잇는 간선으로 설정하여 사건 네트워크를 구축하였다. 본 연구에서 제시한 사건 네트워크는 1년간 한국에서 발생했던 정치 및 사회 분야의 주요 사건들이 시간 순으로 정렬되었고, 이와 동시에 특정 사건이 어떤 사건과 관련이 있는지 파악하는데 도움을 주었다. 또한 일련의 사건들의 시발점이 되는 사건이 무엇이었는가도 확인이 가능하였다. 본 연구는 텍스트 전처리 과정에서 다양한 텍스트 마이닝 기법과 새로이 주목받고 있는 Word2vec 기법을 적용하여 봄으로써 기존의 한글 텍스트 분석에서 어려움을 겪고 있었던 고유명사 및 합성명사 추출과 이형동의어의 정확도를 높였다는 것에서 학문적 의의를 찾을 수 있다. 그리고, LDA 토픽 모델링을 활용하기에 방대한 양의 데이터를 쉽게 분석 가능하다는 것과 기존의 사건 탐지에서는 파악하기 어려웠던 사건 간 관련성을 주제 동시출현을 통해 파악할 수 있다는 점에서 기존의 사건 탐지 방법과 차별화된다.

지능형 온라인 뉴스 추천시스템 개발을 위한 체계적 속성간 상대적 중요성 분석: PWYW 지불모델을 중심으로 (An Analysis of the Comparative Importance of Systematic Attributes for Developing an Intelligent Online News Recommendation System: Focusing on the PWYW Payment Model)

  • 이형주;정누리;양성병
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.75-100
    • /
    • 2018
  • 최근 웹툰, 음원, 동영상, 게임, 교육, 앱 등 많은 콘텐츠 기업에서 콘텐츠 유료화 정책을 추진하고 있으나, 무료 콘텐츠에 익숙한 독자들의 문화적 관성이 온라인 콘텐츠의 유료화 전환에 많은 어려움을 주고 있다. 특히 온라인 뉴스 콘텐츠는 포털 사이트를 통해 무료로 배포되고 있어 유료화에 대한 독자들의 거부감이 다른 온라인 콘텐츠 보다 더욱 심한 실정이다. 이러한 문제 해결을 위해 학계 및 산업계에서 온라인 콘텐츠의 유료화 방안에 대한 연구가 다양한 차원에서 진행되었다. 최근에는 일부 온라인 뉴스 매체를 중심으로 독자들이 자발적으로 마음에 드는 뉴스 콘텐츠에 대해 원하는 만큼의 구독료를 지불하게 하는 Pay-What-You-Want (PWYW) 지불모델을 적용하는 시도가 이뤄지고 있다. 이에 본 연구는 PWYW 모델의 성공적인 정착을 위한 선결요인으로 독자의 자발적 독자구독료 지불행위에 영향을 미치는 온라인 뉴스 콘텐츠의 체계적 속성을 도출하고, 각 속성 및 하위 속성의 상대적 중요도를 비교 분석하였다. 좀 더 구체적으로, 선행연구 분석을 통해 기사제목 유형, 기사 이미지 자극성, 기사 가독성, 기사 유형, 기사 지배적 정서, 기사 내용-이미지 유사성 등 총 여섯 가지의 온라인 뉴스 콘텐츠의 체계적 속성을 도출하였으며, 내용분석(content analysis)을 통해 각 기사의 속성값을 측정하고 이를 기반으로 컨조인트 분석(conjoint analysis)을 실시하여 속성 간 상대적 중요도를 계산 및 검증하였다. PWYW 모델이 적용된 온라인 뉴스 콘텐츠 379개에 대한 컨조인트 분석 결과, 기사 가독성, 기사 내용-이미지 유사성, 기사제목 유형 등의 순으로 자발적 독자구독료에 큰 영향을 주는 것으로 분석된 반면, 기사 유형, 기사 지배적 정서, 기사 이미지 자극성 등은 상대적으로 낮은 중요도를 보이는 것으로 조사되었다. 본 연구는 내용분석과 컨조인트 분석을 동시에 실시하여 온라인 뉴스 콘텐츠에 대한 자발적 지불의도에 영향을 미치는 체계적 요인을 도출하고, 그 상대적 중요도까지 살펴보았다는 점에서 학술적 의의가 있으며, 온라인 뉴스 콘텐츠 제작자 및 사이트 운영자들로 하여금 독자들의 자발적 지불을 유도할 수 있는 가이드라인을 제시하였다는 점에서 그 실무적 의의가 있다.

군(軍) 보고서 등장 문장과 관련 법령 간 비교 시스템 구축 방안 연구 (A Study on the Establishment of Comparison System between the Statement of Military Reports and Related Laws)

  • 정지인;김민태;김우주
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.109-125
    • /
    • 2020
  • 군(軍)에서 방위력개선사업(이하 방위사업)은 매우 투명하고 효율적으로 이루어져야 함에도, 방위사업 관련 법 및 규정의 과도한 다양화로 많은 실무자들이 원활한 방위사업 추진에 어려움을 겪고 있다. 한편, 방위사업 관련 실무자들이 각종 문서에서 다루는 법령 문장은 문장 내에서 표현 하나만 잘못되더라도 심각한 문제를 유발하는 특징을 가지고 있으나, 이를 실시간으로 바로잡기 위한 문장 비교 시스템 구축에 대한 노력은 미미했다. 따라서 본 논문에서는 Siamese Network 기반의 자연어 처리(NLP) 분야 인공 신경망 모델을 이용하여 군(軍)의 방위사업 관련 문서에서 등장할 가능성이 높은 문장과 이와 관련된 법령 조항의 유사도를 비교하여 위법 위험 여부를 판단·분류하고, 그 결과를 사용자에게 인지시켜 주는 '군(軍) 보고서 등장 문장과 관련 법령 간 비교 시스템' 구축 방안을 제안하려고 한다. 직접 제작한 데이터 셋인 모(母)문장(실제 법령에 등장하는 문장)과 자(子)문장(모(母)문장에서 파생시킨 변형 문장) 3,442쌍을 사용하여 다양한 인공 신경망 모델(Bi-LSTM, Self-Attention, D_Bi-LSTM)을 학습시켰으며 1 : 1 문장 유사도 비교 실험을 통해 성능 평가를 수행한 결과, 상당히 높은 정확도로 자(子)문장의 모(母)문장 대비 위법 위험 여부를 분류할 수 있었다. 또한, 모델 학습에 사용한 자(子)문장 데이터는 법령 문장을 일정 규칙에 따라 변형한 형태이기 때문에 모(母)·자(子)문장 데이터만으로 학습시킨 모델이 실제 군(軍) 보고서에 등장하는 문장을 효과적으로 분류한다고 판단하기에는 제한된다는 단점을 보완하기 위해, 실제 군(軍) 보고서에 등장하는 형태에 보다 더 가깝고 모(母)문장과 연관된 새로운 문장 120문장을 추가로 작성하여 모델의 성능을 평가해본 결과, 모(母)·자(子)문장 데이터만으로 학습시킨 모델로도 일정 수준 이상의 성능을 확인 할 수 있었다. 결과적으로 본 연구를 통해 방위사업 관련 군(軍) 보고서에서 등장하는 여러 특정 문장들이 각각 어느 관련 법령의 어느 조항과 가장 유사한지 살펴보고, 해당 조항과의 유사도 비교를 통해 위법 위험 여부를 판단하는 '실시간 군(軍) 문서와 관련 법령 간 자동화 비교 시스템'의 구축 가능성을 확인할 수 있었다.