• Title/Summary/Keyword: graduate

검색결과 54,492건 처리시간 0.092초

전역 토픽의 지역 매핑을 통한 효율적 토픽 모델링 방안 (Efficient Topic Modeling by Mapping Global and Local Topics)

  • 최호창;김남규
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.69-94
    • /
    • 2017
  • 최근 빅데이터 분석 수요의 지속적 증가와 함께 관련 기법 및 도구의 비약적 발전이 이루어지고 있으며, 이에 따라 빅데이터 분석은 소수 전문가에 의한 독점이 아닌 개별 사용자의 자가 수행 형태로 변모하고 있다. 또한 전통적 방법으로는 분석이 어려웠던 비정형 데이터의 활용 방안에 대한 관심이 증가하고 있으며, 대표적으로 방대한 양의 텍스트에서 주제를 도출해내는 토픽 모델링(Topic Modeling)에 대한 연구가 활발히 진행되고 있다. 전통적인 토픽 모델링은 전체 문서에 걸친 주요 용어의 분포에 기반을 두고 수행되기 때문에, 각 문서의 토픽 식별에는 전체 문서에 대한 일괄 분석이 필요하다. 이로 인해 대용량 문서의 토픽 모델링에는 오랜 시간이 소요되며, 이 문제는 특히 분석 대상 문서가 복수의 시스템 또는 지역에 분산 저장되어 있는 경우 더욱 크게 작용한다. 따라서 이를 극복하기 위해 대량의 문서를 하위 군집으로 분할하고, 각 군집별 분석을 통해 토픽을 도출하는 방법을 생각할 수 있다. 하지만 이 경우 각 군집에서 도출한 지역 토픽은 전체 문서로부터 도출한 전역 토픽과 상이하게 나타나므로, 각 문서와 전역 토픽의 대응 관계를 식별할 수 없다. 따라서 본 연구에서는 전체 문서를 하위 군집으로 분할하고, 각 하위 군집에서 대표 문서를 추출하여 축소된 전역 문서 집합을 구성하고, 대표 문서를 매개로 하위 군집에서 도출한 지역 토픽으로부터 전역 토픽의 성분을 도출하는 방안을 제시한다. 또한 뉴스 기사 24,000건에 대한 실험을 통해 제안 방법론의 실무 적용 가능성을 평가하였으며, 이와 함께 제안 방법론에 따른 분할 정복(Divide and Conquer) 방식과 전체 문서에 대한 일괄 수행 방식의 토픽 분석 결과를 비교하였다.

경주 옥산구곡(玉山九曲)의 위치비정과 경관해석 연구 - 이정엄의 「옥산구곡가」를 중심으로 - (A Study on the Consideration of the Locations of Gyeongju Oksan Gugok and Landscape Interpretation - Focusing on the Arbor of Lee, Jung-Eom's "Oksan Gugok" -)

  • 펑홍쉬;강태호
    • 한국전통조경학회지
    • /
    • 제36권3호
    • /
    • pp.26-36
    • /
    • 2018
  • 본 논문은 경주 옥산구곡의 위치와 경관 해석에 대한 연구이다. 옥산구곡은 회재(晦齋) 이언적(李彦迪)을 향사하는 옥산서원 앞을 흐르는 자계천(紫溪川, 자옥천(紫玉山)) 즉, 옥산천(玉山川)에 설정(設定)된 구곡으로 본 연구에서는 옥산구곡을 대상으로 문헌조사와 디지털 기기 분석을 통해 현장 실측분석을 수행하여 옥산구곡의 위치 및 설정상황을 확인하였다. 특히 Trimble Juno SB GPS로 측정한 구곡의 경위도와 같이 Google Earth Pro 및 지리정보원이 공개한 옥산구곡의 수치지형도를 이용해서 옥산구곡의 정확한 위치를 확정하였다. 문헌연구 및 현장조사를 통하여, 옥산구곡의 위치 비정 및 경관 해석 결과는 다음과 같다. 첫째, 퇴계 이황의 9세손 이야순(李野淳)은 이언적 사후 270년인 1823년 봄에 옥산서원을 방문하였다. 이때 이야순의 제안으로 이언적의 후손 이정엄(李鼎儼), 이정기(李鼎基), 이정병(李鼎秉) 등과 여러 선비들이 함께 옥산구곡을 처음 설정하고 함께 "옥산구곡가"를 창작했다. 이정엄의 "옥산동행기"는 옥산구곡의 설정할 때의 상황을 알려주는 결정적 자료이다. 둘째, 대부분의 구곡원림은 일반적인 시인묵객이 경영한 원림이 아니고 정통 성리학자들이 경영한 원림이다. 이언적과 이황의 후손이 "옥산구곡가"를 함께 창작한 것은 이언적이나 이황이 정통 주자학을 계승했다는 점에 대한 후손들의 자긍심의 한 표현이다. 셋째, 이정엄의 "옥산동행기"에는 "옥산구곡가"의 설곡 과정과 구곡가 창작 과정은 매우 구체적으로 기록되어 있는데, 구곡가의 설곡과정과 그때의 상황이 이처럼 구체적으로 드러난 것은 희귀한 사례라고 할 것이다. 넷째, 기존에 알려진 옥산구곡 제8곡과 제9곡의 위치를 새롭게 비정하였다. 확정된 제8곡 탁영대의 위치정보는 북위 $36^{\circ}01^{\prime}08.60^{{\prime}{\prime}}$,동경 $129^{\circ}09^{\prime}31.20^{{\prime}{\prime}}$이다. 9곡 사자암은 고문헌을 참고하여, 동서의 두 계곡이 모이는 아래쪽 바위로 비정하였다. 그 위치는 북위 $36^{\circ}01^{\prime}19.79^{{\prime}{\prime}}$, 동경 $129^{\circ}09^{\prime}30.26^{{\prime}{\prime}}$이다. 다섯째, 이정엄의 "옥산구곡가"에 나타난 경관요소와 경관현상은 형태요소, 의미요소, 풍토요소로 나누었다. 그 결과 이정엄의 조영관은 산수를 이상향으로 생각하는 점과 자연에 한가하게 노니는 심정과 아울러 무상감을 확인할 수 있었다. 여섯째, 경관요소와 경관현상들의 출현빈도를 살펴본 결과, 이정엄의 구곡가에서'물'과 '산'은 구곡원림을 조영하는 절대적인 요소였다. 따라서 이 구곡가에는 신선사상(神仙思想) 및 은거사상(隱居思想)이 내재되어 있는 것은 물론 산수간의 조화를 통해 자연과 하나가 되는 물아일체의 사상과 성리학적인 수행관을 살필 수 있었다.

클라우드 컴퓨팅 관련 논문의 서지정보 및 인용정보를 활용한 연구 동향 분석: 사회 네트워크 분석의 활용 (Research Trend Analysis Using Bibliographic Information and Citations of Cloud Computing Articles: Application of Social Network Analysis)

  • 김동성;김종우
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.195-211
    • /
    • 2014
  • 클라우드 컴퓨팅 서비스는 IT 자원을 사용자 요구에 따라 서비스 형태로 제공하며, IT 자원을 소유하는 기존의 개념에서 빌려서 사용하는 개념으로 새로운 IT 패러다임 전환을 이끌고 있다. 이러한 클라우드 컴퓨팅은 과거의 네트워크 컴퓨팅, 유틸리티 컴퓨팅, 서버 기반 컴퓨팅, 그리드 컴퓨팅 등에 대한 연구들을 기반으로 진화해온 IT 서비스로서, 추후 여러분야에 접목 가능성이 높음에 따라 다양한 분야에서의 연구가 지속적으로 이루어지고 있다. 본 연구에서는 1994년부터 2012년까지 주요 해외 저널에 게재된 클라우드 컴퓨팅 관련 연구 논문들의 서지정보 및 인용정보를 수집하였으며, 사회 네트워크 분석 척도를 활용하여 연구 논문간의 인용 관계와 동일 논문에 출현하는 키워드간의 관계로부터 연구 주제들 간 네트워크 변화를 분석하였다. 이를 통해서 클라우드 컴퓨팅 관련 분야의 연구 주제들간의 관계를 파악할 수 있었고, 추후 잠재성이 높은 신규 연구 주제들을 도출하였다. 또한 본 연구에서는 클라우드 컴퓨팅에 대한 연구 동향 맵(research trend map)을 작성하여, 클라우드 컴퓨팅과 관련된 연구 주제들의 동태적인 변화를 확인하였다. 이러한 연구 동향 맵을 통해서 클라우드 컴퓨팅 주요 연구들의 추이를 쉽게 파악 할 수 있으며, 진화 형태 또는 유망 분야를 설명할 수 있다. 논문 인용 관계 분석 결과, 클라우드 컴퓨팅 보안과 분산 처리, 클라우드 컴퓨팅에서의 광네트워크에 관한 연구 논문들이 페이지랭크 척도를 기준으로 상위에 나타났다. 연구 논문의 핵심 주제를 나타내는 키워드에 대한 결과는 2009년에는 클라우드 컴퓨팅과 그리드 컴퓨팅이 높은 중심성 수치를 보였으며, 2010~2011년에는 데이터 아웃소싱, 에러검출 방법, 인프라구축 등 주요 클라우드 요소 기술에 관한 키워드가 높은 중심성 수치를 나타내었다. 2012년에는 보안, 가상화, 자원 관리 등이 높은 중심성 수치를 보였으며, 이를 통해서 클라우드 컴퓨팅 기술들에 대한 관심이 점차 증가함을 확인 할 수 있다. 연구 동향 맵 작성 결과, 보안은 유망영역에 위치하고 있으며, 가상화는 유망영역에서 성장 영역으로 이동하였고, 그리드 컴퓨팅과 분산 시스템은 쇠퇴 영역으로 이동하고 있음을 확인 할 수 있다.

개인정보보호 분야의 연구자 네트워크와 성과 평가 프레임워크: 소셜 네트워크 분석을 중심으로 (The Framework of Research Network and Performance Evaluation on Personal Information Security: Social Network Analysis Perspective)

  • 김민수;최재원;김현진
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.177-193
    • /
    • 2014
  • 개인정보 분야에서의 다양한 정보 보안 이슈가 발생함에 따라 해당 분야의 전문가를 확인하기 위한 프레임워크는 매우 중요한 영역이 되었다. 전문가 탐색과정은 주로 연구 업적 등을 통한 주관적인 평가가 일반적이지만 보다 객관적인 방식을 통한 선정이 매우 중요하다. 소셜 네트워크 분석기법의 응용이 다양한 영역에서 활용됨에 따라 본 연구는 개인정보보호분야의 전문가를 확인하고 해당 전문가들의 연구실적을 판단하기 위한 분석 프레임워크를 제시하고자 하였다. 본 연구는 연구 목적에 따라 개인정보보호 연구영역의 연구성과 자료를 바탕으로 소셜 네트워크 분석을 실시하고 핵심연구자의 성과를 분석하였다. 수집된 데이터는 연구의 공저자, 발행기관, 소속기관 등의 네트워크 구성에 활용되어 핵심전문가 집단을 관리하기 위한 프레임워크를 제시하였다. 본 연구는 NDSL에서 최근 5년 동안 발표된 논문들을 중심으로 자료를 수집하였다. 연구자들이 학술 정보를 교환하는 정기 간행물인 학술지를 바탕으로 연구 네트워크를 형성하는 네트워크 자료를 수집함으로써 연구활동에 대한 정보를 분석할 수 있었다. 일반적으로 연구자들은 연구 결과를 논문으로 발표하고, 발표된 논문들이 다수의 관련 분야 전문가들에게 공유된다는 점에서 학술연구지는 연구자들의 지식관련 의사소통 공간이며 지식의 구조화에 핵심적인 역할을 수행한다. 그에 따라 본 연구의 연구 대상 분야로 설정한 개인정보보호 분야의 연구 구조를 이해하기 위해 국내에서 발표된 관련 분야의 논문들을 연구 대상으로 자료가 수집되었다. 특히 자료의 선별 기준은 국내 최대의 데이터베이스를 보유하고 있는 NDSL에서 개인정보보호 관련 키워드를 보유한 논문 데이터를 수집 및 정제하여 분석 자료로 사용하였다. 2005년부터 2013년까지 약 2,000개의 연구결과 중 주제 관련성, 공저자 추출 등을 수집하였다. 데이터 수집 이후 연구 분석을 위한 데이터 처리를 통하여 통해 총 784개의 논문을 선정하고 분석대상으로 확정하였다. 분석 결과, 개인정보보호 연구영역의 전문가 집단을 이용한 연구논문 성과에 대한 분석은 핵심 연구자들을 추출해내고 전문가 집단을 관리하는 데 도움을 제공할 수 있다. 특히 소속집단 및 연구논문 발행기관을 분석함으로써 개인정보보호 연구영역에서 확인되지 않았던 연구자들의 연구 논문 게재의 공저자 네트워크가 매우 밀접함을 확인할 수 있다. 또한 연구논문의 발행기관 및 소속집단의 특성을 추출함으로써 개인정보보호 영역의 전문가 평가지표로서 소셜 네트워크 지표들의 활용가능성을 확인하였다.

한국 폐경 후 여성 커피소비자에서 우유섭취여부에 따른 골밀도와 영양상태 비교 : 2008~2009년 국민건강영양조사 자료 이용 (Bone mineral density and nutritional state according to milk consumption in Korean postmenopausal women who drink coffee: Using the 2008~2009 Korea National Health and Nutrition Examination Survey)

  • 유선형;서윤석
    • Journal of Nutrition and Health
    • /
    • 제49권5호
    • /
    • pp.347-357
    • /
    • 2016
  • 한국인의 최근 커피소비의 급격한 증가는 카페인의 과다 섭취로 이어지고 이는 칼슘흡수를 낮춰 골밀도 저하를 야기할 수 있다. 이에 본 연구에서는 한국 폐경 후 여성 커피소비자에서 우유섭취 여부가 골밀도에 차이를 가져올 수 있는지 파악하고자 국민건강영양조사 제4기 2, 3차년도(2008년, 2009년) 자료를 이용하여 50세 이상 폐경 후 여성을 대상으로 갑상선장애, 만성질환, 암을 진단받거나 치료받는 자, 골다공증 치료를 받는자와 여성호르몬제 복용자를 제외한 1,373명의 자료를 분석하였다. 커피와 우유 섭취 여부에 따라 커피는 섭취하나 우유를 섭취하지 않는군 (커피군), 커피와 우유를 모두 섭취하는군 (커피 우유군), 커피를 섭취하지 않으면서 우유를 섭취하는군 (우유군), 커피와 우유를 모두 섭취하지 않는군 (비섭취군)의 네 군으로 분류하고 부위별 골밀도와 영양상태를 비교하였다. 모든 자료는 해당 년도의 가중치를 적용한 후 일반선형모델을 사용하였고, 골밀도 비교시에는 연령, 체질량지수, 신체활동, 음주, 흡연, 칼슘섭취량을 보정하여 분석하였다. 유의성은 ${\alpha}=0.05$ 수준에서 검토하였다. 1) 전체 대상자 중 커피 우유군은 65세미만의 젊은 층이 많고 교육수준과 소득수준이 높고, 도시 거주자가 많았다. 반면에 비섭취군과 커피군은 65세 이상이 많고 교육수준과 소득수준이 낮으며 읍 면 거주자가 많았다. 커피 우유군에서 음주자의 비율이 높았으나, 신체적 활동 정도나 흡연에서는 군 간에 차이가 나타나지 않았다. 2) 총대퇴골과 요추부위의 골밀도 및 T-score값은 커피 우유군에서 세 군에 비해 가장 높았고 우유군, 커피군의 순으로 높았으며, 비섭취군에서 가장 낮았다. T-score값으로 골 건강상태를 판정하였을 때 유의성은 나타나지 않았으나, 커피 우유군에 골밀도 정상 해당자가 많고 우유군, 커피군이 그 뒤를 이었고, 비섭취군에 골다공증 해당자가 많이 나타나는 경향을 보였다. 3) 허리둘레를 제외하고는 체중, 신장, 체질량지수, 제지방조직량이 커피 우유군에서 모두 높았다. 반면에 커피군은 커피 우유군에 비해 이들 체위계측치가 모두 낮았고, 또한 우유군에 비해 신장은 낮고 체중은 높아 체질량지수가 높고 허리둘레도 높은 대신 제지방량은 낮았다. 우유군은 네군 중 체질량지수와 허리둘레가 가장 낮고 제지방량은 커피 우유군 다음으로 높았다. 비섭취군은 네군 중 체중, 신장, 제지방량이 가장 낮았고 허리둘레는 가장 높았다. 혈청부갑상선호르몬 농도는 비섭취군에서 높았고 우유군에서 가장 낮았다. 4) 커피 우유군은 대다수 식품군의 섭취 빈도가 다른 세군에 비해 높았다. 우유군은 총곡류와 우유류를 제외하고 대다수 식품군의 섭취빈도가 커피 우유군에 비해 낮았으나, 육 난류, 어류, 버섯류와 과일류는 커피 우유군에 필적하는 수준이었고 커피군에 비해서는 대다수 식품군에서 더 높은 섭취빈도를 나타내었다. 영양소섭취상태는 조사대상 영양소 중 나트륨과 칼륨에서만 유의성이 없었을 뿐, 칼슘을 포함하여 에너지, 단백질과 인, 철분, 비타민 C와 지방에너지비가 두 우유군 (커피 우유군과 우유군)에서 비슷하게 높았고, 5개 영양소의 평균 영양소적정섭취비 (MAR) 역시 두 우유군에서 높았다. 반면에 커피군과 비섭취군은 다수 식품군의 섭취빈도가 낮게 나타났고 미량 영양소의 섭취 수준도 상대적으로 낮았다. 이상의 연구결과에서 한국 폐경 여성 커피 섭취자에서 커피 비섭취자에 비하여 골밀도가 높은 것으로 나타났으며, 특히 커피와 우유를 함께 섭취한 군이 커피 단독군에 비해, 또 커피를 안 마시고 우유만 섭취하는 군에 비해 골밀도도 높고 체위와 체조성과 무기질 및 전반적인 영양상태가 양호한 것으로 나타났으며, 커피 단독군에 비해, 우유만 섭취하는 군이 골밀도와 체조성 및 영양섭취상태가 모두 양호한 결과를 보였다. 결론적으로 한국 폐경여성에서 우유를 포함한 다양한 식품군과 균형잡힌 영양섭취를 하는 경우, 단순히 커피 섭취가 골밀도에 영향을 주는 것 같지는 않다.

지방자치단체 자체 복지사업 지출 영향요인 분석 : 사회보장정보시스템을 통한 접근 (Analysis on Factors Influencing Welfare Spending of Local Authority : Implementing the Detailed Data Extracted from the Social Security Information System)

  • 김경준;함영진;이기동
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.141-156
    • /
    • 2013
  • 그 동안 한국 사회에서 지방자치단체(이하 지자체) 복지사업과 재정지출에 대한 연구는 장애인, 노인, 보육 등 복지사업 대상 등을 중심으로 부문별 복지지출에 대한 영향요인 연구가 대부분 이루어져 왔다. 최근 지자체의 자체적인 복지노력도 측면에서 자체 사업에 대한 연구가 특정 지역의 사례를 중심으로 이루어지기는 하고 있지만, 자료에 대한 접근과 조사의 한계로 여러 요인이 실증적으로 고려되지 못하여 정책적 함의를 도출해 내기 어려웠다. 현재 우리사회의 복지예산과 그 지출규모는 국가 예산의 30%에 이를 만큼 높은 비중을 차지하고 있다. 이에 따라 국가적 차원에서 공공복지 전달체계의 효율적 운영과 관리를 위해 사회보장 정보시스템을 구축, 운영하고 있다. 본 연구에서는 기존 연구에서 사용하는 지방재정시스템이 아닌 사회보장 정보시스템을 통하여 지자체 복지재정 지출과 관련, 기존 연구에서 한계점으로 지적되었던 전수데이터에 대한 접근과 조사를 실시하여 학문적이고 정책적인 함의를 도출해 내고자 한다. 사회보장정보시스템은 복지전달체계의 효율화를 위해 구축되었으며, 이를 통해 17개 부처 292개 복지사업이 집행되며, 230개 지자체 4만여 개 복지사업의 정보가 관리되고 있다. 이에 따라 본 연구는 사회보장정보시스템을 통해 관리되는 지자체 복지사업을 중심으로 지자체 복지지출에 미치는 영향요인을 탐색하고자 한다. 이를 위해 지자체 복지노력도로 대변되는 순수 시 군 구 복지예산액을 종속변수로 설정하였으며, 기존문헌 검토를 바탕으로 인구사회학적, 지역 경제적 그리고 지자체 재정적 요인을 독립변수로 설정하였다. 또한 독립변수 요인간 다중공선성 문제를 점검하였고, 다중공선성의 문제가 없는 것으로 확인된 수급자 비율, 영유아 비율, 아동청소년 비율, 복지비 비율, 구인배율, 재정자립도, 재정자주도의 총 7개 독립변수와, 소속 정당을 통제변수로 사용하여 결정요인의 변화를 분석하였다. 연구결과를 살펴보면 기본모델에서는 복지비 비율, 영유아 비율, 재정자립도, 재정자주도, 구인배율이 유의한 영향을 미치는 것으로 분석되었다. 그리고 기존 문헌에서 분석되지 못했던 시 군 구별 복지지출 영향요인의 차이점을 분석하였다. 또한 복지예산 총량 데이터에 근거한 기존 연구들이 논의하지 못했던 자체 복지사업 예산에 미치는 영향요인을 구체적으로 밝혀내는데 의의가 있다.

불균형 데이터 집합의 분류를 위한 하이브리드 SVM 모델 (A Hybrid SVM Classifier for Imbalanced Data Sets)

  • 이재식;권종구
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.125-140
    • /
    • 2013
  • 어떤 클래스에 속한 레코드의 개수가 다른 클래스들에 속한 레코드의 개수보다 매우 많은 경우에, 이 데이터 집합을 '불균형 데이터 집합'이라고 한다. 데이터 분류에 사용되는 많은 기법들은 이러한 불균형 데이터에 대해서 저조한 성능을 보인다. 어떤 기법의 성능을 평가할 때에 적중률뿐만 아니라, 민감도와 특이도도 함께 측정하여야 한다. 고객의 이탈을 예측하는 문제에서 '유지' 레코드가 다수 클래스를 차지하고, '이탈' 레코드는 소수 클래스를 차지한다. 민감도는 실제로 '유지'인 레코드를 '유지'로 예측하는 비율이고, 특이도는 실제로 '이탈'인 레코드를 '이탈'로 예측하는 비율이다. 많은 데이터 마이닝 기법들이 불균형 데이터에 대해서 저조한 성능을 보이는 것은 바로 소수 클래스의 적중률인 특이도가 낮기 때문이다. 불균형 데이터 집합에 대처하는 과거 연구 중에는 소수 클래스를 Oversampling하여 균형 데이터 집합을 생성한 후에 데이터 마이닝 기법을 적용한 연구들이 있다. 이렇게 균형 데이터 집합을 생성하여 예측을 수행하면, 특이도는 다소 향상시킬 수 있으나 그 대신 민감도가 하락하게 된다. 본 연구에서는 민감도는 유지하면서 특이도를 향상시키는 모델을 개발하였다. 개발된 모델은 Support Vector Machine (SVM), 인공신경망(ANN) 그리고 의사결정나무 기법 등으로 구성된 하이브리드 모델로서, Hybrid SVM Model이라고 명명하였다. 구축과정 및 예측과정은 다음과 같다. 원래의 불균형 데이터 집합으로 SVM_I Model과 ANN_I Model을 구축한다. 불균형 데이터 집합으로부터 Oversampling을 하여 균형 데이터 집합을 생성하고, 이것으로 SVM_B Model을 구축한다. SVM_I Model은 민감도에서 우수하고, SVM_B Model은 특이도에서 우수하다. 입력 레코드에 대해서 SVM_I와 SVM_B가 동일한 예측치를 도출하면 그것을 최종 해로 결정한다. SVM_I와 SVM_B가 상이한 예측치를 도출한 레코드에 대해서는 ANN과 의사결정나무의 도움으로 판별 과정을 거쳐서 최종 해를 결정한다. 상이한 예측치를 도출한 레코드에 대해서는, ANN_I의 출력값을 입력속성으로, 실제 이탈 여부를 목표 속성으로 설정하여 의사결정나무 모델을 구축한다. 그 결과 다음과 같은 2개의 판별규칙을 얻었다. 'IF ANN_I output value < 0.285, THEN Final Solution = Retention' 그리고 'IF ANN_I output value ${\geq}0.285$, THEN Final Solution = Churn'이다. 제시되어 있는 규칙의 Threshold 값인 0.285는 본 연구에서 사용한 데이터에 최적화되어 도출된 값이다. 본 연구에서 제시하는 것은 Hybrid SVM Model의 구조이지 특정한 Threshold 값이 아니기 때문에 이 Threshold 값은 대상 데이터에 따라서 얼마든지 변할 수 있다. Hybrid SVM Model의 성능을 UCI Machine Learning Repository에서 제공하는 Churn 데이터 집합을 사용하여 평가하였다. Hybrid SVM Model의 적중률은 91.08%로서 SVM_I Model이나 SVM_B Model의 적중률보다 높았다. Hybrid SVM Model의 민감도는 95.02%이었고, 특이도는 69.24%이었다. SVM_I Model의 민감도는 94.65%이었고, SVM_B Model의 특이도는 67.00%이었다. 그러므로 본 연구에서 개발한 Hybrid SVM Model이 SVM_I Model의 민감도 수준은 유지하면서 SVM_B Model의 특이도보다는 향상된 성능을 보였다.

CNN-LSTM 조합모델을 이용한 영화리뷰 감성분석 (Sentiment Analysis of Movie Review Using Integrated CNN-LSTM Mode)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.141-154
    • /
    • 2019
  • 인터넷 기술과 소셜 미디어의 빠른 성장으로 인하여, 구조화되지 않은 문서 표현도 다양한 응용 프로그램에 사용할 수 있게 마이닝 기술이 발전되었다. 그 중 감성분석은 제품이나 서비스에 내재된 사용자의 감성을 탐지할 수 있는 분석방법이기 때문에 지난 몇 년 동안 많은 관심을 받아왔다. 감성분석에서는 주로 텍스트 데이터를 이용하여 사람들의 감성을 사전 정의된 긍정 및 부정의 범주를 할당하여 분석하며, 이때 사전 정의된 레이블을 이용하기 때문에 다양한 방향으로 연구가 진행되고 있다. 초기의 감성분석 연구에서는 쇼핑몰 상품의 리뷰 중심으로 진행되었지만, 최근에는 블로그, 뉴스기사, 날씨 예보, 영화 리뷰, SNS, 주식시장의 동향 등 다양한 분야에 적용되고 있다. 많은 선행연구들이 진행되어 왔으나 대부분 전통적인 단일 기계학습기법에 의존한 감성분류를 시도하였기에 분류 정확도 면에서 한계점이 있었다. 본 연구에서는 전통적인 기계학습기법 대신 대용량 데이터의 처리에 우수한 성능을 보이는 딥러닝 기법과 딥러닝 중 CNN과 LSTM의 조합모델을 이용하여 감성분석의 분류 정확도를 개선하고자 한다. 본 연구에서는 대표적인 영화 리뷰 데이터셋인 IMDB의 리뷰 데이터 셋을 이용하여, 감성분석의 극성분석을 긍정 및 부정으로 범주를 분류하고, 딥러닝과 제안하는 조합모델을 활용하여 극성분석의 예측 정확도를 개선하는 것을 목적으로 한다. 이 과정에서 여러 매개 변수가 존재하기 때문에 그 수치와 정밀도의 관계에 대해 고찰하여 최적의 조합을 찾아 정확도 등 감성분석의 성능 개선을 시도한다. 연구 결과, 딥러닝 기반의 분류 모형이 좋은 분류성과를 보였으며, 특히 본 연구에서 제안하는 CNN-LSTM 조합모델의 성과가 가장 우수한 것으로 나타났다.

Hybrid CNN-LSTM 알고리즘을 활용한 도시철도 내 피플 카운팅 연구 (A Study on People Counting in Public Metro Service using Hybrid CNN-LSTM Algorithm)

  • 최지혜;김민승;이찬호;최정환;이정희;성태응
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.131-145
    • /
    • 2020
  • 산업혁신의 흐름에 발맞추어 다양한 분야에서 활용되고 있는 IoT 기술은 빅데이터의 접목을 통한 새로운 비즈니스 모델의 창출 및 사용자 친화적 서비스 제공의 핵심적인 요소로 부각되고 있다. 사물인터넷이 적용된 디바이스에서 누적된 데이터는 사용자 환경 및 패턴 분석을 통해 맞춤형 지능 시스템을 제공해줄 수 있어 편의 기반 스마트 시스템 구축에 다방면으로 활용되고 있다. 최근에는 이를 공공영역 혁신에 확대 적용하여 CCTV를 활용한 교통 범죄 문제 해결 등 스마트시티, 스마트 교통 등에 활용하고 있다. 그러나 이미지 데이터를 활용하는 기존 연구에서는 개인에 대한 사생활 침해 문제 및 비(非)일반적 상황에서 객체 감지 성능이 저하되는 한계가 있다. 본 연구에 활용된 IoT 디바이스 기반의 센서 데이터는 개인에 대한 식별이 불필요해 사생활 이슈로부터 자유로운 데이터로, 불특정 다수를 위한 지능형 공공서비스 구축에 효과적으로 활용될 수 있다. 대다수의 국민들이 일상적으로 활용하는 도시철도에서의 지능형 보행자 트래킹 시스템에 IoT 기반의 적외선 센서 디바이스를 활용하고자 하였으며 센서로부터 측정된 온도 데이터를 실시간 송출하고, CNN-LSTM(Convolutional Neural Network-Long Short Term Memory) 알고리즘을 활용하여 구간 내 보행 인원의 수를 예측하고자 하였다. 실험 결과 MLP(Multi-Layer Perceptron) 및 LSTM(Long Short-Term Memory), RNN-LSTM(Recurrent Neural Network-Long Short Term Memory)에 비해 제안한 CNN-LSTM 하이브리드 모형이 가장 우수한 예측성능을 보임을 확인하였다. 본 논문에서 제안한 디바이스 및 모델을 활용하여 그간 개인정보와 관련된 법적 문제로 인해 서비스 제공이 미흡했던 대중교통 내 실시간 모니터링 및 혼잡도 기반의 위기상황 대응 서비스 등 종합적 메트로 서비스를 제공할 수 있을 것으로 기대된다.

관심 문자열 인식 기술을 이용한 가스계량기 자동 검침 시스템 (Automatic gasometer reading system using selective optical character recognition)

  • 이교혁;김태연;김우주
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.1-25
    • /
    • 2020
  • 본 연구에서는 모바일 기기를 이용하여 획득한 가스계량기 사진을 서버로 전송하고, 이를 분석하여 가스 사용량 및 계량기 기물 번호를 인식함으로써 가스 사용량에 대한 과금을 자동으로 처리할 수 있는 응용 시스템 구조를 제안하고자 한다. 모바일 기기는 일반인들이 사용하는 스마트 폰에 준하는 기기를 사용하였으며, 획득한 이미지는 가스 공급사의 사설 LTE 망을 통해 서버로 전송된다. 서버에서는 전송받은 이미지를 분석하여 가스계량기 기물 번호 및 가스 사용량 정보를 추출하고, 사설 LTE 망을 통해 분석 결과를 모바일 기기로 회신한다. 일반적으로 이미지 내에는 많은 종류의 문자 정보가 포함되어 있으나, 본 연구의 응용분야인 가스계량기 자동 검침과 같이 많은 종류의 문자 정보 중 특정 형태의 문자 정보만이 유용한 분야가 존재한다. 본 연구의 응용분야 적용을 위해서는 가스계량기 사진 내의 많은 문자 정보 중에서 관심 대상인 기물 번호 및 가스 사용량 정보만을 선별적으로 검출하고 인식하는 관심 문자열 인식 기술이 필요하다. 관심 문자열 인식을 위해 CNN (Convolutional Neural Network) 심층 신경망 기반의 객체 검출 기술을 적용하여 이미지 내에서 가스 사용량 및 계량기 기물번호의 영역 정보를 추출하고, 추출된 문자열 영역 각각에 CRNN (Convolutional Recurrent Neural Network) 심층 신경망 기술을 적용하여 문자열 전체를 한 번에 인식하였다. 본 연구에서 제안하는 관심문자열 기술 구조는 총 3개의 심층 신경망으로 구성되어 있다. 첫 번째는 관심 문자열 영역을 검출하는 합성곱신경망이고, 두 번째는 관심 문자열 영역 내의 문자열 인식을 위해 영역 내의 이미지를 세로 열 별로 특징 추출하는 합성곱 신경망이며, 마지막 세 번째는 세로 열 별로 추출된 특징 벡터 나열을 문자열로 변환하는 시계열 분석 신경망이다. 관심 문자열은 12자리 기물번호 및 4 ~ 5 자리 사용량이며, 인식 정확도는 각각 0.960, 0.864 이다. 전체 시스템은 Amazon Web Service 에서 제공하는 클라우드 환경에서 구현하였으며 인텔 제온 E5-2686 v4 CPU 및 Nvidia TESLA V100 GPU를 사용하였다. 1일 70만 건의 검침 요청을 고속 병렬 처리하기 위해 마스터-슬레이브 처리 구조를 채용하였다. 마스터 프로세스는 CPU 에서 구동되며, 모바일 기기로 부터의 검침 요청을 입력 큐에 저장한다. 슬레이브 프로세스는 문자열 인식을 수행하는 심층 신경망으로써, GPU에서 구동된다. 슬레이브 프로세스는 입력 큐에 저장된 이미지를 기물번호 문자열, 기물번호 위치, 사용량 문자열, 사용량 위치 등으로 변환하여 출력 큐에 저장한다. 마스터 프로세스는 출력 큐에 저장된 검침 정보를 모바일 기기로 전달한다.