• 제목/요약/키워드: IT기반

검색결과 37,065건 처리시간 0.064초

사회연결망 분석을 활용한 연관규칙 확장기법 (Extension Method of Association Rules Using Social Network Analysis)

  • 이동원
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.111-126
    • /
    • 2017
  • 연관 상품 추천은 수많은 상품을 다루는 온라인 상거래에서 소비자의 상품 탐색 시간을 줄여주며 판매자의 매출 증대에 크게 기여한다. 이는 주문과 같은 거래의 빈도를 기반으로 생성되므로, 통계적으로 판매 확률이 높은 상품을 효과적으로 선별할 수 있다. 하지만, 판매 가능성이 높은 경우라도 신상품처럼 판매 초기에 거래 건수가 충분하지 않은 상품은 추천에서 누락될 수 있다. 연관 추천에서 누락된 상품은 이로 인해 노출 기회를 잃게 되고, 이는 거래 건수 감소로 이어져, 또 다시 추천 기회를 잃는 악순환을 겪을 수도 한다. 따라서, 충분한 거래 건수가 쌓이기 전까지 초기 매출은 일정 기간 동안 정체되는 현상을 보이는데, 의류 등과 같이 유행에 민감하거나 계절 변화에 영향을 많이 받는 상품은 이로 인해 매출에 큰 타격을 입을 수도 있다. 본 연구는 이와 같이 거래 초기의 낮은 거래 빈도로 인해 잘 드러나지 않는 상품 간의 잠재적인 연관성을 찾아 추천 기회를 확보할 수 있도록 연관 규칙을 확장하기 위한 목적으로 수행되었다. 두 상품 간에 직접적인 연관성이 나타나지 않더라도 다른 상품을 매개로 두 상품 간의 잠재적 연관성을 예측할 수 있을 것이며, 이런 연관성은 주문에서 나타나는 상품 간 상호작용으로 표현될 수 있으므로, 사회연결망 분석을 활용한 분석을 시도하였다. 사회연결망 분석기법을 통해 각 상품의 속성과 두 상품 간 경로의 특성을 추출하고 회귀분석을 실시하여, 두 상품 간 경로의 최단 거리 및 경로의 개수, 각 상품이 얼마나 많은 상품과 연관성을 갖는지, 두 상품의 분류 카테고리가 어느 정도 일치하는지가 두 상품 간의 잠재적 연관성에 미친다는 것을 확인하였다. 모형의 성능을 평가하기 위해, 일정 기간의 주문 데이터로부터 연결망을 구성하고, 이후 10일 간 생성될 상품 간 연관성을 예측하는 실험을 진행하였다. 실험 결과는 모형을 적용하지 않는 경우보다 제안 모형을 활용할 때 훨씬 많은 연관성을 찾을 수 있음을 보여준다.

폭소노미 사이트를 위한 랭킹 프레임워크 설계: 시맨틱 그래프기반 접근 (A Folksonomy Ranking Framework: A Semantic Graph-based Approach)

  • 박현정;노상규
    • Asia pacific journal of information systems
    • /
    • 제21권2호
    • /
    • pp.89-116
    • /
    • 2011
  • In collaborative tagging systems such as Delicious.com and Flickr.com, users assign keywords or tags to their uploaded resources, such as bookmarks and pictures, for their future use or sharing purposes. The collection of resources and tags generated by a user is called a personomy, and the collection of all personomies constitutes the folksonomy. The most significant need of the folksonomy users Is to efficiently find useful resources or experts on specific topics. An excellent ranking algorithm would assign higher ranking to more useful resources or experts. What resources are considered useful In a folksonomic system? Does a standard superior to frequency or freshness exist? The resource recommended by more users with mere expertise should be worthy of attention. This ranking paradigm can be implemented through a graph-based ranking algorithm. Two well-known representatives of such a paradigm are Page Rank by Google and HITS(Hypertext Induced Topic Selection) by Kleinberg. Both Page Rank and HITS assign a higher evaluation score to pages linked to more higher-scored pages. HITS differs from PageRank in that it utilizes two kinds of scores: authority and hub scores. The ranking objects of these pages are limited to Web pages, whereas the ranking objects of a folksonomic system are somewhat heterogeneous(i.e., users, resources, and tags). Therefore, uniform application of the voting notion of PageRank and HITS based on the links to a folksonomy would be unreasonable, In a folksonomic system, each link corresponding to a property can have an opposite direction, depending on whether the property is an active or a passive voice. The current research stems from the Idea that a graph-based ranking algorithm could be applied to the folksonomic system using the concept of mutual Interactions between entitles, rather than the voting notion of PageRank or HITS. The concept of mutual interactions, proposed for ranking the Semantic Web resources, enables the calculation of importance scores of various resources unaffected by link directions. The weights of a property representing the mutual interaction between classes are assigned depending on the relative significance of the property to the resource importance of each class. This class-oriented approach is based on the fact that, in the Semantic Web, there are many heterogeneous classes; thus, applying a different appraisal standard for each class is more reasonable. This is similar to the evaluation method of humans, where different items are assigned specific weights, which are then summed up to determine the weighted average. We can check for missing properties more easily with this approach than with other predicate-oriented approaches. A user of a tagging system usually assigns more than one tags to the same resource, and there can be more than one tags with the same subjectivity and objectivity. In the case that many users assign similar tags to the same resource, grading the users differently depending on the assignment order becomes necessary. This idea comes from the studies in psychology wherein expertise involves the ability to select the most relevant information for achieving a goal. An expert should be someone who not only has a large collection of documents annotated with a particular tag, but also tends to add documents of high quality to his/her collections. Such documents are identified by the number, as well as the expertise, of users who have the same documents in their collections. In other words, there is a relationship of mutual reinforcement between the expertise of a user and the quality of a document. In addition, there is a need to rank entities related more closely to a certain entity. Considering the property of social media that ensures the popularity of a topic is temporary, recent data should have more weight than old data. We propose a comprehensive folksonomy ranking framework in which all these considerations are dealt with and that can be easily customized to each folksonomy site for ranking purposes. To examine the validity of our ranking algorithm and show the mechanism of adjusting property, time, and expertise weights, we first use a dataset designed for analyzing the effect of each ranking factor independently. We then show the ranking results of a real folksonomy site, with the ranking factors combined. Because the ground truth of a given dataset is not known when it comes to ranking, we inject simulated data whose ranking results can be predicted into the real dataset and compare the ranking results of our algorithm with that of a previous HITS-based algorithm. Our semantic ranking algorithm based on the concept of mutual interaction seems to be preferable to the HITS-based algorithm as a flexible folksonomy ranking framework. Some concrete points of difference are as follows. First, with the time concept applied to the property weights, our algorithm shows superior performance in lowering the scores of older data and raising the scores of newer data. Second, applying the time concept to the expertise weights, as well as to the property weights, our algorithm controls the conflicting influence of expertise weights and enhances overall consistency of time-valued ranking. The expertise weights of the previous study can act as an obstacle to the time-valued ranking because the number of followers increases as time goes on. Third, many new properties and classes can be included in our framework. The previous HITS-based algorithm, based on the voting notion, loses ground in the situation where the domain consists of more than two classes, or where other important properties, such as "sent through twitter" or "registered as a friend," are added to the domain. Forth, there is a big difference in the calculation time and memory use between the two kinds of algorithms. While the matrix multiplication of two matrices, has to be executed twice for the previous HITS-based algorithm, this is unnecessary with our algorithm. In our ranking framework, various folksonomy ranking policies can be expressed with the ranking factors combined and our approach can work, even if the folksonomy site is not implemented with Semantic Web languages. Above all, the time weight proposed in this paper will be applicable to various domains, including social media, where time value is considered important.

Ensemble of Nested Dichotomies 기법을 이용한 스마트폰 가속도 센서 데이터 기반의 동작 인지 (Ensemble of Nested Dichotomies for Activity Recognition Using Accelerometer Data on Smartphone)

  • 하으뜸;김정민;류광렬
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.123-132
    • /
    • 2013
  • 최근 스마트 폰에 다양한 센서를 내장할 수 있게 되었고 스마트폰에 내장된 센서를 이용항 동작 인지에 관한 연구가 활발히 진행되고 있다. 스마트폰을 이용한 동작 인지는 노인 복지 지원이나 운동량 측정. 생활 패턴 분석, 운동 패턴 분석 등 다양한 분야에 활용될 수 있다. 하지만 스마트 폰에 내장된 센서를 이용하여 동작 인지를 하는 방법은 사용되는 센서의 수에 따라 단일 센서를 이용한 동작인지와 다중 센서를 이용한 동작인지로 나눌 수 있다. 단일 센서를 이용하는 경우 대부분 가속도 센서를 이용하기 때문에 배터리 부담은 줄지만 다양한 동작을 인지할 때에 특징(feature) 추출의 어려움과 동작 인지 정확도가 낮다는 문제점이 있다. 그리고 다중 센서를 이용하는 경우 대부분 가속도 센서와 중력센서를 사용하고 필요에 따라 다른 센서를 추가하여 동작인지를 수행하며 다양한 동작을 보다 높은 정확도로 인지할 수 있지만 다수의 센서를 사용하기 때문에 배터리 부담이 증가한다는 문제점이 있다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 스마트 폰에 내장된 가속도 센서를 이용하여 다양한 동작을 높은 정확도로 인지하는 방법을 제안한다. 서로 다른 10가지의 동작을 높을 정확도로 인지하기 위해 원시 데이터로부터 17가지 특징을 추출하고 각 동작을 분류하기 위해 Ensemble of Nested Dichotomies 분류기를 사용하였다. Ensemble of Nested Dichotomies 분류기는 다중 클래스 문제를 다수의 이진 분류 문제로 변형하여 다중 클래스 문제를 해결하는 방법으로 서로 다른 Nested Dichotomy 분류기의 분류 결과를 통해 다중 클래스 문제를 해결하는 기법이다. Nested Dichotomy 분류기 학습에는 Random Forest 분류기를 사용하였다. 성능 평가를 위해 Decision Tree, k-Nearest Neighbors, Support Vector Machine과 비교 실험을 한 결과 Ensemble of Nested Dichotomies 분류기를 사용하여 동작 인지를 수행하는 것이 가장 높은 정확도를 보였다.

한국의 기록관리 현황 및 발전방향에 관한 연구 (A Study on the Archives and Records Management in Korea - Overview and Future Direction -)

  • 한상완;김성수
    • 한국기록관리학회지
    • /
    • 제2권2호
    • /
    • pp.1-38
    • /
    • 2002
  • 이 연구는 기록물관리법의 제정과 관련하여 한국의 공공기관 및 기록관리학계 그 실무단체들의 기록관리 활동현황과 그 발전방향에 대하여, '1)정부기관 기록관리의 활동현황과 발전방향, 2)민간차원 기록관리의 활동현황과 발전방향'으로 2구분하고, 이를 각각 고찰한 것이다. 그 결과, 1) <정부기록보존소>는 국가 중앙기록물관리기관의 기능과 사명을 완수하기 위하여, <정부기록보존소>가 현재 추진하고 있는 전문서고의 신축 문제와, 이 신축서고에 국가의 상징시설로서의 <대통령기록관>을 입주시키는 문제, 향후 <정부기록보존소>의 위상(位相) 정립 문제를 가장 중점적(重點的)으로 완결(完結)하여야 할 것을 논술하였다. 그러기 위하여 현재의 <정부기록보존소>는, 이 기관이 장차 국가 중앙기록물관리기관으로서 장관급 또는 최소한 차관급 이상(以上)이 관장(管掌)하는 청(廳)단위 이상의 독립국가기관 예컨데 <국가기록관리청(國家記錄管理廳)> 등의 명칭으로 그 위상이 제고(提高)되도록 조처(措處)하여야 할 것임을 주장하였다. 그리하여 이 기관이 대통령 지속기구 등으로 편입되면서 그 업무의 독립성과 자율성이 보장되어야 하는 방안이 가장 바람직할 것임을 주장하였다. 2) <한국기록관리협회>는 1)종래의 기록매체인 종이기록물의 보존관리에 관한 문제, 2)컴퓨터를 비롯한 뉴미디어에 의한 기록물의 관리보존문제, 3)기록물 관리 보존의 시설 및 장비의 문제, 4)기록보존 관리의 전문인력 교육 양성 문제, 5)기록관리의 제도 및 정책의 문제 등의 방향으로 그 발전에 지속적으로 매진하여야 할 것이다. 이러한 점에서 <한국기록관리협회>는 그 개인회원과 기업체회원 등이 합심하여 우리나라 기록보존의 발전에 밑거름이 되어야 할 것임을 강조하였다. 3) <한국기록관리학회>가 주최한 3차에 걸친 국제학술대회의 의의와 그 실적에 대한 분석 등을 고찰하였다. <한국기록관리학회>는 '제1회 국제학술대회'에서 한 중 일 동양삼국의 기록관리활동의 현황을 파악하고 이에 기록관리학의 연구 및 교육과정 등 한국기록관리학이 나아가야 할 방향의 설정하였다. '제2회 국제학술대회'에서 "지식경영과 메터데이터의 활용"이라는 심포지움을 개최하여 지식기반정보사회에서 기록관리학과 문헌정보학의 소임과 역할을 다짐하였다. '제3회 국제학술대회'에서는 미국을 위시한 독일과 네덜란드 등 서구(西歐)의 디지털(전자)기록물의 보존관리 등 세계적인 첨단 기록관리학의 발전동향을 우선적으로 소개 파악하기 위하여 전자기록물의 관리 보존에 관하여 중점적으로 고찰하였다. 아울러 동양 삼국 기록관리학 미래의 발전방향을 조명(照明)하였다. 그리하여 <한국기록관리학회>는 장차 한국기록관리학의 발전과 관련한 여러 이론적 연구와 그 실무활동에 대한 근거를 꾸준하게 제시하여 주어야 함과, 우수한 기록관리 전문인력을 배출할 수 있는 합리적인 교육과정 등을 연구 제시하여야 함도 파악하였다. 4) 한국기록관리학회지 수록논문의 분석에서는, 기록관리학의 각 영역을 6구분하고, 학회지에 수록된 논문들을 분석하였다. 그 결과, 특기할만한 사항으로는 (1)'기록관리학의 제도와 정책'에서 차후 <지방기록보존소> 및 <자료관> 설립과 관련한 연구가 필요함을 파악하였다. 본 분석에서는 이들 <자료관>등을 설립할 때에는 그 지방의 역사와 특성을 고려하여 가장 강점(强點)이 있는 주제의 기록물들을 특성화(特性化)시키는 방안이 가장 바람직할 것임을 주장하였다. (2)'기록관리학 전문 교과과정 및 인력제도'에서, 석사학위 이상의 기록물관리 전문요원은 기록관리의 현장에서 차후 관리직으로 나아가야 함을 지적하고, 오히려 기록관리학 학부를 졸업하고 기록물관리 현장에서 직접 그 업무를 수행할 수 있는 실무전공자가 절실하게 요구되는 현실임을 주장하였다. 따라서 문헌정보학전공을 개설하고 있는 대학교에서 기록관리학전공을 신설하고, 이에 따라 기록관리학 학사를 배출함으로써 이 분야의 국가적인 수요에 부응할 필요가 절실함을 주장하였다. 또한 기록관리전문요원의 자격은 완화되어야 함을 주장하였다.

영화 흥행에 영향을 미치는 새로운 변수 개발과 이를 이용한 머신러닝 기반의 주간 박스오피스 예측 (Development of New Variables Affecting Movie Success and Prediction of Weekly Box Office Using Them Based on Machine Learning)

  • 송정아;최근호;김건우
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.67-83
    • /
    • 2018
  • 2013년 누적인원 2억명을 돌파한 한국의 영화 산업은 매년 괄목할만한 성장을 거듭하여 왔다. 하지만 2015년을 기점으로 한국의 영화 산업은 저성장 시대로 접어들어, 2016년에는 마이너스 성장을 기록하였다. 영화산업을 이루고 있는 각 이해당사자(제작사, 배급사, 극장주 등)들은 개봉 영화에 대한 시장의 반응을 예측하고 탄력적으로 대응하는 전략을 수립해 시장의 이익을 극대화하려고 한다. 이에 본 연구는 개봉 후 역동적으로 변화하는 관람객 수요 변화에 대한 탄력적인 대응을 할 수 있도록 주차 별 관람객 수를 예측하는데 목적을 두고 있다. 분석을 위해 선행연구에서 사용되었던 요인 뿐 아니라 개봉 후 역동적으로 변화하는 영화의 흥행순위, 매출 점유율, 흥행순위 변동 폭 등 선행연구에서 사용되지 않았던 데이터들을 새로운 요인으로 사용하고 Naive Bays, Random Forest, Support Vector Machine, Multi Layer Perception등의 기계학습 기법을 이용하여 개봉 일 후, 개봉 1주 후, 개봉 2주 후 시점에는 차주 누적 관람객 수를 예측하고 개봉 3주 후 시점에는 총 관람객 수를 예측하였다. 새롭게 제시한 변수들을 포함한 모델과 포함하지 않은 모델을 구성하여 실험하였고 비교를 위해 매 예측시점마다 동일한 예측 요인을 사용하여 총 관람객 수도 예측해보았다. 분석결과 동일한 시점에 총 관람객 수를 예측했을 경우 보다 차주 누적 관람객 수를 예측하는 것이 더 높은 정확도를 보였으며, 새롭게 제시한 변수들을 포함한 모델의 정확도가 대부분 높았으며 통계적으로 그 차이가 유의함으로써 정확도에 기여했음을 확인할 수 있었다. 기계학습 기법 중에는 Random Forest가 가장 높은 정확도를 보였다.

딥러닝 오픈소스 프레임워크의 사례연구를 통한 도입 전략 도출 (Deriving adoption strategies of deep learning open source framework through case studies)

  • 최은주;이준영;한인구
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.27-65
    • /
    • 2020
  • 많은 정보통신기술 기업들은 자체적으로 개발한 인공지능 기술을 오픈소스로 공개하였다. 예를 들어, 구글의 TensorFlow, 페이스북의 PyTorch, 마이크로소프트의 CNTK 등 여러 기업들은 자신들의 인공지능 기술들을 공개하고 있다. 이처럼 대중에게 딥러닝 오픈소스 소프트웨어를 공개함으로써 개발자 커뮤니티와의 관계와 인공지능 생태계를 강화하고, 사용자들의 실험, 적용, 개선을 얻을 수 있다. 이에 따라 머신러닝 분야는 급속히 성장하고 있고, 개발자들 또한 여러가지 학습 알고리즘을 재생산하여 각 영역에 활용하고 있다. 하지만 오픈소스 소프트웨어에 대한 다양한 분석들이 이루어진 데 반해, 실제 산업현장에서 딥러닝 오픈소스 소프트웨어를 개발하거나 활용하는데 유용한 연구 결과는 미흡한 실정이다. 따라서 본 연구에서는 딥러닝 프레임워크 사례연구를 통해 해당 프레임워크의 도입 전략을 도출하고자 한다. 기술-조직-환경 프레임워크를 기반으로 기존의 오픈 소스 소프트웨어 도입과 관련된 연구들을 리뷰하고, 이를 바탕으로 두 기업의 성공 사례와 한 기업의 실패 사례를 포함한 총 3 가지 기업의 도입 사례 분석을 통해 딥러닝 프레임워크 도입을 위한 중요한 5가지 성공 요인을 도출하였다: 팀 내 개발자의 지식과 전문성, 하드웨어(GPU) 환경, 데이터 전사 협력 체계, 딥러닝 프레임워크 플랫폼, 딥러닝 프레임워크 도구 서비스. 그리고 도출한 성공 요인을 실현하기 위한 딥러닝 프레임워크의 단계적 도입 전략을 제안하였다: 프로젝트 문제 정의, 딥러닝 방법론이 적합한 기법인지 확인, 딥러닝 프레임워크가 적합한 도구인지 확인, 기업의 딥러닝 프레임워크 사용, 기업의 딥러닝 프레임워크 확산. 본 연구를 통해 각 산업과 사업의 니즈에 따라, 딥러닝 프레임워크를 개발하거나 활용하고자 하는 기업에게 전략적인 시사점을 제공할 수 있을 것이라 기대된다.

구천응원뇌성보화천존상제 신격 연구 - '보화천존'과 '구천대원조화주신'의 관계를 중심으로 - (A Study on the Divinity of 'the Supreme God and Celestial Worthy of the Ninth Heaven Who Spreads the Sound of the Thunder Corresponding to Primordial Origin': Focusing on the Relationship between the Divine Qualities of Being 'the Celestial Worthy of Universal Transformation' and 'the Lord God of Great Creation in the Ninth Heaven')

  • 박용철
    • 대순사상논총
    • /
    • 제29집
    • /
    • pp.71-100
    • /
    • 2017
  • 대순진리회의 신앙의 대상인 강증산의 신격명으로 언급되는 것이 두 가지이다. 증산의 강세 전 신격은 '구천대원조화주신'이고, 그의 화천 후 신격은 '구천응원뇌성보화천존상제'이다. 중국 도교에서 최고신으로 변증되지 않는 '구천응원뇌성보화천존' 신격이 강증산의 화천 후 신격에 동일한 용어가 등장한다는 것은 대순진리회 신앙체계에서 매우 중요한 문제인 것이다. 즉 대순진리회만의 신앙체계에서 중국 도교와는 다른 위치에 있는 대순진리회의 '구천응원뇌성보화천존상제'의 최고신 위치에 대한 변증문제와 구천대원조화주신으로부터 변화한 신격에 대한 합리적이고 개연성 있는 설명이 대순사상연구를 통해 제시되어야 된다는 것이다. 그렇지 않는다면 결국 중국 도교와 대순진리회에서 '상제'라는 단어를 제외하고 동일하게 나타나는 두 신격 간에 대한 교학적 논쟁이 혼란의 문제를 가져올 수 있는 가능성이 충분하기 때문이다. 아직까지 대순사상 내에서 이와 관련한 교리적 설명이나 담론이 거의 없으므로 향후 이 문제에 대한 연구의 기초가 필요한 실정이다. 그래서 본 연구는 대순진리회가 도교 문화권 사람에게 '구천응원뇌성보화천존'이라는 명칭의 신격을 어떻게 표명할 것인가에 대한 것과 이와 연관되어 증산의 강세 전 신격인 '구천대원조화주신'에서 또 다른 명칭인 '구천응원뇌성보화천존상제'라는 화천 후의 신격변화를 교학적으로 어떻게 설명할 것인지에 대해 가설적 수준까지 논해보고자 한다. 본 논문이 이 문제의식에 대한 초석연구로써 그 기반이 되게 하는 과정에 있어서 연구의 범위가 담론적 가설에 그칠 수밖에 없는 이유는 이 주제와 관련하여 타당한 학문적 근거를 찾으려면 논문 한편이 아닌 심도 있는 수많은 비교연구들을 필요로 하기 때문이다. 논자는 이 주제에 대한 담론을 크게 세 가지 방향으로 나뉘어 보았는데, 첫째는 중국 도교의 '구천응원뇌성보화천존'과 대순진리회의 '구천응원뇌성보화천존상제'는 칭호가 같은 부분이 있으나 서로 관계가 전혀 없는 별도의 신격이다.'라는 가설이다. 둘째는 중국 도교의 '구천응원뇌성보화천존'과 대순진리회의 '구천응원뇌성보화천존상제'의 두 신격은 같은 신격이다.'라는 가설이다. 셋째는 중국 도교의 '구천응원뇌성보화천존'과 대순진리회의 '구천응원뇌성보화천존상제'는 매우 밀접한 관련성을 가지고 있겠으나, '구천응원뇌성보화천존'은 어떠한 일을 하기 위한 직위로써 '구천대원조화주신'인 증산이 화천 후 뇌부(雷府), 즉 그 특정직위에 임어하여 새로운 신격인 구천응원뇌성보화천존상제라는 또 하나의 명칭을 가지게 되었다'는 가설이다. 첫 번째 관점으로 교학을 전개할 경우 대순진리회의 중요 신앙체계의 성립이 피상적 혼합주의로 비판받을 수 있다는 점에 유의해서 신격 차용에 대한 교학적 설명이 반드시 전개되어야 한다. 두 번째 관점으로 교학을 전개할 경우 중국 도교 신앙체계와 모순됨이 없이 교학을 전개할 수 있는 이론적 치밀함이 반드시 필요할 것이다. 또한 대순교학에 있어서 도교적 관점의 도입이 비판 될 수 있음도 유의해야 할 것이다. 세 번째 관점으로 교학을 전개할 경우 최고신 변증과 신격 변화에 대한 설명이 수월한 점이 있지만 현재까지는 그 논거가 아직 많이 부족하다. 지금은 시론에 불과하지만 본 연구에서 제시하는 의문점으로부터 향후 수많은 후속 연구를 기대해본다.

토픽모델링을 활용한 COVID-19 학술 연구 기반 연구 주제 분류에 관한 연구 (A study on the classification of research topics based on COVID-19 academic research using Topic modeling)

  • 유소연;임규건
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.155-174
    • /
    • 2022
  • 2020년 1월부터 2021년 10월 현재까지 COVID-19(치명적인 호흡기 증후군인 코로나바이러스-2)와 관련된 학술 연구가 500,000편 이상 발표되었다. COVID-19와 관련된 논문의 수가 급격하게 증가함에 따라 의료 전문가와 정책 담당자들이 중요한 연구를 신속하게 찾는 것에 시간적·기술적 제약이 따르고 있다. 따라서 본 연구에서는 LDA와 Word2vec 알고리즘을 사용하여 방대한 문헌의 텍스트 자료로부터 유용한 정보를 추출하는 방안을 제시한다. COVID-19와 관련된 논문에서 검색하고자 하는 키워드와 관련된 논문을 추출하고, 이를 대상으로 세부 주제를 파악하였다. 자료는 Kaggle에 있는 CORD-19 데이터 세트를 활용하였는데, COVID-19 전염병에 대응하기 위해 주요 연구 그룹과 백악관이 준비한 무료 학술 자료로서 매주 자료가 업데이트되고 있다. 연구 방법은 크게 두 가지로 나뉜다. 먼저, 47,110편의 학술 논문의 초록을 대상으로 LDA 토픽 모델링과 Word2vec 연관어 분석을 수행한 후, 도출된 토픽 중 'vaccine'과 관련된 논문 4,555편, 'treatment'와 관련된 논문 5,791편을 추출한다. 두 번째로 추출된 논문을 대상으로 LDA, PCA 차원 축소 후 t-SNE 기법을 사용하여 비슷한 주제를 가진 논문을 군집화하고 산점도로 시각화하였다. 전체 논문을 대상으로 찾을 수 없었던 숨겨진 주제를 키워드에 따라 문헌을 분류하여 토픽 모델링을 수행한 결과 세부 주제를 찾을 수 있었다. 본 연구의 목표는 대량의 문헌에서 키워드를 입력하여 특정 정보에 대한 문헌을 분류할 수 있는 방안을 제시하는 것이다. 본 연구의 목표는 의료 전문가와 정책 담당자들의 소중한 시간과 노력을 줄이고, 신속하게 정보를 얻을 수 있는 방법을 제안하는 것이다. 학술 논문의 초록에서 COVID-19와 관련된 토픽을 발견하고, COVID-19에 대한 새로운 연구 방향을 탐구하도록 도움을 주는 기초자료로 활용될 것으로 기대한다.

타임스탬프를 갖는 이벤트 시퀀스의 인덱스 기반 검색 (Index-based Searching on Timestamped Event Sequences)

  • 박상현;원정임;윤지희;김상욱
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권5호
    • /
    • pp.468-478
    • /
    • 2004
  • 시퀀스 데이타베이스로부터 원하는 질의 패턴과 일치하는 모든 서브 시퀀스를 검색하는 것은 데이타 마이닝이나 바이오 인포매틱스 등 응용 분야에서 필수적인 연산이다. 예를 들어, 특정한 이벤트가 발생할 때마다 이벤트의 유형과 발생 시각을 기록하는 네트웍 이벤트 관리 시스템에서 네트웍 이벤트들의 연관 관계를 발견하기 위한 전형적인 질의 형태는 다음과 같다: 'CiscoDCDLinkUp이 발생한 후 MLMStatusUP과 TCPConnectionClose가 각각 20초 이내와 40초 이내에 순차적으로 발생하는 모든 경우를 검색하라.' 본 논문에서는 대규모 이벤트 시퀀스 데이타베이스를 대상으로 하여 위와 같은 질의를 효율적으로 처리할 수 있는 인덱싱 방법을 제안한다. 기존의 방법들이 비효율적인 순차적 검색이나 페이지화 하기 어려운 인덱스 구조에 의존하는데 반하여, 제안하는 방법은 저장 및 검색 효율이 입증된 다차원 공간 인덱스를 사용하여 질의를 만족하는 모든 서브 시퀀스를 착오 기각(false dismissal) 없이 신속하게 검색한다. 다차원 공간 인덱스의 입력은 이벤트 시퀀스 데이타베이스 상의 슬라이딩 윈도우 내에서 각 이벤트 유형이 최초로 발생한 시각을 기록한 n 차원 벡터가 된다. 여기서 n은 발생 가능한 이벤트 유형의 수이다. n이 큰 경우는 차원 저주(dimensionality curse) 문제가 발생할 수 있으므로 차원 선택이나 이벤트유형 그루핑을 이용하여 차원을 축소한다. 실험 결과에 의하면 제안된 방법은 순차적 검색이나 ISO-Depth 인덱스 기법에 비하여 몇 배에서 몇 십 배의 성능 향상 효과를 갖는 것으로 나타났다. 것으로 나타났다.예측치가 비교적 유사한 것으로 나타났으며, 평균 절도오차도 10% 수준이었다.HNP 처리구에서 가장 많았던 것으로 나타났다. 지상부 식생에 대한 총 양분함량은(N+P+K+Ca+Mg) 리기다소 나무가 703kg/ha 그리고 낙엽송이 869kg/ha였다.여 주었다.능성을 시도하였고, 그 결과는 다음과 같다. 1. Cholesterol을 제거한 cheese의 제조에서 최적조건은 균질압력 1200psi(70kg$cm^2$), 균질온도 $70^{\circ}$, $\beta$-cyclodextrin 첨가량 2%였으며, 이때 우유의 cholesterol의 제거율이 86.05%로 가장 높게 나타났다. 2. Cholesterol을 제거한 cheese들의 수율은 모두 12.53%(control 10.54%) 이상으로 균질 처리가 cheese의 수율을 18.88%이상 향상시키는 것으로 나타났다. 3. 유지방 함량 23.80%인 control 치즈의 cholesterol 함량은 81.47mg/100g이었고, 균질압력 1200psi(91kg/$cm^2$)에 $\beta$-cyclodextrin 2%를 첨가한 cheese에서는 cholesterol 함량이 20.15mg/100g으로 cholesterol 제거율이 75.27%로 가장 높게 나타났다. 4. Meltability는 균질압력 1200psi(91kg/$cm^2$)에 $\beta$-cyclodextrin 1과 2%로 처리한 치즈에서 2.25cm(control 3.34cm)로 가장 낮았으며,

폐암 SBRT에서 호흡동조 VMAT의 정확성 분석을 위한 새로운 4D 팬텀 모델 개발 (Development of New 4D Phantom Model in Respiratory Gated Volumetric Modulated Arc Therapy for Lung SBRT)

  • 윤경준;곽정원;조병철;송시열;이상욱;안승도;남상희
    • 한국의학물리학회지:의학물리
    • /
    • 제25권2호
    • /
    • pp.100-109
    • /
    • 2014
  • 정위신체방사선치료(SBRT)에서 환자의 호흡에 대한 정확한 치료위치의 확보는 필수적으로 고려되어야 하며 그 정확성에 관련하여 많은 연구들이 진행되어왔다. 본 연구에서는 실제 호흡에 의한 움직임과 실제 환자 폐의 형태를 고려한 팬텀실험으로 실제 치료에서 일어나는 임상적 상황을 모사함으로 호흡 동조 부피적조절회전 방사선치료(Volumeric Modulated Arc Therapy, VMAT) 기법을 이용한 폐부 SBRT의 정확성을 분석하는 방법을 제시하고자 하였다. SBRT을 받은 폐암 환자의 CT 영상을 기반으로 3D 프린터를 이용하여 치료부위와 유사하게 폐 팬텀을 제작하였고 환자 호흡과 동일하게 움직임을 재현할 수 있도록 $QUASAR^{TM}$ 호흡 동조 구동 팬텀(Modus Medical Devices, London, Canada)에 장착하여 호흡동조 VMAT에서의 2차원 선량 분포를 평가할 수 있는 시스템을 구축하였다. 폐 팬텀은 종양부위를 중심으로 2등분하여 EBT3 필름을 삽입하고 선량분포를 측정할 수 있도록 제작되었다. 비균질 조건에서의 선량계산의 정확성을 확인하기 위하여 균질한 플라스틱 팬텀과 제작된 비균질 폐 팬텀에서 Analytical Anisotropic Algorithm (AAA)와 AcurosXB (AXB) 두가지 알고리즘으로 선량계산을 하여 비교, 분석하였다. 움직임에 대한 치료의 정확성을 평가하기 위하여 호흡동조와 비 호흡동조의 경우, 그리고 움직임이 없는 조건에서 선량분포를 취득하여 치료계획 선량에 대한 감마지표를 분석하였다. 치료부위 GTV에서의 CT number는 실제 환자의 경우 78 HU를 나타내었고 모사된 폐 팬텀의 경우 92 HU를 나타내었다. 팬텀 내 폐 조직부분은 3D프린터로 적층하는 과정에서 격자구조의 형태를 이용하여 구현하였다. 측정된 필름선량은 AAA 알고리즘을 이용한 치료계획 선량에 대하여 움직이는 팬텀에서 호흡동조의 유무에 따라 3%/3 mm 감마지표 조건하에서 각각 88%와 78%의 감마합격률을 나타내었으며, 움직임이 없는 경우 95% 이상의 감마합격률을 보였다. AXB 알고리즘을 적용하였을 경우에는 모든 경우에서 98% 이상의 합격률을 나타내었다. 균질한 플라스틱 팬텀에 대하여 측정하였을 때 두가지 선량계산 알고리즘을 포함한 모든 조건에서 99% 이상의 감마합격률을 나타내었다. 선택된 환자의 호흡 진폭이 비교적 작고 inhale보다는 exhale에 더 오래 머무르는 호흡패턴 때문에 3%/3 mm 감마 기준에서는 호흡에 따른 차이가 거의 나타나지 않은 것으로 이해되었다. 선량계산의 정확성에서는 AAA 알고리즘을 적용하였을 때보다 AXB 알고리즘을 적용하였을 때가 균질과 비균질 환경에서의 선량 분포에 따른 감마 합격률의 차이가 적게 나타남을 확인 할 수 있었다. 본 논문에서는 환자와 유사하게 제작된 폐 팬텀에 실제 환자 호흡 패턴을 연동함으로 새로운 4D 치료선량 분포 검증 방법을 제시하였고 보다 사실적인 선량분포를 반영한 개별 환자 치료의 정확성 검증이 가능할 것으로 평가되었다.