• 제목/요약/키워드: document topic

검색결과 190건 처리시간 0.029초

비정형 텍스트 분석을 활용한 이슈의 동적 변이과정 고찰 (Investigating Dynamic Mutation Process of Issues Using Unstructured Text Analysis)

  • 임명수;김남규
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.1-18
    • /
    • 2016
  • 최근 가용한 텍스트 데이터 자원이 증가함에 따라 방대한 텍스트 분석을 통해 새로운 가치를 창출하고자 하는 수요가 증가하고 있다. 특히 뉴스, 민원, 블로그, SNS 등을 통해 유통되는 글로부터 다양한 이슈를 발굴해내고 이들 이슈의 추이를 분석하는 이슈 트래킹에 대한 연구가 활발하게 이루어지고 있다. 전통적인 이슈 트래킹은 토픽 모델링을 통해 오랜 기간에 걸쳐 지속된 주요 이슈를 발굴한 후, 각 이슈를 구성하는 문서 수의 세부 기간별 분포를 분석하는 방식으로 이루어진다. 하지만 전통적 이슈 트래킹은 각 이슈를 구성하는 내용이 전체 기간에 걸쳐 변화 없이 유지된다는 가정 하에 수행되기 때문에, 다양한 세부 이슈가 서로 영향을 주며 생성, 병합, 분화, 소멸하는 이슈의 동적 변이과정을 나타내지 못한다. 또한 전체 기간에 걸쳐 지속적으로 출현한 키워드만이 이슈 키워드로 도출되기 때문에, 핵실험, 이산가족 등 세부 기간의 분석에서는 매우 상이한 맥락으로 파악되는 구체적인 이슈가 오랜 기간의 분석에서는 북한이라는 큰 이슈에 함몰되어 가려지는 현상이 발생할 수 있다. 본 연구에서는 이러한 한계를 극복하기 위해 각 세부 기간의 문서에 대한 독립적인 분석을 통해 세부 기간별 주요 이슈를 도출한 후, 각 이슈의 유사도에 기반하여 이슈 흐름도를 도출하고자 한다. 또한 각 문서의 카테고리 정보를 활용하여 카테고리간의 이슈 전이 패턴을 분석하고자 한다. 본 논문에서는 총 53,739건의 신문 기사에 제안 방법론을 적용한 실험을 수행하였으며, 이를 통해 전통적인 이슈 트래킹을 통해 발굴한 주요 이슈의 세부 기간별 구성 내용을 살펴볼 수 있을 뿐 아니라, 특정 이슈의 선행 이슈와 후행 이슈를 파악할 수 있음을 확인하였다. 또한 카테고리간 분석을 통해 단방향 전이와 양방향 전이의 흥미로운 패턴을 발견하였다.

특허문서 필드의 기능적 특성을 활용한 IPC 다중 레이블 분류 (IPC Multi-label Classification based on Functional Characteristics of Fields in Patent Documents)

  • 임소라;권용진
    • 인터넷정보학회논문지
    • /
    • 제18권1호
    • /
    • pp.77-88
    • /
    • 2017
  • 최근 지식과 정보가 가치를 생산하는 지식기반사회로 접어들면서 지식재산권의 대표적인 형태인 특허에 대한 중요성이 매우 높아지고 있으며 출원되는 특허의 양도 매년 증가하고 있다. 방대한 양의 특허정보를 효과적으로 이용하기 위해서 특허문서를 그 발명의 기술적 주제에 따라 적절하게 분류하는 것이 필요하며 이를 위해 IPC(International Patent Classification)가 주로 사용되고 있다. 현재 주로 사람의 손으로 이뤄지는 특허문서의 IPC 분류과정의 효율성을 높이기 위하여 다양한 데이터마이닝과 기계학습 알고리즘을 기반으로 IPC 자동분류에 관한 연구들이 수행되어 왔다. 하지만 기존의 IPC 자동분류에 관한 연구의 대부분은 특허문서의 구조적 특징과 같은 특허문서 고유의 데이터 특성에 대한 고려보다는 다양한 기계학습 알고리즘을 특허문서로 적용하는 것에 초점을 맞춰왔다. 이에 본 논문에서는 IPC 자동분류를 위해 특허문서의 특징과 구조적 필드의 역할을 기반으로 특허문서 분류에 영향을 끼치는 두 가지 필드, 기술분야 및 배경기술 필드의 활용을 제안한다. 그리고 특허문서가 동시에 다수의 IPC 분류코드를 가지는 점을 반영하여 다중 레이블 분류(multi-label classification) 모델을 구축한다. 또한 IPC 다중 레이블 분류의 실제 현장에서의 적용 가능성 확인을 위해 630개의 범주를 가지는 IPC 서브클래스 레벨까지 분류 가능한 수법을 제안한다. 이를 위해 국내에서 등록된 564,793건의 특허문서를 대상으로 특허문서의 구조적 필드의 영향을 확인하기 위한 IPC 다중 레이블 분류 실험을 수행하였고, 그 결과 제목, 요약, 청구항, 기술분야 및 배경기술 필드를 활용한 실험에서 87.2%의 싱글매치 정확도를 얻었다. 이를 통해 기술분야 및 배경기술 두 필드가 IPC 서브클래스 레벨까지의 다중 레이블 분류의 정확도를 향상시키는데 중요한 역할을 하고 있음을 확인하였다.

텍스트 분석을 활용한 정보의 수요 공급 기반 뉴스 가치 평가 방안 (A Method for Evaluating News Value based on Supply and Demand of Information Using Text Analysis)

  • 이동훈;최호창;김남규
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.45-67
    • /
    • 2016
  • 최근 정보 유통의 주요 매체인 인터넷 뉴스와 SNS의 매체 간 특성 차이를 주목한 많은 연구가 있었음에도 불구하고, 양 매체의 차이를 정보의 수요 및 공급 관점에서 파악한 연구는 상대적으로 매우 부족하다. 일반적으로 새로운 정보는 언론사의 뉴스 기사를 통해 대중에게 노출되고, 대중은 이러한 기사에 대한 의견 또는 추가정보를 SNS를 통해 공유함으로써 해당 정보를 수용함과 동시에 확산시킨다. 이러한 측면에서 언론사가 뉴스를 제공하는 행위를 정보의 공급으로 파악할 수 있으며, 대중은 SNS를 통해 이에 대한 관심을 능동적으로 나타냄으로써 해당 정보에 대한 소비 수요를 표출하는 것으로 이해할 수 있다. 이는 상품 및 서비스의 가격이 수요와 공급의 관계에 의해 결정되는 것과 유사한 원리로, 정보의 가치를 정보 수요와 정보 공급의 관계에 기반을 두어 측정할 수 있음을 시사한다. 본 연구에서는 정보 공급의 대표 매체로 인터넷 뉴스 기사를, 정보 수요를 나타내는 대표 매체로 트위터를 선정하고, 특정 이슈에 대한 뉴스의 정보로서의 가치를 이와 관련된 트위터의 양으로 평가하는 뉴스가치지수(NVI, News Value Index)를 고안하여 제시한다. 구체적으로 제안 방법론은 각 이슈별로 NVI를 도출하고 이를 통해 시간의 흐름에 따른 정보 가치의 변화를 시각화하여 나타낸다. 또한 본 연구에서는 제안 방법론의 실무 적용 가능성을 평가하기 위해 인터넷 뉴스 387,018건과 트윗 31,674,795건에 대한 실험을 수행하였다. 그 결과 대부분의 이슈가 전체 정보 시장의 평균 가치에 수렴하는 형태로 변화함을 알 수 있었으며, 꾸준히 평균 이상의 가치를 가지며 정보 시장을 장악하는 등 특이한 양상을 보이는 흥미로운 이슈도 존재함을 파악할 수 있었다.

기술 성숙도 및 의존도의 네트워크 분석을 통한 유망 융합 기술 발굴 방법론 (Discovering Promising Convergence Technologies Using Network Analysis of Maturity and Dependency of Technology)

  • 최호창;곽기영;김남규
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.101-124
    • /
    • 2018
  • 최근 다양한 분야에서 새로운 기술이 출현하고 있으며, 이들 대부분은 기존 기술들의 융합(Convergence)을 통해 형성되고 있다. 또한 가까운 미래에 출현하게 될 유망한 융합 기술을 예측함으로써 변화하는 기술 지형에 선제적으로 대응하기 위한 수요가 꾸준히 증가하고 있으며, 이러한 수요에 부응하여 많은 기관과 연구자들은 미래 유망 융합 기술 예측을 위한 분석을 수행하고 있다. 하지만 이와 관련한 기존의 많은 연구들은 (i) 고정된 기술 분류 기준을 분석에 사용함으로써 기술 분야의 동적 변화를 반영하지 못했다는 점, (ii) 예측 모형 수립 과정에서 주로 범용성 네트워크 지표를 사용함으로써 기술의 융합이라는 목적에 부합하는 고유 특성을 활용하지 못했다는 점, 그리고 (iii) 유망 분야 예측 모형의 정확성 평가를 위한 객관적 방법을 제시하지 못했다는 점 등에서 한계를 갖고 있다. 이에 본 연구에서는 (i) 토픽 모델링을 통해 기존의 고정된 분류 기준이 아닌 실제 기술시장의 동적 변화에 따른 새로운 기술군을 도출하고, (ii) 기술 성숙도 및 기술군 간 의존 관계에 따라 각 기술군의 융합적 특성을 반영하는 잠재 성장 중심성(Potential Growth Centrality) 지표를 산출하였으며, (iii) 잠재 성장 중심성에 근거하여 예측한 유망 기술의 성숙도 증가량을 시기별로 측정하여 예측 모형의 정확도를 평가하는 방안을 제시한다. 이와 더불어 제안 방법론의 성능 및 실무 적용 가능성의 평가를 위해 특허 문서 13, 477건에 대한 실험을 수행하였으며, 실험 결과 제안한 잠재 성장 중심성에 따른 예측 모형이 단순히 현재 활용되는 영향도 기반의 예측 모형에 비해 최대 약 2.88배 높은 예측 정확도를 보임을 확인하였다.

개인화된 뉴스 서비스를 위한 소셜 네트워크 기반의 콘텐츠 추천기법 (Content-based Recommendation Based on Social Network for Personalized News Services)

  • 홍명덕;오경진;가명현;조근식
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.57-71
    • /
    • 2013
  • 세계에는 수많은 사람들이 살아가고 있고, 사람들의 일상으로부터 매일, 매 시간 단위로 새로운 뉴스가 발생한다. 발생되는 뉴스는 예정된 일과 예상하지 못한 일들을 포함하고 있다. 발생하는 뉴스의 거대한 양과 이를 전달하는 수많은 미디어들로 인해 사람들은 뉴스 콘텐츠를 이용하는데 많은 시간을 소비하게 된다. 하지만 미디어에 시시각각 나타나는 속보와 실시간 이슈의 대부분이 가십 기사로 이루어져 있어 사용자들이 자신의 성향에 맞는 뉴스를 선별하고, 뉴스로부터 정보를 획득하는 것은 쉽지 않은 일이다. 또한 사용자의 관심사가 시간에 따라 변하기 때문에 뉴스 제공에 있어 사용자의 변하는 관심사를 반영하는 것이 요구된다. 본 논문에서는 사용자의 최근 관심사를 기반으로 사용자 선호도에 맞는 뉴스를 제공하기 위한 콘텐츠 기반의 추천 기법 및 시스템을 제안한다. 사용자의 최근 선호도를 파악하기 위하여 소셜 네트워크 서비스인 Facebook 사용자의 정보와 최근 게시글을 이용하여 동적으로 사용자 프로파일을 생성하여 이를 뉴스 서비스에 활용하고, 사용자 선호도에 적합한 뉴스를 추출하기 위해서 뉴스 콘텐츠의 분석을 요구한다. 뉴스 콘텐츠 분석을 위해 미디어에서 제공되는 뉴스의 카테고리를 사용하고, 뉴스 방송원고의 분석 및 주요 키워드 추출을 통해 뉴스 프로파일을 생성한다. 사용자 프로파일과 뉴스 프로파일 간의 유사도 측정을 위해서는 두 프로파일 간 형식의 일치화가 요구되므로 사용자 프로파일을 뉴스 프로파일과 동일한 형태로 생성한다. 사용자가 시스템에 접속하면 시스템은 사용자 프로파일에 명시된 선호도를 기반으로 뉴스 프로파일과의 유사도를 측정하고, 사용자 선호도에 가장 적합한 뉴스들을 제공하게 된다. 또한 사용자에게 제공된 뉴스 프로파일과 다른 뉴스 프로파일들 간에 유사도를 측정하여 유사도가 높은 관련된 뉴스들을 제공하게 된다. 제안한 개인화된 뉴스 서비스의 성능을 평가하기 위해 사용자에게 추천된 뉴스에 대한 사용자 평가와 시스템 예측값의 오차를 기반으로 6Sub-Vectors 벤치마크 알고리즘과 성능 평가를 수행하였고, 실험 결과를 통해 제안한 시스템의 우수성을 입증하였다.

폭소노미 사이트를 위한 랭킹 프레임워크 설계: 시맨틱 그래프기반 접근 (A Folksonomy Ranking Framework: A Semantic Graph-based Approach)

  • 박현정;노상규
    • Asia pacific journal of information systems
    • /
    • 제21권2호
    • /
    • pp.89-116
    • /
    • 2011
  • In collaborative tagging systems such as Delicious.com and Flickr.com, users assign keywords or tags to their uploaded resources, such as bookmarks and pictures, for their future use or sharing purposes. The collection of resources and tags generated by a user is called a personomy, and the collection of all personomies constitutes the folksonomy. The most significant need of the folksonomy users Is to efficiently find useful resources or experts on specific topics. An excellent ranking algorithm would assign higher ranking to more useful resources or experts. What resources are considered useful In a folksonomic system? Does a standard superior to frequency or freshness exist? The resource recommended by more users with mere expertise should be worthy of attention. This ranking paradigm can be implemented through a graph-based ranking algorithm. Two well-known representatives of such a paradigm are Page Rank by Google and HITS(Hypertext Induced Topic Selection) by Kleinberg. Both Page Rank and HITS assign a higher evaluation score to pages linked to more higher-scored pages. HITS differs from PageRank in that it utilizes two kinds of scores: authority and hub scores. The ranking objects of these pages are limited to Web pages, whereas the ranking objects of a folksonomic system are somewhat heterogeneous(i.e., users, resources, and tags). Therefore, uniform application of the voting notion of PageRank and HITS based on the links to a folksonomy would be unreasonable, In a folksonomic system, each link corresponding to a property can have an opposite direction, depending on whether the property is an active or a passive voice. The current research stems from the Idea that a graph-based ranking algorithm could be applied to the folksonomic system using the concept of mutual Interactions between entitles, rather than the voting notion of PageRank or HITS. The concept of mutual interactions, proposed for ranking the Semantic Web resources, enables the calculation of importance scores of various resources unaffected by link directions. The weights of a property representing the mutual interaction between classes are assigned depending on the relative significance of the property to the resource importance of each class. This class-oriented approach is based on the fact that, in the Semantic Web, there are many heterogeneous classes; thus, applying a different appraisal standard for each class is more reasonable. This is similar to the evaluation method of humans, where different items are assigned specific weights, which are then summed up to determine the weighted average. We can check for missing properties more easily with this approach than with other predicate-oriented approaches. A user of a tagging system usually assigns more than one tags to the same resource, and there can be more than one tags with the same subjectivity and objectivity. In the case that many users assign similar tags to the same resource, grading the users differently depending on the assignment order becomes necessary. This idea comes from the studies in psychology wherein expertise involves the ability to select the most relevant information for achieving a goal. An expert should be someone who not only has a large collection of documents annotated with a particular tag, but also tends to add documents of high quality to his/her collections. Such documents are identified by the number, as well as the expertise, of users who have the same documents in their collections. In other words, there is a relationship of mutual reinforcement between the expertise of a user and the quality of a document. In addition, there is a need to rank entities related more closely to a certain entity. Considering the property of social media that ensures the popularity of a topic is temporary, recent data should have more weight than old data. We propose a comprehensive folksonomy ranking framework in which all these considerations are dealt with and that can be easily customized to each folksonomy site for ranking purposes. To examine the validity of our ranking algorithm and show the mechanism of adjusting property, time, and expertise weights, we first use a dataset designed for analyzing the effect of each ranking factor independently. We then show the ranking results of a real folksonomy site, with the ranking factors combined. Because the ground truth of a given dataset is not known when it comes to ranking, we inject simulated data whose ranking results can be predicted into the real dataset and compare the ranking results of our algorithm with that of a previous HITS-based algorithm. Our semantic ranking algorithm based on the concept of mutual interaction seems to be preferable to the HITS-based algorithm as a flexible folksonomy ranking framework. Some concrete points of difference are as follows. First, with the time concept applied to the property weights, our algorithm shows superior performance in lowering the scores of older data and raising the scores of newer data. Second, applying the time concept to the expertise weights, as well as to the property weights, our algorithm controls the conflicting influence of expertise weights and enhances overall consistency of time-valued ranking. The expertise weights of the previous study can act as an obstacle to the time-valued ranking because the number of followers increases as time goes on. Third, many new properties and classes can be included in our framework. The previous HITS-based algorithm, based on the voting notion, loses ground in the situation where the domain consists of more than two classes, or where other important properties, such as "sent through twitter" or "registered as a friend," are added to the domain. Forth, there is a big difference in the calculation time and memory use between the two kinds of algorithms. While the matrix multiplication of two matrices, has to be executed twice for the previous HITS-based algorithm, this is unnecessary with our algorithm. In our ranking framework, various folksonomy ranking policies can be expressed with the ranking factors combined and our approach can work, even if the folksonomy site is not implemented with Semantic Web languages. Above all, the time weight proposed in this paper will be applicable to various domains, including social media, where time value is considered important.

여학생 친화적 과학활동 프로그램의 운영 평가 (Evaluation on the Implementation of Girl Friendly Science Activity)

  • 전영석;신영준
    • 한국과학교육학회지
    • /
    • 제24권3호
    • /
    • pp.442-458
    • /
    • 2004
  • 여학생 친화적 과학 활동 프로그램의 활용 현황을 조사하고 시범운영 결과를 분석하여 이를 토대로 프로그램의 확대 보급 방안을 마련하기 위하여 본 연구를 수행하였다. 1999년 여성부의 연구용역으로 개발된 여학생 친화적 과학활동 자료는 5개 주제의 특기적성 교육자료와 7학년부터 10학년 까지의 심화 보충 학습자료들인데, 이 자료는 서울 지역의 과학교사 모임인 '신나는 과학을 만드는 사람들'의 홈페이지에 체계적으로 정리되어 수록되었으며 한글 문서를 다운로드받아서 활용할 수도 있고 html 형식의 문서를 모니터 상에서 그대로 확인할 수도 있도록 하였다. 현재 여학생 친화적 과학활동 자료 홈페이지의 방문객이 꾸준히 이어지고 있다. 특기 적성 프로그램에 대한 시범 실시 결과, 개발된 자료는 개발 목적과의 일치도 및 내용 및 수준, 적용 효과에 대해서는 높은 점수를 얻었지만 교사 수행의 수월성, 조직과 운영 측면에서는 낮은 점수를 얻었다. 또한 학생들은 과학에 대한 인식이 변화되었고, 간학문적인 활동을 통해 다양한 과학 경험을 하였다는 점에 대해서 긍정적으로 생각하였다. 한편, 학생들의 활동 내용에 대한 평가는 성공의 경험에 크게 좌우되며, 주로 오리고 자르고 붙이는 일로 이루어진 활동에 대한 평가 점수는 낮게 나타났다. 학생들의 성취도 검사에 의하면, 정의적 영역은 향상되었지만(p<0.05), 탐구 능력의 향상은 통계적으로 의미가 없었다. 그러나 많은 시범 실시학교에서 협동 활동 및 토의 능력의 향상과 관찰, 추론 능력이 향상되었음을 관찰하였다고 보고하였다. 본 프로그램의 확대 보급을 위해서는 프로그램이 교사들의 지지를 얻고 이들의 교수 학습 전략을 변화될 수 있도록 유도하는 것이 가장 중요하며, 이에 따라 교사 커뮤니티를 형성하고 교사 연수를 실시하는 것이 필요하다는 결론을 얻었다. 또한 프로그램의 추가 개발 및 국내 여성 과학 기술인을 적극적으로 발굴하여 교육 자료화하는것 등이 추후 실천해야할 과제로 남아있다.

공급사슬 관리 구축전략에 관한 연구: LG전자 사례 중심으로 (A study of SCM strategic plan: Focusing on the case of LG electronics)

  • 이기원;이상윤
    • 유통과학연구
    • /
    • 제9권3호
    • /
    • pp.83-94
    • /
    • 2011
  • 국내에서는 일부 대기업을 제외하고는 공급사슬 관리(SCM) 체제 구축에 매우 소극적이며, 중소기업들은 SCM관리의 개념조차 인식하고 있는 경우가 대 다수이다. 이는 공급망 비효율적 관리로 인한 국내 제조업체, 협력업체, 유통업체 및 물류업체들 재고관리 비용, 수요관리 비용 등 비 효율화를 초래하고 있으며, 나아가 국내 기업의 경쟁력 저하에도 큰 영향력을 미치고 있다. 그 이유는 공급사슬 관리(SCM) 태생적인 특징인 공급사슬 관리(SCM) 전체에 대한 정보 공유 및 프로세스 혁신과, 공급사슬 관리(SCM)가 갖는 광범위함 때문이라고도 할 수 가 있다. 이 논문은 성공적인 공급사슬 관리(SCM) 추진을 위한 공급사슬 관리(SCM) 관련 이론적 논의와 구축전략과 도입 및 성공사례를 연구 및 분석을 통하여 현상황에 대한 고찰과 개선방안에 대해서 제안해보고자 한다. 성공적인 공급사슬 관리(SCM) 추진을 위한 방안을 논의하기 위해서는 먼저 공급사슬 관리(SCM)에 대한 이론적 배경에 대한 고찰이 필요하다. 따라서 II장에서는 공급사슬 관리(SCM)에 대한 기본적인 개념과 필요성에 대해서 기술하고, III장에서는 현재 추진되고 있는 공급사슬 관리(SCM)에 대한 문제점에 대해서 기술할 것이다. 마지막으로IV, V장에서는 공급사슬 관리(SCM) 구축전략과 LG전자사례 및 결론을 기술할 것이다.

  • PDF

전자의무기록 표준화 용어 관리 프로세스 정립 (Standardization and Management of Interface Terminology regarding Chief Complaints, Diagnoses and Procedures for Electronic Medical Records: Experiences of a Four-hospital Consortium)

  • 강재은;김기동;이영애;유수영;이호영;홍경란;황우연
    • 한국산학기술학회논문지
    • /
    • 제22권3호
    • /
    • pp.679-687
    • /
    • 2021
  • 전자의무기록 작성 시 주호소, 진단, 수술(처치) 용어는 작성자가 자유롭게 작성하는 것보다 시스템에 등재된 용어 마스터를 사용해야 의료진간의 의사소통이 원활하고, 데이터 활용을 위한 자료 추출이 가능하므로, 용어 마스터의 관리가 중요하다. 본 연구의 목적은 서울대학교 산하 4개병원(서울대학교병원, 분당서울대학교병원, 서울특별시 보라매 병원, 헬스케어시스템 강남센터)에서 개별적으로 운영하던 용어 마스터를 통합하여 표준화 및 관리 프로세스를 확립한 경험을 제시하는 것이다. 산하 4개 병원의 대표자로 구성된 서울대학교병원 용어표준화위원회는 여러 번의 논의를 거쳐 2016년 표준화 및 관리 프로세스를 확립하였고, 용어 마스터에 대한 요청을 신규 용어 등재, 용어 수정, 기존 용어 삭제와 신규 용어 등재, 그리고 용어 삭제의 4가지로 분류하였다. 요청에 대한 수용 여부는 유관 부서의 의견 조회와 그 결과를 검토한 서울대학교병원 용어표준화위원회의 의결로 결정하였다. 의결 정족수는 7명의 위원 중 5명이였으며, 참조 용어 체계에 대한 매핑은 3명의 보건의료정보관리사가 독립적으로 시행 후 이견이 있을 경우 합의하였다. 모든 과정은 온라인으로 시행하였고, 의결과 매핑 결과는 자동으로 수집되었다. 이러한 과정을 통해, 용어표준화위원회는 시스템에 등재될 용어에 대해 빠르고 명확한 의사결정을 할 수 있었고, 사용자들이 용어표준화위원회의 결정에 동의하도록 할 수 있었다. 프로세스가 정립된 후 16개월 간 126개의 신규 용어 등재, 131개의 용어 수정, 40개의 기존 용어 삭제와 신규 용어 등재, 그리고 1235개의 용어 삭제 가 처리되었다. 본 연구는 의료정보 시스템에 등재된 용어 마스터의 관리 프로세스를 정립한 최초의 시도라는 데 의의가 있다.

텍스트마이닝 기법을 활용한 사용후핵연료 건식처리기술 관련 언론 동향 분석 (Analysis of media trends related to spent nuclear fuel treatment technology using text mining techniques)

  • 정지송;김호동
    • 지능정보연구
    • /
    • 제27권2호
    • /
    • pp.33-54
    • /
    • 2021
  • 최근 4차 산업혁명, 코로나로 인한 뉴노멀 시대의 도래 등을 계기로 인공지능, 빅데이터 연구와 같은 언택트 관련 기술의 중요성이 더욱 급상하고 있다. 각 종 연구 분야에서는 이러한 연구 트렌드를 따라가기 위한 융합적 연구가 본격적으로 시행되고 있으나 원자력 분야의 경우 자연어 처리, 텍스트마이닝 분석 등 인공지능 및 빅데이터 관련 기술을 적용한 연구가 많이 수행되지 않았다. 이에 원자력 연구 분야에 데이터 사이언스 분석기술의 적용 가능성을 확인해보고자 본 연구를 수행하였다. 원자로 연료로 사용된 뒤 배출되는 사용후핵연료 인식 동향 파악에 대한 연구는 원자력 산업 정책에 대한 방향을 결정하고 산업정책 변화를 사전에 대응할 수 있다는 측면에서 매우 중요하다. 사용후핵연료 처리기술은 크게 습식 재처리 방식과 건식 재처리 방식으로 나뉘는데, 이 중 환경 친화적이고 핵비확산성 및 경제성이 높은 건식재처리 기술인 '파이로프로세싱'과 그 연계 원자로 '소듐냉각고속로'의 연구개발에 대한 재평가가 현재 지속적으로 검토되고 있다. 따라서 위와 같은 이유로, 본 연구에서는 사용후핵연료 처리기술인 파이로프로세싱에 대한 언론 동향 분석을 진행하였다. 사용후핵연료 처리기술인 '파이로프로세싱' 키워드를 포함하는 네이버 웹 뉴스 기사 전문의 텍스트데이터를 수집하여 기간에 따라 인식변화를 분석하였다. 2016년 발생한 경주 지진, 2017년 새 정부의 에너지 전환정책 시행된 2010년대 중반 시기를 기준으로 전, 후의 동향 분석이 시행되었고, 빈도분석을 바탕으로 한 워드 클라우드 도출, TF-IDF(Term Frequency - Inverse Document Frequency) 도출, 연결정도 중심성 산출 등의 분석방법을 통해 텍스트데이터에 대한 세부적이고 다층적인 분석을 수행하였다. 연구 결과, 2010년대 이전에는 사용후핵연료 처리기술에 대한 사회 언론의 인식이 외교적이고 긍정적이었음을 알 수 있었다. 그러나 시간이 흐름에 따라 '안전(safety)', '재검토(reexamination)', '대책(countermeasure)', '처분(disposal)', '해체(disassemble)' 등의 키워드 출현빈도가 급증하며 사용후핵연료 처리기술 연구에 대한 지속 여부가 사회적으로 진지하게 고려되고 있음을 알 수 있었다. 정치 외교적 기술로 인식되던 사용후핵연료 처리기술이 국내 정책의 변화로 연구 지속 가능성이 모호해짐에 따라 언론 인식도 점차 변화했다는 것을 확인하였다. 이러한 연구 결과를 통해 원자력 분야에서의 사회과학 연구의 지속은 필수불가결함을 알 수 있었고 이에 대한 중요성이 부각되었다. 또한, 현 정부의 원전 감축과 같은 에너지 정책의 영향으로, 사용후핵연료 처리기술 연구개발에 대한 재평가가 시행되는 이 시점에서 해당 분야의 주요 키워드 분석은 향후 연구 방향 설정에 기여할 수 있을 것이라는 측면에서 실무적 의의를 갖는다. 더 나아가 원자력 공학 분야에 사회과학 분야를 폭넓게 적용할 필요가 있으며, 국가 정책적 변화를 고려해야 원자력 산업이 지속 가능할 것으로 사료된다.