• 제목/요약/키워드: and K-means algorithm

검색결과 1,321건 처리시간 0.034초

사용자의 신체적 특징과 뇌파 집중 지수를 이용한 가상 모니터 개념의 NUI/NUX (NUI/NUX of the Virtual Monitor Concept using the Concentration Indicator and the User's Physical Features)

  • 전창현;안소영;신동일;신동규
    • 인터넷정보학회논문지
    • /
    • 제16권6호
    • /
    • pp.11-21
    • /
    • 2015
  • Human-Computer Interaction(HCI)에 대한 관심도가 높이지면서, HCI에 대한 연구도 활발히 진행되고 있다. 이와 더불어 사용자의 몸짓이나 음성을 이용하는 Natural User Interface/Natural User eXperience(NUI/NUX)에 대한 연구도 활발히 진행되고 있다. NUI/NUX의 경우, 제스처 인식이나 음성 인식 등의 인식 알고리즘이 필요하다. 하지만 이러한 인식 알고리즘은 전처리, 정규화, 특징 추출과 같은 단계를 거쳐야하기 때문에 구현이 복잡하고, 트레이닝에 많은 시간을 투자해야 한다는 단점이 있다. 최근에는 NUI/NUX 개발 도구로 Microsoft 사의 Kinect가 개발되어 개발자와 일반인들에게 많은 관심을 받고 있고, 이를 이용한 다양한 연구가 진행 중에 있다. 본 저자들의 이전 연구에서도 사용자의 신체적 특징을 이용하여 뛰어난 직관성을 가진 핸드 마우스를 구현하였다. 하지만 마우스의 움직임이 부자연스럽고 정확도가 낮아 사용자가 사용하기 다소 어려웠다는 단점이 있다. 본 연구에서는 Kinect를 통해 사용자의 신체적 특징을 실시간으로 추출하고, 이를 이용해 가상 모니터라는 새로운 개념을 추가한 핸드 마우스 인터페이스를 설계하고 구현하였다. 가상 모니터는 사용자의 손으로 마우스를 제어할 수 있는 가상의 공간을 의미한다. 이를 통해 가상 모니터 상의 손의 좌표를 실제 모니터 상의 좌표로 정확하게 매핑(mapping)이 가능하다. 가상 모니터를 사용함으로써 이전 연구의 장점인 직관성을 유지하고, 단점인 정확도를 높일 수 있다. 추가적으로 뇌파 집중 지표를 이용해 사용자의 불필요한 행동을 인식하여 핸드 마우스 인터페이스의 정확도를 높였다. 제안하는 핸드 마우스의 직관성과 정확성을 평가하기 위하여 10대부터 50대까지 50명에게 실험을 하였다. 직관성 실험 결과로 84%가 1분 이내에 사용방법을 터득하였다. 또한 동일한 피실험자에게 일반적인 마우스 기능(드래그, 클릭, 더블클릭)에 대해 정확성 실험을 한 결과로 드래그 80.9%, 클릭 80%, 더블 클릭 76.7%의 정확성을 보였다. 실험 결과를 통해 제안하는 핸드 마우스 인터페이스의 직관성과 정확성을 확인하였으며, 미래에 손으로 시스템이나 소프트웨어를 제어하는 인터페이스의 좋은 예시가 될 것으로 기대된다.

다계층 이원 네트워크를 활용한 사용자 관점의 이슈 클러스터링 (User-Perspective Issue Clustering Using Multi-Layered Two-Mode Network Analysis)

  • 김지은;김남규;조윤호
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.93-107
    • /
    • 2014
  • 대부분의 인터넷 쇼핑몰은 자사 고객의 관심 분야를 파악하고 이를 상품 추천에 효과적으로 활용하기 위해 많은 노력을 기울이고 있다. 하지만 고객이 회원 가입 시 직접 입력한 개인 정보는 신뢰하기가 어렵고, 고객의 구매 패턴을 통해 파악한 관심 분야 정보는 자사 사이트 내에 진입한 이후에만 보인 한정된 패턴이라는 측면에서 해당 고객의 다양한 관심분야를 제대로 나타낸다고 보기 어렵다. 이러한 한계를 극복하기 위해 본 연구에서는 고객의 평소 인터넷 사용 기록을 통해 최근 방문 사이트들의 주제를 분석함으로써, 고객의 실제 관심 분야를 파악할 수 있는 방안을 제시하였다. 또한 토픽 분석을 통해 각 사이트의 주제를 도출하고 도출된 주제를 다시 동시 방문자 관점에서 군집화 함으로써, 고객 관점에서 의미가 있는 상위 수준의 새로운 테마를 발굴하기 위한 방법론을 제안하였다. 연구의 특징은 유사주제 중심의 군집화라는 기존 연구와는 달리 사용자 관점의 관심주제 중심 군집화라 할 수 있다. 향후 사용자 중심의 카테고리 설계를 비롯한 새로운 관점의 고객군 정의 등 보다 높은 차원의 마케팅 전략 수립에 활용이 가능할 것으로 기대된다. 사용자 관점의 이슈 군집화 과정은 크롤링, 토픽 분석, 액세스 패턴 분석, 네트워크 병합, 네트워크 변환 및 군집화와 같은 여섯 가지 주요단계로 구성되어있다. 이를 위해 텍스트 마이닝과 소셜 네트워크 분석 기법을 활용한 비정형 텍스트를 기반으로한 빅데이터의 활용 방법을 모색하였다. 제안 방법론의 실무 적용 가능성을 평가하기 위해, 국내 최대 포털 뉴스 사이트의 방문자 2,177명의 1년간 방문 기록과 뉴스기사 대한 분석을 수행하고 그 결과를 요약하여 제시하였다.

경영분석지표와 의사결정나무기법을 이용한 유상증자 예측모형 개발 (Development of Predictive Models for Rights Issues Using Financial Analysis Indices and Decision Tree Technique)

  • 김명균;조윤호
    • 지능정보연구
    • /
    • 제18권4호
    • /
    • pp.59-77
    • /
    • 2012
  • 기업의 성장성, 수익성, 안정성, 활동성, 생산성 등에 대한 다양한 분석이 은행, 신용평가기관, 투자자 등 많은 이해관계자에 의해 실시되고 있고, 이에 대한 다양한 경영분석 지표들 또한 정기적으로 발표되고 있다. 본 연구에서는 이러한 경영분석 지표를 이용하여 어떤 기업이 가까운 미래에 유상증자를 실시하는지를 데이터마이닝을 통해 예측하고자 한다. 본 연구를 통해 어떠한 지표가 유상증자 여부를 예측하는데 도움이 되는가를 살펴 볼 것이며, 그 지표들을 이용하여 예측할 경우 그 예측의 정확도가 어느 정도인지를 분석하고자 한다. 특히 1997년 IMF 금융위기 전후로 유상증자를 결정하는 변수들이 변화하는지, 그리고 예측의 정확성에 분명한 차이가 존재하는지 분석한다. 또한 유상증자 실시 시기를 경영분석 지표 발표 후 1년 내, 1~2년 내, 2~3년 내로 나누어 예측 시기에 따라 예측의 정확성과 결정 변수들의 차이가 존재하는지도 분석한다. 658개의 유가증권상장법인의 경영분석 데이터를 이용하여 실증 분석한 결과, IMF 이후의 유상증자 예측모형이 IMF 이전의 예측모형에 비해 예측 정확도가 높았고, 학습용 데이터의 예측 정확도와 검증용 데이터의 예측 정확도 차이도 IMF 이후가 낮게 나타났다. 이러한 결과는 IMF 이후 재무자료의 정확도가 높아졌고, 기업에게 유상증자의 목적이 더욱 명확해졌다고 해석될 수 있다. 또한 예측기간이 단기인 경우 경영분석 지표 중 안전성에 관련된 지표들의 중요성이 부각되었고, 장기인 경우에는 수익성과 안전성뿐만 아니라 활동성과 생산성 관련지표도 유상증자를 예측하는 데 중요한 것으로 파악되었다. 그리고 모든 예측모형에서 산업코드가 유상증자를 예측하는 중요변수로 포함되었는데 이는 산업별로 서로 다른 유상증자 유형이 존재한다는 점을 시사한다. 본 연구는 투자자나 재무담당자가 유상증자 여부를 장단기 시점에서 예측하고자 할 때 어떠한 경영분석지표를 고려하여 분석하는 것이 바람직한지에 대한 지침을 제공하는데 그 의의가 있다.

비대칭적 전이효과와 SVM을 이용한 변동성 매도전략의 수익성 개선 (Performance Improvement on Short Volatility Strategy with Asymmetric Spillover Effect and SVM)

  • 김선웅
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.119-133
    • /
    • 2020
  • Fama에 의하면 효율적 시장에서는 일시적으로 높은 수익을 얻을 수는 있지만 꾸준히 시장의 평균적인 수익을 초과하는 투자전략을 만드는 것은 불가능하다. 본 연구의 목적은 변동성의 장중 비대칭적 전이효과를 이용하는 변동성 매도전략을 기준으로 투자 성과를 추가적으로 개선하기 위하여 SVM을 활용하는 투자 전략을 제안하고 그 투자성과를 분석하고자 한다. 한국 시장에서 변동성의 비대칭적 전이효과는 미국 시장의 변동성이 상승한 날은 한국 시장의 아침 동시호가에 변동성 상승이 모두 반영되지만, 미국 시장의 변동성이 하락한 날은 한국 시장의 변동성이 아침 동시호가에서 뿐만 아니라 장 마감까지 계속해서 하락하는 이상현상을 말한다. 분석 자료는 2008년부터 2018년까지의 S&P 500, VIX, KOSPI 200, V-KOSPI 200 등의 일별 시가지수와 종가지수이다. 11년 동안의 분석 결과, 미국 시장의 변동성이 상승으로 마감한 날은 그 영향력이 한국 시장의 아침 동시호가 변동성에 모두 반영되지만, 미국 시장의 변동성이 하락으로 마감한 날은 그 영향력이 한국 시장의 아침 동시호가뿐만 아니라 오후 장 마감까지도 계속해서 유의적으로 영향을 미치고 있다. 시장이 효율적이라면 미국 시장의 전일 변동성 변화는 한국 시장의 아침 동시호가에 모두 반영되고 동시호가 이후에는 추가적인 영향력이 없어야 한다. 이러한 변동성의 장중 비정상적 전이 패턴을 이용하는 변동성 매도전략을 제안하였다. 미국 시장의 전날 변동성이 하락한 경우 한국 시장에서 아침 동시호가에 변동성을 매도하고 장 마감시에 포지션을 청산하는 변동성 데이트레이딩전략을 분석하였다. 연수익률은 120%, 위험지표인 MDD는 -41%, 위험과 수익을 고려한 성과지수인 Sharpe ratio는 0.27을 기록하고 있다. SVM 알고리즘을 이용해 변동성 데이트레이딩전략의 성과 개선을 시도하였다. 2008년부터 2014년까지의 입력자료를 이용하여 V-KOSPI 200 변동성지수의 시가-종가 변동 방향을 예측하고, 시가-종가 변동율이(-)로 예측되는 경우에만 변동성 매도포지션을 진입하였다. 거래비용을 고려하면 2015년부터 2018년까지 테스트기간의 연평균수익률은 123%로 기준 전략 69%보다 크게 높아지고, 위험지표인 MDD도 -41%에서 -29%로 낮아져, Sharpe ratio가 0.32로 개선되고 있다. 연도별로도 모두 수익을 기록하면서 안정적 수익구조를 보여주고 있고, 2015년을 제외하고는 투자 성과가 개선되고 있다.

119 구급대원들이 지각하는 의료지도의 필요성 인식과 요구도 (Recognition and Request for Medical Direction by 119 Emergency Medical Technicians)

  • 박주호
    • 한국응급구조학회지
    • /
    • 제15권3호
    • /
    • pp.31-44
    • /
    • 2011
  • Purpose : The purpose of emergency medical services(EMS) is to save human lives and assure the completeness of the body in emergency situations. Those who have been qualified on medical practice to perform such treatment as there is the risk of human life and possibility of major physical and mental injuries that could result from the urgency of time and invasiveness inflicted upon the body. In the emergency medical activities, 119 emergency medical technicians mainly perform the task but they are not able to perform such task independently and they are mandatory to receive medical direction. The purpose of this study is to examine the recognition and request for medical direction by 119 emergency medical technicians in order to provide basic information on the development of medical direction program suitable to the characteristics of EMS as well as for the studies on EMS for the sake of efficient operation of pre-hospital EMS. Method : Questionnaire via e-mail was conducted during July 1-31, 2010 for 675 participants who are emergency medical technicians, nurses and other emergency crews in Gyeongbuk. The effective 171 responses were used for the final analysis. In regards to the emergency medical technicians' scope of responsibilities defined in Attached Form 14, Enforcement regulations of EMS, t-test analysis was conducted by using the means and standard deviation of the level of request for medical direction on the scope of responsibilities of Level 1 & Level 2 emergency medical technicians as the scale of medical direction request. The general characteristics, experience result, the reason for necessity, emergency medical technicians & medical director request level, medical direction method, the place of work of the medical director, feedback content and improvement plan request level were analyzed through frequency and percentage. The level of experience in medical direction and necessity were analyzed through ${\chi}^2$ test. Results : In regards to the medical direction experience per qualification, the experience was the highest with 53.3% for Level 1 emergency medical technicians and 80.3% responded that experience was helpful. As for the recognition on the necessity of medical direction, 71.3% responded as "necessary" and it turned out to be the highest of 76.9% in nurses. As for the reason for responding "necessary", the reason for reducing the risk and side-effects from EMS for patients was the largest(75.4%), and the reason of EMS delay due to the request of medical direction was the highest(71.4%) for the reason for responding "not necessary". In regards to the request level of the task scope of emergency medical technicians, injection of certain amount of solution during a state of shock was the highest($3.10{\pm}.96$) for Level 1 emergency rescuers, and the endotracheal intubation was the highest($3.12{\pm}1.03$) for nurses, and the sublingual administration of nitroglycerine(NTG) during chest pain was the highest($2.62{\pm}1.02$) for Level 2 emergency medical technicians, and regulation of heartbeat using AED was the highest($2.76{\pm}.99$) for other emergency crews. For the revitalization of medical direction, the improvement in the capability of EMS(78.9%) was requested from emergency crew, and the ability to evaluate the medical state of patient was the highest(80.1%) in the level of request for medical director. The prehospital and direct medical direction was the highest(60.8%) for medical direction method, and the emergency medical facility was the highest(52.0%) for the placement of medical director, and the evaluation of appropriateness of EMS was the highest(66.1%) for the feedback content, and the reinforcement of emergency crew(emergency medical technicians) personnel was the highest(69.0%) for the improvement plan. Conclusion : The medical direction is an important policy in the prehospital EMS activity because 119 emergency medical technicians agreed the necessity of medical direction and over 80% of those who experienced medical direction said it was helpful. In addition, the simulation training program using algorithm and case study through feedback are necessary in order to enhance the technical capability of ambulance teams on the item of professional EMS with high level of request in the task scope of emergency medical technicians, and recognition of medical direction is the essence of the EMS field. In regards to revitalizing medical direction, the improvement of the task performance capability of 119 emergency medical technicians and medical directors, reinforcement of emergency medical activity personnel, assurance of trust between emergency medical technicians and the emergency physician, and search for professional operation plan of medical direction center are needed to expand the direct medical direction method for possible treatment beforehand through the participation by medical director even at the step in which emergency situation report is received.

보다 정확한 동적 상황인식 추천을 위해 정확 및 오류 패턴을 활용하여 순차적 매칭 성능이 개선된 상황 예측 방법 (Context Prediction Using Right and Wrong Patterns to Improve Sequential Matching Performance for More Accurate Dynamic Context-Aware Recommendation)

  • 권오병
    • Asia pacific journal of information systems
    • /
    • 제19권3호
    • /
    • pp.51-67
    • /
    • 2009
  • Developing an agile recommender system for nomadic users has been regarded as a promising application in mobile and ubiquitous settings. To increase the quality of personalized recommendation in terms of accuracy and elapsed time, estimating future context of the user in a correct way is highly crucial. Traditionally, time series analysis and Makovian process have been adopted for such forecasting. However, these methods are not adequate in predicting context data, only because most of context data are represented as nominal scale. To resolve these limitations, the alignment-prediction algorithm has been suggested for context prediction, especially for future context from the low-level context. Recently, an ontological approach has been proposed for guided context prediction without context history. However, due to variety of context information, acquiring sufficient context prediction knowledge a priori is not easy in most of service domains. Hence, the purpose of this paper is to propose a novel context prediction methodology, which does not require a priori knowledge, and to increase accuracy and decrease elapsed time for service response. To do so, we have newly developed pattern-based context prediction approach. First of ail, a set of individual rules is derived from each context attribute using context history. Then a pattern consisted of results from reasoning individual rules, is developed for pattern learning. If at least one context property matches, say R, then regard the pattern as right. If the pattern is new, add right pattern, set the value of mismatched properties = 0, freq = 1 and w(R, 1). Otherwise, increase the frequency of the matched right pattern by 1 and then set w(R,freq). After finishing training, if the frequency is greater than a threshold value, then save the right pattern in knowledge base. On the other hand, if at least one context property matches, say W, then regard the pattern as wrong. If the pattern is new, modify the result into wrong answer, add right pattern, and set frequency to 1 and w(W, 1). Or, increase the matched wrong pattern's frequency by 1 and then set w(W, freq). After finishing training, if the frequency value is greater than a threshold level, then save the wrong pattern on the knowledge basis. Then, context prediction is performed with combinatorial rules as follows: first, identify current context. Second, find matched patterns from right patterns. If there is no pattern matched, then find a matching pattern from wrong patterns. If a matching pattern is not found, then choose one context property whose predictability is higher than that of any other properties. To show the feasibility of the methodology proposed in this paper, we collected actual context history from the travelers who had visited the largest amusement park in Korea. As a result, 400 context records were collected in 2009. Then we randomly selected 70% of the records as training data. The rest were selected as testing data. To examine the performance of the methodology, prediction accuracy and elapsed time were chosen as measures. We compared the performance with case-based reasoning and voting methods. Through a simulation test, we conclude that our methodology is clearly better than CBR and voting methods in terms of accuracy and elapsed time. This shows that the methodology is relatively valid and scalable. As a second round of the experiment, we compared a full model to a partial model. A full model indicates that right and wrong patterns are used for reasoning the future context. On the other hand, a partial model means that the reasoning is performed only with right patterns, which is generally adopted in the legacy alignment-prediction method. It turned out that a full model is better than a partial model in terms of the accuracy while partial model is better when considering elapsed time. As a last experiment, we took into our consideration potential privacy problems that might arise among the users. To mediate such concern, we excluded such context properties as date of tour and user profiles such as gender and age. The outcome shows that preserving privacy is endurable. Contributions of this paper are as follows: First, academically, we have improved sequential matching methods to predict accuracy and service time by considering individual rules of each context property and learning from wrong patterns. Second, the proposed method is found to be quite effective for privacy preserving applications, which are frequently required by B2C context-aware services; the privacy preserving system applying the proposed method successfully can also decrease elapsed time. Hence, the method is very practical in establishing privacy preserving context-aware services. Our future research issues taking into account some limitations in this paper can be summarized as follows. First, user acceptance or usability will be tested with actual users in order to prove the value of the prototype system. Second, we will apply the proposed method to more general application domains as this paper focused on tourism in amusement park.

웨이블릿 영역에서의 선택적 부분 영상 암호화 (Selectively Partial Encryption of Images in Wavelet Domain)

  • 서영호;;김동욱
    • 한국통신학회논문지
    • /
    • 제28권6C호
    • /
    • pp.648-658
    • /
    • 2003
  • 영상/비디오 컨텐츠의 사용이 급증함에 따라 유료 및 비밀유지를 필요로 하는 영상데이터에 대한 보안문제가 크게 대두되고 있다. 본 논문에서는 영상데이터를 숨기기 위한 영상 암호화 방식을 제안하였다. 이 방법은 웨이블릿 영역에서 양자화과정을 마친 영상 데이터를 대상으로 한다. 본 논문은 영상의 전체데이터가 아닌 부분데이터를 암호화하는 방식을 사용하는데, 세 가지 형태의 부분데이터 추출방식을 사용하였다. 먼저, 웨이블릿 변환이 원영상을 주파수 대역으로 재편성함을 이용하여 영상정보 중 특정 주파수를 숨김으로서 전체 영상을 인식할 수 없도록 하였다. 각 화소를 나타내는 데이터에서도 모든 데이터를 사용하지 않고 MSB만을 선택하여 암호화 대상에 포함시켰다. 마지막으로 특정 부대역의 화소들을 무작위로 선택하였으며, 이 때 선형귀환 시프트 레지스터(Linear Feedback Shift Register, LFSR)를 사용하였다. LFSR의 초기값과 출력비트의 선택에 있어서 암호화키의 일부분을 사용함으로써 암호화 강도를 더욱 높였다. 제안한 방법을 소프트웨어로 구현하여 약 500개의 영상을 대상으로 실험한 결과 원영상 데이터의 약 1/1000의 데이터 양을 암호화함으로써 원영상을 인식할 수 없을 정도의 암호화효과를 얻을 수 있음을 알 수 있었다. 따라서 제안한 방법은 작은 양의 암호화로 효과적으로 영상을 숨기는 방법임을 확인할 수 있었다. 본 논문에서는 부대역의 선택과 LFSR 출력 중 사용비트의 양에 따른 여러 방식을 제안하였으며, 이들의 암호화 수행시간과 암호화효과 사이에 상보적인 관계가 있음을 보여, 적용분야에 따라 선택적으로 사용할 수 있음을 보였다. 또한 본 논문의 방식들은 응용계층에서 수행되는 것으로, 현재 유·무선 통합 네트워크의 중요한 문제로 대두되고 있는 끝과 끝 (end-to-end)의 보안에 대한 좋은 해결방법으로 사용될 수 있으리라 기대된다.

위험 매트릭스(Risk Matrix)를 활용한 조류인플루엔자 인체감염증 위험지역 평가 (High-Risk Area for Human Infection with Avian Influenza Based on Novel Risk Assessment Matrix)

  • 박성대;유대성
    • 한국가금학회지
    • /
    • 제50권1호
    • /
    • pp.41-50
    • /
    • 2023
  • AI인체감염증은 한번 발생하게 되면 막대한 사회경제적 손실이 있으므로, 사전 예방적 관리가 필수적이다. 위험도 평가를 통해 위험요인과 위험지역을 확인하여 방역을 강화하고 사람, 동물, 환경 등 소관 부처 간 분산되어 있는 방역정책 및 관리를 원헬스 차원으로 협업·연계한다면 사회경제적 비용을 최소화할 수 있다. 이번 연구에서는 위험 매트릭스 분석을 통해 가금농장의 고병원성AI와 연계하여 AI인체감염증의 발생 위험지역을 평가하고 위험요인을 분석하였다. AI인체감염증은 가금농장의 고병원성AI와 밀접한 관련이 있고 가금관련 산업 종사자가 가장 감염에 취약한 위험군이기 때문에, 위험 매트릭스는 가금농장의 고병원성AI 평균 발생 건수와 감염에 취약한 가금 관련 축산시설 수를 활용하여 분석하였다. 조류인플루엔자 유행시기에 시·군·구별로 가금농장의 HPAI 평균 발생건수를 예측하기 위해 일반화 선형모형 중 과대산포가 있는 가산자료를 분석하는데 이용되는 음이항 회귀모형을 적용하였다. 시·군·구별 가금농장의 고병원성AI 발생건수와 축산시설 수를 적용한 위험 매트릭스 분석 결과, AI인체감염증의 발생위험이 높아 관리가 필요한 지역은 전남 나주, 전북 정읍, 전북 남원으로 확인되었다. 또한, AI 인체감염증의 발생에 영향을 줄 수 있는 위험요인으로는 가금농장의 저병원성 AI 발생건수, 닭과 오리의 사육 밀도, 축산차량 등록 수로 확인되었다. 가금농장에서 저병원성AI가 1건 발생 시 가금농장의 고병원성AI 발생은 1.687배 증가하고, 닭과 오리의 밀도가 1,000 두/km2 증가할 경우 가금농장의 고병원성AI 발생은 각각 1.618배, 10.252배 증가하며, 축산차량의 경우 100대 증가 시 가금농장의 고병원성AI 발생이 1.134배 증가하는 것으로 나타났다. AI인체감염증의 예방을 위해 HPAI의 발생주기인 2~3년 간격으로 위험평가를 실시하고 환경·동물·사람에 대하여 원 헬스(One Health)적 관점으로 위험요인과 위험지역을 관리한다면, AI인체감염증에 대한 방역정책 수립과 사회·경제적 비용 감소에 도움이 될 수 있을 것으로 판단된다.

텍스트 마이닝을 활용한 신문사에 따른 내용 및 논조 차이점 분석 (A Study on Differences of Contents and Tones of Arguments among Newspapers Using Text Mining Analysis)

  • 감미아;송민
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.53-77
    • /
    • 2012
  • 본 연구는 경향신문, 한겨레, 동아일보 세 개의 신문기사가 가지고 있는 내용 및 논조에 어떠한 차이가 있는지를 객관적인 데이터를 통해 제시하고자 시행되었다. 본 연구는 텍스트 마이닝 기법을 활용하여 신문기사의 키워드 단순빈도 분석과 Clustering, Classification 결과를 분석하여 제시하였으며, 경제, 문화 국제, 사회, 정치 및 사설 분야에서의 신문사 간 차이점을 분석하고자 하였다. 신문기사의 문단을 분석단위로 하여 각 신문사의 특성을 파악하였고, 키워드 네트워크로 키워드들 간의 관계를 시각화하여 신문사별 특성을 객관적으로 볼 수 있도록 제시하였다. 신문기사의 수집은 신문기사 데이터베이스 시스템인 KINDS에서 2008년부터 2012년까지 해당 주제로 주제어 검색을 하여 총 3,026개의 수집을 하였다. 수집된 신문기사들은 불용어 제거와 형태소 분석을 위해 Java로 구현된 Lucene Korean 모듈을 이용하여 자연어 처리를 하였다. 신문기사의 내용 및 논조를 파악하기 위해 경향신문, 한겨레, 동아일보가 정해진 기간 내에 일어난 특정 사건에 대해 언급하는 단어의 빈도 상위 10위를 제시하여 분석하였고, 키워드들 간 코사인 유사도를 분석하여 네트워크 지도를 만들었으며 단어들의 네트워크를 통해 Clustering 결과를 분석하였다. 신문사들마다의 논조를 확인하기 위해 Supervised Learning 기법을 활용하여 각각의 논조에 대해 분류하였으며, 마지막으로는 분류 성능 평가를 위해 정확률과 재현률, F-value를 측정하여 제시하였다. 본 연구를 통해 문화 전반, 경제 전반, 정치분야의 통합진보당 이슈에 대한 신문기사들에 전반적인 내용과 논조에 차이를 보이고 있음을 알 수 있었고, 사회분야의 4대강 사업에 대한 긍정-부정 논조에 차이가 있음을 발견할 수 있었다. 본 연구는 지금까지 연구되어왔던 한글 신문기사의 코딩 및 담화분석 방법에서 벗어나, 텍스트 마이닝 기법을 활용하여 다량의 데이터를 분석하였음에 의미가 있다. 향후 지속적인 연구를 통해 분류 성능을 보다 높인다면, 사람들이 뉴스를 접할 때 그 뉴스의 특정 논조 성향에 대해 우선적으로 파악하여 객관성을 유지한 채 정보에 접근할 수 있도록 도와주는 신뢰성 있는 툴을 만들 수 있을 것이라 기대한다.

카테고리 연관 규칙 마이닝을 활용한 추천 정확도 향상 기법 (A Study on the Improvement of Recommendation Accuracy by Using Category Association Rule Mining)

  • 이동원
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.27-42
    • /
    • 2020
  • 인터넷이라는 가상 공간을 활용함으로써 물리적 공간의 제약을 갖는 오프라인 쇼핑의 한계를 넘어선 온라인 쇼핑은 다양한 기호를 가진 소비자를 만족시킬 수 있는 수많은 상품을 진열할 수 있게 되었다. 그러나, 이는 역설적으로 소비자가 구매의사결정 과정에서 너무 많은 대안을 비교 평가해야 하는 어려움을 겪게 함으로써 오히려 상품 선택을 방해하는 원인이 되기도 한다. 이런 부작용을 해소하기 위한 노력으로서, 연관 상품 추천은 수많은 상품을 다루는 온라인 상거래에서 소비자의 구매의사결정 과정 중 정보탐색 및 대안평가에 소요되는 시간과 노력을 줄여주고 이탈을 방지하며 판매자의 매출 증대에 기여할 수 있다. 연관 상품 추천에 사용되는 연관 규칙 마이닝 기법은 통계적 방법을 통해 주문과 같은 거래 데이터로부터 서로 연관성 높은 상품을 효과적으로 발견할 수 있다. 하지만, 이 기법은 거래 건수를 기반으로 하므로, 잠재적으로 판매 가능성이 높을지라도 충분한 거래 건수가 확보되지 못한 상품은 추천 목록에서 누락될 수 있다. 이렇게 추천 시 제외된 상품은 소비자에게 구매될 수 있는 충분한 기회를 확보하지 못할 수 있으며, 또 다시 다른 상품에 비해 상대적으로 낮은 추천 기회를 얻는 악순환을 겪을 수도 있다. 본 연구는 구매의사결정이 결국 상품이 지닌 속성에 대한 사용자의 평가를 기반으로 한다는 점에 착안하여, 추천 시 상품의 속성을 반영하면 소비자가 특정 상품을 선택할 확률을 좀더 정확하게 예측할 수 있다는 점을 추천 시스템에 반영하기 위한 목적으로 수행되었다. 즉, 어떤 상품 페이지를 방문한 소비자는 그 상품이 지닌 속성들에 어느 정도 관심을 보인 것이며 추천 시스템은 이런 속성들을 기반으로 연관성을 지닌 상품을 더 정교하게 찾을 수 있다는 것이다. 상품의 주요 속성의 하나로서, 카테고리는 두 상품 간에 아직 드러나지 않은 잠재적인 연관성을 찾기에 적합한 대상이 될 수 있다고 판단하였다. 본 연구는 연관 상품 추천에 상품 간의 연관성뿐만 아니라 카테고리 간의 연관성을 추가로 반영함으로써 추천의 정확도를 높일 수 있는 예측모형을 개발하였고, 온라인 쇼핑몰로부터 수집된 주문 데이터를 활용하여 이루어진 실험은 기존 모형에 비해 추천 성능이 개선됨을 보였다. 실무적인 관점에서 볼 때, 본 연구는 소비자의 구매 만족도를 향상시키고 판매자의 매출을 증가시키는 데에 기여할 수 있을 것으로 기대된다.