• 제목/요약/키워드: Information System Types

검색결과 3,552건 처리시간 0.031초

CNN을 적용한 한국어 상품평 감성분석: 형태소 임베딩을 중심으로 (Sentiment Analysis of Korean Reviews Using CNN: Focusing on Morpheme Embedding)

  • 박현정;송민채;신경식
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.59-83
    • /
    • 2018
  • 고객과 대중의 니즈를 파악하기 위한 감성분석의 중요성이 커지면서 최근 영어 텍스트를 대상으로 다양한 딥러닝 모델들이 소개되고 있다. 본 연구는 영어와 한국어의 언어적인 차이에 주목하여 딥러닝 모델을 한국어 상품평 텍스트의 감성분석에 적용할 때 부딪히게 되는 기본적인 이슈들에 대하여 실증적으로 살펴본다. 즉, 딥러닝 모델의 입력으로 사용되는 단어 벡터(word vector)를 형태소 수준에서 도출하고, 여러 형태소 벡터(morpheme vector) 도출 대안에 따라 감성분석의 정확도가 어떻게 달라지는지를 비정태적(non-static) CNN(Convolutional Neural Network) 모델을 사용하여 검증한다. 형태소 벡터 도출 대안은 CBOW(Continuous Bag-Of-Words)를 기본적으로 적용하고, 입력 데이터의 종류, 문장 분리와 맞춤법 및 띄어쓰기 교정, 품사 선택, 품사 태그 부착, 고려 형태소의 최소 빈도수 등과 같은 기준에 따라 달라진다. 형태소 벡터 도출 시, 문법 준수도가 낮더라도 감성분석 대상과 같은 도메인의 텍스트를 사용하고, 문장 분리 외에 맞춤법 및 띄어쓰기 전처리를 하며, 분석불능 범주를 포함한 모든 품사를 고려할 때 감성분석의 분류 정확도가 향상되는 결과를 얻었다. 동음이의어 비율이 높은 한국어 특성 때문에 고려한 품사 태그 부착 방안과 포함할 형태소에 대한 최소 빈도수 기준은 뚜렷한 영향이 없는 것으로 나타났다.

웹사이트 중복회원 관리 : 소셜 네트워크 분석 접근 (Managing Duplicate Memberships of Websites : An Approach of Social Network Analysis)

  • 강은영;곽기영
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.153-169
    • /
    • 2011
  • 오늘날 기업의 마케팅에 있어 인터넷 환경의 이용은 필수적이며, 좀 더 효율적인 마케팅을 위해 다양한 방법들이 시도되고 있다. 기업들은 온라인마케팅을 통해 다양한 경품이나 포인트 등의 마케팅 비용을 사용하는 것으로 제품이나 서비스를 알려왔다. 특히 웹 2.0의 등장과 함께 기업은 좀 더 적극적으로 고객과 소통하기 위한 노력을 아끼지 않고 있다. 고객들은 회사의 웹사이트에 개인정보를 제공하는 형태로 회원가입을 하여 회사가 제공하는 혜택을 받으면서 제품 광고나 프로모션에 참여하게 된다. 그러나 온라인 마케팅의 운영측면에서 볼 때 현재의 회원관리 시스템은 회원의 모집과 운영에 있어서 효과적이지 못한 문제점이 나타나고 있다. 온라인 환경에서의 고객들은 오프라인 환경에서보다 명확한 자아를 덜 드러내기 때문에 회원가입 과정 중에 일부 악의적인 목적을 가진 고객들이 주변인의 개인정보를 이용하거나 조작하여 중복 아이디를 만들어 활동할 수 있게 된다. 이러한 취약점을 이용하여 중복가입 회원들은 고객들에게 돌아가야 할 경품이나 포인트 등을 가로채어 기업 마케팅 비용의 효율을 떨어뜨리고 있다. 그러나 증가하고 있는 마케팅 비용에 비해 중복회원의 선별 및 이들에 대한 제재를 위한 효과적 방법은 뚜렷하게 제시되지 않고 있다. 따라서 이를 방지하기 위한 체계적인 회원관리 시스템이 요구된다. 본 연구에서는 소셜 네트워크 분석 기법을 이용한 중복회원 식별방법을 제시하고 실제 온라인 고객데이터를 이용하여 그 효과성을 검증한다. 소셜 네트워크는 노드들의 관계를 표현하며, 관계의 유무, 방향 및 강도 등으로 연결 형태를 나타낼 수 있다. 특히 컴포넌트 분석방법은 소셜 네트워크 하위그룹 분석방법으로 네트워크의 내부 그룹을 구분하여 다양한 네트워크 특성을 식별하여 준다. 회원정보 분석에 있어 컴포넌트 분석방법은 전제회원 데이터 내의 의미 있는 정보를 이루고 있는 그룹을 식별하게 된다. 본 연구는 H사의 서로 다른 회원가입 기준을 가진 3개 웹사이트의 회원정보를 사용하여 진행되었다. 제안된 분석방법은 중복회원의 실체를 분석하고 시각화함으로써, 실무적인 측면에서 효율적인 마케팅의 증진을 도울 뿐만 아니라 신뢰성 있는 고객의 의견수렴 및 의사결정에도 도움이 될 것으로 기대된다.

다양한 다분류 SVM을 적용한 기업채권평가 (Corporate Bond Rating Using Various Multiclass Support Vector Machines)

  • 안현철;김경재
    • Asia pacific journal of information systems
    • /
    • 제19권2호
    • /
    • pp.157-178
    • /
    • 2009
  • Corporate credit rating is a very important factor in the market for corporate debt. Information concerning corporate operations is often disseminated to market participants through the changes in credit ratings that are published by professional rating agencies, such as Standard and Poor's (S&P) and Moody's Investor Service. Since these agencies generally require a large fee for the service, and the periodically provided ratings sometimes do not reflect the default risk of the company at the time, it may be advantageous for bond-market participants to be able to classify credit ratings before the agencies actually publish them. As a result, it is very important for companies (especially, financial companies) to develop a proper model of credit rating. From a technical perspective, the credit rating constitutes a typical, multiclass, classification problem because rating agencies generally have ten or more categories of ratings. For example, S&P's ratings range from AAA for the highest-quality bonds to D for the lowest-quality bonds. The professional rating agencies emphasize the importance of analysts' subjective judgments in the determination of credit ratings. However, in practice, a mathematical model that uses the financial variables of companies plays an important role in determining credit ratings, since it is convenient to apply and cost efficient. These financial variables include the ratios that represent a company's leverage status, liquidity status, and profitability status. Several statistical and artificial intelligence (AI) techniques have been applied as tools for predicting credit ratings. Among them, artificial neural networks are most prevalent in the area of finance because of their broad applicability to many business problems and their preeminent ability to adapt. However, artificial neural networks also have many defects, including the difficulty in determining the values of the control parameters and the number of processing elements in the layer as well as the risk of over-fitting. Of late, because of their robustness and high accuracy, support vector machines (SVMs) have become popular as a solution for problems with generating accurate prediction. An SVM's solution may be globally optimal because SVMs seek to minimize structural risk. On the other hand, artificial neural network models may tend to find locally optimal solutions because they seek to minimize empirical risk. In addition, no parameters need to be tuned in SVMs, barring the upper bound for non-separable cases in linear SVMs. Since SVMs were originally devised for binary classification, however they are not intrinsically geared for multiclass classifications as in credit ratings. Thus, researchers have tried to extend the original SVM to multiclass classification. Hitherto, a variety of techniques to extend standard SVMs to multiclass SVMs (MSVMs) has been proposed in the literature Only a few types of MSVM are, however, tested using prior studies that apply MSVMs to credit ratings studies. In this study, we examined six different techniques of MSVMs: (1) One-Against-One, (2) One-Against-AIL (3) DAGSVM, (4) ECOC, (5) Method of Weston and Watkins, and (6) Method of Crammer and Singer. In addition, we examined the prediction accuracy of some modified version of conventional MSVM techniques. To find the most appropriate technique of MSVMs for corporate bond rating, we applied all the techniques of MSVMs to a real-world case of credit rating in Korea. The best application is in corporate bond rating, which is the most frequently studied area of credit rating for specific debt issues or other financial obligations. For our study the research data were collected from National Information and Credit Evaluation, Inc., a major bond-rating company in Korea. The data set is comprised of the bond-ratings for the year 2002 and various financial variables for 1,295 companies from the manufacturing industry in Korea. We compared the results of these techniques with one another, and with those of traditional methods for credit ratings, such as multiple discriminant analysis (MDA), multinomial logistic regression (MLOGIT), and artificial neural networks (ANNs). As a result, we found that DAGSVM with an ordered list was the best approach for the prediction of bond rating. In addition, we found that the modified version of ECOC approach can yield higher prediction accuracy for the cases showing clear patterns.

퇴적암 유래 농경지 토양에 대한 카테나 해석 (Interpretation of Soil Catena for Agricultural Soils derived from Sedimentary Rocks)

  • 손연규;이동성;김근태;현병근;전혜원;전상호
    • 한국지리정보학회지
    • /
    • 제20권4호
    • /
    • pp.1-14
    • /
    • 2017
  • 본 연구에서는 퇴적암 유래 농경지 토양의 카테나의 정량적, 객관적인 해석을 위해 세부정밀토양도(축적 1:5,000)의 속성자료 중 토양통자료를 이용하여 지리정보시스템(ArcGIS, ESRI, US)과 R 통계분석프로그램을 이용하여 분석하였다. 분석에 사용된 토양통의 인접한 토양통 길이 산정을 위해 GIS 프로그램의 Buffer 기능을 이용하여 각 토양통에 폭 1m의 buffer을 형성하고 인접한 토양통들의 buffer 면적과 이를 이용하여 길이를 산출하였다. R 통계분석프로그램을 이용하여 각각의 토양통별로 인접한 토양통의 면적을 비율로 환산하고, 그 값을 기준으로 입체군집기준(Cubic Clustering Criterion)을 이용해 군집의 개수를 선정하였다. 군집의 수를 선정 후 인접 토양통의 비율을 이용해 군집분석을 수행하여 퇴적암 유래 농경지 토양들의 유사성 분석을 시도하였다. 군집분석 결과 퇴적암 지대별로 암석의 종류에 따라 입경분포가 다르게 나타나 사양질 토양은 주로 사암 모재, 식양질 토양은 혈암 모재, 미사식양질 내지 식질의 토양은 석회암 모재로 구별되어, 석회암 < 혈암 < 사암의 순이었다. 한편, 혈암유래 농경지 토양은 적색혈암과 회색혈암으로 구분되고, 적색혈암은 사양질과 식양질, 회색혈암은 식양질과 미사식양질이 주로 분포하는 것으로 나타났다. 토양연접군에 대한 정량적인 해석을 의미하며, 이러한 분석방법들을 통한 해석으로 토양통들의 입경분포, 특히 점토함량에 따른 연관성 분석을 할 수 있었고, 분포위치와 모암에 대한 연관성에 대해서는 보다 심도있는 연구가 필요할 것으로 보여진다.

모바일 위치기반서비스(LBS) 관련한 새로운 견해: 서비스사용으로 이끄는 요인들과 사생활염려의 모순 (New Insights on Mobile Location-based Services(LBS): Leading Factors to the Use of Services and Privacy Paradox)

  • 천은영;박용태
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.33-56
    • /
    • 2017
  • 위치기반서비스는 이동기기의 위치정보를 바탕으로 한 향상된 서비스로 최근 스마트폰을 활용한 모바일 응용프로그램에서 부각되고 있다. 하지만 이와 관련한 기술 및 서비스 개발에 비해 위치기반서비스의 사용의도에 관한 실증연구는 아직까지 부족하다. 또한 선행연구들은 어느 한 요인을 중심으로 단편적으로 수행되었으며 사용의도와의 직접적인 영향 관계에 대해 제시하지 못한 한계점을 가지고 있다. 이에 본 연구는 빠른 성장이 기대되는 위치기반서비스 시장에서 위치기반서비스 사용자의 위치기반서비스 수용의도 및 사용에 영향을 미치는 요인들에 관한 모델을 제시하였고 330명을 대상으로 하여 설문조사를 실시하여 이를 조사하였다. 자료를 분석한 결과 서비스 맞춤화, 서비스 품질과 개인적 혁신성은 위치기반서비스의 사용의도에 긍정적인 영향을 미치며 사용의도는 실제사용에 긍정적인 영향을 미치는 것으로 나타났다. 하지만 위치기반서비스의 맥락 하에 서비스 맞춤화와 개인적 혁신성은 사생활보호염려에 영향을 미치지 않으며 사생활보호염려는 위치기반서비스 사용의도에도 영향을 주지 않는 것으로 나타났다. 실제로 위치기반서비스에서 사용자에게 요구되는 정보는 위치에 관한 정보로 금융거래에 관련한 정보에 비해 민감하지 않기 때문에 이러한 결과가 나왔다고 추측할 수 있으면 위치기반서비스 사용자들은 전자상거래와 같은 정보시스템 사용자들에 비해 사생활보호에 대해서 예민하게 받아들이기 보다는 위치기반서비스 사용의 이점을 더 중시한다고 이해할 수 있다. 위치기반서비스의 맞춤화가 사용자의 사용의도에 긍정적인 영향을 미친다는 실증적 결과는 인공지능 등의 기술을 활용하여 사용자의 위치기반 서비스 사용 패턴을 분석함으로써 사용자의 정보수요 특성을 효과적으로 충족시켜줄 수 있는 맞춤화된 서비스의 제공으로 사용자의 사용의도를 강화시킬 수 있음을 시사하고 있다. 본 연구는 모바일 위치기반서비스 사용자의 사용의도와 실제사용에 미치는 요인들을 새롭게 다면적인 측면에서 실증적으로 조사하여 위치기반서비스와 관련하여 새로운 쟁점을 제시했으며 위치기반서비스 사용자의 사용의도와 실제사용에 대한 이해의 폭을 넓혔다는 점에서 의의가 있다. 또한 본 연구의 결과는 위치기반서비스 시장의 성장과 사용자들에 대한 효과적 대응 전략을 수립하는데 도움이 될 것으로 기대된다.

국제프랜차이징 연구요소 및 연구방향 (Research Framework for International Franchising)

  • 김주영;임영균;심재덕
    • 마케팅과학연구
    • /
    • 제18권4호
    • /
    • pp.61-118
    • /
    • 2008
  • 본 연구는 국내외 프랜차이즈의 해외진출에 대한 연구들을 바탕으로 국제프랜차이징연구의 전체적인 연구체계를 세워보고, 연구체계를 형성하고 있는 연구요인들을 확인하여 각 연구요소별로 이루어지는 연구주제와 내용을 살펴보고, 앞으로의 연구주제들을 제안하고자 한다. 주요한 연구요소들은 국제프랜차이징의 동기 및 환경 요소과 진출의사결정, 국제프랜차이징의 진입양식 및 발전전략, 국제프랜차이징의 운영전략 및 국제프랜차이징의 성과이다. 이외에도 국제프랜차이징 연구에 적용할 수 있는 대리인이론, 자원기반이론, 거래비용이론, 조직학습이론 및 해외진출이론들을 설명하였다. 또한 국제프랜차이징연구에서 보다 중점적으로 개발해야 할 질적, 양적 방법론을 소개하였으며, 마지막으로 국내연구의 동향을 정리하여 추후의 연구방향을 종합적으로 정리하였다.

  • PDF

잠재 토픽 기반의 제품 평판 마이닝 (Latent topics-based product reputation mining)

  • 박상민;온병원
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.39-70
    • /
    • 2017
  • 최근 여론조사 분야에서 데이터에 기반을 둔 분석 기법이 널리 활용되고 있다. 기업에서는 최근 출시된 제품에 대한 선호도를 조사하기 위해 기존의 설문조사나 전문가의 의견을 단순 취합하는 것이 아니라, 온라인상에 존재하는 다양한 종류의 데이터를 수집하고 분석하여 제품에 대한 대중의 기호를 정확히 파악할 수 있는 방안을 필요로 한다. 기존의 주요 방안에서는 먼저 해당 분야에 대한 감성사전을 구축한다. 전문가들은 수집된 텍스트 문서들로부터 빈도가 높은 단어들을 정리하여 긍정, 부정, 중립을 판단한다. 특정 제품의 선호를 판별하기 위해, 제품에 대한 사용 후기 글을 수집하여 문장을 추출하고, 감성사전을 이용하여 문장들의 긍정, 부정, 중립을 판단하여 최종적으로 긍정과 부정인 문장의 개수를 통해 제품에 대한 선호도를 측정한다. 그리고 제품에 대한 긍 부정 내용을 자동으로 요약하여 제공한다. 이것은 문장들의 감성점수를 산출하여, 긍정과 부정점수가 높은 문장들을 추출한다. 본 연구에서는 일반 대중이 생산한 문서 속에 숨겨져 있는 토픽을 추출하여 주어진 제품의 선호도를 조사하고, 토픽의 긍 부정 내용을 요약하여 보여주는 제품 평판 마이닝 알고리즘을 제안한다. 기존 방식과 다르게, 토픽을 활용하여 쉽고 빠르게 감성사전을 구축할 수 있으며 추출된 토픽을 정제하여 제품의 선호도와 요약 결과의 정확도를 높인다. 실험을 통해, K5, SM5, 아반떼 등의 국내에서 생산된 자동차의 수많은 후기 글들을 수집하였고, 실험 자동차의 긍 부정 비율, 긍 부정 내용 요약, 통계 검정을 실시하여 제안방안의 효용성을 입증하였다.

고객별 구매빈도에 동적으로 적응하는 개인화 시스템 : 음료수 구매 예측에의 적용 (The Adaptive Personalization Method According to Users Purchasing Index : Application to Beverage Purchasing Predictions)

  • 박윤주
    • 지능정보연구
    • /
    • 제17권4호
    • /
    • pp.95-108
    • /
    • 2011
  • 인터넷 비즈니스의 활성화에 따라서 기업은 고객의 인물정보 및 거래정보를 활용하여 보다 맞춤화된 개인화 서비스를 제공하고 있다. 기존의 고객군별 예측기법은 유사한 고객들을 군집화하여 고객군별로 예측모델을 수립하는 것으로, 구매가 많고 충성도가 높은 핵심고객에게 요구되는 일대일 서비스를 제공하는 데는 한계가 있다. 반면 일대일 고객별 예측기법은 각 고객에게 고도로 맞춤화된 서비스를 제공하지만, 과거 구매이력이 많지 않은 고객 이나 신규 고객에게는 정확한 개인화 서비스를 제공하지 못한다. 본 연구는 고객의 구매빈도에 따라서 유사 고객들과의 군집화 수준을 동적으로 조정하는 새로운 지능형 개인화 시스템을 제안한다. 제안된 시스템은 과거 구매가 많은 고객들에 대해서는 일대일 예측모델을 수립하지만, 구매 빈도가 낮은 고객의 경우 다른 고객들과의 최적화된 군집화를 통해 예측모델을 수립한다. 본 기법을 Neilsen의 음료수 구매 데이터셋에 적용하여 고객의 일회 구매금액 및 구매품목을 예측한 결과, 기존 두 예측기법들에 비하여 적정한 계산비용(computational cost)으로 더욱 정확한 개안화 서비스를 제공할 수 있음을 확인하였다.

인터넷 검색기록 분석을 통한 쇼핑의도 포함 키워드 자동 추출 기법 (A Methodology for Extracting Shopping-Related Keywords by Analyzing Internet Navigation Patterns)

  • 김민규;김남규;정인환
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.123-136
    • /
    • 2014
  • 최근 온라인 및 다양한 스마트 기기의 사용이 확산됨에 따라 온라인을 통한 쇼핑구매가 더욱 활성화 되었다. 때문에 인터넷 쇼핑몰들은 쇼핑에 관심이 있는 잠재 고객들에게 한 번이라도 더 자사의 링크를 노출시키기 위해 키워드에 비용을 지불할 용의가 있으며, 이러한 추세는 검색 광고 시장의 광고비를 증가시키는 원인을 제공하였다. 이 때 키워드의 가치는 대체로 검색어의 빈도수에 기반을 두어 산정된다. 하지만 포털 사이트에서 검색어로 자주 입력되는 모든 단어가 쇼핑과 관련이 있는 것은 아니며, 이들 키워드 중에는 빈도수는 높지만 쇼핑몰 관점에서는 별로 수익과 관련이 없는 키워드도 다수 존재한다. 그렇기 때문에 특정 키워드가 사용자들에게 많이 노출된다고 해서, 이를 통해 구매가 이루어질 것을 기대하여 해당 키워드에 많은 광고비를 지급하는 것은 매우 비효율적인 방식이다. 따라서 포털 사이트의 빈발 검색어 중 쇼핑몰 관점에서 중요한 키워드를 추출하는 작업이 별도로 요구되며, 이 과정을 빠르고 효과적으로 수행하기 위한 자동화 방법론에 대한 수요가 증가하고 있다. 본 연구에서는 이러한 수요에 부응하기 위해 포털 사이트에 입력된 키워드 중 쇼핑의도를 포함하고 있을 가능성이 높을 것으로 추정되는 키워드만을 자동으로 추출하는 방안을 제시하고, 구체적으로는 전체 검색어 중 검색결과 페이지에서 쇼핑과 관련 된 페이지로 이동한 검색어만을 추출하여 순위를 집계하고, 이 순위를 전체 검색 키워드의 순위와 비교하였다. 국내 최대의 검색 포털인 'N'사에서 이루어진 검색 약 390만 건에 대한 실험결과, 제안 방법론에 의해 추천된 쇼핑의도 포함 키워드가 단순 빈도수 기반의 키워드에 비해 정확도, 재현율, F-Score의 모든 측면에서 상대적으로 우수한 성능을 보이는 것으로 나타남을 확인할 수 있었다.

지자체 사이버 공간 안전을 위한 금융사기 탐지 텍스트 마이닝 방법 (Financial Fraud Detection using Text Mining Analysis against Municipal Cybercriminality)

  • 최석재;이중원;권오병
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.119-138
    • /
    • 2017
  • 최근 SNS는 개인의 의사소통뿐 아니라 마케팅의 중요한 채널로도 자리매김하고 있다. 그러나 사이버 범죄 역시 정보와 통신 기술의 발달에 따라 진화하여 불법 광고가 SNS에 다량으로 배포되고 있다. 그 결과 개인정보를 빼앗기거나 금전적인 손해가 빈번하게 일어난다. 본 연구에서는 SNS로 전달되는 홍보글인 비정형 데이터를 분석하여 어떤 글이 금융사기(예: 불법 대부업 및 불법 방문판매)와 관련된 글인지를 분석하는 방법론을 제안하였다. 불법 홍보글 학습 데이터를 만드는 과정과, 데이터의 특성을 고려하여 입력 데이터를 구성하는 방안, 그리고 판별 알고리즘의 선택과 추출할 정보 대상의 선정 등이 프레임워크의 주요 구성 요소이다. 본 연구의 방법은 실제로 모 지방자치단체의 금융사기 방지 프로그램의 파일럿 테스트에 활용되었으며, 실제 데이터를 가지고 분석한 결과 금융사기 글을 판정하는 정확도가 사람들에 의하여 판정하는 것이나 키워드 추출법(Term Frequency), MLE 등에 비하여 월등함을 검증하였다.