• 제목/요약/키워드: data preprocessing

검색결과 997건 처리시간 0.027초

U-마켓에서의 사용자 정보보호를 위한 매장 추천방법 (A Store Recommendation Procedure in Ubiquitous Market for User Privacy)

  • 김재경;채경희;구자철
    • Asia pacific journal of information systems
    • /
    • 제18권3호
    • /
    • pp.123-145
    • /
    • 2008
  • Recently, as the information communication technology develops, the discussion regarding the ubiquitous environment is occurring in diverse perspectives. Ubiquitous environment is an environment that could transfer data through networks regardless of the physical space, virtual space, time or location. In order to realize the ubiquitous environment, the Pervasive Sensing technology that enables the recognition of users' data without the border between physical and virtual space is required. In addition, the latest and diversified technologies such as Context-Awareness technology are necessary to construct the context around the user by sharing the data accessed through the Pervasive Sensing technology and linkage technology that is to prevent information loss through the wired, wireless networking and database. Especially, Pervasive Sensing technology is taken as an essential technology that enables user oriented services by recognizing the needs of the users even before the users inquire. There are lots of characteristics of ubiquitous environment through the technologies mentioned above such as ubiquity, abundance of data, mutuality, high information density, individualization and customization. Among them, information density directs the accessible amount and quality of the information and it is stored in bulk with ensured quality through Pervasive Sensing technology. Using this, in the companies, the personalized contents(or information) providing became possible for a target customer. Most of all, there are an increasing number of researches with respect to recommender systems that provide what customers need even when the customers do not explicitly ask something for their needs. Recommender systems are well renowned for its affirmative effect that enlarges the selling opportunities and reduces the searching cost of customers since it finds and provides information according to the customers' traits and preference in advance, in a commerce environment. Recommender systems have proved its usability through several methodologies and experiments conducted upon many different fields from the mid-1990s. Most of the researches related with the recommender systems until now take the products or information of internet or mobile context as its object, but there is not enough research concerned with recommending adequate store to customers in a ubiquitous environment. It is possible to track customers' behaviors in a ubiquitous environment, the same way it is implemented in an online market space even when customers are purchasing in an offline marketplace. Unlike existing internet space, in ubiquitous environment, the interest toward the stores is increasing that provides information according to the traffic line of the customers. In other words, the same product can be purchased in several different stores and the preferred store can be different from the customers by personal preference such as traffic line between stores, location, atmosphere, quality, and price. Krulwich(1997) has developed Lifestyle Finder which recommends a product and a store by using the demographical information and purchasing information generated in the internet commerce. Also, Fano(1998) has created a Shopper's Eye which is an information proving system. The information regarding the closest store from the customers' present location is shown when the customer has sent a to-buy list, Sadeh(2003) developed MyCampus that recommends appropriate information and a store in accordance with the schedule saved in a customers' mobile. Moreover, Keegan and O'Hare(2004) came up with EasiShop that provides the suitable tore information including price, after service, and accessibility after analyzing the to-buy list and the current location of customers. However, Krulwich(1997) does not indicate the characteristics of physical space based on the online commerce context and Keegan and O'Hare(2004) only provides information about store related to a product, while Fano(1998) does not fully consider the relationship between the preference toward the stores and the store itself. The most recent research by Sedah(2003), experimented on campus by suggesting recommender systems that reflect situation and preference information besides the characteristics of the physical space. Yet, there is a potential problem since the researches are based on location and preference information of customers which is connected to the invasion of privacy. The primary beginning point of controversy is an invasion of privacy and individual information in a ubiquitous environment according to researches conducted by Al-Muhtadi(2002), Beresford and Stajano(2003), and Ren(2006). Additionally, individuals want to be left anonymous to protect their own personal information, mentioned in Srivastava(2000). Therefore, in this paper, we suggest a methodology to recommend stores in U-market on the basis of ubiquitous environment not using personal information in order to protect individual information and privacy. The main idea behind our suggested methodology is based on Feature Matrices model (FM model, Shahabi and Banaei-Kashani, 2003) that uses clusters of customers' similar transaction data, which is similar to the Collaborative Filtering. However unlike Collaborative Filtering, this methodology overcomes the problems of personal information and privacy since it is not aware of the customer, exactly who they are, The methodology is compared with single trait model(vector model) such as visitor logs, while looking at the actual improvements of the recommendation when the context information is used. It is not easy to find real U-market data, so we experimented with factual data from a real department store with context information. The recommendation procedure of U-market proposed in this paper is divided into four major phases. First phase is collecting and preprocessing data for analysis of shopping patterns of customers. The traits of shopping patterns are expressed as feature matrices of N dimension. On second phase, the similar shopping patterns are grouped into clusters and the representative pattern of each cluster is derived. The distance between shopping patterns is calculated by Projected Pure Euclidean Distance (Shahabi and Banaei-Kashani, 2003). Third phase finds a representative pattern that is similar to a target customer, and at the same time, the shopping information of the customer is traced and saved dynamically. Fourth, the next store is recommended based on the physical distance between stores of representative patterns and the present location of target customer. In this research, we have evaluated the accuracy of recommendation method based on a factual data derived from a department store. There are technological difficulties of tracking on a real-time basis so we extracted purchasing related information and we added on context information on each transaction. As a result, recommendation based on FM model that applies purchasing and context information is more stable and accurate compared to that of vector model. Additionally, we could find more precise recommendation result as more shopping information is accumulated. Realistically, because of the limitation of ubiquitous environment realization, we were not able to reflect on all different kinds of context but more explicit analysis is expected to be attainable in the future after practical system is embodied.

온라인 주식 포럼의 핫토픽 탐지를 위한 감성분석 모형의 개발 (Development of Sentiment Analysis Model for the hot topic detection of online stock forums)

  • 홍태호;이태원;리징징
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.187-204
    • /
    • 2016
  • 소셜 미디어를 이용하는 사용자들이 직접 작성한 의견 혹은 리뷰를 이용하여 상호간의 교류 및 정보를 공유하게 되었다. 이를 통해 고객리뷰를 이용하는 오피니언마이닝, 웹마이닝 및 감성분석 등 다양한 연구분야에서의 연구가 진행되기 시작하였다. 특히, 감성분석은 어떠한 토픽(주제)를 기준으로 직접적으로 글을 작성한 사람들의 태도, 입장 및 감성을 알아내는데 목적을 두고 있다. 고객의 의견을 내포하고 있는 정보 혹은 데이터는 감성분석을 위한 핵심 데이터가 되기 때문에 토픽을 통한 고객들의 의견을 분석하는데 효율적이며, 기업에서는 소비자들의 니즈에 맞는 마케팅 혹은 투자자들의 시장동향에 따른 많은 투자가 이루어지고 있다. 본 연구에서는 중국의 온라인 시나 주식 포럼에서 사용자들이 직접 작성한 포스팅(글)을 이용하여 기존에 제시된 토픽들로부터 핫토픽을 선정하고 탐지하고자 한다. 기존에 사용된 감성 사전을 활용하여 토픽들에 대한 감성값과 극성을 분류하고, 군집분석을 통해 핫토픽을 선정하였다. 핫토픽을 선정하기 위해 k-means 알고리즘을 이용하였으며, 추가로 인공지능기법인 SOM을 적용하여 핫토픽 선정하는 절차를 제시하였다. 또한, 로짓, 의사결정나무, SVM 등의 데이터마이닝 기법을 이용하여 핫토픽 사전 탐지를 하는 감성분석을 위한 모형을 개발하여 관심지수를 통해 선정된 핫토픽과 탐지된 핫토픽을 비교하였다. 본 연구를 통해 핫토픽에 대한 정보 제공함으로써 최신 동향에 대한 흐름을 알 수 있게 되고, 주식 포럼에 대한 핫토픽은 주식 시장에서의 투자자들에게 유용한 정보를 제공하게 될 뿐만 아니라 소비자들의 니즈를 충족시킬 수 있을 것이라 기대된다.

분산 서비스거부 공격 탐지를 위한 데이터 마이닝 기법 (Data Mining Approaches for DDoS Attack Detection)

  • 김미희;나현정;채기준;방효찬;나중찬
    • 한국정보과학회논문지:정보통신
    • /
    • 제32권3호
    • /
    • pp.279-290
    • /
    • 2005
  • 최근 분산 서비스거부 공격에 대한 피해사례가 증가하면서 빠른 탐지와 적절한 대응 메커니즘에 대한 필요성이 대두되었다. 그러나 지금까지 제안된 기존 보안 메커니즘은 이러한 공격들에 대해 충분한 대응책을 제공하지 못하고, 일부 공격에만 유효하거나 공격의 일부 변형에도 취약점을 갖고 있다. 그러므로 본 논문에서는 최신의 분산 서비스거부 공격 유형 잘 분류해 낼 수 있고, 기존 공격의 변형이나 새로운 공격에도 탐지 가능하도록 데이타 마이닝 기법을 이용한 탐지 구조를 제안한다. 이 탐지 구조는 이미 발견된 공격을 유형별로 분류할 수 있도록 모델링하는 오용탐지모듈과, 공격의 일반적인 특성을 이용 하여 새로운 유형의 공격을 발견할 수 있도록 모델링하는 이상탐지모듈로 구성되어 있다. 이렇게 오프라인으로 생성된 탐지 모델을 통해 실시간 트래픽 데이타를 이용한 탐지 구조를 갖고 있다. 본 논문에서는 실제 네트워크의 상황을 잘 반영시켜 모델링을 하고 시험하기 위해 실제 네트워크에서 사용중인 액세스 라우터에서 NetFlow 데이타를 수집하여 이용하였다. NetFlow는 많은 전처리 과정 없이 플로우 기반의 통계 정보를 제공하므로 분산 서비스거부 공격 분석에 유용한 정보를 제공한다. 또한 공격 트래픽을 수집하기 위하여 잘 알려진 공격 툴을 이용하여 실제 공격 트래픽에 대한 해당 액세스 라우터에서의 공격 NetFlow 데이타를 수집하였다. 시험 결과, 이러한 트래픽을 이용하여 두가지 데이타 마이닝 기법을 결합한오용탐지모듈의 높은 탐지율을 얻을 수 있었고, 새로운 공격에 대한 이상탐지모듈의 탐지 가능성을 입증할 수 있었다., 10kg/10a 파종에서 바랭이, 명아주, 별꽃, 12kg/10a 파종에서는 명아주, 바랭이, 새포아풀 순위였다. 이상의 시험결과를 볼 때, 제주지역에서의 Creeping bent-grass의 적정 파종량은 10kg/10a으로 판단된다.$\cdot$하순에 조파하는 것이 바람직할 것으로 판단된다.d real time PCR을 이용하여 DBP 유전자를 증폭하는 새로운 방법으로 말라리아를 Semi-quantitative 하게 검출할 수 있음을 보였다.C로 확인 결과 retention time 3.36에 single peak를 나타내 단일 물질임을 확인할 수 있었다. 분리된 활성물질을 GC-MS(m/z)로 분석한 결과 m/z 222에서 base peak로 나타났으며 이 spectrum으로 NIST library 검색을 실시 한 결과, $C_{12}H_{14}O_4$의 diethyl phtalate로 시사되었다. C-NMR과 1H-NMR을 실시한 결과 참비름에서 분리한 물질은 구조식 $C_{12}H_{14}O_6$인 diethyl phtalate로 동정되었다. 특히 노인인구의 비율이 높은 읍면지역 및 섬지역의 음주문화는 주로 식사를 하면서 반주로 마시는 경우가 많아 음주가 일상화 되어 있다고할 수 있다. 따라서 음주로 인한 질병 예방이나 치료를 목적으로 건강식품을 섭취한다는 인식은 하지 않고 있다. 본 연구결과 통영시에 포함되어 있는 읍면 및 섬지역은 노령화가 가속화되고 있으며,도시의 생활권에서 벗어나 의료혜택을 충분히 받지 못하는 열악한 환경에 놓여 있는 실정 이다

감정예측모형의 성과개선을 위한 Support Vector Regression 응용 (Application of Support Vector Regression for Improving the Performance of the Emotion Prediction Model)

  • 김성진;유은정;정민규;김재경;안현철
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.185-202
    • /
    • 2012
  • 오늘날 정보사회에서는 정보에 대한 가치를 인식하고, 이를 위한 정보의 활용과 수집이 중요해지고 있다. 얼굴 표정은 그림 하나가 수천개의 단어를 표현할 수 있듯이 수천 개의 정보를 지니고 있다. 이에 주목하여 최근 얼굴 표정을 통해 사람의 감정을 판단하여 지능형 서비스를 제공하기 위한 시도가 MIT Media Lab을 필두로 활발하게 이루어지고 있다. 전통적으로 기존 연구에서는 인공신경망, 중회귀분석 등의 기법을 통해 사람의 감정을 판단하는 연구가 이루어져 왔다. 하지만 중회귀모형은 예측 정확도가 떨어지고, 인공신경망은 성능은 뛰어나지만 기법 자체가 지닌 과적합화 문제로 인해 한계를 지닌다. 본 연구는 사람들의 자극에 대한 반응으로서 나타나는 얼굴 표정을 통해 감정을 추론해내는 지능형 모형을 개발하는 것을 목표로 한다. 기존 얼굴 표정을 통한 지능형 감정판단모형을 개선하기 위하여, Support Vector Regression(이하 SVR) 기법을 적용하는 새로운 모형을 제시한다. SVR은 기존 Support Vector Machine이 가진 뛰어난 예측 능력을 바탕으로, 회귀문제 영역을 해결하기 위해 확장된 것이다. 본 연구의 제안 모형의 목적은 사람의 얼굴 표정으로부터 쾌/불쾌 수준 그리고 몰입도를 판단할 수 있도록 설계되는 것이다. 모형 구축을 위해 사람들에게 적절한 자극영상을 제공했을 때 나타나는 얼굴 반응들을 수집했고, 이를 기반으로 얼굴 특징점을 도출 및 보정하였다. 이후 전처리 과정을 통해 통계적 유의변수를 추출 후 학습용과 검증용 데이터로 구분하여 SVR 모형을 통해 학습시키고, 평가되도록 하였다. 다수의 일반인들을 대상으로 수집된 실제 데이터셋을 기반으로 제안모형을 적용해 본 결과, 매우 우수한 예측 정확도를 보임을 확인할 수 있었다. 아울러, 중회귀분석이나 인공신경망 기법과 비교했을 때에도 본 연구에서 제안한 SVR 모형이 쾌/불쾌 수준 및 몰입도 모두에서 더 우수한 예측성과를 보임을 확인할 수 있었다. 이는 얼굴 표정에 기반한 감정판단모형으로서 SVR이 상당히 효과적인 수단이 될 수 있다는 점을 알 수 있었다.

두층 섬광결정과 위치민감형광전자증배관을 이용한 소동물 양전자방출단층촬영기 개발: 기초실험 결과 (Development of a Small Animal Positron Emission Tomography Using Dual-layer Phoswich Detector and Position Sensitive Photomultiplier Tube: Preliminary Results)

  • 정명환;최용;정용현;송태용;정진호;홍기조;민병준;최연성;이경한;김병태
    • 대한핵의학회지
    • /
    • 제38권5호
    • /
    • pp.338-343
    • /
    • 2004
  • 목적: 이 연구의 목적은 두층 섬광결정을 사용하여 PET 기기 시야 외곽에서 발생하는 영상 왜곡현상을 최소화하는 고 민감도, 고 분해능의 소동물 PET 시스템을 개발하는 것이다. 대상 및 방법: GATE (Geant4 Application for Tomographic Emission) 시뮬레이션 프로그램을 사용하여 시스템을 모사하였고 시스템 성능을 예측하였으며 시뮬레이션에서 도출한 파라미터를 기준으로 시스템을 설계 제작 하였다. 두층 섬광결정은 Lutetium Oxyorthosilicate (LSO)와 Lutetium-Yttrium Aluminate-Perovskite (LuYAP)으로 구성하였다. 섬광결정의 각 픽셀크기는 $2mm{\times}2mm{\times}8mm$이며 $8{\times}8$로 배열하여 두층 섬광결정으로 구성하였다. 두층 섬광결정 배열을 위치민감형 광전자증배관(Position Sensitive Photomultiplier Tube: PSPMT)과 결합하여 한 개의 검출기를 구성하였으며, 총 16개 검출기를 지름 10 cm, 유효시야 8 cm인 원형으로 배열하였다. 검출기로부터 출력된 데이터는 소켓, 디코더, ADC, FPGA회로를 거쳐 전 처리 컴퓨터에 입력되고 마스터 컴퓨터에 저장 되도록 하였다. 결과: 시스템 개발의 초기 연구로 한쌍 검출기만 사용하여 단층영상을 획득하고 민감도와 공간분해능을 측정하였다. 점선원을 시야 중앙에 위치했을 때 공간분해능은 2.3 mm FWHM이고, 민감도는 10.9 $cps/{\mu}Ci$이었다. 결론: 구축한 시스템을 사용하여 선원의 위치와 모양변화를 정확하게 측정한 사이노그램과 PET 영상을 획득할 수 있었다. 이 연구는 고 분해능 고 민감도 PET 시스템 개발의 초기연구로, 소형 원형 PET 시스템 개발 가능성을 보여준다.lamate을 이용하여 측정한 사구체 여과율과 통계적으로 유의한 상관 관계를 보이지 않았다. 결론: Gates 방법을 이용한 사구체 여과율 측정에서 배후 방사능 관심 영역은 신장의 상방과 양측 신장사이, 즉 혈액 풀 방사능이 많이 분포하는 부위에 설정하는 것이 I-125-iothalamate을 이용한 사구체 여과율과 가장 높은 상관 관계를 보였고, 신장 깊이가 깊지 않은 2군에서 두 사구체 여과율은 더 높은 상관 관계를 보였다.7%$, 25분일 때 $95{\pm}12%$, 40분일 때 $98{\pm}3%$로 통계학적으로 유의한 차이는 없었다(p>0.05). 항응고제 종류에 따른 결합효율은 헤파린을 사용한 경우 $89{\pm}20%$, CPDA를 사용한 경우 $97{\pm}6%$, ACD를 사용한 경우 $98{\pm}4%$로 CPDA와ACD를 사용한 경우에 유의하게 높은 결합효율을 보였다(p<0.001). 결론: 변형 체내 표지법으로 적혈구를 표지시 우수한 결합효율을 유지하기 위해서는 채취하는 혈액의 양은 3 mL 이상, 배양시간은 10분 이상(10분-40분), 항응고제는 ACD나 CPDA tinning 시간은 20분 이상(20-35분)을 유지하고, 가능한 rotating invertor를 사용하는 것이 좋을 것으로 생각된다.KC $\varepsilon$이 K562(Adr)세포에서 많이 발현되었으나, K562와 K562(Adr)세포에서는 verapamil처리에 따른 PKC 아형의 변화는 없었다. 결론: Verapamil은 암세포의 종류에 따라 MIBI와 TF의 섭취를 감소시켰고, 고용량에는 MDR세포의 섭취도 감소시켰으며 이러한 현상은 세포독성 이나 PKC효소 아형과는 관련이 없었다. 그러므로 MDR의 진단시 verapamil을

지식베이스 확장을 위한 멀티소스 비정형 문서에서의 정보 추출 시스템의 개발 (Development of Information Extraction System from Multi Source Unstructured Documents for Knowledge Base Expansion)

  • 최현승;김민태;김우주;신동욱;이용훈
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.111-136
    • /
    • 2018
  • 지식베이스를 구축하는 작업은 도메인 전문가가 온톨로지 스키마를 이해한 뒤, 직접 지식을 정제하는 수작업이 요구되는 만큼 비용이 많이 드는 활동이다. 이에, 도메인 전문가 없이 다양한 웹 환경으로부터 질의에 대한 답변 정보를 추출하기 위한 자동화된 시스템의 연구개발의 필요성이 제기되고 있다. 기존의 정보 추출 관련 연구들은 웹에 존재하는 다양한 형태의 문서 중 학습데이터와 상이한 형태의 문서에서는 정보를 효과적으로 추출하기 어렵다는 한계점이 존재한다. 또한, 기계 독해와 관련된 연구들은 문서에 정답이 있는 경우를 가정하고 질의에 대한 답변정보를 추출하는 경우로서, 문서의 정답포함 여부를 보장할 수 없는 실제 웹의 비정형 문서로부터의 정보추출에서는 낮은 성능을 보인다는 한계점이 존재한다. 본 연구에서는 지식베이스 확장을 위하여 웹에 존재하는 멀티소스 비정형 문서로부터 질의에 대한 정보를 추출하기 위한 시스템의 개발 방법론을 제안하고자 한다. 본 연구에서 제안한 방법론은 "주어(Subject)-서술어(Predicate)"로 구분된 질의에 대하여 위키피디아, 네이버 백과사전, 네이버 뉴스 3개 웹 소스로부터 수집된 비정형 문서로부터 관련 정보를 추출하며, 제안된 방법론을 적용한 시스템의 성능평가를 위하여, Wu and Weld(2007)의 모델을 베이스라인 모델로 선정하여 성능을 비교분석 하였다. 연구결과 제안된 모델이 베이스라인 모델에 비해, 위키피디아, 네이버 백과사전, 네이버 뉴스 등 다양한 형태의 문서에서 정보를 효과적으로 추출하는 강건한 모델임을 입증하였다. 본 연구의 결과는 현업 지식베이스 관리자에게 지식베이스 확장을 위한 웹에서 질의에 대한 답변정보를 추출하기 위한 시스템 개발의 지침서로서 실무적인 시사점을 제공함과 동시에, 추후 다양한 형태의 질의응답 시스템 및 정보추출 연구로의 확장에 기여할 수 있을 것으로 기대한다.

Deep Neural Network와 Convolutional Neural Network 모델을 이용한 산사태 취약성 매핑 (Landslide Susceptibility Mapping Using Deep Neural Network and Convolutional Neural Network)

  • 공성현;백원경;정형섭
    • 대한원격탐사학회지
    • /
    • 제38권6_2호
    • /
    • pp.1723-1735
    • /
    • 2022
  • 산사태는 가장 널리 퍼진 자연재해 중 하나로 인명 및 재산피해 뿐만 아니라 범 국가적 차원의 피해를 유발할 수 있기 때문에 효과적인 예측 및 예방이 필수적이다. 높은 정확도를 갖는 산사태 취약성도를 제작하려는 연구는 꾸준히 진행되고 있으며 다양한 모델이 산사태 취약성 분석에 적용되어 왔다. 빈도비 모델, logistic regression 모델, ensembles 모델, 인공신경망 등의 모델과 같이 픽셀기반 머신러닝 모델들이 주로 적용되어 왔고 최근 연구에서는 커널기반의 합성곱신경망 기법이 효과적이라는 사실과 함께 입력자료의 공간적 특성이 산사태 취약성 매핑의 정확도에 중요한 영향을 미친다는 사실이 알려졌다. 이러한 이유로 본 연구에서는 픽셀기반 deep neural network (DNN) 모델과 패치기반 convolutional neural network (CNN) 모델을 이용하여 산사태 취약성을 분석하는 것을 목적으로 한다. 연구지역은 산사태 발생 빈도가 높고 피해가 큰 인제, 강릉, 평창을 포함한 강원도 지역으로 설정하였고, 산사태 관련인자로는 경사도, 곡률, 하천강도지수, 지형습윤지수, 지형위치 지수, 임상경급, 임상영급, 암상, 토지이용, 유효토심, 토양모재, 선구조 밀도, 단층 밀도, 정규식생지수, 정규수분지수의 15개 데이터를 이용하였다. 데이터 전처리 과정을 통해 산사태관련인자를 공간데이터베이스로 구축하였으며 DNN, CNN 모델을 이용하여 산사태 취약성도를 작성하였다. 정량적인 지표를 통해 모델과 산사태 취약성도에 대한 검증을 진행하였으며 검증결과 패치기반의 CNN 모델에서 픽셀기반의 DNN 모델에 비해 3.4% 향상된 성능을 보였다. 본 연구의 결과는 산사태를 예측하는데 사용될 수 있고 토지 이용 정책 및 산사태 관리에 관한 정책 수립에 있어 기초자료 역할을 할 수 있을 것으로 기대된다.

부동산 정책 관련 트위터 게시물 분석을 통한 대중 여론 이해 (Understanding Public Opinion by Analyzing Twitter Posts Related to Real Estate Policy)

  • 김규리;오찬희;주영준
    • 한국문헌정보학회지
    • /
    • 제56권3호
    • /
    • pp.47-72
    • /
    • 2022
  • 본 연구는 시간의 흐름에 따른 부동산 정책의 주제 동향과 부동산 정책에 대한 대중의 감성 여론을 파악하고자 하였다. 부동산 정책 관련 키워드('부동산정책', '부동산대책')를 이용하여 2008년 2월 25일부터 2021년 8월 31일까지 13년 6개월 동안 작성된 총 91,740개의 트위터 게시물을 수집하였다. 데이터를 전처리하고 공급, 부동산세, 금리, 인구 분산으로 범주화 하여 총 18,925개의 게시물에 대하여 감성 분석과 다이나믹 토픽 모델 분석을 진행하였다. 범주별 키워드는 공급 범주(임대주택, 그린벨트, 신혼부부, 무주택자, 공급, 재건축, 분양), 부동산세 범주(종부세, 취득세, 보유세, 다주택자, 투기), 금리 범주(금리), 인구 분산 범주(세종, 신도시)와 같다. 감성 분석 결과, 한 명이 평균 하나 또는 두 개의 긍정 의견을 게시한 걸로 확인되었고, 부정, 중립 의견의 경우, 한 명이 두 개 또는 세 개의 게시물을 게시한 걸로 확인되었다. 또한 일부 대중들은 부동산 정책에 일관된 감정을 가지고 있지 않고 긍정, 부정, 중립의 의견을 모두 표현하는 것을 유추할 수 있었다. 다이나믹 토픽 모델링 결과, 부동산 투기 세력, 불로소득 주제에 대한 부정적인 반응이 꾸준히 파악되었으며, 긍정적인 주제로는 주택 공급 확대와 무주택자들의 부동산 구입 혜택에 대한 기대감을 확인할 수 있었다. 본 연구는 기존 선행연구들이 특정 부동산 정책의 변화와 평가에 초점을 맞춰 분석한 것과는 달리, 소셜미디어 플랫폼 중 하나인 트위터에서 게시물을 수집하고 감성 분석, 다이나믹 토픽 모델링 분석을 활용하여 부동산 정책 평가자인 대중의 감성과 여론을 알아보고 시간의 흐름에 따른 부동산 정책에 관한 잠재적 주제와 동향을 파악했다는 것에 학술적 의의가 있다. 또한, 본 연구를 통해 부동산 정책에 대한 대중의 여론에 기반한 새로운 정책 제정에 도움을 주려고 한다.

금융 특화 딥러닝 광학문자인식 기반 문서 처리 플랫폼 구축 및 금융권 내 활용 (Deep Learning OCR based document processing platform and its application in financial domain)

  • 김동영;김두형;곽명성;손현수;손동원;임민기;신예지;이현정;박찬동;김미향;최동원
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.143-174
    • /
    • 2023
  • 인공지능의 발전과 함께 딥러닝을 활용한 인공지능 광학문자인식 기법 (Artificial Intelligence powered Optical Character Recognition, AI-OCR) 의 등장은 기존의 이미지 처리 기반 OCR 기술의 한계를 넘어 다양한 형태의 이미지로부터 여러 언어를 높은 정확도로 읽어낼 수 있는 모델로 발전하였다. 특히, AI-OCR은 인력을 통해 대량의 다양한 서류 처리 업무를 수행하는 금융업에 있어 그 활용 잠재력이 크다. 본 연구에서는 금융권내 활용을 위한 AI-OCR 모델의 구성과 설계를 제시하고, 이를 효율적으로 적용하기 위한 플랫폼 구축 및 활용 사례에 대해 논한다. 금융권 특화 딥러닝 모델을 만듦에 있어 금융 도메인 데이터 사용은 필수적이나, 개인정보보호법 이하 실 데이터의 사용이 불가하다. 이에 본 연구에서는 딥러닝 기반 데이터 생성 모델을 개발하였고, 이를 활용하여 AI-OCR 모델 학습을 진행하였다. 다양한 서류 처리에 있어 유연한 데이터 처리를 위해 단계적 구성의 AI-OCR 모델들을 제안하며, 이는 이미지 전처리 모델, 문자 탐지 모델, 문자 인식 모델, 문자 정렬 모델 및 언어 처리 모델의 선택적, 단계적 사용을 포함한다. AI-OCR 모델의 배포를 위해 온프레미스(On-Premise) 및 프라이빗 클라우드(Private Cloud) 내 GPU 컴퓨팅 클러스터를 구성하고, Hybrid GPU Cluster 내 컨테이너 오케스트레이션을 통한 고효율, 고가용 AI-OCR 플랫폼 구축하여 다양한 업무 및 채널에 적용하였다. 본 연구를 통해 금융 특화 AI-OCR 모델 및 플랫폼을 구축하여 금융권 서류 처리 업무인 문서 분류, 문서 검증 및 입력 보조 시스템으로의 활용을 통해 업무 효율 및 편의성 증대를 확인하였다.

KOMPSAT-3A 전정색 영상의 윤곽 정보를 이용한 중적외선 영상 시인성 개선 (Improvement of Mid-Wave Infrared Image Visibility Using Edge Information of KOMPSAT-3A Panchromatic Image)

  • 이진민;김태헌;김한울;이홍탁;한유경
    • 대한원격탐사학회지
    • /
    • 제39권6_1호
    • /
    • pp.1283-1297
    • /
    • 2023
  • 중적외선(mid-wave infrared, MWIR) 영상은 피복 및 객체의 온도를 파악할 수 있어 환경, 국방 등 다양한 분야에서 핵심 데이터로 사용된다. KOMPSAT-3A 위성은 타 위성에 비해 높은 공간해상도의 MWIR 영상을 제공하지만, 광학(electro-optical, EO) 영상에 비해 상대적으로 낮은 시인성을 가져 활용성의 확대에 어려움을 겪는다. 이에 본 연구에서는 KOMPSAT-3A 전정색(panchromatic, PAN) 영상의 윤곽 정보를 기반으로 시인성이 높은 MWIR 융합 영상을 제작하고자 한다. 먼저, 이종 센서에서 취득된 PAN 영상과 MWIR 영상의 상대 기하오차를 제거하는 전처리를 수행하고, 딥러닝 기반 윤곽 정보 추출 기술인 Pixel difference network (PiDiNet)의 사전 학습 모델을 이용하여 PAN 영상에 대한 윤곽 정보를 추출한다. 이후 전처리된 MWIR 영상과 추출된 윤곽 정보를 중첩하여 객체 경계면이 강조된 MWIR 융합 영상을 제작한다. 제안 방법을 이용하여 서로 다른 세 지역에 대한 MWIR 융합 영상을 제작하였으며, 이를 시각적으로 분석하였다. 본 기법을 통해 제작된 MWIR 융합 영상은 지형 및 지물의 경계면이 강조되어 시인성이 개선되었으며, 세부적으로 관심 지역에 대한 열 정보를 전달할 수 있었다. 특히, MWIR 융합 영상에서는 저해상도의 원본 MWIR 영상에서 식별할 수 없었던 비행기, 선박 등의 객체를 육안으로 판독할 수 있었다. 본 연구는 가시적인 정보와 열 정보를 동시에 고려할 수 있는 단일 영상 제작 방법론을 제시하였으며, 이는 MWIR 영상의 활용성 확대에 이바지할 수 있을 것으로 사료된다.