통합 검색 | Korea Science

위성영상 검색에서 사용자 관심영역을 이용한 적합성 피드백 (Relevance Feedback using Region-of-interest in Retrieval of Satellite Images)

김성진;정진완;이석룡;김덕환
- 한국정보과학회논문지:데이타베이스
- /
- 제36권6호
- /
- pp.434-445
- /
- 2009
내용 기반 영상 검색(content based image retrieval)은 영상 자체의 정보를 이용하여 유사 영상을 검색하는 기법이다. 하지만 멀티미디어 데이터는 텍스트 데이터와 달리 얻을 수 있는 데이터가 정확하지 않고 또한 시스템에서 표현되는 데이터의 저차원(low-level)의 표현법과 사용자가 인식하는 고차원(high-level)의 개념(concept)은 상당한 차이를 나타내게 된다. 즉 시스템 상에서 벡터들로 표현된 영상 데이터들이 벡터스페이스 상에서는 가깝지만 실제 사용자는 유사하지 않다고 인식하는 문제점이 발생한다. 이를 의미적 간극(semantic-gap) 문제라고 부른다. 이런 의미적 간극 문제로 인해 영상검색 결과는 좋지 않은 성능을 보이게 된다. 이를 해결하기 위해 사용자의 피드백 정보를 이용하여 질의를 수정하는 적합성 피드백 기법이 널리 사용되고 있다. 하지만 기존의 적합성 피드백은 사용자의 관심영역(region-of-interest, 이하 ROI)를 고려하지 않아 적합한(relevant) 영역의 모든 영역들이 새로운 질의 점을 계산하는 과정에서 사용된다. 시스템은 그 스스로 사용자 관심영역을 알지 못하기 때문에 적합성 피드백을 영상수준(image-level)으로 진행하기 때문이다. 이 논문에서는 복잡한 위성영상 영역 검색에서 관심영역을 사용자가 직접 선택하도록 유도하여 더욱 정확한 질의 점을 계산하여 정확도를 높이는 사용자 관심영역 적합성 피드백 방법을 제시한다. 또한 사용자가 선택하지 않은 부정확한 영상 정보를 이용하여 정확도를 향상시키는 프루닝 기법도 함께 제시한다. 실험을 통하여 사용자 관심영역 적합성 피드백의 우수성과 함께 제안한 프루닝 기법의 효율성도 함께 보여준다.
PDF KSCI

기상 데이터와 미세먼지 데이터를 활용한 머신러닝 기반 미세먼지 예측 모형 (Machine learning-based Fine Dust Prediction Model using Meteorological data and Fine Dust data)

김혜림;문태헌
- 한국지리정보학회지
- /
- 제24권1호
- /
- pp.92-111
- /
- 2021
미세먼지는 질병, 산업·경제에 부정적인 영향을 미치고 있어 국민들은 미세먼지에 대해 예민하게 반응하고 있다. 따라서 미세먼지의 발생을 예측할 수 있다면, 미리 대응책을 마련할 수 있어 생활과 경제에 도움이 될 수 있다. 미세먼지의 발생은 기상과 미세먼지 배출원의 밀집 정도에 영향을 받는다. 산업부문은 미세먼지 배출량이 가장 많으며, 그 중에 산단은 공장들이 미세먼지 배출원이 되어 더 많은 미세먼지를 배출하는 문제가 있다. 본 연구는 지방도시에서 노후산업단지가 있는 지역을 선정하여, 미세먼지를 일으키는 요인을 탐색하고, 미세먼지 발생을 예측할 수 있는 예측모형을 개발하고자 한다. 기상 데이터와 미세먼지 관련 데이터를 활용하였고, 다중회귀분석을 통해 미세먼지 발생에 영향을 미치는 변수를 추출하였다. 이를 토대로 머신러닝 회귀학습기 모형으로 학습하여 예측력이 높은 모형을 추출하였고, 검증용 데이터를 이용하여 예측 모형의 성능을 검증하였다. 그 결과, 예측력이 높은 모형은 선형회귀모형, 가우스 과정 회귀모형, 서포트 벡터 머신으로 나타났으며, 훈련용 데이터의 비율과 예측력은 비례하지 않은 것으로 나타났다. 또한 예측치와 실측치 차이의 평균치는 크지 않지만, 미세먼지 실측치가 높을 때, 예측력이 다소 떨어지는 것으로 나타났다. 본 연구의 결과는 지자체 데이터 허브를 통해 기상데이터와 관련 도시 빅데이터를 결합함으로써 보다 체계적이고 정밀한 미세먼지 예측 서비스로 개발이 가능할 것이며, 스마트산단의 발전을 촉진하는 계기가 될 것이다.
https://doi.org/10.11108/kagis.2021.24.1.092 인용 PDF KSCI

Probing Sentence Embeddings in L2 Learners' LSTM Neural Language Models Using Adaptation Learning

Kim, Euhee
- 한국컴퓨터정보학회논문지
- /
- 제27권3호
- /
- pp.13-23
- /
- 2022
Prasad et al.는 사전학습(pre-trained)한 신경망 L1 글로다바(Gulordava) 언어모델을 여러 유형의 영어 관계절과 등위절 문장들로 적응 학습(adaptation learning)시켜 문장 간 유사성(sentence similarity)을 평가할 수 있는 통사 프라이밍(syntactic priming)-기반 프로빙 방법((probing method)을 제안했다. 본 논문에서는 한국인 영어학습자가 배우는 영어 자료를 바탕으로 훈련된 L2 LSTM 신경망 언어 모델의 영어 관계절 혹은 등위절 구조의 문장들에 대한 임베딩 표현 방식을 평가하기 위하여 프로빙 방법을 적용한다. 프로빙 실험은 사전 학습한 LSTM 언어 모델을 기반으로 추가로 적응 학습을 시킨 LSTM 언어 모델을 사용하여 문장 임베딩 벡터 표현의 통사적 속성을 추적한다. 이 프로빙 실험을 위한 데이터셋은 문장의 통사 구조를 생성하는 템플릿을 사용하여 자동으로 구축했다. 특히, 프로빙 과제별 문장의 통사적 속성을 분류하기 위해 통사 프라이밍을 이용한 언어 모델의 적응 효과(adaptation effect)를 측정했다. 영어 문장에 대한 언어 모델의 적응 효과와 통사적 속성 관계를 복합적으로 통계분석하기 위해 선형 혼합효과 모형(linear mixed-effects model) 분석을 수행했다. 제안한 L2 LSTM 언어 모델이 베이스라인 L1 글로다바 언어 모델과 비교했을 때, 프로빙 과제별 동일한 양상을 공유함을 확인했다. 또한 L2 LSTM 언어 모델은 다양한 관계절 혹은 등위절이 있는 문장들을 임베딩 표현할 때 관계절 혹은 등위절 세부 유형별로 통사적 속성에 따라 계층 구조로 구분하고 있음을 확인했다.
https://doi.org/10.9708/jksci.2022.27.03.013 인용 PDF KSCI HTML

전산유체역학 모델을 이용한 숭례문 주변의 풍환경 수치해석 (Numerical Analysis of Wind Environment around Sungnyemun Gate Using a Computational Fluid Dynamics Model)

손민우;김도용
- 보존과학회지
- /
- 제37권3호
- /
- pp.209-219
- /
- 2021
본 연구에서는 도심지에 위치한 숭례문을 중심으로 유입류 풍향 조건에 따라 변화되는 풍환경을 수치해석하였다. 이를 위해 지리정보시스템 자료와 전산유체역학 모델을 이용하여 대상영역의 상세 바람장을 수치모의하였으며, 벡터장, 3차원 바람속도성분, 풍속장 등에 대한 흐름특성을 분석하였다. 대상영역에서는 건물협곡을 따라 흐르는 바람길의 형성과 건물에 의한 바람의 회전 및 와류 등 급격한 풍향의 변화가 모의되었으며, 그 영향으로 숭례문 주변에서는 유입류의 풍향에 의존하지 않는 복잡한 흐름의 양상이 나타났다. 숭례문 지점에서의 풍속은 지표풍(지상 2 m)과 비교하여 상층마루 높이(지상 14 m)에서 평균 3배 이상 강하게 형성되었고, 유입류가 동풍인 경우에 전반적으로 높게 나타났으며, 숭례문의 남동 측면이 상대적으로 바람에 의한 영향이 클 것으로 예측되었다. 본 연구를 통하여, 고층건물 및 고밀도 건물군 등 인공구 조물에 의한 바람길 및 빌딩풍 등의 형성이 도심지에 위치한 건축문화재에 미치는 영향을 파악하고 대책을 마련하기 위한 상세 풍환경 평가의 필요성이 제시되었다.
https://doi.org/10.12654/JCS.2021.37.3.02 인용 PDF KSCI

A modified U-net for crack segmentation by Self-Attention-Self-Adaption neuron and random elastic deformation

Zhao, Jin;Hu, Fangqiao;Qiao, Weidong;Zhai, Weida;Xu, Yang;Bao, Yuequan;Li, Hui
- Smart Structures and Systems
- /
- 제29권1호
- /
- pp.1-16
- /
- 2022
Despite recent breakthroughs in deep learning and computer vision fields, the pixel-wise identification of tiny objects in high-resolution images with complex disturbances remains challenging. This study proposes a modified U-net for tiny crack segmentation in real-world steel-box-girder bridges. The modified U-net adopts the common U-net framework and a novel Self-Attention-Self-Adaption (SASA) neuron as the fundamental computing element. The Self-Attention module applies softmax and gate operations to obtain the attention vector. It enables the neuron to focus on the most significant receptive fields when processing large-scale feature maps. The Self-Adaption module consists of a multiplayer perceptron subnet and achieves deeper feature extraction inside a single neuron. For data augmentation, a grid-based crack random elastic deformation (CRED) algorithm is designed to enrich the diversities and irregular shapes of distributed cracks. Grid-based uniform control nodes are first set on both input images and binary labels, random offsets are then employed on these control nodes, and bilinear interpolation is performed for the rest pixels. The proposed SASA neuron and CRED algorithm are simultaneously deployed to train the modified U-net. 200 raw images with a high resolution of 4928 × 3264 are collected, 160 for training and the rest 40 for the test. 512 × 512 patches are generated from the original images by a sliding window with an overlap of 256 as inputs. Results show that the average IoU between the recognized and ground-truth cracks reaches 0.409, which is 29.8% higher than the regular U-net. A five-fold cross-validation study is performed to verify that the proposed method is robust to different training and test images. Ablation experiments further demonstrate the effectiveness of the proposed SASA neuron and CRED algorithm. Promotions of the average IoU individually utilizing the SASA and CRED module add up to the final promotion of the full model, indicating that the SASA and CRED modules contribute to the different stages of model and data in the training process.
https://doi.org/10.12989/sss.2022.29.1.001 인용 KSCI

비정형 텍스트 데이터 분석을 활용한 기록관리 분야 연구동향 (Research Trends in Record Management Using Unstructured Text Data Analysis)

홍덕용;허준석
- 한국기록관리학회지
- /
- 제23권4호
- /
- pp.73-89
- /
- 2023
본 연구에서는 텍스트 마이닝 기법을 활용하여 국내 기록관리 연구 분야의 비정형 텍스트 데이터인 국문 초록에서 사용된 키워드 빈도를 분석하여 키워드 간 거리 분석을 통해 국내기록관리 연구 동향을 파악하는 것이 목적이다. 이를 위해 한국학술지인용색인(Korea Citation Index, KCI)의 학술지 기관통계(등재지, 등재후보지)에서 대분류(복합학), 중분류 (문헌정보학)으로 검색된 학술지(28종) 중 등재지 7종 1,157편을 추출하여 77,578개의 키워드를 시각화하였다. Word2vec를 활용한 t-SNE, Scattertext 등의 분석을 수행하였다. 분석 결과, 첫째로 1,157편의 논문에서 얻은 77,578개의 키워드를 빈도 분석한 결과, "기록관리" (889회), "분석"(888회), "아카이브"(742회), "기록물"(562회), "활용"(449회) 등의 키워드가 연구자들에 의해 주요 주제로 다뤄지고 있음을 확인하였다. 둘째로, Word2vec 분석을 통해 키워드 간의 벡터 표현을 생성하고 유사도 거리를 조사한 뒤, t-SNE와 Scattertext를 활용하여 시각화하였다. 시각화 결과에서 기록관리 연구 분야는 두 그룹으로 나누어졌는데 첫 번째 그룹(과거)에는 "아카이빙", "국가기록관리", "표준화", "공문서", "기록관리제도" 등의 키워드가 빈도가 높게 나타났으며, 두 번째 그룹(현재)에는 "공동체", "데이터", "기록정보서비스", "온라인", "디지털 아카이브" 등의 키워드가 주요한 관심을 받고 있는 것으로 나타났다.
https://doi.org/10.14404/JKSARM.2023.23.4.073 인용 PDF

오일러와 라그랑주 관측방식의 연직 자료 비교 (Comparison of the Vertical Data between Eulerian and Lagrangian Method)

배혁진;권병혁;김상진;이경훈;이건명;김유진;서지우;구유정
- 한국전자통신학회논문지
- /
- 제18권6호
- /
- pp.1009-1014
- /
- 2023
복합 환경 신도시의 시공간 고해상도 관측 자료 확보를 위해 오일러 방식과 라그랑주 방식의 종합 관측이 수행되었다. 라그랑주 방식인 두 라디오존데는 관측지점이 다르거나 관측 시각이 달라도 대체로 서로 일치하는 기압, 풍속, 풍향을 산출하였다. 온도 센서가 노출된 라디오존데는 낮 동안 고도가 높아지면서 태양 복사의 영향을 받아 상대적으로 높은 기온을 산출하였다. 오일러 방식의 윈드프로파일러와 라디오존데 비교에서 관측 시각의 차이에 따른 풍향과 풍속의 차이를 확인하였다. 수평적으로 균질장이 아닐 때, 두 관측방식의 자료를 비교하려면 이류 성분을 고려할 필요성을 의미하는 결과이다. 본 연구에서는 두 관측방식 자료의 효과적 비교를 위해 오일러 방식의 관측 주기에 따른 고도 구간별로 다른 시각의 관측 자료를 사용하는 방법을 제시하였다.
https://doi.org/10.13067/JKIECS.2023.18.6.1009 인용 PDF

페이즈 정보를 이용한 텍스처 영상 분할 연구 (A Study of Textured Image Segmentation using Phase Information)

오석
- 한국컴퓨터정보학회논문지
- /
- 제16권2호
- /
- pp.249-256
- /
- 2011
텍스처 영상을 표현할 수 있는 새로운 특징(feature)의 개발은 텍스처 영상 연구에서 가장 중요한 분야 중 하나이다. 모든 종류의 텍스처 영상을 표현하는 완벽한 특징의 집합을 정립하는 것은 불가능하여 텍스처 영상을 분석하는 분야에 따라 적절한 텍스처 특징을 사용하여야 하기 때문이다. 본 논문의 첫 번째 연구 목적은 텍스처 영상을 분할하는데 유용한 새로운 텍스처 특징을 찾아내는 것이다. 실험 텍스처를 통해 본 논문에서 제안하는 새로운 특징의 영상 분할에서의 유용성 검증도 제시하였다. 한편 본 논문에서 제안한 텍스처 특징은 페이즈의 미분 데이터이다. 페이즈 정보는 텍스처에 가버 함수를 필터로 적용한 결과 영상으로부터 구해지는데, 페이즈 정보는 지금까지 텍스처 특징으로 사용하기에는 적절하지 않다고 알려져 왔으며 관련 연구도 미미한 상태이다. 그 이유는 페이즈 정보를 계산하는 방법으로 역탄젠트 오퍼레이터를 적용하여 구하는데, 이렇게 구한 페이즈 값은 $-{\pi}/2$와 ${\pi}/2$ 범위에서 정의 되는 불연속 값들이기 때문이다. 이러한 불연속적인 페이즈 데이터는 텍스처에 대한 정보를 적절하게 표현하지 못하고 왜곡된 정보를 만든다. 물론 불연속적인 페이즈 데이터를 연속적인 페이즈 데이터로 변환하는 언랩핑은 이론적으로는 불연속의 문제를 해결하지만 실제적인 적용에서는 문제점을 노출시킨다. 즉 실수와 허수 부문이 모두 0인 지점을 중심으로 페이즈 불연속을 해결하는 과정에 따라 상이한 페이즈 데이터의 값들이 도출되어 정보가 왜곡된다. 본 논문의 두 번째 연구 목적은 이러한 단점을 근본적으로 회피하는 다른 방법을 찾는 것이다. 본 연구에서 제안하는 새로운 방법은 불연속적인 페이즈를 왜곡되고 복잡한 언래핑을 거치지 않고 바로 미분함으로써 영상분할에 필요한 데이터를 도출하는 것이다. 페이즈 미분 방식은페이즈 언랩핑 절차를 필요로 하지 않기 때문에 언랩핑의 왜곡을 회피하고, 알고리즘이 매우 간단해지며, 가버함수에 적용하는 필터도 자유롭게 선택할 수 있다는 장점을 가진다. 본 논문에서는 제시하는 방법의 유용성을 검증하기 위해 가버 필터를 적용하여 도출된 결과 영상으로부터 새롭게 제시한 방법으로 계산한 페이즈로 구성된 특징 벡터를 구해 텍스처 영상의 분할에 이용하였다. 실험 결과를통해 본 논문에서 제시한 새로운 방식이 텍스처 영상분할에 필요한 유용한 정보를 생성하는 것을 확인할 수 있었다.
https://doi.org/10.9708/jksci.2011.16.2.249 인용 PDF KSCI

Support Vector Regression을 이용한 GARCH 모형의 추정과 투자전략의 성과분석 (Estimation of GARCH Models and Performance Analysis of Volatility Trading System using Support Vector Regression)

김선웅;최흥식
- 지능정보연구
- /
- 제23권2호
- /
- pp.107-122
- /
- 2017
주식시장의 주가 수익률에 나타나는 변동성은 투자 위험의 척도로서 재무관리의 이론적 모형에서뿐만 아니라 포트폴리오 최적화, 증권의 가격 평가 및 위험관리 등 투자 실무 영역에서도 매우 중요한 역할을 하고 있다. 변동성은 주가 수익률이 평균을 중심으로 얼마나 큰 폭의 움직임을 보이는가를 판단하는 지표로서 보통 수익률의 표준편차로 측정한다. 관찰 가능한 표준편차는 과거의 주가 움직임에서 측정되는 역사적 변동성(historical volatility)이다. 역사적 변동성이 미래의 주가 수익률의 변동성을 예측하려면 변동성이 시간 불변적(time-invariant)이어야 한다. 그러나 대부분의 변동성 연구들은 변동성이 시간 가변적(time-variant)임을 보여주고 있다. 이에 따라 시간 가변적 변동성을 예측하기 위한 여러 계량 모형들이 제안되었다. Engle(1982)은 변동성의 시간 가변적 특성을 잘 반영하는 변동성 모형인 Autoregressive Conditional Heteroscedasticity(ARCH)를 제안하였으며, Bollerslev(1986) 등은 일반화된 ARCH(GARCH) 모형으로 발전시켰다. GARCH 모형의 실증 분석 연구들은 실제 증권 수익률에 나타나는 두터운 꼬리 분포 특성과 변동성의 군집현상(clustering)을 잘 설명하고 있다. 일반적으로 GARCH 모형의 모수는 가우스분포로부터 추출된 자료에서 최적의 성과를 보이는 로그우도함수에 대한 최우도추정법에 의하여 추정되고 있다. 그러나 1987년 소위 블랙먼데이 이후 주식 시장은 점점 더 복잡해지고 시장 변수들이 많은 잡음(noise)을 띠게 됨에 따라 변수의 분포에 대한 엄격한 가정을 요구하는 최우도추정법의 대안으로 인공지능모형에 대한 관심이 커지고 있다. 본 연구에서는 주식 시장의 주가 수익률에 나타나는 변동성의 예측 모형인 GARCH 모형의 모수추정방법으로 지능형 시스템인 Support Vector Regression 방법을 제안한다. SVR은 Vapnik에 의해 제안된 Support Vector Machines와 같은 원리를 회귀분석으로 확장한 모형으로서 Vapnik의 e-insensitive loss function을 이용하여 비선형 회귀식의 추정이 가능해졌다. SVM을 이용한 회귀식 SVR은 두터운 꼬리 분포를 보이는 주식시장의 변동성과 같은 관찰치에서도 우수한 추정 성능을 보인다. 2차 손실함수를 사용하는 기존의 최소자승법은 부최적해로서 추정 오차가 확대될 수 있다. Vapnik의 손실함수에서는 입실론 범위내의 예측 오차는 무시하고 큰 예측 오차만 손실로 처리하기 때문에 구조적 위험의 최소화를 추구하게 된다. 금융 시계열 자료를 분석한 많은 연구들은 SVR의 우수성을 보여주고 있다. 본 연구에서는 주가 변동성의 분석 대상으로서 KOSPI 200 주가지수를 사용한다. KOSPI 200 주가지수는 한국거래소에 상장된 우량주 중 거래가 활발하고 업종을 대표하는 200 종목으로 구성된 업종 대표주들의 포트폴리오이다. 분석 기간은 2010년부터 2015년까지의 6년 동안이며, 거래일의 일별 주가지수 종가 자료를 사용하였고 수익률 계산은 주가지수의 로그 차분값으로 정의하였다. KOSPI 200 주가지수의 일별 수익률 자료의 실증분석을 통해 기존의 Maximum Likelihood Estimation 방법과 본 논문이 제안하는 지능형 변동성 예측 모형의 예측성과를 비교하였다. 주가지수 수익률의 일별 자료 중 학습구간에서 대칭 GARCH 모형과 E-GARCH, GJR-GARCH와 같은 비대칭 GARCH 모형에 대하여 모수를 추정하고, 검증 구간 데이터에서 변동성 예측의 성과를 비교하였다. 전체 분석기간 1,487일 중 학습 기간은 1,187일, 검증 기간은 300일 이다. MLE 추정 방법의 실증분석 결과는 기존의 많은 연구들과 비슷한 결과를 보여주고 있다. 잔차의 분포는 정규분포보다는 Student t분포의 경우 더 우수한 모형 추정 성과를 보여주고 있어, 주가 수익률의 비정규성이 잘 반영되고 있다고 할 수 있다. MSE 기준으로, SVR 추정의 변동성 예측에서는 polynomial 커널함수를 제외하고 linear, radial 커널함수에서 MLE 보다 우수한 예측 성과를 보여주었다. DA 지표에서는 radial 커널함수를 사용한 SVR 기반의 지능형 GARCH 모형이 가장 우수한 변동성의 변화 방향에 대한 방향성 예측력을 보여주었다. 추정된 지능형 변동성 모형을 이용하여 예측된 주식 시장의 변동성 정보가 경제적 의미를 갖는지를 검토하기 위하여 지능형 변동성 거래 전략을 도출하였다. 지능형 변동성 거래 전략 IVTS의 진입규칙은 내일의 변동성이 증가할 것으로 예측되면 변동성을 매수하고 반대로 변동성의 감소가 예상되면 변동성을 매도하는 전략이다. 만약 변동성의 변화 방향이 전일과 동일하다면 기존의 변동성 매수/매도 포지션을 유지한다. 전체적으로 SVR 기반의 GARCH 모형의 투자 성과가 MLE 기반의 GARCH 모형의 투자 성과보다 높게 나타나고 있다. E-GARCH, GJR-GARCH 모형의 경우는 MLE 기반의 GARCH 모형을 이용한 IVTS 전략은 손실이 나지만 SVR 기반의 GARCH 모형을 이용한 IVTS 전략은 수익으로 나타나고 있다. SVR 커널함수에서는 선형 커널함수가 더 좋은 투자 성과를 보여주고 있다. 선형 커널함수의 경우 투자 수익률이 +526.4%를 기록하고 있다. SVR 기반의 GARCH 모형을 이용하는 IVTS 전략의 경우 승률도 51.88%부터 59.7% 사이로 높게 나타나고 있다. 옵션을 이용하는 변동성 매도전략은 방향성 거래전략과 달리 하락할 것으로 예측된 변동성의 예측 방향이 틀려 변동성이 소폭 상승하거나 변동성이 하락하지 않고 제자리에 있더라도 옵션의 시간가치 요인 때문에 전체적으로 수익이 실현될 수도 있다. 정확한 변동성의 예측은 자산의 가격 결정뿐만 아니라 실제 투자에서도 높은 수익률을 얻을 수 있기 때문에 다양한 형태의 인공신경망을 활용하여 더 나은 예측성과를 보이는 변동성 예측 모형을 개발한다면 주식시장의 투자자들에게 좋은 투자 정보를 제공하게 될 것이다.
https://doi.org/10.13088/jiis.2017.23.2.107 인용 PDF KSCI

CNN-LSTM 조합모델을 이용한 영화리뷰 감성분석 (Sentiment Analysis of Movie Review Using Integrated CNN-LSTM Mode)

박호연;김경재
- 지능정보연구
- /
- 제25권4호
- /
- pp.141-154
- /
- 2019
인터넷 기술과 소셜 미디어의 빠른 성장으로 인하여, 구조화되지 않은 문서 표현도 다양한 응용 프로그램에 사용할 수 있게 마이닝 기술이 발전되었다. 그 중 감성분석은 제품이나 서비스에 내재된 사용자의 감성을 탐지할 수 있는 분석방법이기 때문에 지난 몇 년 동안 많은 관심을 받아왔다. 감성분석에서는 주로 텍스트 데이터를 이용하여 사람들의 감성을 사전 정의된 긍정 및 부정의 범주를 할당하여 분석하며, 이때 사전 정의된 레이블을 이용하기 때문에 다양한 방향으로 연구가 진행되고 있다. 초기의 감성분석 연구에서는 쇼핑몰 상품의 리뷰 중심으로 진행되었지만, 최근에는 블로그, 뉴스기사, 날씨 예보, 영화 리뷰, SNS, 주식시장의 동향 등 다양한 분야에 적용되고 있다. 많은 선행연구들이 진행되어 왔으나 대부분 전통적인 단일 기계학습기법에 의존한 감성분류를 시도하였기에 분류 정확도 면에서 한계점이 있었다. 본 연구에서는 전통적인 기계학습기법 대신 대용량 데이터의 처리에 우수한 성능을 보이는 딥러닝 기법과 딥러닝 중 CNN과 LSTM의 조합모델을 이용하여 감성분석의 분류 정확도를 개선하고자 한다. 본 연구에서는 대표적인 영화 리뷰 데이터셋인 IMDB의 리뷰 데이터 셋을 이용하여, 감성분석의 극성분석을 긍정 및 부정으로 범주를 분류하고, 딥러닝과 제안하는 조합모델을 활용하여 극성분석의 예측 정확도를 개선하는 것을 목적으로 한다. 이 과정에서 여러 매개 변수가 존재하기 때문에 그 수치와 정밀도의 관계에 대해 고찰하여 최적의 조합을 찾아 정확도 등 감성분석의 성능 개선을 시도한다. 연구 결과, 딥러닝 기반의 분류 모형이 좋은 분류성과를 보였으며, 특히 본 연구에서 제안하는 CNN-LSTM 조합모델의 성과가 가장 우수한 것으로 나타났다.
https://doi.org/10.13088/jiis.2019.25.4.141 인용 PDF KSCI

검색결과 616건 처리시간 0.028초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)