통합 검색 | Korea Science

선택적 자질 차원 축소를 이용한 최적의 지도적 LSA 방법 (Optimal supervised LSA method using selective feature dimension reduction)

김정호;김명규;차명훈;인주호;채수환
- 감성과학
- /
- 제13권1호
- /
- pp.47-60
- /
- 2010
기존 웹 페이지 자동분류 연구는 일반적으로 학습 기반인 kNN(k-Nearest Neighbor), SVM(Support Vector Machine)과 통계 기반인 Bayesian classifier, NNA(Neural Network Algorithm)등 여러 종류의 분류작업에서 입증된 분류 기법을 사용하여 웹 페이지를 분류하였다. 하지만 인터넷 상의 방대한 양의 웹 페이지와 각 페이지로부터 나오는 많은 양의 자질들을 처리하기에는 공간적, 시간적 문제에 직면하게 된다. 그리고 분류 대상을 표현하기 위해 흔히 사용하는 단일(uni-gram) 자질 기반에서는 자질들 간의 관계 분석을 통해 자질에 정확한 의미를 부여하기 힘들다. 특히 본 논문의 분류 대상인 한글 웹 페이지의 자질인 한글 단어는 중의적인 의미를 가지는 경우가 많기 때문에 이러한 중의성이 분류 작업에 많은 영향을 미칠 수 있다. 잠재적 의미 분석 LSA(Latent Semantic Analysis) 분류기법은 선형 기법인 특이치 분해 SVD(Singular Value Decomposition)을 통해 행렬의 분해 및 차원 축소(dimension reduction)를 수행하여 대용량 데이터 집합의 분류를 효율적으로 수행하고, 또한 차원 축소를 통해 새로운 의미공간을 생성하여 자질들의 중의적 의미를 분석할 수 있으며 이 새로운 의미공간상에 분류 대상을 표현함으로써 분류 대상의 잠재적 의미를 분석할 수 있다. 하지만 LSA의 차원 축소는 전체 데이터의 표현 정도만을 고려할 뿐 분류하고자 하는 범주를 고려하지 않으며 또한 서로 다른 범주 간의 차별성을 고려하지 않기 때문에 축소된 차원 상에서 분류 시 서로 다른 범주 데이터간의 모호한 경계로 인해 안정된 분류 성능을 나타내지 못한다. 이에 본 논문은 새로운 의미공간(semantic space) 상에서 서로 다른 범주사이의 명확한 구분을 위한 특별한 차원 선택을 수행하여 최적의 차원 선택과 안정된 분류성능을 보이는 최적의 지도적 LSA을 소개한다. 제안한 지도적 LSA 방법은 기본 LSA 및 다른 지도적 LSA 방법들에 비해 저 차원 상에서 안정되고 더 높은 성능을 보였다. 또한 추가로 자질 생성 및 선택 시 불용어의 제거와 자질에 대한 가중치를 통계적인 학습을 통해 얻음으로써 더 높은 학습효과를 유도하였다.
PDF

장력 침투계(Disk Tension Infiltrometer)와 van Genuchten-Mualem 모형 적용에 따른 불포화수리 전도도의 비교 해석 (Comparison of Disk Tension Infiltrometer and van Genuchten-Mualem Model on Estimation of Unsaturated Hydraulic Conductivity)

허승오;정강호;박찬원;하상건;김정규
- 한국토양비료학회지
- /
- 제39권5호
- /
- pp.259-267
- /
- 2006
수리 전도도는 수리구배에 대한 플럭스의 비율을 나타내며, 포화된 토양에서의 물의 이동이 포화수리전도도이고 불포화된 토양에서의 이동이 불포화수리전도도이다. 일반적인 밭 상태에서의 토양수분 조건은 불포화수리전도도로 표시하는 것이 적절하나 그 상태를 표현하기가 쉽지 않다. 토양의 불포화 상태를 나타내는데 가장 많이 쓰이고 있는 VGM(van Genuchten Mualem) 모형은 토양수분 포텐셜과 수분함량의 함수로 구성된 모형이며 몇 가지 매개변수가 필요하다. VGM 모형의 매개변수를 얻기 위해 본 연구에서는 VGM 모형의 매개변수를 계산해주는 프로그램인 Rosetta를 사용하였다. Rosetta 모형은 신경그물 얼개(neural network)를 이용하여 토양의 물리적 자료들인 토성이나 모래, 미사, 점토 함량 또는 용적밀도나 33 kPa, 1500 kPa에서의 토양수분 함량 자료를 가지고 VGM의 매개변수인 Ko(effedive saturated hydraulic conductivity), ${\theta}r$(residual soil water content), ${\theta}s$(saturated soil water content), L, n, m(=1-1/n)을 예측하는 모형으로 미국 농무성(USDA-ARS)에서 개발한 프로그램이다. Rosetta를 이용하여 10kPa에서의 불포화수리전도도를 예측하였다. 또한 Gardner와 Wooding의 모형을 기반으로 하여 만들어진 장력침투계의 포화수리전도도 값을 Gardner식에 적용하여 1, 3, 5, 7 kPa에서의 불포화수리전도도 값을 17개 토양통을 대상으로 하여 구했다. 토양수분 potential이 3 kPa에서는 물의 이동이 거의 없는 토양들이 있었는데 반해 남계통을 비롯한 학곡통, 회곡통, 백산통, 상주통, 석천통, 예산통 등 7개의 토양은 3 kPa에서도 약간의 물의 이동이 있었다. 또한, 1 kPa에서 물의 이동은 삼각통에서 $40.8{\times}10^{-5}cm{\cdot}sec^{-1}$로 이동 속도가 가장 컸으며 그 뒤로 예산통, 화봉통, 학곡통, 백산통 등이 토양에서 빠른 속도로 이동하였다. 가천통이나 석천통 및 우곡통은 1 kPa에서의 이동 속도가 아주 느린 토양으로 판단되었다. PTF와 VG모형에 의해 얻어진 10 kPa에서의 수분함량 예측 값을 VGM 모형에 적용해 불포화수리전도도를 구했을 때, VG모형에 의한 예측 값은 존재하는 반면 PTF에 의한 값은 결측 값이 존재해 그 적용에 한계가 있었다. 그리고 1 kPa에서 불포화 수리전도도를 VGM 모형으로 예측한 값과 측정된 값을 Gardner 모형으로 해석한 값을 비교했을 때 자갈이 없는 토양에서는 일정한 경향(exponential 함수)이 존재한 반면, 자갈이 있는 토양에서는 경향을 발견할 수가 없었다. 이상의 결과로 불포화 수리전도도 특성평가에 대한 VGM 모형의 적용성을 살펴보았을 때는 우리나라와 같이 경사지가 많고 토심이 깊지 않으면서 자갈함량이 많은 토양에서는 한계가 있을 것으로 판단되었다.
PDF KSCI

주파수 및 시간 특성을 활용한 머신러닝 기반 공동주택 주거소음의 군집화 및 분류 (Clustering and classification of residential noise sources in apartment buildings based on machine learning using spectral and temporal characteristics)

김정훈;이송미;김수홍;송은성;류종관
- 한국음향학회지
- /
- 제42권6호
- /
- pp.603-616
- /
- 2023
본 연구는 주파수 및 시간 특성을 활용하여 머신러닝 기반 공동주택 주거소음의 군집화 및 분류를 진행하였다. 먼저, 공동주택 주거소음의 군집화 및 분류를 진행하기 위하여 주거소음원 데이터셋을 구축하였다. 주거소음원 데이터셋은 바닥충격음, 공기전달음, 급배수 및 설비소음, 환경소음, 공사장 소음으로 구성되었다. 각 음원의 주파수 특성은 1/1과 1/3 옥타브 밴드별 L_eq와 L_max값을 도출하였으며, 시간적 특성은 5 s 동안의 6 ms 간격의 음압레벨 분석을 통해 L_eq값을 도출하였다. 공동주택 주거소음원의 군집화는 K-Means clustering을 통해 진행하였다. K-Means의 k의 개수는 실루엣 계수와 엘보우 방법을 통해 결정하였다. 주파수 특성을 통한 주거소음원 군집화는 모든 평가지수에서 3개로 군집되었다. 주파수 특성 기준으로 분류된 각 군집별 시간적 특성을 통한 주거소음원 군집화는 L_eq평가지수의 경우 9개, L_max 경우는 11개로 군집되었다. 주파수 특성을 통해 군집된 각 군집은 타 주파수 대역 대비 저주파 대역의 음에너지의 비율 또한 조사되었다. 이후, 군집화 결과를 활용하기 위한 방안으로 세 종류의 머신러닝 방법을 이용해 주거소음을 분류하였다. 주거소음 분류 결과, 1/3 옥타브 밴드의 L_eq값으로 라벨링된 데이터에서 가장 높은 정확도와 f1-score가 나타났다. 또한, 주파수 및 시간적 특성을 모두 사용하여 인공신경망(Artificial Neural Network, ANN) 모델로 주거소음원을 분류했을 때 93 %의 정확도와 92 %의 f1-score로 가장 높게 나타났다.
https://doi.org/10.7776/ASK.2023.42.6.603 인용 PDF

GOCI-II 기반 저염분수 산출과 태풍 힌남노에 의한 시간별 염분 변화 (GOCI-II Based Low Sea Surface Salinity and Hourly Variation by Typhoon Hinnamnor)

김소현;김대원;조영헌
- 대한원격탐사학회지
- /
- 제39권6_2호
- /
- pp.1605-1613
- /
- 2023
해양 내의 다양한 물리적 변화는 수온과 염분의 지속적인 변동에 의해 결정된다. 수온과 더불어 넓은 영역의 염분 변화를 파악하기 위해서는 인공위성 자료에 의존할 수밖에 없다. 그럼에도 불구하고 염분을 관측하는 위성인 Soil Moisture Active Passive (SMAP)는 낮은 시·공간 해상도로 인해 연안 근처에서 빠르게 변화하는 해양환경을 관측하기에는 어렵다는 한계가 존재한다. 이러한 한계를 극복하기 위해 본 연구에서는 천리안 해양 관측 위성의 정지궤도 해색 센서인 Geostationary Ocean Color Imager-II (GOCI-II) 원격반사도 자료를 입력자료로 하여 고해상도 표층 염분을 산출하는 Multi-layer Perceptron Neural Network (MPNN) 기반의 알고리즘을 개발하였다. SMAP과 비교한 결과 coefficient of determination (R²)는 0.94, root mean square error (RMSE)는 0.58 psu 그리고 relative root mean square error (RRMSE)는 1.87%였으며, 공간적인 분포 또한 매우 유사한 결과를 나타냈다. R²의 공간 분포는 0.8 이상을 보여주었으며 RMSE는 전반적으로 1 psu 이하의 낮은 값을 보여주었다. 이어도 과학기지에서의 실측 염분값과도 비교하였지만 상대적으로 조금 낮은 결과를 보여주었다. 이에 대한 원인을 분석하였으며, 산출된 GOCI-II 기반 고해상도 염분 자료를 활용하여 2022년 11호 태풍 힌남노에 의한 하루 동안의 동중국해 표층 염분 변화를 표준편차로 계산하였다. 그 결과 SMAP에서 관측할 수 없는 시공간의 염분 변화를 고해상도의 GOCI-II 기반 염분 산출물을 통해 확인할 수 있었다. 따라서 본 연구를 통해 시간 단위로 변화하는 해양환경 모니터링에 큰 기여를 할 것으로 기대된다.
https://doi.org/10.7780/kjrs.2023.39.6.2.8 인용 PDF HTML

CNN을 적용한 한국어 상품평 감성분석: 형태소 임베딩을 중심으로 (Sentiment Analysis of Korean Reviews Using CNN: Focusing on Morpheme Embedding)

박현정;송민채;신경식
- 지능정보연구
- /
- 제24권2호
- /
- pp.59-83
- /
- 2018
고객과 대중의 니즈를 파악하기 위한 감성분석의 중요성이 커지면서 최근 영어 텍스트를 대상으로 다양한 딥러닝 모델들이 소개되고 있다. 본 연구는 영어와 한국어의 언어적인 차이에 주목하여 딥러닝 모델을 한국어 상품평 텍스트의 감성분석에 적용할 때 부딪히게 되는 기본적인 이슈들에 대하여 실증적으로 살펴본다. 즉, 딥러닝 모델의 입력으로 사용되는 단어 벡터(word vector)를 형태소 수준에서 도출하고, 여러 형태소 벡터(morpheme vector) 도출 대안에 따라 감성분석의 정확도가 어떻게 달라지는지를 비정태적(non-static) CNN(Convolutional Neural Network) 모델을 사용하여 검증한다. 형태소 벡터 도출 대안은 CBOW(Continuous Bag-Of-Words)를 기본적으로 적용하고, 입력 데이터의 종류, 문장 분리와 맞춤법 및 띄어쓰기 교정, 품사 선택, 품사 태그 부착, 고려 형태소의 최소 빈도수 등과 같은 기준에 따라 달라진다. 형태소 벡터 도출 시, 문법 준수도가 낮더라도 감성분석 대상과 같은 도메인의 텍스트를 사용하고, 문장 분리 외에 맞춤법 및 띄어쓰기 전처리를 하며, 분석불능 범주를 포함한 모든 품사를 고려할 때 감성분석의 분류 정확도가 향상되는 결과를 얻었다. 동음이의어 비율이 높은 한국어 특성 때문에 고려한 품사 태그 부착 방안과 포함할 형태소에 대한 최소 빈도수 기준은 뚜렷한 영향이 없는 것으로 나타났다.
https://doi.org/10.13088/jiis.2018.24.2.059 인용 PDF KSCI

기후변화에 따른 남강유역의 수문환경의 변화가 하천수질에 미치는 영향 (Effect of Change in Hydrological Environment by Climate Change on River Water Quality in Nam River Watershed)

강지윤;김영도;강부식
- 한국수자원학회논문집
- /
- 제46권8호
- /
- pp.873-884
- /
- 2013
우리나라는 몬순기후의 영향으로 여름철 강우가 집중되기 때문에 작은 기후변화에도 심각한 수자원의 문제를 야기시킬 수 있다. 이로 인해 기후변화에 대한 많은 관심이 집중되어 그에 따른 연구도 활발히 진행되고 있다. 본 연구는 남강유역에서의 미래 기후변화에 의한 하천의 흐름과 수질변화를 예측하기 위해 유역-하천모형을 연계하여 하고자 하였다. 인공신경망기법을 이용하여 기후시나리오를 예측한 후 유역수문 모형인 SWAT모형을 구축하였고 모형의 적용성 평가를 위해 환경부자료를 이용하여 검보정한 결과 $R^2$이 0.7 이상으로 적정수준으로 모의되었다. SWAT의 결과와 HEC-ResSIM을 이용한 미래 남강댐 방류량을 QUALKO의 입력 자료로 사용하였다. 그 결과 저수기에는 풍수기와는 달리 연도별 유량에 따라 BOD가 많게는 약 2mg/L의 차이를 보이는 등 변화 폭이 크게 나타났다. 강우와 유역의 유출이 하천의 수질에 큰 영향을 끼치기 때문에 풍수기에 비해 유량이 적은 저수기에 수질 농도가 높은 것을 알 수 있다. 그러므로 남강댐의 저수기의 용수확보를 통해 남강하류 하천의 유지용수를 확보하고 효율적인 관리를 통해 향상된 수질을 관리 할 수 있을 것으로 판단된다.
https://doi.org/10.3741/JKWRA.2013.46.8.873 인용 PDF KSCI

한글 텍스트 감정 이진 분류 모델 생성을 위한 미세 조정과 전이학습에 관한 연구 (A Study on Fine-Tuning and Transfer Learning to Construct Binary Sentiment Classification Model in Korean Text)

김종수
- 한국산업정보학회논문지
- /
- 제28권5호
- /
- pp.15-30
- /
- 2023
근래에 트랜스포머(Transformer) 구조를 기초로 하는 ChatGPT와 같은 생성모델이 크게 주목받고 있다. 트랜스포머는 다양한 신경망 모델에 응용되는데, 구글의 BERT(bidirectional encoder representations from Transformers) 문장생성 모델에도 사용된다. 본 논문에서는, 한글로 작성된 영화 리뷰에 대한 댓글이 긍정적인지 부정적인지를 판단하는 텍스트 이진 분류모델을 생성하기 위해서, 사전 학습되어 공개된 BERT 다국어 문장생성 모델을 미세조정(fine tuning)한 후, 새로운 한국어 학습 데이터셋을 사용하여 전이학습(transfer learning) 시키는 방법을 제안한다. 이를 위해서 104 개 언어, 12개 레이어, 768개 hidden과 12개의 집중(attention) 헤드 수, 110M 개의 파라미터를 사용하여 사전 학습된 BERT-Base 다국어 문장생성 모델을 사용했다. 영화 댓글을 긍정 또는 부정 분류하는 모델로 변경하기 위해, 사전 학습된 BERT-Base 모델의 입력 레이어와 출력 레이어를 미세 조정한 결과, 178M개의 파라미터를 가지는 새로운 모델이 생성되었다. 미세 조정된 모델에 입력되는 단어의 최대 개수 128, batch_size 16, 학습 횟수 5회로 설정하고, 10,000건의 학습 데이터셋과 5,000건의 테스트 데이터셋을 사용하여 전이 학습시킨 결과, 정확도 0.9582, 손실 0.1177, F1 점수 0.81인 문장 감정 이진 분류모델이 생성되었다. 데이터셋을 5배 늘려서 전이 학습시킨 결과, 정확도 0.9562, 손실 0.1202, F1 점수 0.86인 모델을 얻었다.
https://doi.org/10.9723/jksiis.2023.28.5.015 인용 PDF

한국관광 실태조사 빅 데이터 분석을 통한 관광산업 활성화 방안 연구 (A Study on the Revitalization of Tourism Industry through Big Data Analysis)

이정미;류미나;임규건
- 지능정보연구
- /
- 제24권2호
- /
- pp.149-169
- /
- 2018
본 연구에서는 한국문화관광연구원에서 조사된 "2013년~2015년 외래 관광객 실태조사"의 약 36,000개 데이터에 대한 빅 데이터 분석을 통해 관광산업 활성화 방안을 도출해 보고자 한다. 이를 위해서 외래 관광객들의 '전반적 만족도', '재방문 의사', '추천의사' 변수에 가장 많은 영향을 끼치는 요인을 분석하고 해당 요인들의 각각에 대한 영향력에 대해 파악 하였다. 본 연구에서는 SPSS IBM Modeler 16.0의 의사결정나무(C5.0, CART, CHAID, QUEST), 인공신경망, 로지스틱 회귀분석의 데이터마이닝 기법을 이용하여 종속변수에 가장 큰 영향을 미치는 상위 변수 7개씩을 각각 도출하였고, 추가적으로 각 독립변수들의 영향력을 심도 있게 파악하기 위하여 R프로그래밍을 활용하여 SPSS IBM Modeler 16.0을 통해 도출된 각 독립변수들의 영향력을 파악하였다. 데이터 분석 결과 '전반적 만족도'에 가장 영향을 미치는 상위 변수 7개는 관광지매력도, 음식만족도, 숙박만족도, 교통수단만족도, 안내서비스만족도, 방문관광지수, 국가로 나타났으며 가장 큰 영향력을 미친 변수는 음식만족도와 관광지매력도로 분석되었다. '재방문 의사'에 가장 영향을 미치는 상위 변수 7개로는 국가, 여행 동기, 활동, 음식만족도, 제일 좋았던 활동, 관광안내서비스만족도, 관광지매력도로 나타났으며 그중 가장 큰 영향력을 미친 변수는 음식만족도와 여행 동기로 분석되었다. 마지막으로 '추천의사'에 영향을 미치는 상위 변수 7개로는 국가, 관광지매력도, 방문관광지수, 음식만족도, 활동, 관광안내서비스만족도, 비용으로 나타났으며 가장 큰 영향력을 미친 변수는 국가, 관광지매력도, 음식만족도로 분석되었다. 따라서 세 변수에 공통적으로 영향을 끼치는 요인은 음식만족도, 관광지매력도로 분석되었으며 해당 요인들이 공통적으로 한국여행에 대한 전반적 만족도와 재방문 의사, 추천의사에 미치는 영향이 크다는 것을 확인할 수 있었다. 본 연구는 외래 관광객들의 한국관광에 대한 활성화 방안을 "외래 관광객 실태조사" 빅 데이터 분석을 통해 규명함으로써 한국 관광 데이터 분석의 활용과 관광 정책 수립의 기초자료로 활용될 수 있을 것으로 기대되며 향후 기업 및 국가차원에서 한국 관광발전에 기여할 수 있는 활성화 방안을 마련하는 자료로 사용될 수 있을 것으로 기대한다.
https://doi.org/10.13088/jiis.2018.24.2.149 인용 PDF KSCI

Model Inversion Attack: Analysis under Gray-box Scenario on Deep Learning based Face Recognition System

Khosravy, Mahdi;Nakamura, Kazuaki;Hirose, Yuki;Nitta, Naoko;Babaguchi, Noboru
- KSII Transactions on Internet and Information Systems (TIIS)
- /
- 제15권3호
- /
- pp.1100-1118
- /
- 2021
In a wide range of ML applications, the training data contains privacy-sensitive information that should be kept secure. Training the ML systems by privacy-sensitive data makes the ML model inherent to the data. As the structure of the model has been fine-tuned by training data, the model can be abused for accessing the data by the estimation in a reverse process called model inversion attack (MIA). Although, MIA has been applied to shallow neural network models of recognizers in literature and its threat in privacy violation has been approved, in the case of a deep learning (DL) model, its efficiency was under question. It was due to the complexity of a DL model structure, big number of DL model parameters, the huge size of training data, big number of registered users to a DL model and thereof big number of class labels. This research work first analyses the possibility of MIA on a deep learning model of a recognition system, namely a face recognizer. Second, despite the conventional MIA under the white box scenario of having partial access to the users' non-sensitive information in addition to the model structure, the MIA is implemented on a deep face recognition system by just having the model structure and parameters but not any user information. In this aspect, it is under a semi-white box scenario or in other words a gray-box scenario. The experimental results in targeting five registered users of a CNN-based face recognition system approve the possibility of regeneration of users' face images even for a deep model by MIA under a gray box scenario. Although, for some images the evaluation recognition score is low and the generated images are not easily recognizable, but for some other images the score is high and facial features of the targeted identities are observable. The objective and subjective evaluations demonstrate that privacy cyber-attack by MIA on a deep recognition system not only is feasible but also is a serious threat with increasing alert state in the future as there is considerable potential for integration more advanced ML techniques to MIA.
https://doi.org/10.3837/tiis.2021.03.015 인용 PDF KSCI HTML

검색결과 9,871건 처리시간 0.041초

선택적 자질 차원 축소를 이용한 최적의 지도적 LSA 방법 (Optimal supervised LSA method using selective feature dimension reduction)

장력 침투계(Disk Tension Infiltrometer)와 van Genuchten-Mualem 모형 적용에 따른 불포화수리 전도도의 비교 해석 (Comparison of Disk Tension Infiltrometer and van Genuchten-Mualem Model on Estimation of Unsaturated Hydraulic Conductivity)

주파수 및 시간 특성을 활용한 머신러닝 기반 공동주택 주거소음의 군집화 및 분류 (Clustering and classification of residential noise sources in apartment buildings based on machine learning using spectral and temporal characteristics)

GOCI-II 기반 저염분수 산출과 태풍 힌남노에 의한 시간별 염분 변화 (GOCI-II Based Low Sea Surface Salinity and Hourly Variation by Typhoon Hinnamnor)

추천시스템관련 학술논문 분석 및 분류 (A Literature Review and Classification of Recommender Systems on Academic Journals)

CNN을 적용한 한국어 상품평 감성분석: 형태소 임베딩을 중심으로 (Sentiment Analysis of Korean Reviews Using CNN: Focusing on Morpheme Embedding)

기후변화에 따른 남강유역의 수문환경의 변화가 하천수질에 미치는 영향 (Effect of Change in Hydrological Environment by Climate Change on River Water Quality in Nam River Watershed)

한글 텍스트 감정 이진 분류 모델 생성을 위한 미세 조정과 전이학습에 관한 연구 (A Study on Fine-Tuning and Transfer Learning to Construct Binary Sentiment Classification Model in Korean Text)

한국관광 실태조사 빅 데이터 분석을 통한 관광산업 활성화 방안 연구 (A Study on the Revitalization of Tourism Industry through Big Data Analysis)

Model Inversion Attack: Analysis under Gray-box Scenario on Deep Learning based Face Recognition System

검색결과 9,871건 처리시간 0.041초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)