• 제목/요약/키워드: $A^*$알고리즘

검색결과 30,636건 처리시간 0.057초

천리안 해양위성 2호 산출물 및 품질관리 계획 (Introduction on the Products and the Quality Management Plans for GOCI-II)

  • 이순주;이경상;한태현;문정언;배수정;최종국
    • 대한원격탐사학회지
    • /
    • 제37권5_2호
    • /
    • pp.1245-1257
    • /
    • 2021
  • 세계 최초의 정지궤도 해색관측 위성인 GOCI의 임무를 승계한 천리안위성 2B호의 해양탑재체인 GOCI-II가 2020년 2월 발사되어 같은 해 10월부터 정규 운영되고 있다. 한국해양과학기술원은 실시간 수신한 GOCI-II 원시자료를 Level 1B와 26종 Level 2 산출물로 처리하며, 이 자료들은 국립해양조사원을 통해 서비스된다. 이 논문에서는 정규 운영 1년차의 위성자료 운영 현황을 소개하고, 향후 개선 방향을 제시하고자 하였다. GOCI-II의 기본 해색 산출물인 엽록소 농도, 총 부유물질 농도, 용존유기물 농도 산출물은 OC4, YOC 알고리즘으로 처리 중이며, 그 수식 및 프로세스에 대해 상세 기술하였다. GOCI-II에서 새롭게 추가된 전구 관측은 궤도상 시험운영기간 동안 태양천정각과 sun glint만 고려하여 관측 스케줄이 수립되었으나, 양질의 Level 2 산출물 생산을 위해 조건을 세분화하고 위성 천정각을 추가 고려하여 개선하였다. 그 결과 'Best Ocean'을 만족하는 슬롯의 개수가 15에서 78개로 대폭 증가하고, 'Bad Ocean'에 해당하는 슬롯이 55개에서 13개로 크게 감소하였다. GOCI-II의 산출물의 품질관리를 위해서 유럽우주국에서 정의하는 요구사항을 기반으로 GOCI-II 검보정 요구사항을 제시하였다. 그리고 GOCI 검보정 사이트를 기반으로 하되, 향상된 위성 스펙을 고려하여 지역 관측 검보정을 위한 추가 고정점 검보정 사이트 후보지를 제시하였다. 전구관측 자료의 품질관리는 국내외 해양인프라를 구축하고 있는 한국해양과학기술원의 연구선과 해외 기지를 활용하되, 국외 해역의 현장관측 자료 획득을 위해서는 GOCI-II 국제 검보정 네트워크 구축이 필요할 것으로 판단된다. 이러한 결과는 위성자료 사용자들의 산출물 처리에 대한 이해를 높이고, 향후 위성자료 품질관리 업무 수행 상세계획 수립에 도움이 될 것으로 기대된다.

텍스트마이닝을 활용한 공개데이터 기반 기업 및 산업 토픽추이분석 모델 제안 (Development of Topic Trend Analysis Model for Industrial Intelligence using Public Data)

  • 박선영;이진무;김유일;서진이
    • 기술혁신연구
    • /
    • 제26권4호
    • /
    • pp.199-232
    • /
    • 2018
  • 빅데이터 분석을 통한 기업 경영환경에 대한 이해와 통찰을 구하고자 하는 요구가 산업 및 기업 경영 전반에 증가하고 있다. 이러한 사회적 요구에 따라 산업의 이해와 기업 경영의 이해를 위하여 기업의 경영실적 및 향후 계획을 포괄적으로 담고 있는 기업공시정보를 활용한 연구가 주목을 받고 있다. 이러한 기업공시정보는 대표적인 비정형 데이터로써 텍스트마이닝 방법론을 적용하여 그 범위와 수준에 대한 다양한 접근을 통하여 산업 수준 및 기업 수준에서 다양한 활용이 가능하다. 그러나 아직은 이러한 기업공시자료를 활용한 산업 및 기업 레벨에서 적용가능한 수준의 분석모델이 부족한 것으로 파악된다. 따라서 본 연구에서는 실제 활용 가능한 공개데이터를 활용한 산업 및 기업 수준의 분석모델을 제안하고자 한다. 미국상장기업의 공시자료인 미국 SEC EDGAR 자료를 기반으로 텍스트마이닝 알고리즘을 적용하여 산업 및 기업 수준의 경영주제(토픽)에 대한 추이분석이 가능한 모델을 제안하고자한다. SEC EDGAR의 10-K 문서를 대상으로 LDA 토픽 모델링을 통하여 산업 수준에서 전체 산업의 주제분야 분류를 파악하였고, 산업간 비교 측면에서 소프트웨어 산업과 하드웨어 산업 분야의 사례를 통해 최근 20년간의 토픽추이를 비교분석 하였다. 또한 최근 20년간의 기업의 경영주제 변화를 소프트웨어 산업에 속한 2개 기업을 중심으로 살펴보았다. 이를 통해 산업 및 기업 수준에서의 경영주제의 추이 변화를 파악하여 쇠퇴 및 성장 추세에 있는 경영주제를 확인 할 수 있었다. 한편 word2vec 워드 임베딩 모델과 주성분분석을 통한 차원 축약을 통해 소프트웨어 산업분야의 기업 및 특정 제품(혹은 서비스)에 대한 매핑을 통해 유사한 경영주제(토픽)를 가지는 기업 및 제품(서비스)을 사례를 통해 파악하였으며, 이를 시간적 흐름에 따른 변화 양상도 관찰할 수 있었다. 본 연구의 목적이 공개데이터를 활용한 산업 및 기업 수준의 분석모델을 개발하기 위한 방법론을 제안한 측면에서, 해외 데이터를 사용하여 산업의 경영주제 변화 추이, 기업의 경영주제 변화 추이를 거시적으로 조망할 수 있는 실무적인 방법론의 제안에서 의의가 있을 수 있다. 한편 기업의 기술경영전략 측면에서 기업의 경영토픽의 잦은 변화, 경영주제의 변화의 속도 등 다양한 변화 양상의 차이에 따른 기업의 매출 등의 경영성과와의 연관성 분석, 실제 기업의 제품포트폴리오의 구성에 따른 기업 간의 경쟁상황 등을 파악하는 미시적 모델 제안을 위한 추가 연구가 요구된다.

한우 암소의 선형 및 외모심사형질에 대한 유전모수 추정 (Estimation of Genetic Parameters for Linear Type and Conformation Traits in Hanwoo Cows)

  • 이기환;구양모;김정일;송치은;정용호;노재광;하유나;차대협;손지현;박병호;이재구;이정규;이지홍;도창희;최태정
    • 농업생명과학연구
    • /
    • 제51권6호
    • /
    • pp.89-105
    • /
    • 2017
  • 본 연구는 부모의 혈통정보를 모두 아는 혈통 및 고등등록우로 등록된 한우 암소 25,516두의 선형 및 외모심사형질에 대해 유전모수를 추정하였다. 각 심사형질에 영향을 주는 것으로 판단되는 주요인을 선정하여 다형질 개체모형에 적용하여 EM-REML 알고리즘 분석방법을 통해 각 형질에 대한 유전력과 유전상관과 표현형상관을 추정하였다. 한우 암소의 17개 선형심사형질 및 10개 외모심사형질(종합점수 포함)의 유전력 추정치의 범위는 0.03(유두배열)에서 0.42(체장)까지로 추정되었다. 체고, 체장, 강건성, 체심, 윤곽성, 정강이두께, 피모의 색, 엉덩이기울기, 고장, 좌골폭, 넓적다리의 두께, 유방용적, 유두길이, 유두배열, 발굽기울기, 뒷다리 비절기울기, 뒤에서 본 뒷다리자세, 체적 균형, 자질 품위, 머리 목, 전구, 중구, 엉덩이, 넓적다리, 유기, 지제보양 및 종합점수의 유전력은 각각 0.4, 0.42, 0.27, 0.25, 0.06, 0.14, 0.22, 0.31, 0.19, 0.17, 0.29, 0.04, 0.07, 0.02, 0.11, 0.03, 0.16, 0.27, 0.08, 0.15, 0.14, 0.14, 0.19, 0.16, 0.05, 0.08 및 0.3으로 추정되었다. 한편, 다형질개체모형에 의해 추정된 17개 선형심사형질과 종합점수에 대한 유전상관추정 결과는 다음과 같다. 고장과 좌골폭간에 0.96의 가장 강한 양(+)의 유전적 관계를 나타내었다. 반면 발굽기울기와 뒷다리 비절기울기간에는 -0.57의 가장 큰 음(-)의 유전상관을 보였다. 전체외모 형질인 체고, 체장, 간겅성 및 체심은 각 형질간에, 그리고 기타 형질들과 강한 양(+)의 유전상관관계를 나타내었다. 특히 체고 및 체심과 고장 및 좌골폭간에 높은 양(+)의 상관관계를 나타내었으며, 체고와 엉덩이기울기간에는 0.32의 양(+)의 상관을 나타내었다.

MEGAN을 이용한 국내 BVOCs 배출량 산정: 2012년 6월 사례 연구 (BVOCs Estimates Using MEGAN in South Korea: A Case Study of June in 2012)

  • 김경수;이승재
    • 한국농림기상학회지
    • /
    • 제24권1호
    • /
    • pp.48-61
    • /
    • 2022
  • 한국은 국토의 약 63%가 산림으로 구성되어 있고, 16%가 농경지로 구성되어 있어 도심에서 발생하는 NOx가 산림지역과 농경지에서 발생하는 BVOCs와 결합하여 오존을 생성할 가능성이 높다. 그래서 본 연구에서는 한국의 자연 식생 BVOCs 배출을 추정하기 위해 MODIS의 토지피복 자료와 엽면적지수 자료를 이용하여 입력자료를 생성한 후 MEGAN 모델로 BVOCs의 주요 배출 물질인 이소프렌과 모노테르펜을 대상으로 2012년 6월 한 달 간 모델링을 실시하였다. 그 결과, 해당기간 동안 이소프렌은 10,495 ton, 모노테르펜은 2,709 ton이 배출되었다. 기존 국내에서 BEIS와 CORINAR를 이용하여 연구된 이소프렌의 배출량은 약 24,000 ton, 모노테르펜은 25,000 ton으로 나타났는데, 본 연구와 배출량 차이가 나타난 주된 이유는 모델 알고리즘 차이와 모델 구동 시점에서의 일사량과 기온 등 기상 조건의 차이에 의한 것으로 추정된다. 그리고 모델링 결과와 측정 값의 비교를 위하여, 6월 11일부터 12일까지 이틀 간에 걸쳐, 한국 태화산에서 활엽수의 이소프렌과 침엽수의 모노테르펜 챔버 측정 값을 항공라이다와 방형구 식생자료를 기반으로 산정된 엽생체량 값을 이용하여 산림 단위의 BVOCs 배출량으로 환산하였다. 태화산 지역에서의 MEGAN 모델과 측정 간 BVOCs 배출량을 비교한 결과, 시간적인 배출 경향은 유사했으나 이소프렌은 MEGAN 모델에서 최대 6.4배 정도 배출량이 높게 나타났고, 모노테르펜은 최대 5.6배 정도 배출량이 높게 나타났다. MODIS에서 제공되는 토지피복 자료가 한국의 토지피복 특성을 잘 반영하지 못함에도 불구하고 MEGAN 모델링 결과가 측정 값과 다른 모델에 비해 상대적으로 큰 차이를 보이지 않은 것은 MEGAN 내에 기온, 일사량 등에 의해 식생의 BVOCs 배출량을 변환시키는 파라미터들이 현실을 비교적 적절하게 반영하고 있는 것으로 사료된다. 본 연구는 국내의 BVOCs 배출량을 MEGAN 모델을 활용하여 산정하였고, 산림지에서의 실측 자료와 비교를 통해 배출량을 평가하였다는데 의의가 있으며, 산림과 대기 간의 BVOCs 상호작용 연구에 작은 도움이 될 것으로 기대된다. 국내 BVOCs 배출량을 더 정확하게 추정하기 위해서는 지형과 식생의 특성을 더욱 최신으로 반영한 토지피복 및 엽면적지수 자료의 이용, 그리고 수목 및 농작물 등과 같이 개별 식생에 따른 배출계수 등의 대한 연구가 향후에 심도 있게 이루어져야 할 것이다.

하이퍼스펙트럴영상 분류에서 정준상관분류기법의 유용성 (Usefulness of Canonical Correlation Classification Technique in Hyper-spectral Image Classification)

  • 박민호
    • 대한토목학회논문집
    • /
    • 제26권5D호
    • /
    • pp.885-894
    • /
    • 2006
  • 본 논문의 의도는 하이퍼스펙트럴 영상의 다량의 밴드를 사용하면서도 효율적인 분류기법의 개발에 초점을 두고 있다. 본 연구에서는 하이퍼스펙트럴 영상의 분류에 있어 이론적으로 밴드수가 많아질수록 분류정확도가 높을 것이라 예상되는, 다변량 통계분석기법중의 하나인 정준상관분석을 적용한 분류기법을 제안한다. 그리고 기존의 대표적인 전통적 분류기법인 최대 우도분류 방법과 비교한다. 사용되는 하이퍼스펙트럴 영상은 2001년 9월 2일 취득된 EO1-Hyperion 영상이다. 실험을 위한 밴드수는 LANDSAT TM 영상에서 열밴드를 제외한 나머지 데이터의 파장대와 일치하는 부분을 감안하여 30개 밴드로 선정하였다. 지상실제데이터로서 비교기본도를 채택하였다. 이 비교기본도와 시각적으로 윤곽을 비교하고, 중첩분석하여 정확도를 평가하였다. 최대우도분류의 경우 수역 분류를 제외하고는 전혀 분류기법으로서의 역할을 하지 못하는 것으로 판단되며, 수역의 경우도 큰 호수 외에 작은 호수나 골프장내 연못, 부분적으로 물이 존재하는 작은 영역 등은 전혀 분류하지 못하고 있는 것으로 나타났다. 그러나 정준상관분류결과는 비교기본도와 형태적으로 시각적 비교를 해볼 때 골프장잔디를 거의 명확히 분류해 내고 있으며, 도시역에 대해서도 고속도로의 선형 등을 상당히 잘 분류해내고 있음을 알 수 있다. 또한 수역의 경우도 골프장 연못이나 대학교내 연못, 기타지역의 연못, 웅덩이 등 까지도 잘 분류해내고 있음을 확인할 수 있다. 결과적으로 정준상관분석 알고리즘의 개념상 트레이닝 영역 선정시 시행착오를 겪지 않고도 정확한 분류를 할 수 있었다. 또한 분류항목 중에서 잔디와 그 외 식물을 구분해 내는 능력과 수역을 추출해 내는 능력이 최대우도분류기법에 비해 우수하였다. 이상의 결과로 판단해 볼 때 하이퍼스펙트럴영상에 적용되는 정준상관분류기법은 농작물 작황 예측과 지표수 탐사에 매우 유용하리라 판단되며, 나아가서는 분광적 고해상도 영상인 하이퍼스펙트럴 데이터를 이용한 GIS 데이터베이스 구축에 중요한 역할을 할 수 있을 것으로 기대된다.

GOCI-II 기반 저염분수 산출과 태풍 힌남노에 의한 시간별 염분 변화 (GOCI-II Based Low Sea Surface Salinity and Hourly Variation by Typhoon Hinnamnor)

  • 김소현;김대원;조영헌
    • 대한원격탐사학회지
    • /
    • 제39권6_2호
    • /
    • pp.1605-1613
    • /
    • 2023
  • 해양 내의 다양한 물리적 변화는 수온과 염분의 지속적인 변동에 의해 결정된다. 수온과 더불어 넓은 영역의 염분 변화를 파악하기 위해서는 인공위성 자료에 의존할 수밖에 없다. 그럼에도 불구하고 염분을 관측하는 위성인 Soil Moisture Active Passive (SMAP)는 낮은 시·공간 해상도로 인해 연안 근처에서 빠르게 변화하는 해양환경을 관측하기에는 어렵다는 한계가 존재한다. 이러한 한계를 극복하기 위해 본 연구에서는 천리안 해양 관측 위성의 정지궤도 해색 센서인 Geostationary Ocean Color Imager-II (GOCI-II) 원격반사도 자료를 입력자료로 하여 고해상도 표층 염분을 산출하는 Multi-layer Perceptron Neural Network (MPNN) 기반의 알고리즘을 개발하였다. SMAP과 비교한 결과 coefficient of determination (R2)는 0.94, root mean square error (RMSE)는 0.58 psu 그리고 relative root mean square error (RRMSE)는 1.87%였으며, 공간적인 분포 또한 매우 유사한 결과를 나타냈다. R2의 공간 분포는 0.8 이상을 보여주었으며 RMSE는 전반적으로 1 psu 이하의 낮은 값을 보여주었다. 이어도 과학기지에서의 실측 염분값과도 비교하였지만 상대적으로 조금 낮은 결과를 보여주었다. 이에 대한 원인을 분석하였으며, 산출된 GOCI-II 기반 고해상도 염분 자료를 활용하여 2022년 11호 태풍 힌남노에 의한 하루 동안의 동중국해 표층 염분 변화를 표준편차로 계산하였다. 그 결과 SMAP에서 관측할 수 없는 시공간의 염분 변화를 고해상도의 GOCI-II 기반 염분 산출물을 통해 확인할 수 있었다. 따라서 본 연구를 통해 시간 단위로 변화하는 해양환경 모니터링에 큰 기여를 할 것으로 기대된다.

이물 객체 탐지 성능 개선을 위한 딥러닝 네트워크 기반 저품질 영상 개선 기법 개발 (Development of deep learning network based low-quality image enhancement techniques for improving foreign object detection performance)

  • 엄기열;민병석
    • 인터넷정보학회논문지
    • /
    • 제25권1호
    • /
    • pp.99-107
    • /
    • 2024
  • 경제성장과 산업 발전에 따라 반도체 제품부터 SMT 제품, 전기 배터리 제품에 이르기 까지 많은 전자통신 부품들의 제조과정에서 발생하는 철, 알루미늄, 플라스틱 등의 이물질로 인해 제품이 제대로 동작하지 않거나, 전기 배터리의 경우 화재를 발생하는 문제까지 심각한 문제로 이어질 가능성이 있다. 이러한 문제를 해결하기 위해 초음파나 X-ray를 이용한 비파괴 방법으로 제품 내부에 이물질이 있는지 판단하여 문제의 발생을 차단하고 있으나, X-ray 영상을 취득하여 이물질이 있는지 판정하는 데에도 여러 한계점이 존재한다. 특히. 크기가 작거나 밀도가 낮은 이물질들은 X-Ray장비로 촬영을 하여도 보이지 않는 문제점이 있고, 잡음 등으로 인해 이물들이 잘 안 보이는 경우가 있으며, 특히 높은 생산성을 가지기 위해서는 빠른 검사속도가 필요한데, 이 경우 X-ray 촬영시간이 짧아지게 되면 신호 대비 잡음비율(SNR)이 낮아지면서 이물 탐지 성능이 크게 저하되는 문제를 가진다. 따라서, 본 논문에서는 저화질로 인해 이물질을 탐지하기 어려운 한계를 극복하기 위한 5단계 방안을 제안한다. 첫번째로, Global 히스토그램 최적화를 통해 X-Ray영상의 대비를 향상시키고, 두 번째로 고주파 영역 신호의 구분력을 강화하기 위하여 Local contrast기법을 적용하며, 세 번째로 Edge 선명도 향상을 위해 Unsharp masking을 통해 경계선을 강화하여 객체가 잘 구분되도록 한다, 네 번째로, 잡음 제거 및 영상향상을 위해 Resdual Dense Block(RDB)의 초고해상화 방법을 제안하며, 마지막으로 Yolov5 알고리즘을 이용하여 이물질을 학습한 후 탐지한다. 본 연구에서 제안하는 방식을 이용하여 실험한 결과, 저밀도 영상 대비 정밀도 등의 평가기준에서 10%이상의 성능이 향상된다.

이중확장칼만필터(DEKF)를 기반한 건설장비용 리튬이온전지의 State of Charge(SOC) 및 State of Health(SOH) 추정 (State of Health and State of Charge Estimation of Li-ion Battery for Construction Equipment based on Dual Extended Kalman Filter)

  • 정홍련;김준호;김승우;김종훈;강은진;윤정우
    • 마이크로전자및패키징학회지
    • /
    • 제31권1호
    • /
    • pp.16-22
    • /
    • 2024
  • 전기자동차와 신재생에너지에 관한 관심이 높아지면서 건설장비 산업분야에서도 리튬이온 배터리를 접목하려는 요구가 높아지고 있다. 건설중장비는 건설 현장의 다양한 작업으로 인해 전류 용량의 감소가 급속히 진행되기 때문에 SOC(State of Charge) 및 SOH(State of Health) 같은 배터리의 상태를 더욱 정확하게 추정할 필요가 있다. 본 논문에서는 SOC와 SOH를 동시에 추정이 가능한 적응제어 기법 기반 이중확장칼만필터(Dual Extended Kalman Filter, DEKF) 알고리즘을 이용하여 실제 측정데이터와의 오차를 비교하였다. 배터리 충전 상태 예측을 위해 배터리 셀을 완전 충전 후 0.2C-rate조건에서 SOC 5% 간격으로 OCV를 측정하였고, 배터리의 열화를 판단할 수 있는 건전성 지표 확보를 위해 다양한 C-rate(0.2, 0.3, 0.5, 1.0, 1.5C rate) 조건에서 50 Cycle 동안 노화 실험을 수행하였다. DEKF를 이용한 SOC 및 SOH 추정 오차는 C-rate이 커질수록 커지는 경향을 보였으며 특히 SOC 추정결과, 0.2, 0.5 및 1C-rate에서 6%이하로 나타남을 확인하였다. 또한 SOH 추정 결과는 0.2 와 0.3C-rate에서 각각 최대오차 1.0% 및 1.3% 이내로 좋은 성능을 보이는 것으로 확인하였다. 다만, C-rate가 0.5C-rate에서 1.5C-rate으로 증가함에 따라 추정오차도 1.5%에서 2%로 다소 증가하는 것을 확인할 수 있었으나, 모든 C-rate 조건에서 DEKF를 사용한 SOH의 추정 성능은 약 2% 이내인 것으로 나타났다.

비대칭적 전이효과와 SVM을 이용한 변동성 매도전략의 수익성 개선 (Performance Improvement on Short Volatility Strategy with Asymmetric Spillover Effect and SVM)

  • 김선웅
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.119-133
    • /
    • 2020
  • Fama에 의하면 효율적 시장에서는 일시적으로 높은 수익을 얻을 수는 있지만 꾸준히 시장의 평균적인 수익을 초과하는 투자전략을 만드는 것은 불가능하다. 본 연구의 목적은 변동성의 장중 비대칭적 전이효과를 이용하는 변동성 매도전략을 기준으로 투자 성과를 추가적으로 개선하기 위하여 SVM을 활용하는 투자 전략을 제안하고 그 투자성과를 분석하고자 한다. 한국 시장에서 변동성의 비대칭적 전이효과는 미국 시장의 변동성이 상승한 날은 한국 시장의 아침 동시호가에 변동성 상승이 모두 반영되지만, 미국 시장의 변동성이 하락한 날은 한국 시장의 변동성이 아침 동시호가에서 뿐만 아니라 장 마감까지 계속해서 하락하는 이상현상을 말한다. 분석 자료는 2008년부터 2018년까지의 S&P 500, VIX, KOSPI 200, V-KOSPI 200 등의 일별 시가지수와 종가지수이다. 11년 동안의 분석 결과, 미국 시장의 변동성이 상승으로 마감한 날은 그 영향력이 한국 시장의 아침 동시호가 변동성에 모두 반영되지만, 미국 시장의 변동성이 하락으로 마감한 날은 그 영향력이 한국 시장의 아침 동시호가뿐만 아니라 오후 장 마감까지도 계속해서 유의적으로 영향을 미치고 있다. 시장이 효율적이라면 미국 시장의 전일 변동성 변화는 한국 시장의 아침 동시호가에 모두 반영되고 동시호가 이후에는 추가적인 영향력이 없어야 한다. 이러한 변동성의 장중 비정상적 전이 패턴을 이용하는 변동성 매도전략을 제안하였다. 미국 시장의 전날 변동성이 하락한 경우 한국 시장에서 아침 동시호가에 변동성을 매도하고 장 마감시에 포지션을 청산하는 변동성 데이트레이딩전략을 분석하였다. 연수익률은 120%, 위험지표인 MDD는 -41%, 위험과 수익을 고려한 성과지수인 Sharpe ratio는 0.27을 기록하고 있다. SVM 알고리즘을 이용해 변동성 데이트레이딩전략의 성과 개선을 시도하였다. 2008년부터 2014년까지의 입력자료를 이용하여 V-KOSPI 200 변동성지수의 시가-종가 변동 방향을 예측하고, 시가-종가 변동율이(-)로 예측되는 경우에만 변동성 매도포지션을 진입하였다. 거래비용을 고려하면 2015년부터 2018년까지 테스트기간의 연평균수익률은 123%로 기준 전략 69%보다 크게 높아지고, 위험지표인 MDD도 -41%에서 -29%로 낮아져, Sharpe ratio가 0.32로 개선되고 있다. 연도별로도 모두 수익을 기록하면서 안정적 수익구조를 보여주고 있고, 2015년을 제외하고는 투자 성과가 개선되고 있다.

영화 추천 시스템의 초기 사용자 문제를 위한 장르 선호 기반의 클러스터링 기법 (Clustering Method based on Genre Interest for Cold-Start Problem in Movie Recommendation)

  • 유띳로따낙;누르지드;하인애;조근식
    • 지능정보연구
    • /
    • 제19권1호
    • /
    • pp.57-77
    • /
    • 2013
  • 소셜 미디어는 모바일 어플리케이션과 웹에서 가장 많이 사용되는 미디어 중 하나이다. Nielsen사의 보고서에 따르면 소셜 네트워크 서비스와 블로그가 온라인 사용자의 주 활동 공간으로 사용되고 있으며, 미국인 중에서 온라인 활동이 왕성한 5명의 사용자중 4명은 매일 소셜 네트워크 서비스와 블로그를 방문하고 온라인 활동 시간의 23%를 소비한다고 집계하고 있다. 미국의 인터넷 사용자들은 야후, 구글, AOL 미디어 네트워크, 트위터, 링크드인 등과 같은 소셜 네트워크 서비스중 페이스북에서 가장 많은 시간을 소비한다. 최근에는 대부분의 회사들이 자신의 특정 상품에 대하여 "페이스북 페이지(Facebook Page)"를 생성하고 상품에 대한 프로모션을 진행한다. 페이스북에서 제공되는 "좋아요" 옵션은 페이스북 페이지를 통해 자신이 관심을 가지는 상품(아이템)을 표시하고 그 상품을 지지할 수 있도록 한다. 많은 영화를 제작하는 영화 제작사들도 페이스북 페이지와 "좋아요" 옵션을 이용하여 영화 프로모션과 마케팅에 이용한다. 일반적으로 다수의 스트리밍 서비스 제공업들도 영화와 TV 프로그램을 즐기며 볼 수 있는 서비스를 사용자들에게 제공한다. 이 서비스는 일반 컴퓨터와 TV 등의 단말기에서인터넷을 통해 영화와 TV 프로그램을 즉각적으로 제공할 수 있다. 스트리밍 서비스의 선두 주자인 넷플릭스는 미국, 라틴 아메리카, 영국 그리고 북유럽 국가 등에 3천만 명 이상의 스트리밍 사용자가 가입되어 있다. 또한 넥플릭스는 다양한 장르로 구성된 수백만 개의 영화와 TV 프로그램을 보유하고 있다. 하지만 수많은 콘텐츠로 인해 사용자들은 자신이 선호하는 장르에 관련된 영화와 TV 프로그램을 찾기 위해 많은 시간을 소비해야 된다. 많은 연구자들이 이러한 사용자의 불편함을 줄이기 위해 아이템에 대한 사용자가 보지 않은 아이템에 대한 선호도를 예측하고 높은 예측값을 갖는 아이템을 사용자에게 제공하기 위한 추천 시스템을 적용하였다. 협업적 여과 방법은 추천 시스템을 구축하기 위해 가장 많이 사용되는 방법이다. 협업적 여과 시스템은 사용자들이 평가한 아이템을 기반으로 각 사용자 간의 유사도를 측정하고 목적 사용자와 유사한 성향을 가진 사용자 그룹을 결정한다. 군집된 그룹은 이웃 사용자 집단으로 불리며 이를 이용하여 특정 아이템에 대한 선호도를 예측하고, 예측 값이 높은 아이템을 목적 사용자에게 추천해 준다. 협업적 여과 방법이 적용되는 분야는 서적, 음악, 영화, 뉴스 및 비디오 등 다양하지만 논문에서는 영화에 초점을 맞춘다. 이 협업적 여과 방법이 추천 시스템 내에서 유용하게 활용되고 있지만 아직 "희박성 문제"와 "콜드 스타트 문제" 등 해결해야 할 과제가 남아있다. 희박성 문제는 아이템의 수가 증가할수록 아이템에 대한 사용자의 로그 밀도가 감소하는 것이다. 즉, 전체 아이템 수에 비해 사용자가 아이템에 대해 평가한 정보가 충분하지 않기 때문에 사용자의 성향을 파악하기 어렵고, 이로 인해 사용자가 아직 평가하지 않은 아이템에 대해서 선호도를 추측하기 어려운 것을 말한다. 이 희박성 문제가 포함된 경우 적합한 이웃 사용자 집단을 형성하는데 어려움을 겪게 되고 사용자들에게 제공되는 아이템 추천의 질이 떨어지게 된다. 콜드 스타트 문제는 시스템 내에 새로 들어온 사용자 또는 아이템으로 지금까지 한 번도 평가를 하지 않은 경우에 발생한다. 즉, 사용자가 평가한 아이템에 대한 정보가 전혀 포함되어 있지 않거나 매우 적기 때문에 이러한 경우 또한 적합한 이웃 사용자 집단을 형성하는데 어려움을 겪게 되고 사용자가 평가하지 않은 아이템에 대한 선호도 예측의 정확성이 감소되게 된다. 본 논문에서는 영화 추천 시스템에서 발생될 수 있는 초기 사용자 문제를 해결하기 위하여 사용자가 평가한 영화와 소셜 네트워크 서비스로부터 추출된 사용자 선호 장르를 활용하여 사용자 군집을 형성하고 이를 활용하는 방법을 제안한다. 소셜 네트워크 서비스로부터 사용자가 선호하는 영화 장르를 추출하기 위해 페이스북 페이지의 '좋아요' 옵션을 이용하며, 이 '좋아요' 정보를 분석하여 사용자의 영화 장르 관심사를 추출한다. 페이스북의 영화 페이지는 각 영화를 위한 페이스북 페이지로 구성되고 있으며, 사용자는 자신의 선호도에 따라서 "좋아요" 옵션을 선택할 수 있다. 사용자의 페이스북 정보는 페이스북 그래프 API를 활용하여 추출되고 이로부터 사용자 선호 영화를 알 수 있게 된다. 시스템에서 활용되는 영화 정보는 인터넷 영화 데이터베이스인 IMDb로부터 획득한다. IMDb는 수많은 영화와 TV 프로그램을 보유하고 있으며, 각 영화에 관련된 배우 정보, 장르 및 부가 정보들을 포함한다. 논문에서는 사용자가 "좋아요" 표시를 한 영화 페이지를 이용하여 IMDb로부터 영화 장르 정보를 가져온다. 그리고 추출된 영화 장르 선호도와 본 시스템에서 제안하는 영화 평가 항목을 이용하여 유사한 이웃 사용자 집단을 구성한 후, 사용자가 평가하지 않은 아이템에 대한 선호도를 예측하고, 높은 예측 값을 갖는 아이템을 사용자에게 추천한다. 본 논문에서 제안한 사용자의 선호 장르 기반의 사용자 군집 기법을 이용한 시스템을 평가하기 위해서 IMDb 데이터 집합을 이용하여 사용자 영화 평가 시스템을 구축하였고 참가자들의 영화 평가 정보를 획득하였다. 페이스북 영화 페이지 정보는 참가자들의 페이스북 계정과 페이스북 그래프 API를 통해 획득하였다. 사용자 영화 평가 시스템을 통해 획득된 사용자 데이터를 제안하는 방법에 적용하였고 추천 성능, 품질 및 초기 사용자 문제를 벤치마크 알고리즘과 비교하여 평가하였다. 실험 평가의 결과 제안하는 방법을 적용한 추천 시스템을 통해 추천의 품질을 10% 향상시킬 수 있었고, 초기 사용자 문제에 대해서 15% 완화시킬 수 있음을 볼 수 있었다.