• 제목/요약/키워드: CRITIC기법

검색결과 21건 처리시간 0.025초

폭풍해일 침수예상도 검증을 위한 형상유사도 분석 : 형상기준 (Shape Similarity Analysis for Verification of Hazard Map for Storm Surge : Shape Criterion)

  • 김영인;김동현;이승오
    • 한국방재안전학회논문집
    • /
    • 제12권3호
    • /
    • pp.13-24
    • /
    • 2019
  • 실시간 재난위험도 예측 모델인 SIND 모델의 정확도 확인 및 검증을 위해 다양한 형상유사도 개념을 적용하였다. 기하학적 방법론 중에서 가장 널리 이용되는 CRITIC 기법은 침수예상도와 같은 복잡한 지형 형상에 적용하기에는 분명한 한계점을 보여서 본 연구에서는 복잡한 전파특성의 형상을 평가할 수 있는 RCCI와 TF 등과 같은 형상인자를 추가하여 수정된 CRITIC 기법을 제시하였다. 본 연구에서 제안된 형상유사도 평가 방법을 폭풍해일의 침수예상도에 적용하여 검토한 결과, 면 객체 쌍들을 수동으로 정 매칭쌍과 오 매칭쌍으로 구분하였으며, 각 형상 인자들, 위치기준, 면적기준, 형상 기준의 가중치들을 변화시켜가며 각 매칭쌍의 형상유사도를 산정하였다. 본 연구에서 제안된 방법론과 산정된 가중치를 참고자료인 침수예상도의 지도 객체와 목표자료인 SIND 모델결과의 객체에 적용한 결과, 정 매칭쌍은 약 90%가 형상유사도 0.5 이상의 값을 가졌고, 오 매칭쌍은 약 70%가 0.5 미만으로 나타났다. 향후 다수의 객체가 하나의 객체와 대응되는 점을 보완 조정한다면 정 매칭쌍의 형상유사도는 전체적으로 증가하고 오 매칭쌍의 형상유사도는 감소할 것이라 판단된다.

5G 및 B5G 네트워크에서 그래프 신경망 및 강화학습 기반 최적의 VNE 기법 (Graph Neural Network and Reinforcement Learning based Optimal VNE Method in 5G and B5G Networks)

  • 박석우;문강현;정경택;나인호
    • 스마트미디어저널
    • /
    • 제12권11호
    • /
    • pp.113-124
    • /
    • 2023
  • 5G 및 B5G(Beyond 5G) 네트워크의 등장으로 기존 네트워크 한계를 극복할 수 있는 네트워크 가상화 기술이 주목받고 있다. 네트워크 가상화의 목적은 효율적 네트워크 자원의 활용과 다양한 전송요구 서비스에 대한 솔루션을 제공하기 위함이다. 이와 관련하여 여러 가지 휴리스틱 기반의 VNE 기법이 연구되고 있으나 네트워크 자원할당 및 서비스의 유연성이 제한되는 문제점을 지니고 있다. 본 논문에서는 다양한 응용의 서비스 요구사항을 충족하기 위해 GNN 기반의 네트워크 슬라이싱 분류 기법과 최적의 자원할당을 위한 RL 기반 VNE 기법을 제안한다. 제안된 기법에서는 Actor-Critic 네트워크를 이용하여 최적의 VNE를 수행한다. 또한 성능 평가를 위해 제안된 기법과 기존의 Node Rank, MCST-VNE, GCN-VNE 기법과의 성능을 비교분석하고 서비스 수용률 제고 및 효율적 자원 할당 측면에서 성능이 향상됨을 보인다.

IRPO 기반 Actor-Critic 학습 기법을 이용한 로봇이동 (Robot locomotion via IRPO based Actor-Critic Learning Method)

  • 김종호;강대성;박주영
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2005년도 제36회 하계학술대회 논문집 D
    • /
    • pp.2933-2935
    • /
    • 2005
  • The IRPO(Intensive Randomized Policy Optimizer) algorithm is a recently developed tool in the area of reinforcement leaming. And it has been shown to be very successful in several application problems. To compare with a general RL method, IRPO has some difference in that policy utilizes the entire history of agent -environment interaction. The policy is derived from the history directly, not through any kind of a model of the environment. In this paper, we consider a robot-control problem utilizing a IRPO algorithm. We also developed a MATLAH-based animation program, by which the effectiveness of the training algorithms were observed.

  • PDF

강화학습 기반 주식 투자 웹 서비스 (An Implementation of Stock Investment Service based on Reinforcement Learning)

  • 박정연;홍승식;박민규;이현
    • 문화기술의 융합
    • /
    • 제7권4호
    • /
    • pp.807-814
    • /
    • 2021
  • 코로나-19로 인해 경제 활동이 낮아지고 주식 시장이 침체하면서 주식 투자를 통해 또 다른 소득을 마련하기 위해 많은 사람이 주식 시장에 뛰어들고 있다. 사람들의 관심이 높아지면서 더 많은 수익을 얻기 위한 주가 분석 연구가 많이 진행되고 있다. 주가는 종목별 변동의 흐름이 다르므로 각 주가 종목별로 독립적이며 일관적으로 분석할 필요가 있다. 이러한 문제를 해결하고자 본 논문에서는 강화학습 기법 중 하나인 Asynchronous Advantage Actor-Critic(A3C)를 이용하여 주가를 분석할 수 있는 모델 및 서비스를 설계 및 구현하였다. 주식 시장 데이터로 종목별 주가 및 국채, 코스피와 같은 외부 요인들을 반영하였다. 또한 웹페이지 제작을 통해 시각화한 정보를 제공하여 투자자들이 투자 기업에 대한 재무제표를 비롯하여 국내외 경제 및 정치의 흐름을 모두 분석하지 않고도 안전한 투자를 할 수 있도록 서비스를 제공한다.

접촉 작업을 위한 로봇의 스킬 학습 전략 (Robot Skill Learning Strategy for Contact Task)

  • 김병찬;강병덕;박신석;강성철
    • 로봇학회논문지
    • /
    • 제3권2호
    • /
    • pp.146-153
    • /
    • 2008
  • 본 논문에서는 인간 운동 제어 이론과 기계학습을 기반으로 하여 로봇의 접촉 작업 수행을 위한 새로운 운동 학습 전략을 제시하였다. 성공적인 접촉 작업 수행을 위한 본 연구의 전략은 강화학습 기법을 통하여 최적의 작업 수행을 위한 임피던스 매개 변수를 찾는 것이다. 본 연구에서는 최적의 임피던스 매개 변수를 결정하기 위하여 Recursive Least-Square (RLS) 필터 기반 episodic Natural Actor-Critic 알고리즘이 적용되었다. 본 논문에서는 제안한 전략의 효용성을 증명하기 위해 동역학 시뮬레이션을 수행하였고, 그 결과를 통하여 접촉작업에서의 작업 최적화 및 환경이 가지는 불확실성에 대한 적응성을 보여 주었다.

  • PDF

심층 강화학습을 이용한 시변 비례 항법 유도 기법 (Time-varying Proportional Navigation Guidance using Deep Reinforcement Learning)

  • 채혁주;이단일;박수정;최한림;박한솔;안경수
    • 한국군사과학기술학회지
    • /
    • 제23권4호
    • /
    • pp.399-406
    • /
    • 2020
  • In this paper, we propose a time-varying proportional navigation guidance law that determines the proportional navigation gain in real-time according to the operating situation. When intercepting a target, an unidentified evasion strategy causes a loss of optimality. To compensate for this problem, proper proportional navigation gain is derived at every time step by solving an optimal control problem with the inferred evader's strategy. Recently, deep reinforcement learning algorithms are introduced to deal with complex optimal control problem efficiently. We adapt the actor-critic method to build a proportional navigation gain network and the network is trained by the Proximal Policy Optimization(PPO) algorithm to learn an evasion strategy of the target. Numerical experiments show the effectiveness and optimality of the proposed method.

A3C를 활용한 블록체인 기반 금융 자산 포트폴리오 관리 (Blockchain Based Financial Portfolio Management Using A3C)

  • 김주봉;허주성;임현교;권도형;한연희
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제8권1호
    • /
    • pp.17-28
    • /
    • 2019
  • 금융투자 관리 전략 중에서 여러 금융 상품을 선택하고 조합하여 분산 투자하는 것을 포트폴리오 관리 이론이라 부른다. 최근, 블록체인 기반 금융 자산, 즉 암호화폐들이 몇몇 유명 거래소에 상장되어 거래가 되고 있으며, 암호화폐 투자자들이 암호화폐에 대한 투자 수익을 안정적으로 올리기 위하여 효율적인 포트폴리오 관리 방안이 요구되고 있다. 한편 딥러닝이 여러 분야에서 괄목할만한 성과를 보이면서 심층 강화학습 알고리즘을 포트폴리오 관리에 적용하는 연구가 시작되었다. 본 논문은 기존에 발표된 심층강화학습 기반 금융 포트폴리오 투자 전략을 바탕으로 대표적인 비동기 심층 강화학습 알고리즘인 Asynchronous Advantage Actor-Critic (A3C)를 적용한 효율적인 금융 포트폴리오 투자 관리 기법을 제안한다. 또한, A3C를 포트폴리오 투자 관리에 접목시키는 과정에서 기존의 Cross-Entropy 함수를 그대로 적용할 수 없기 때문에 포트폴리오 투자 방식에 적합하게 기존의 Cross-Entropy를 변형하여 그 해법을 제시한다. 마지막으로 기존에 발표된 강화학습 기반 암호화폐 포트폴리오 투자 알고리즘과의 비교평가를 수행하여, 본 논문에서 제시하는 Deterministic Policy Gradient based A3C 모델의 성능이 우수하다는 것을 입증하였다.

해외선물 스캘핑을 위한 강화학습 알고리즘의 성능비교 (Performance Comparison of Reinforcement Learning Algorithms for Futures Scalping)

  • 정득교;이세훈;강재모
    • 문화기술의 융합
    • /
    • 제8권5호
    • /
    • pp.697-703
    • /
    • 2022
  • 최근 Covid-19 및 불안한 국제정세로 인한 경기 침체로 많은 투자자들이 투자의 한 수단으로써 파생상품시장을 선택하고 있다. 하지만 파생상품시장은 주식시장에 비해 큰 위험성을 가지고 있으며, 시장 참여자들의 시장에 대한 연구 역시 부족한 실정이다. 최근 인공지능 분야의 발달로 파생상품시장에서도 기계학습이 많이 활용되고 있다. 본 논문은 해외선물에 분 단위로 거래하는 스캘핑 거래의 분석을 위해 기계학습 기법 중 하나인 강화학습을 적용하였다. 데이터 세트는 증권사에서 거래되는 해외선물 상품들 중 4개 상품을 선정해, 6개월간 1분봉 및 3분봉 데이터의 종가, 이동평균선 및 볼린저 밴드 지표들을 이용한 21개의 속성으로 구성하였다. 실험에는 DNN 인공신경망 모델과 강화학습 알고리즘인 DQN(Deep Q-Network), A2C(Advantage Actor Critic), A3C(Asynchronous A2C)를 사용하고, 학습 데이터 세트와 테스트 데이터 세트를 통해 학습 및 검증 하였다. 에이전트는 스캘핑을 위해 매수, 매도 중 하나의 행동을 선택하며, 행동 결과에 따른 포트폴리오 가치의 비율을 보상으로 한다. 실험 결과 에너지 섹터 상품(Heating Oil 및 Crude Oil)이 지수 섹터 상품(Mini Russell 2000 및 Hang Seng Index)에 비해 상대적으로 높은 누적 수익을 보여 주었다.

자동요약시스템 구축에 대한 연구 - 웹 상의 보도기사를 중심으로 - (A Study on the Construction of the Automatic Summaries - on the basis of Straight News in the Web -)

  • 이태영
    • 정보관리학회지
    • /
    • 제23권4호
    • /
    • pp.41-67
    • /
    • 2006
  • 웹의 보도기사에 관한 자동요약시스템을 구축하기 위하여 담화구조와 지식기반 기법을 적용한 글구조 프레임과 제 규칙들을 작성하였다. 프레임에는 문단과 문장 및 절의 역할, 문단과 문장의 성질, 역할을 구분하는 판별규칙, 주요문장 발췌규칙, 그리고 요약문 작성규칙 슬롯이 포함되었다. 문맥정의, 고유명사 등을 안내하는 'if-needed'와 변화된 슬롯 값을 알려주는 if-changed 패싯도 구비되었다. 슬롯이나 패싯의 실제 값들을 추출 표현하는 과정에서 문구의 수사적 역할과 단어 최상위 범주 및 줄거리 단위를 참조하였다. 의미흐름의 연결성을 유지하면서 요약 문장들을 통합, 분리, 합성하는 재구성은 유사도공식, 구문정보, 담화구조와 지식기반 방법에서 도출한 제 규칙 및 문맥정의를 이용하였고 비평과 같은 새로운 문장을 생성하였다.

SAC 강화 학습을 통한 스마트 그리드 효율성 향상: CityLearn 환경에서 재생 에너지 통합 및 최적 수요 반응 (Enhancing Smart Grid Efficiency through SAC Reinforcement Learning: Renewable Energy Integration and Optimal Demand Response in the CityLearn Environment)

  • 이자노브 알리벡 러스타모비치;성승제;임창균
    • 한국전자통신학회논문지
    • /
    • 제19권1호
    • /
    • pp.93-104
    • /
    • 2024
  • 수요 반응은 전력망의 신뢰성을 높이고 비용을 최소화하기 위해 수요가 가장 많은 시간대에 고객이 소비패턴을 조정하도록 유도한다. 재생 에너지원을 스마트 그리드에 통합하는 것은 간헐적이고 예측할 수 없는 특성으로 인해 상당한 도전 과제를 안고 있다. 강화 학습 기법과 결합된 수요 대응 전략은 이러한 문제를 해결하고 기존 방식에서는 이러한 종류의 복잡한 요구 사항을 충족하지 못하는 경우 그리드 운영을 최적화할 수 있는 접근 방식으로 부상하고 있다. 본 연구는 재생 에너지 통합을 위한 수요 반응에 강화 학습 알고리즘을 적용하는 방법을 찾아 적용하는데 중점을 둔다. 연구의 핵심 목표는 수요 측 유연성을 최적화하고 재생 에너지 활용도를 개선할 뿐 아니라 그리드 안정성을 강화하고자 한다. 연구 결과는 강화 학습을 기반으로 한 수요 반응 전략이 그리드 유연성을 향상시키고 재생 에너지 통합을 촉진하는 데 효과적이라것을 보여준다.