• 제목/요약/키워드: 트랜스포머 네트워크

검색결과 24건 처리시간 0.029초

한국어 오디오 캡션 시스템 개발 (Development of Korean Audio Caption System)

  • 강태호;김주희;이준하
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 추계학술대회
    • /
    • pp.364-367
    • /
    • 2020
  • 오디오 캡셔닝(Audio Captioning)은 시스템이 입력으로 오디오 신호를 받아들이고 해당 신호의 텍스트 설명을 출력하는 중간 번역 작업이다. 이 논문에서는 컨볼루셔널 뉴럴 네트워크(CNN), 트랜스포머의 딥러닝 알고리즘을 사용하여 주변 환경 소리에 대한 오디오 캡셔닝을 자동으로 수행하고 한글화된 출력 결과를 제공하는 모델을 제시한다. 본 연구 결과, 모델의 성능 평가 척도인 SPIDEr 점수는 0.1977이 나왔다.

  • PDF

레일 전력선통신을 위한 임피던스 정합방안 연구 (A Study on an Impedance Matching Technique for Rail Power Line Communication)

  • 서일권;안승호;김철수
    • 한국산학기술학회논문지
    • /
    • 제17권11호
    • /
    • pp.202-207
    • /
    • 2016
  • 장대 터널 및 급곡선 구간과 같은 시계 확보가 어려운 지역에서 위험 및 안전 정보를 함께 공유하기 위해서는 기관사, 열차 관제사 및 현장 작업자 사이에 보조적인 실시간 열차 정보 통신시스템의 개발이 필요하다. 이에 적합한 열차 정보 통신시스템을 개발하기 위하여 본 연구에서는 작은 노이즈와 신호 감쇄를 동시에 갖도록 하는 레일 전력선 통신을 제안하였다. 이에 대한 레일 전력선 통신의 기초 연구 일환으로서, 본 통신기법의 전송 특성을 향상할 수 있는 레일에 대한 임피던스 측정 및 정합특성 평가가 중요하다. 본 연구에서는 자체 제작한 임피던스 정합 트랜스포머와 네트워크 분석기를 이용하여 레일에 대한 반사 및 전파 특성을 평가하였다. 대향 접속방식의 임피던스 반사특성 시험결과로부터 레일 전력선 통신에 적합한 정합용 트랜스포머의 정합비율은 1:3.28임을 알 수 있었다. 또한, 제작한 임피던스 정합용 트랜스포머는 레일 전력선통신에서 투과 신호 전송을 향상할 수 있음을 확인하였다.

트랜스포머 블록과 윤곽선 디코더를 활용한 딥러닝 기반의 피부 병변 분할 방법 (Deep Learning based Skin Lesion Segmentation Using Transformer Block and Edge Decoder)

  • 김지훈;박경리;김해문;문영식
    • 한국정보통신학회논문지
    • /
    • 제26권4호
    • /
    • pp.533-540
    • /
    • 2022
  • 전문의는 피부암을 조기에 발견하기 위해 피부경을 사용하여 진단하지만 다양한 형태로 인해 피부 병변을 판단하는 데 어려움이 있다. 최근 높은 성능을 보인 딥러닝을 이용한 피부 병변 분할 방법이 제안되었지만 피부와 피부 병변 경계가 명확하지 않아서 피부 병변을 분할하는 데 문제점이 있었다. 이러한 문제를 개선하기 위해 제안하는 방법은 효과적으로 피부 병변을 분할하기 위해 트랜스포머 블록을 구성하였으며, 네트워크의 각 계층마다 윤곽선 디코더를 구성하여 피부 병변을 자세히 분할하였다. 실험 결과, 제안하는 방법은 기존의 방법보다 Dice coefficient 기준 0.041 ~ 0.071, Jaccard Index 기준 0.067 ~ 0.112의 성능 향상을 보인다.

필터와 트랜스포머를 이용한 투명한 보안기반의 설계 및 구현 (Design and Implementation of a Transparent Security Infrastructure using Filter and Transformer)

  • 김용민;이도헌;노봉남;최락만;인소란
    • 한국정보처리학회논문지
    • /
    • 제5권4호
    • /
    • pp.975-983
    • /
    • 1998
  • 최근의 정보통신 환경은 다양한 시스템 및 응용서비스를 지원하는 개방형 분산처리 환경으로 변모하고 있으며, 또한 상속 및 캡슐화, 재사용 등의 다양한 장점을 제공하는 객체지향 기법을 이용한 응용의 개발이 이루어지고 있다. 이러한 이용의 증대는 외부의 보안 위협에 최약한 네트워크 환경에 안전한 정보 교환을 위한 대책을 필요로 한다. 본 논문에서는 분산 객체환경에서 응용의 안전성을 위하여 CORBA의 보안서비스 규격에 기반하여 인증, 보안설정, 접근제어, 보안정보관리의 기능을 갖는 투명한 보안 기반구조를 설계 및 구현하였다. 보안 기반구조는 사용자 인증정보, 데이터 암호화 및 무결성을 위한 키 분배 등을 지원하기 위한 외부 보안서비스로서 SESAME V4를 이용하였다. 또한 응용의 요청에 대한 투명한 보안 서비스를 지원하기 위하여 객체요청중개자(Object Request Broker: ORB)와 인터페이스를 지원하는 필터(filter)와 트랜스포머(transformer)의 기능을 이용하였다. 필터는 메시지의 전송 및 수신 전후에 파라미터 및 메소드를 삽입 또는 제거 할 수 있으며, 트랜스포머는 메시지의 전송전 및 수신후에 암호화 및 복호화를 위해 바이트 스트림에 직접 접근할 수 이것은 CORBA에서 정의한 안전한 객체요청중개자(secure ORB)의 접근제어 및 안전한 호출 인터셉터를 필터와 트랜스포머를 이용하여 구현한 것이다.

  • PDF

Optimization of attention map based model for improving the usability of style transfer techniques

  • Junghye Min
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권8호
    • /
    • pp.31-38
    • /
    • 2023
  • 딥러닝 기반 영상 처리 기술 중 최근 활발히 연구되어 많은 성능 향상을 이룬 기술 중 하나는 스타일 전이 (Style Transfer) 기술이다. 스타일 전이 기술은 콘텐츠 영상과 스타일 영상을 입력받아 콘텐츠 영상의 스타일을 변환한 결과 영상을 생성하는 기술로 디지털 콘텐츠의 다양성을 확보하는데 활용할 수 있어 중요성이 커지고 있다. 이런 스타일 전이 기술의 사용성을 향상하기 위해서는 안정적인 성능의 확보가 중요하다. 최근 자연어 처리 분야에서 트랜스포머 (Transformer) 개념이 적극적으로 활용됨에 트랜스포머의 기반이 되는 어텐션 맵이 스타일 전이 기술 개발에도 활발하게 적용되어 연구되고 있다. 본 논문에서는 그중 대표가 되는 SANet과 AdaAttN 기술을 분석하고 향상된 스타일 전이 결과를 생성 할 수 있는 새로운 어텐션 맵 기반 구조를 제안한다. 결과 영상은 제안하는 기술이 콘텐츠 영상의 구조를 보존하면서도 스타일 영상의 특징을 효과적으로 적용하고 있음을 보여준다.

DETR 기반 객체탐지를 사용한 댄스 자세교정 방법 (Dance Posture Correction Method using DETR-based Object Detection)

  • 우상철;지수미;성연식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.41-42
    • /
    • 2020
  • 전 세계적으로 코로나 바이러스가 확산되면서 언택트 시대가 되었다. 언택트 시대에서는 대부분의 대면활동이 비대면으로 전환되고 있다. 전 세계적으로 열광중인 케이팝 댄스의 대중화를 위해 우리는 비대면으로 댄스 학습이 가능한 DETR 기반 객체탐지를 사용한 댄스 자세교정 연구를 제안한다. 본 논문에서 제안한 댄스 자세교정은 객체탐지에 DETR을 적용한 방식이다. DETR은 기존 객체탐지 모델에서 앵커박스, 바운딩박스 중복처리를 제거하는 NMS같은 휴리스틱한 방법을 사용하지 않고 트랜스포머를 통해 자동으로 학습하도록 만든 모델이다. DETR로 객체탐지를 한 후 강사와 사용자의 동작유사성을 샴 뉴럴 네트워크를 통해 계산한다.

Transformer 네트워크를 이용한 음성신호 변환 (Voice-to-voice conversion using transformer network)

  • 김준우;정호영
    • 말소리와 음성과학
    • /
    • 제12권3호
    • /
    • pp.55-63
    • /
    • 2020
  • 음성 변환은 다양한 음성 처리 응용에 적용될 수 있으며, 음성 인식을 위한 학습 데이터 증강에도 중요한 역할을 할 수 있다. 기존의 방법은 음성 합성을 이용하여 음성 변환을 수행하는 구조를 사용하여 멜 필터뱅크가 중요한 파라미터로 활용된다. 멜 필터뱅크는 뉴럴 네트워크 학습의 편리성 및 빠른 연산 속도를 제공하지만, 자연스러운 음성파형을 생성하기 위해서는 보코더를 필요로 한다. 또한, 이 방법은 음성 인식을 위한 다양한 데이터를 얻는데 효과적이지 않다. 이 문제를 해결하기 위해 본 논문은 원형 스펙트럼을 사용하여 음성 신호 자체의 변환을 시도하였고, 어텐션 메커니즘으로 스펙트럼 성분 사이의 관계를 효율적으로 찾아내어 변환을 위한 자질을 학습할 수 있는 transformer 네트워크 기반 딥러닝 구조를 제안하였다. 영어 숫자로 구성된 TIDIGITS 데이터를 사용하여 개별 숫자 변환 모델을 학습하였고, 연속 숫자 음성 변환 디코더를 통한 결과를 평가하였다. 30명의 청취 평가자를 모집하여 변환된 음성의 자연성과 유사성에 대해 평가를 진행하였고, 자연성 3.52±0.22 및 유사성 3.89±0.19 품질의 성능을 얻었다.

TeGCN:씬파일러 신용평가를 위한 트랜스포머 임베딩 기반 그래프 신경망 구조 개발 (TeGCN:Transformer-embedded Graph Neural Network for Thin-filer default prediction)

  • 김성수;배준호;이주현;정희주;김희웅
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.419-437
    • /
    • 2023
  • 국내 씬파일러(Thin Filer)의 수가 1200만명을 넘어서며, 금융 업계에서 씬파일러의 신용을 정확히 평가하여 우량고객을 선별해 대출을 공급하는 시도가 많아지고 있다. 특히, 차주의 신용정보에 존재하는 비선형성을 반영하여 채무불이행을 예측하기 위해서 다양한 머신러닝 알고리즘을 활용한 연구가 진행되고 있다. 그 중 그래프 신경망 구조(Graph Neural Network)는 일반적인 신용정보 외에 대출자 간의 네트워크 정보를 반영할 수 있다는 점에서 데이터가 부족한 씬파일러의 채무 불이행 예측에서 주목할 만하다. 그러나, 그래프 신경망을 활용한 기존의 연구들은 신용정보에 존재하는 다양한 범주형 변수를 적절히 처리하지 못했다는 한계가 있었다. 이에 본 연구는 범주형 변수의 맥락적 정보를 추출할 수 있는 트랜스포머 메커니즘(Transformer mechanism)과 대출자 간 네트워크 정보를 반영할 수 있는 그래프 합성곱 신경망(Graph Convolutional Network)를 결합하여 효과적으로 씬파일러의 채무 불이행 예측이 가능한 TeGCN (Transformer embedded Graph Convolutional Network)를 제안한다. TeGCN는 일반 대출자 데이터셋과 씬파일러 데이터셋에 대하여 모두 베이스 라인 모델 대비 높은 성능을 보였으며, 특히 씬파일러 채무 불이행 예측에 우수한 성능을 달성했다. 본 연구는 범주형 변수가 많은 신용정보와 데이터가 부족한 씬파일러의 특성에 적합한 모델 구조를 결합하여 높은 채무 불이행 예측 성능을 달성했다는 시사점이 있다. 이는 씬파일러의 금융소외문제를 해결하고 금융업계에서 씬파일러를 대상으로 추가적인 수익을 창출하는데 기여할 수 있을 것이다.

아웃페인팅 기반 반려동물 자세 추정에 관한 예비 연구 (A Pilot Study on Outpainting-powered Pet Pose Estimation)

  • 이규빈;이영찬;유원상
    • 융합신호처리학회논문지
    • /
    • 제24권1호
    • /
    • pp.69-75
    • /
    • 2023
  • 최근 동물 행동 분석 및 건강관리 분야를 중심으로 딥러닝 기반 동물 자세 추정 기법에 대한 관심이 높아지고 있다. 그러나 기존 동물 자세 추정 기법은 영상에서 신체 부위가 가려지거나 존재하지 않을 경우 좋은 성능을 보이지 않는다. 특히 꼬리나 귀가 가려진 경우, 반려견의 행동 및 감정 분석의 성능에도 심각한 영향을 미친다. 본 논문에서는 이러한 다루기 힘든 문제를 해결하기 위해, 이미지 아웃페인팅 네트워크를 자세 추정 네트워크에 연결하여 이미지 외부에 존재하는 반려견의 신체를 복원한 확장된 이미지를 생성하여 반려견의 자세를 추정하는 단순하면서도 새로운 접근방법을 제안하였고, 제안된 방법의 실현가능성을 검토하는 예비 연구를 수행하였다. 이미지 아웃페인팅 모델로는 CE-GAN과 트랜스포머 기반의 BAT-Fill을 사용하였고, 자세 추정 모델로는 SimpleBaseline을 사용하였다. 실험 결과, 크롭된 입력 이미지에서 반려견의 자세를 추정하였을 때보다, BAT-Fill을 사용하여 아웃페인팅된 확장 이미지에서 반려견의 자세를 추정하였을 때 자세 추정의 성능이 향상되었다.

약간 감독되는 포인트 클라우드 분석에서 일반 로컬 트랜스포머 네트워크 (General Local Transformer Network in Weakly-supervised Point Cloud Analysis)

  • ;이태호;;최필주;이석환;권기룡
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.528-529
    • /
    • 2023
  • Due to vast points and irregular structure, labeling full points in large-scale point clouds is highly tedious and time-consuming. To resolve this issue, we propose a novel point-based transformer network in weakly-supervised semantic segmentation, which only needs 0.1% point annotations. Our network introduces general local features, representing global factors from different neighborhoods based on their order positions. Then, we share query point weights to local features through point attention to reinforce impacts, which are essential in determining sparse point labels. Geometric encoding is introduced to balance query point impact and remind point position during training. As a result, one point in specific local areas can obtain global features from corresponding ones in other neighborhoods and reinforce from its query points. Experimental results on benchmark large-scale point clouds demonstrate our proposed network's state-of-the-art performance.