• 제목/요약/키워드: 임베딩벡터

검색결과 146건 처리시간 0.025초

트랜슬레이션 임베딩 기반 관계 학습을 이용한 GUI 위젯 인식 (Recognition of GUI Widgets Utilizing Translational Embeddings based on Relational Learning)

  • 박민수;석호식
    • 전기전자학회논문지
    • /
    • 제22권3호
    • /
    • pp.693-699
    • /
    • 2018
  • CNN 기반의 객체 인식 성능은 매우 우수한 것으로 보고되고 있지만 모바일 기기의 앱 GUI와 같이 일반적으로 생각하기에 잡음이 적고 분명하게 인식될 수 있을 것으로 기대되는 환경에 적용해보면 인간의 관점에서 매우 유사한 GUI 입력 위젯들이 의외로 잘 인식되지는 않는다는 문제가 발생한다. 본 논문에서는 CNN의 입력 위젯 인식 성능을 향상시키기 위하여 모바일 앱의 GUI를 구성하는 객체들의 관계를 활용하는 방법을 제안한다. 제안 방법에서는 (1) CNN 기반의 객체 인식 도구인 Faster R-CNN을 이용하여 모바일 앱을 구성하는 입력 위젯을 1차 인식한 후 (2) 위젯 인식률 향상을 위하여 객체 간의 관계를 활용하는 방법을 결합하였다. 객체 간의 관계는 표현 공간상에서의 벡터의 평행 이동을 활용하여 표현되었으며, 총 323개의 앱에서 생성한 데이터에 적용한 결과 Faster R-CNN만을 사용한 경우와 비교하여 위젯 인식률을 상당히 개선할 수 있음을 확인하였다.

SERADE : 섹션 표현 기반 문서 임베딩 모델을 활용한 긴 문서 검색 성능 개선 (SERADE: Section Representation Aggregation Retrieval for Long Document Ranking)

  • 정혜인;전현규;김지윤;이찬형;김봉수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.135-140
    • /
    • 2022
  • 최근 Document Retrieval을 비롯한 대부분의 자연어처리 분야에서는 BERT와 같이 self-attention을 기반으로 한 사전훈련 모델을 활용하여 SOTA(state-of-the-art)를 이루고 있다. 그러나 self-attention 메커니즘은 입력 텍스트 길이의 제곱에 비례하여 계산 복잡도가 증가하기 때문에, 해당 모델들은 선천적으로 입력 텍스트의 길이가 제한되는 한계점을 지닌다. Document Retrieval 분야에서는, 문서를 특정 토큰 길이 단위의 문단으로 나누어 각 문단의 유사 점수 또는 표현 벡터를 추출한 후 집계함으로서 길이 제한 문제를 해결하는 방법론이 하나의 주류를 이루고 있다. 그러나 논문, 특허와 같이 섹션 형식(초록, 결론 등)을 갖는 문서의 경우, 섹션 유형에 따라 고유한 정보 특성을 지닌다. 따라서 문서를 단순히 특정 길이의 문단으로 나누어 학습하는 PARADE와 같은 기존 방법론은 각 섹션이 지닌 특성을 반영하지 못한다는 한계점을 지닌다. 본 논문에서는 섹션 유형에 대한 정보를 포함하는 문단 표현을 학습한 후, 트랜스포머 인코더를 사용하여 집계함으로서, 결과적으로 섹션의 특징과 상호 정보를 학습할 수 있도록 하는 SERADE 모델을 제안하고자 한다. 실험 결과, PARADE-Transformer 모델과 비교하여 평균 3.8%의 성능 향상을 기록하였다.

  • PDF

양방향 언어 모델을 활용한 자연어 텍스트의 시간 관계정보 추출 기법 (Temporal Relationship Extraction for Natural Language Texts by Using Deep Bidirectional Language Model)

  • 임채균;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.81-84
    • /
    • 2019
  • 자연어 문장으로 작성된 문서들에는 대체적으로 시간에 관련된 정보가 포함되어 있을 뿐만 아니라, 문서의 전체 내용과 문맥을 이해하기 위해서 이러한 정보를 정확하게 인식하는 것이 중요하다. 주어진 문서 내에서 시간 정보를 발견하기 위한 작업으로는 시간적인 표현(time expression) 자체를 인식하거나, 시간 표현과 연관성이 있는 사건(event)을 찾거나, 시간 표현 또는 사건 간에서 발생하는 시간적 연관 관계(temporal relationship)를 추출하는 것이 있다. 문서에 사용된 언어에 따라 고유한 언어적 특성이 다르기 때문에, 만약 시간 정보에 대한 관계성을 고려하지 않는다면 주어진 문장들로부터 모든 시간 정보를 추출해내는 것은 상당히 어려운 일이다. 본 논문에서는, 양방향 구조로 학습된 심층 신경망 기반 언어 모델을 활용하여 한국어 입력문장들로부터 시간 정보를 발견하는 작업 중 하나인 시간 관계정보를 추출하는 기법을 제안한다. 이 기법은 주어진 단일 문장을 개별 단어 토큰들로 분리하여 임베딩 벡터로 변환하며, 각 토큰들의 잠재적 정보를 고려하여 문장 내에 어떤 유형의 시간 관계정보가 존재하는지를 인식하도록 학습시킨다. 또한, 한국어 시간 정보 주석 말뭉치를 활용한 실험을 수행하여 제안 기법의 시간 관계정보 인식 정확도를 확인한다.

  • PDF

스테고 잡음 확대를 위한 영상 분해와 동시 발생 확률에 기반한 스테그분석 (Steganalysis Based on Image Decomposition for Stego Noise Expansion and Co-occurrence Probability)

  • 박태희;김재호;엄일규
    • 대한전자공학회논문지SP
    • /
    • 제49권2호
    • /
    • pp.94-101
    • /
    • 2012
  • 본 논문은 커버 영상으로부터 스테고 영상의 검출율을 높이기 위한 개선된 스테그분석 기법을 제안한다. 스테그분석에서 스테고 영상의 검출율을 높이려면 데이터 은닉에 의해 야기되는 작은 변화가 증폭되어야 한다. 이를 위해 본 논문에서는 두 단계의 방법을 통해 커버 영상과 스테고 영상의 특징 벡터를 추출한다. 먼저 스테고 잡음을 두배 이상 확대하기 위해 주어진 영상을 상위 4비트와 하위 4비트로 각각 분해한다. 각 분해된 영상에 대하여 3-레벨 Haar 웨이블릿 변환을 통해 총 12개의 부밴드를 생성하고, 생성된 부밴드에 대하여 동일 스케일 상에서 다른 부밴드 계수간의 동시발생 확률을 구한다. 웨이블릿 영역에서 부 밴드간 계수의 동시발생 확률은 데이터 은닉에 의해 상관성에 영향을 받게 되므로 커버 및 스테고 영상을 구분하기 위한 특징으로 사용될 수 있다. 본 논문에서는 동시발생 확률의 특성함수에 대한 모멘트를 구하여 특징 벡터로 사용한다. 추출된 특징 벡터는 신경망회로망 분류기를 사용하여 커버 영상과 스테고 영상을 학습하고 판별한다. 제안 방법의 성능평가를 위해 S-tool에 의한 LSB 및 COX의 SS, F5 임베딩 방법에 의한 다양한 삽입률의 스테고 영상을 사용하였으며, 실험결과 제안한 기법은 기존의 기법에 비해 비밀 메시지 삽입 유무의 검출율을 향상시킬 뿐만 아니라 판별의 정확도가 높음을 확인할 수 있었다.

부가 정보를 활용한 비전 트랜스포머 기반의 추천시스템 (A Vision Transformer Based Recommender System Using Side Information)

  • 권유진;최민석;조윤호
    • 지능정보연구
    • /
    • 제28권3호
    • /
    • pp.119-137
    • /
    • 2022
  • 최근 추천 시스템 연구에서는 사용자와 아이템 간 상호 작용을 보다 잘 표현하고자 다양한 딥 러닝 모델을 적용하고 있다. ONCF(Outer product-based Neural Collaborative Filtering)는 사용자와 아이템의 행렬을 외적하고 합성곱 신경망을 거치는 구조로 2차원 상호작용 맵을 제작해 사용자와 아이템 간의 상호 작용을 더욱 잘 포착하고자 한 대표적인 딥러닝 기반 추천시스템이다. 하지만 합성곱 신경망을 이용하는 ONCF는 학습 데이터에 나타나지 않은 분포를 갖는 데이터의 경우 예측성능이 떨어지는 귀납적 편향을 가지는 한계가 있다. 본 연구에서는 먼저 NCF구조에 Transformer에 기반한 ViT(Vision Transformer)를 도입한 방법론을 제안한다. ViT는 NLP분야에서 주로 사용되던 트랜스포머를 이미지 분류에 적용하여 좋은 성과를 거둔 방법으로 귀납적 편향이 합성곱 신경망보다 약해 처음 보는 분포에도 robust한 특징이 있다. 다음으로, ONCF는 사용자와 아이템에 대한 단일 잠재 벡터를 사용하였지만 본 연구에서는 모델이 더욱 다채로운 표현을 학습하고 앙상블 효과도 얻기 위해 잠재 벡터를 여러 개 사용하여 채널을 구성한다. 마지막으로 ONCF와 달리 부가 정보(side information)를 추천에 반영할 수 있는 아키텍처를 제시한다. 단순한 입력 결합 방식을 활용하여 신경망에 부가 정보를 반영하는 기존 연구와 달리 본 연구에서는 독립적인 보조 분류기(auxiliary classifier)를 도입하여 추천 시스템에 부가정보를 보다 효율적으로 반영할 수 있도록 하였다. 결론적으로 본 논문에서는 ViT 의 적용, 임베딩 벡터의 채널화, 부가정보 분류기의 도입을 적용한 새로운 딥러닝 모델을 제안하였으며 실험 결과 ONCF보다 높은 성능을 보였다.

대화형 에이전트 인식오류 및 신조어 탐지를 위한 알고리즘 개발: 한글 음절 분리 기반의 단어 유사도 활용 (Developing a New Algorithm for Conversational Agent to Detect Recognition Error and Neologism Meaning: Utilizing Korean Syllable-based Word Similarity)

  • 이정원;임일
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.267-286
    • /
    • 2023
  • 인공지능 스피커로 대표되는 대화형 에이전트는 사람-컴퓨터 간 대화형이기 때문에 대화 상황에서 오류가 발생하는 경우가 잦다. 에이전트 사용자의 발화 기록에서 인식오류는 사용자의 발화를 제대로 인식하지 못하는 미인식오류 유형과 발화를 인식하여 서비스를 제공하였으나 사용자가 의도한 바와 다르게 인식된 오인식오류 유형으로 나뉜다. 이 중 오인식오류의 경우, 서비스가 제공된 것으로 기록되기 때문에 이에 대한 오류 탐지가 별도로 필요하다. 본 연구에서는 텍스트 마이닝 기법 중에서도 단어와 문서를 벡터로 바꿔주는 단어 임베딩과 문서 임베딩을 이용하여 단순 사용된 단어 기반의 유사도 산출이 아닌 단어의 분리 방식을 다양하게 적용함으로써 연속 발화 쌍의 유사도를 기반으로 새로운 오인식오류 및 신조어 탐지 방법을 탐구하였다. 연구 방법으로는 실제 사용자 발화 기록을 활용하여 오인식오류의 패턴을 모델 학습 및 생성 시 적용하여 탐지 모델을 구현하였다. 그 결과, 오인식오류의 가장 큰 원인인 등록되지 않은 신조어 사용을 탐지할 수 있는 패턴 방식으로 다양한 단어 분리 방식 중 초성 추출 방식이 가장 좋은 결과를 보임을 확인하였다. 본 연구는 크게 두 개의 함의를 가진다. 첫째, 인식오류로 기록되지 않아 탐지가 어려운 오인식오류에 대하여 다양한 방식 별 비교를 통해 최적의 방식을 찾았다. 둘째, 이를 실제 신조어 탐지 적용이 필요한 대화형 에이전트나 음성 인식 서비스에 적용한다면 음성 인식 단계에서부터 발생하는 오류의 패턴도 구체화할 수 있으며, 오류로 분류되지 않더라도 사용자가 원하는 결과에 맞는 서비스가 제공될 수 있음을 보였다.

Caffe를 이용한 얼굴 인식 파이프라인 모델 구현 (Implementation of Face Recognition Pipeline Model using Caffe)

  • 박진환;김창복
    • 한국항행학회논문지
    • /
    • 제24권5호
    • /
    • pp.430-437
    • /
    • 2020
  • 제안 모델은 얼굴 검출과 랜드마크 및 얼굴 인식 알고리즘을 이용하여 인공신경망으로 학습을 통해 얼굴 예측률과 인식률을 향상하는 모델을 구현하였다. 제안 모델은 특정 인물의 얼굴 영상에서 랜드마킹을 한 후, 기존에 학습된 Caffe 모델을 이용하여 얼굴검출과 임베딩 벡터 128D를 추출하였다. 학습은 기계학습 알고리즘인 SVM (support vector machine)과 DNN (deep neural network)을 구축하여 학습하였다. 얼굴인식은 학습된 모델을 이용하여 학습된 인물 중 다른 얼굴 영상으로 테스트하였다. 실험 결과, SVM 보다는 DNN으로 학습한 결과가 우수한 예측률과 인식률을 보였다. DNN의 중간층을 증가하게 되면 예측률은 높아지나 인식률이 감소하는 현상이 발생하였다. 이것은 인식하고자 하는 대상이 적음으로써 발생하는 과적합으로 판단된다. 제안 모델은 명확한 얼굴 영상을 추가하여 학습한 결과, 높은 예측률과 인식률의 결과를 얻을 수 있음을 확인할 수 있었다. 본 연구는 좀 더 많은 얼굴 영상 데이터를 이용함으로써 보다 효과적인 딥러닝 구축을 통해 보다 향상된 인식률과 예측률을 얻을 수 있을 것이다.

곱셉 잡음 첨가를 이용한 스테그분석의 성능 개선 (Improvement of Steganalysis Using Multiplication Noise Addition)

  • 박태희;엄일규
    • 전자공학회논문지CI
    • /
    • 제49권4호
    • /
    • pp.23-30
    • /
    • 2012
  • 본 논문은 스테고 잡음의 분산을 확대함으로써 비밀 메시지의 존재를 감지하기 위한 개선된 스테그분석 방법을 제안한다. 먼저 주어진 영상에 스펙클 잡음을 곱하여 작은 스테고 잡음을 확대하고 소프트 임계치 방법에 의해 잡음이 제거된 영상을 추정한다. 스테고 잡음과 스펙클 잡음은 완전히 제거되지 않으므로 추정된 영상에는 잡음이 일부 존재하게 된다. 만약 주어진 영상이 커버 영상이라면, 잔존하는 잡음은 매우 적을 것이고, 스테고 영상이라면 상대적으로 큰 잡음을 가지게 될 것이다. 이때 스테고 영상의 경우 잡음의 영향으로 웨이블릿 영역에서 부모-자식 부대역의 통계적 의존성에 손상이 발생하게 된다. 따라서 본 논문에서는 이러한 특성을 이용하여 주어진 영상과 잡음이 제거된 영상의 차이로부터 조인트 통계 모멘트를 추출한다. 아울러 잡음이 제거된 영상에 대하여 4개의 통계적 모멘트를 추출하여 제안된 스테그분석에 사용한다. 추출된 특징 벡터는 MLP 분류기로 입력되어 학습된다. 제안 방법의 성능을 평가하기 위해 다양한 비트율의 임베딩 방법을 사용하였으며, 실험 결과 제안 기법은 기존의 방법에 비해 검출율과 정확도 측면에서 우수함을 확인할 수 있었다.

질의응답 시스템에서 처음 보는 단어의 역문헌빈도 기반 단어 임베딩 기법 (Inverse Document Frequency-Based Word Embedding of Unseen Words for Question Answering Systems)

  • 이우인;송광호;심규석
    • 정보과학회 논문지
    • /
    • 제43권8호
    • /
    • pp.902-909
    • /
    • 2016
  • 질의응답 시스템은 사용자의 질문에 대한 답을 찾아주는 시스템으로, 기존의 검색엔진이 사용자의 질의에 대해 관련된 문서의 링크만을 찾아주는 반면 질문에 대한 최종적인 답을 찾아준다는 차이점이 있다. 특정 분야에 국한되지 않고 다양한 질문을 처리해주는 오픈 도메인 질의응답 시스템에 필요한 연구들이 최근 자연어 처리, 인공지능, 데이터 마이닝 등 학계의 다양한 분야들에서 뜨거운 관심을 받고 있다. 하지만 관련 연구에서는 학습 데이터에는 없었던 단어들이 질문에 대한 정확한 답과 유사한 오답을 구별해내는데 결정적인 역할을 할 수 있음에도, 이러한 처음 보는 단어들을 모두 단일 토큰으로 치환해버리는 문제가 있다. 본 논문에서는 문맥 정보를 통해 이러한 모르는 단어에 대한 벡터를 계산하는 방법을 제안한다. 그리고 역문헌빈도 가중치를 활용하여 문맥정보를 더 효율적으로 처리하는 모델을 제안한다. 또한 풍부한 실험을 통해 질의응답 시스템의 모델 학습 속도 및 정확성이 기존 연구에 비해 향상됨을 확인하였다.

한국 전통문화 말뭉치구축 및 Bi-LSTM-CNN-CRF를 활용한 전통문화 개체명 인식 모델 개발 (Constructing for Korean Traditional culture Corpus and Development of Named Entity Recognition Model using Bi-LSTM-CNN-CRFs)

  • 김경민;김규경;조재춘;임희석
    • 한국융합학회논문지
    • /
    • 제9권12호
    • /
    • pp.47-52
    • /
    • 2018
  • 개체명 인식(Named Entity Recognition)시스템은 문서로부터 고유한 의미를 가질 수 있는 인명(PS), 지명(LC), 기관명(OG) 등의 개체명을 추출하고 추출된 개체명의 범주를 결정하는 시스템이다. 최근 딥러닝 방식을 이용한 개체명 인식 연구에서 입력 데이터의 앞, 뒤 방향을 고려한 LSTM 기반의 Bi-LSTM 모델로부터 출력 데이터 간의 전이 확률을 이용한 CRF를 결합한 방식의 Bi-LSTM-CRF가 우수한 성능을 보이고, 문자 및 단어 단위의 효율적인 임베딩 벡터생성에 관한 연구와 CNN, LSTM을 활용한 모델에서도 좋은 성능을 보여주고 있다. 본 연구에서는 한국어 개체명 인식시스템 성능 향상을 위해 자질을 보강한 Bi-LSTM-CNN-CRF 모델에 관해 기술하고 전통문화 말뭉치구축 방식에 대해 제안한다. 그리고 구축한 말뭉치를 한국어 개체명 인식 성능 향상을 위한 자질 보강 모델 Bi-LSTM-CNN-CRF로 학습한 결과에 대해 제안한다.