• 제목/요약/키워드: 딥러닝학습

검색결과 1,518건 처리시간 0.024초

문서 이미지 데이터 활용을 위한 지능형 OCR 기술 개발 (Development of Intelligent OCR Technology to Utilize Document Image Data)

  • 김상준;유동희;황소영;김민호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.212-215
    • /
    • 2022
  • 오늘날 소위 디지털 전환시대를 맞아, 많은 부분에서 빅데이터의 구축과 활용에 대한 필요성이 높아졌다. 오늘날에 많은 데이터가 디지털기기, 미디어 친화적으로 생산 및 보관되는 것과 달리, 과거 오랜 기간 데이터의 생산 및 보관은 활자 인쇄도서가 주를 이루었다. 따라서 오랜 기간 축적되어온 방대한 활자 인쇄도서를 빅데이터로써 활용하기 위한 광학 문자 판독(OCR: Optical Character Recognition) 기술의 필요성 역시 빅데이터의 필요성에 맞추어 함께 요구되었다. 본 연구에서는 도서 스캔 이미지의 정보를 각 문서 객체별로 세분화하여 그 구조와 내용을 디지털화하는 시스템을 제안한다. 제안 시스템은 크게 1) 문서객체(표, 수식, 그림, 본문)의 영역정보를 인식. 2)인식된 객체의 영역정보를 각각 표 처리, 수식 처리, 텍스트 처리 모듈로 OCR. 3) OCR로 처리된 문서 정보를 JSON형식으로 종합하여 반환하는 세 단계로 구성된다. 본 연구에서 제안하는 모델은 이러한 단계를 수행함에 있어 오픈소스로 공개된 프로젝트를 활용하되, 본 시스템의 목표에 맞추어 추가적인 학습과 개량을 거쳤다. 본 연구에서 제안한 지능형 OCR 시스템은 문서 이미지 내 4종(표, 수식, 이미지, 텍스트)의 객체인식과 처리에 있어 상용 소프트웨어 수준의 성능을 확인할 수 있었다.

  • PDF

딥러닝 기반 영상처리를 이용한 골재 품질 검사 (Examination of Aggregate Quality Using Image Processing Based on Deep-Learning)

  • 김성규;최우빈;이종세;이원곡;최근오;배유석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권6호
    • /
    • pp.255-266
    • /
    • 2022
  • 콘크리트의 주재료인 골재 중 굵은 골재의 품질관리는 현재 샘플링을 통한 통계적 공정관리(SPC) 방법으로 하고 있다. 본 논문은 굵은 골재에 대한 품질관리를 현재의 체거름 방식을 대신 카메라를 통해 획득한 영상을 기반으로 굵은 골재를 검사하게 바꾸어 제조 혁신을 위한 스마트팩토리를 구축하였다. 먼저, 얻은 영상을 전처리 하였고, 딥러닝으로 학습된 HED(Holistically-nested Edge Detection)필터는 각각의 물체를 Segmentation하였다. 이 Segmentation한 결과를 영상 처리하여 각각의 골재를 분석 후 이 결과를 바탕으로 조립률, 입형률을 파악한다. 영상을 통해 얻은 골재들의 조립률, 입형률을 계산하여 골재의 품질을 검사하였고 알고리즘의 정확도는 실제로 체 가름 방식을 통해 골재의 품질을 비교한 것과 90% 이상의 정확도를 보이는 결과가 나왔다. 또한 기존의 방법으로는 골재의 입형률을 검사할 수 없었지만 본문의 내용을 통해 골재의 입형률도 측정할 수 있게 되었다. 입형률의 경우 도형을 사용하여 검증하였는데 이는 ±4.5%의 차이를 보였다. 골재의 길이 측정의 경우 실제 골재의 길이를 비교하였는데 ±6%의 차이를 보였다. 실제 3차원의 데이터를 2차원의 영상에서 분석하다보니 실제 데이터와 차이가 생겼는데 이는 추후 연구가 필요하다.

언어 모델 기반 음성 특징 추출을 활용한 생성 음성 탐지 (Voice Synthesis Detection Using Language Model-Based Speech Feature Extraction)

  • 김승민;박소희;최대선
    • 정보보호학회논문지
    • /
    • 제34권3호
    • /
    • pp.439-449
    • /
    • 2024
  • 최근 음성 생성 기술의 급격한 발전으로, 텍스트만으로도 자연스러운 음성 합성이 가능해졌다. 이러한 발전은 타인의 음성을 생성하여 범죄에 이용하는 보이스피싱과 같은 악용 사례를 증가시키는 결과를 낳고 있다. 음성 생성 여부를 탐지하는 모델은 많이 개발되고 있으며, 일반적으로 음성의 특징을 추출하고 이러한 특징을 기반으로 음성 생성 여부를 탐지한다. 본 논문은 생성 음성으로 인한 악용 사례에 대응하기 위해 새로운 음성 특징 추출 모델을 제안한다. 오디오를 입력으로 받는 딥러닝 기반 오디오 코덱 모델과 사전 학습된 자연어 처리 모델인 BERT를 사용하여 새로운 음성 특징 추출 모델을 제안하였다. 본 논문이 제안한 음성 특징 추출 모델이 음성 탐지에 적합한지 확인하기 위해 추출된 특징을 활용하여 4가지 생성 음성 탐지 모델을 만들어 성능평가를 진행하였다. 성능 비교를 위해 기존 논문에서 제안한 Deepfeature 기반의 음성 탐지 모델 3개와 그 외 모델과 정확도 및 EER을 비교하였다. 제안한 모델은 88.08%로 기존 모델보다 높은 정확도와 11.79%의 낮은 EER을 보였다. 이를 통해 본 논문에서 제안한 음성 특징 추출 방법이 생성 음성과 실제 음성을 판별하는 효과적인 도구로 사용될 수 있음을 확인하였다.

다변량 입력이 딥러닝 기반 저수율 예측에 미치는 영향 분석과 중장기 예측 방안 (Analyzing the Impact of Multivariate Inputs on Deep Learning-Based Reservoir Level Prediction and Approaches for Mid to Long-Term Forecasting)

  • 박혜승;윤종욱;이호준;양현호
    • 정보처리학회 논문지
    • /
    • 제13권4호
    • /
    • pp.199-207
    • /
    • 2024
  • 지역 저수지들은 농업용수 공급의 중요한 수원공으로 가뭄과 같은 극단적 기후 조건을 대비하여 안정적인 저수율 관리가 필수적이다. 저수율 예측은 국지적 강우와 같은 지역적 기후 특성뿐만 아니라 작부시기를 포함하는 계절적 요인 등에 크게 영향을 받기 때문에 적절한 예측 모델을 선정하는 것만큼 입/출력 데이터 간 상관관계 파악이 무엇보다 중요하다. 이에 본 연구에서는 1991년부터 2022년까지의 전라북도 400여 개 저수지의 광범위한 다변량 데이터를 활용하여 각 저수지의 복잡한 수문학·기후학적 환경요인을 포괄적으로 반영한 저수율 예측 모델을 학습 및 검증하고, 각 입력 특성이 저수율 예측 성능에 미치는 영향력을 분석하고자 한다. 신경망 구조에 따른 저수율 예측 성능 개선이 아닌 다변량의 입력 데이터와 예측 성능 간의 상관관계에 초점을 맞추기 위하여 실험에 사용된 예측 모델로 합성곱신경망 또는 순환신경망과 같은 복잡한 형태가 아닌 완전연결계층, 배치정규화, 드롭아웃, 활성화 함수 등의 조합으로 구성된 기본적인 순방향 신경망을 채택하였다. 추가적으로 대부분의 기존 연구에서는 하루 단위의 단기 예측 성능만을 제시하고 있으며 이러한 단기 예측 방식은 10일, 한 달 단위 등 중장기적 예측이 필요한 실무환경에 적합하지 않기 때문에, 본 연구에서는 하루 단위 예측값을 다음 입력으로 사용하는 재귀적 방식을 통해 최대 한 달 뒤 저수율 예측 성능을 측정하였다. 실험을 통해 예측 기간에 따른 성능 변화 양상을 파악하였으며, Ablation study를 바탕으로 예측 모델의 각 입력 특성이 전체 성능에 끼치는 영향을 분석하였다.

객체 탐지 딥러닝 기법을 활용한 필지별 조사 방안 연구 (Detecting high-resolution usage status of individual parcel of land using object detecting deep learning technique )

  • 전정배
    • 지적과 국토정보
    • /
    • 제54권1호
    • /
    • pp.19-32
    • /
    • 2024
  • 본 연구에서는 드론영상을 기반으로 YOLO 알고리즘을 통해 시설물과 농경지를 대상으로 객체탐지를 실시하고, 이를 법정지목과 비교를 수행하여 영상기반의 조사 가능성을 검토하였다. YOLO 알고리즘을 통해 객체를 탐지한 결과 건축물의 경우에는 기존 수치지형도에서 제공하고 있는 건축물 중 96.3%에 해당하는 객체를 탐지하는 것으로 분석되었다. 또한 수치지형도에서는 건축물이 위치하지 않지만, 영상에서 건축물이 존재하는 136개의 건축물을 추가로 탐지하는 것으로 나타나 정확도가 높은 것으로 나타났다. 비닐하우스의 경우에는 총 297개를 탐지했으나, 일부 과수형 비닐하우스의 경우에 탐지율이 낮은 것으로 분석되었다. 마지막으로 농경지는 가장 낮은 탐지율을 보였다. 농경지는 시설물 대비 넓은 면적과 불규칙한 형상으로 학습데이터의 일관성이 낮아 정확도가 시설물에 비해 작은 것으로 판단된다. 따라서 농경지의 경우에는 박스형태의 탐지가 아닌 Segmentation 탐지가 더욱 효과적으로 활용될 것으로 보인다. 마지막으로 탐지된 객체를 법정지목과 비교를 수행하였다. 그 결과 건축물이 입지가 어려운 농경지 및 임야에서 건축물이 존재하는 것으로 분석되었다. 그러나 이 건축물이 불법으로 활용됨을 파악하기 위해선 행정정보와 연계가 필요할 것으로 보여진다. 따라서 현재 수준에서는 건축물이 입지하기 어려운 필지에 건축물의 존재유무를 객관적으로 판단할 수 있는 수준까지 조사가 가능한 것으로 볼 수 있다.

MMORPG 게임의 이탈 유저에 대한 인공지능 기반 조기 탐지 (AI-based early detection to prevent user churn in MMORPG)

  • 이민혁;박선우;이성환;김수인;조윤영;송대섭;이문영;정윤서
    • 응용통계연구
    • /
    • 제37권4호
    • /
    • pp.525-539
    • /
    • 2024
  • Massive multiplayer online role playing game (MMORPG)은 국내 게임에서 큰 비중을 차지하는 게임 장르이다. MMORPG에서 유저 이탈 예측은 중요한 과제 중 하나이다. 인게임 결제가 수익 비중이 높기에 유저 잔존율이 서비스 수명 및 수익과 깊이 연관되기 때문이다. 만약, 특정 유저의 이탈을 사전에 예측할 수 있다면 프로모션을 통해 해당 유저의 잔존을 유도할 수 있을 것이다. 따라서, 이탈 예측 문제에서는 예측의 정확도도 중요하지만 이탈의 징후를 얼마나 빠르게 파악할 수 있는지 또한 중요하다. 본 논문에서는 이탈 징후를 조기에 탐지하기 위하여, 유저별 잔존 확률을 일별로 예측하고 이 예측된 확률 값들을 활용하여 유저 이탈 징후를 조기에 파악하는 방법을 제안한다. 이를 위해, 국내 게임사의 유저 로그 데이터로 여러 모형을 학습하고 유저별 잔존 확률을 구하여 잔존 확률의 변화 패턴에 대한 분석을 통해 이탈 가능성이 높은 유저를 조기에 감지할 수 있는 경험적 규칙을 보인다. 최종적으로, 성능 평가 결과를 통해 기존에 접속일을 기반으로 한 규칙보다 제시한 규칙을 이용할 시 이탈 유저를 조기에 감지할 수 있음을 확인한다. 추가적으로, 유저가 이탈하기 전 시점에 게임 접속 중 유저 이탈을 예측하는 방법과 유저의 게임 스타일에 따른 프로모션 방안을 제시한다.

상처와 주름이 있는 지문 판별에 효율적인 심층 학습 비교연구 (A Comparative Study on the Effective Deep Learning for Fingerprint Recognition with Scar and Wrinkle)

  • 김준섭;림빈 보니카;성낙준;홍민
    • 인터넷정보학회논문지
    • /
    • 제21권4호
    • /
    • pp.17-23
    • /
    • 2020
  • 인간의 특성과 관련된 측정 항목을 나타내는 생체정보는 도난이나 분실의 염려가 없으므로 높은 신뢰성을 가진 보안 기술로서 큰 주목을 받고 있다. 이러한 생체정보 중 지문은 본인 인증, 신원 파악 등의 분야에 주로 사용된다. 신원을 파악할 때 지문 이미지에 인증을 수행하기 어려운 상처, 주름, 습기 등의 문제가 있을 경우, 지문 전문가가 전처리단계를 통해 직접 지문에 어떠한 문제가 있는지 파악하고 문제에 맞는 영상처리 알고리즘을 적용해 문제를 해결한다. 이때 지문에 상처와 주름이 있는 지문 영상을 판별해주는 인공지능 소프트웨어를 구현하면 손쉽게 상처나 주름의 여부를 확인할 수 있고, 알맞은 알고리즘을 선정해 쉽게 지문 이미지를 개선할 수 있다. 본 연구에서는 이러한 인공지능 소프트웨어의 개발을 위해 캄보디아 왕립대학교의 학생 1,010명, Sokoto 오픈 데이터셋 600명, 국내 학생 98명의 모든 손가락 지문을 취득해 총 17,080개의 지문 데이터베이스를 구축했다. 구축한 데이터베이스에서 상처나 주름이 있는 경우를 판별하기 위해 기준을 확립하고 전문가의 검증을 거쳐 데이터 어노테이션을 진행했다. 트레이닝 데이터셋과 테스트 데이터셋은 캄보디아의 데이터, Sokoto 데이터로 구성하였으며 비율을 8:2로 설정했다. 그리고 국내 학생 98명의 데이터를 검증 데이터 셋으로 설정했다, 구성된 데이터셋을 사용해 Classic CNN, AlexNet, VGG-16, Resnet50, Yolo v3 등의 다섯 가지 CNN 기반 아키텍처를 구현해 학습을 진행했으며 지문의 상처와 주름 판독에서 가장 좋은 성능을 보이는 모델을 찾는 연구를 수행했다. 다섯가지 아키텍처 중 지문 영상에서 상처와 주름 여부를 가장 잘 판별할 수 있는 아키텍처는 ResNet50으로 검증 결과 81.51%로 가장 좋은 성능을 보였다.

문장 분류를 위한 정보 이득 및 유사도에 따른 단어 제거와 선택적 단어 임베딩 방안 (Selective Word Embedding for Sentence Classification by Considering Information Gain and Word Similarity)

  • 이민석;양석우;이홍주
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.105-122
    • /
    • 2019
  • 텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다. 사전에 정의된 단어의 긍정 및 부정 점수에 따라 단어의 임베딩을 수정하는 방법 또한 시도하였다. 본 연구는 문장 분류 문제에 대해 선택적 단어 제거를 수행하고 임베딩을 적용하여 문장 분류 정확도를 향상시키는 방안을 제안한다. 텍스트 데이터에서 정보 이득 값이 낮은 단어들을 제거하고 단어 임베딩을 적용하는 방식과, 정보이득 값이 낮은 단어와 코사인 유사도가 높은 주변 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 단어 임베딩을 재구성하는 방식이다. 본 연구에서 제안하는 방안을 수행함에 있어 데이터는 Amazon.com의 'Kindle' 제품에 대한 고객리뷰, IMDB의 영화리뷰, Yelp의 사용자 리뷰를 사용하였다. Amazon.com의 리뷰 데이터는 유용한 득표수가 5개 이상을 만족하고, 전체 득표 중 유용한 득표의 비율이 70% 이상인 리뷰에 대해 유용한 리뷰라고 판단하였다. Yelp의 경우는 유용한 득표수가 5개 이상인 리뷰 약 75만개 중 10만개를 무작위 추출하였다. 학습에 사용한 딥러닝 모델은 CNN, Attention-Based Bidirectional LSTM을 사용하였고, 단어 임베딩은 Word2Vec과 GloVe를 사용하였다. 단어 제거를 수행하지 않고 Word2Vec 및 GloVe 임베딩을 적용한 경우와 본 연구에서 제안하는 선택적으로 단어 제거를 수행하고 Word2Vec 임베딩을 적용한 경우를 비교하여 통계적 유의성을 검정하였다.

Conditional Generative Adversarial Network(CGAN) 기반 협업 필터링 추천 시스템 (Conditional Generative Adversarial Network based Collaborative Filtering Recommendation System)

  • 강소이;신경식
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.157-173
    • /
    • 2021
  • 소비자의 욕구와 관심에 맞추어 개인화된 제품을 추천하는 추천 시스템은 비즈니스에 필수적인 기술로서의 그 중요성이 증가하고 있다. 추천 시스템의 대표적인 모형 중 협업 필터링은 우수한 성능으로 다양한 분야에서 활용되고 있다. 그러나 협업필터링은 사용자-아이템의 선호도 정보가 충분하지 않을 경우 성능이 저하되는 희소성의 문제가 있다. 또한 실제 평점 데이터의 경우 대부분 높은 점수에 데이터가 편향되어 있어 심한 불균형을 갖는다. 불균형 데이터에 협업 필터링을 적용할 경우 편향된 클래스에 과도하게 학습되어 추천 성능이 저하된다. 이러한 문제를 해결하기 위해 많은 선행연구들이 진행되어 왔지만 추가적인 외부 데이터 또는 기존의 전통적인 오버샘플링 기법에 의존한 추천을 시도하였기에 유용성이 떨어지고 추천 성능 측면에서 한계점이 있었다. 본 연구에서는 CGAN을 기반으로 협업 필터링 구현 시 발생하는 희소성 문제를 해결함과 동시에 실제 데이터에서 발생하는 데이터 불균형을 완화하여 추천의 성능을 높이는 것을 목표로 한다. CGAN을 이용하여 비어있는 사용자-아이템 매트릭스에 실제와 흡사한 가상의 데이터를 생성하여, 희소성을 가지고 있는 기존의 매트릭스로만 학습한 것과 비교했을 때 높은 정확도가 예상된다. 이 과정에서 Condition vector y를 이용하여 소수 클래스에 대한 분포를 파악하고 그 특징을 반영하여 데이터를 생성하였다. 이후 협업 필터링을 적용하고, 하이퍼파라미터 튜닝을 통해 추천 시스템의 성능을 최대화하는데 기여하였다. 비교 대상으로는 전통적인 오버샘플링 기법인 SMOTE, BorderlineSMOTE, SVM-SMOTE, ADASYN와 GAN을 사용하였다. 결과적으로 데이터 희소성을 가지고 있는 기존의 실제 데이터뿐만 아니라 기존 오버샘플링 기법들보다 제안 모형의 추천 성능이 우수함을 확인하였으며, RMSE, MAE 평가 척도에서 가장 높은 예측 정확도를 나타낸다는 사실을 증명하였다.

GEase-K: 부가 정보를 활용한 선형 및 비선형 오토인코더 기반의 추천시스템 (GEase-K: Linear and Nonlinear Autoencoder-based Recommender System with Side Information)

  • 이태범;이승학;마민정;조윤호
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.167-183
    • /
    • 2023
  • 최근 추천시스템 분야에서는 희소한 데이터를 효과적으로 모델링하기 위한 다양한 연구가 진행되고 있다. GLocal-K(Global and Local Kernels for Recommender Systems)는 그중 하나의 연구로 전역 커널과 지역 커널을 결합하여 데이터의 전역적인 패턴과 개별 사용자의 특성을 모두 고려해 사용자 맞춤형 추천을 제공하는 모델이다. 하지만 GLocal-K는 커널 트릭을 사용하기 때문에 매우 희소한 데이터에서 성능이 떨어지고 부가 정보를 사용하지 않아 새로운 사용자나 아이템에 대한 추천을 제공하는 데 어려움이 있다. 본 논문에서는 이러한 GLocal-K의 단점을 극복하기 위해 EASE(Embarrassingly Shallow Autoencoders for Sparse Data) 모델과 부가 정보를 활용한 GEase-K(Global and EASE kernels for Recommender Systems) 모델을 제안한다. 우선 GLocal-K의 지역 커널 대신 EASE를 활용하여 매우 희소한 데이터에서 추천 성능을 높이고자 하였다. EASE는 단순한 선형 연산 구조로 이루어져 있지만, 규제화와 아이템 간 유사도 학습을 통해 매우 희소한 데이터에서 높은 성능을 내는 오토인코더이다. 다음으로 Cold Start 완화를 위해 부가 정보를 활용하였다. 학습 과정에서 부가 정보를 추가하기 위해 조건부 오토인코더 구조를 적용하였으며 이를 통해 사용자-아이템 간의 유사성을 더 잘 파악할 수 있도록 하였다. 결론적으로 GEase-K는 선형 구조와 비선형 구조의 결합, 부가 정보의 활용을 통해 매우 희소한 데이터와 Cold Start 상황에서 강건한 모습을 보인다. 실험 결과, GEase-K는 매우 희소한 GoodReads, ModCloth 데이터 세트에서 RMSE, MAE 평가 지표 기준 GLocal-K 보다 높은 성능을 보였다. 또한 GoodReads, ModCloth 데이터 세트를 4개의 집단으로 나누어 실험한 Cold Start 실험에서도 GLocal-K 대비 Cold Start 상황에서 좋은 성능을 보였다.