• 제목/요약/키워드: 시퀀스 데이터

검색결과 409건 처리시간 0.025초

딥러닝을 활용한 한글문장 OCR연구 (A Study on the OCR of Korean Sentence Using DeepLearning)

  • 박선우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.470-474
    • /
    • 2019
  • 한글 OCR 성능을 높이기 위해 딥러닝 모델을 활용하여 문자인식 부분을 개선하고자 하였다. 본 논문에서는 폰트와 사전데이터를 사용해 딥러닝 모델 학습을 위한 한글 문장 이미지 데이터를 직접 생성해보고 이를 활용해서 한글 문장의 OCR 성능을 높일 다양한 모델 조합들에 대한 실험을 진행했다. 딥러닝 모델은 STR(Scene Text Recognition) 구조를 사용해 변환, 추출, 시퀀스, 예측 모듈 각 24가지 모델 조합을 구성했다. 딥러닝 모델을 활용한 OCR 실험 결과 한글 문장에 적합한 모델조합은 변환 모듈을 사용하고 시퀀스와 예측 모듈에는 BiLSTM과 어텐션을 사용한 모델조합이 다른 모델 조합에 비해 높은 성능을 보였다. 해당 논문에서는 이전 한글 OCR 연구와 비교해 적용 범위를 글자 단위에서 문장 단위로 확장하였고 실제 문서 이미지에서 자주 발견되는 유형의 데이터를 사용해 애플리케이션 적용 가능성을 높이고자 한 부분에 의의가 있다.

  • PDF

프롬프트 튜닝기법을 적용한 한국어 속성기반 감정분석 (Prompt Tuning For Korean Aspect-Based Sentiment Analysis)

  • 김봉수;전현규;최승호;김지윤;장정훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.50-55
    • /
    • 2023
  • 속성 기반 감정 분석은 텍스트 내에서 감정과 해당 감정이 특정 속성, 예를 들어 제품의 특성이나 서비스의 특징에 어떻게 연결되는지를 분석하는 태스크이다. 본 논문에서는 속성 기반 감정 분석 데이터를 사용한 다중 작업-토큰 레이블링 문제에 프롬프트 튜닝 기법을 적용하기 위한 포괄적인 방법론을 소개한다. 이러한 방법론에는 토큰 레이블링 문제를 시퀀스 레이블링 문제로 일반화하기 위한 감정 표현 영역 검출 파이프라인이 포함된다. 또한 분리된 시퀀스들을 속성과 감정에 대해 분류 하기 위한 템플릿을 선정하고, 데이터셋 특성에 맞는 레이블 워드를 확장하는 방법을 제안함으써 모델의 성능을 최적화한다. 최종적으로, 퓨샷 세팅에서의 속성 기반 감정 분석 태스크에 대한 몇 가지 실험 결과와 분석을 제공한다. 구축된 데이터와 베이스라인 모델은 AIHUB(www.aihub.or.kr)에 공개되어 있다.

  • PDF

OFDM 통신시스템의 PAPR 저감을 위한 더미 시퀀스 삽입 (Dummy Sequence Insertion for PAPR Reduction of OFDM Communication System)

  • 이재은;유흥균;정영호;함영권
    • 한국전자파학회논문지
    • /
    • 제14권12호
    • /
    • pp.1239-1247
    • /
    • 2003
  • OFDM(orthogonal frequency division multiplexing) 통신 방식은 무선 고속 데이터 전송에 적합한 방식이다. 하지만 높은 PAPR(peak-to-average power ratio)의 발생으로 HPA(high power amplifier)에서 비선형 왜곡된다. 따라서 본 논문에서는 일정량의 부반송파를 PAPR 저감을 위해 사용하지만 별도의 부가정보 전송이 필요하지 않는 DSI(dummy sequence insertion) OFDM을 제안한다. DSI 방식은 기존 PTS(partial transmit sequence)나 SLM(selected mapping) 방식에서의 부가 정보와 달리 단지 PAPR 감소에만 사용되는 특정한 더미 데이터 시퀀스(dummy data sequence)를 전송한다. 더미 시퀀스로 상보 시퀀스(complementary sequence)와 상관 시퀀스(correlation sequence)를 사용하고 좀더 효과적 인 PAPR 저감을 위해 플리핑(flipping) 방법을 사용한다. 또한 DSI 방식은 기존의 블록코딩 방식보다 나은 전송 효율(spectral efficiency)을 갖는다. 그리고 DSI 방식은 처리시간 및 계산량을 줄이기 위해 threshold 기법을 적용한다. 하지만 PAPR 저감 성능은 기존 방식보다 떨어진다. 하지만 제안한 DSI 방식의 중요한 장점은 더미 데이터 시퀀스의 손상에 의해 BER특성이 영향을 받지 않는다는 것이다. 결론적으로 DSI 방식은 OFDM 보다 낮은 PAPR을 갖고 기존의 PIS나 SLM에 비해 처리시간을 감소시키고 BER성능 개선이 이루어진다.

이동 시퀀스 트리를 이용한 효율적인 시공간 이동 패턴 탐사 기법 (The Efficient Spatio-Temporal Moving Pattern Mining using Moving Sequence Tree)

  • 이연식;고현
    • 정보처리학회논문지D
    • /
    • 제16D권2호
    • /
    • pp.237-248
    • /
    • 2009
  • 최근 이동 객체의 동적인 위치나 이동성에 기반하여 여러 분야에 적용가능한 위치 기반 서비스를 개발하고자 다양한 객체의 이동 패턴들로 부터 유용한 패턴을 추출하기 위한 패턴 탐사 기법에 대한 연구가 활발히 진행되고 있다. 이동 패턴 탐사는 특성상 방대한 시공간 데이터의 분석 및 처리 방법에 따라 패턴 탐사의 성능이 좌우된다. 기존의 시공간 패턴 탐사 기법들[1-6,8-11] 중 일부는 이러한 문제를 해결하기 위한 방법을 제시하였으나, 패턴 탐사 수행 시간이나 패턴 탐사 시 사용되는 메모리양을 최소화하는데 있어 아직 부족한 실정이다. 이에 본 논문에서는 방대한 시공간 이동 데이터 집합으로부터 순차적이고 주기적인 빈발 이동 패턴을 효과적으로 추출하기 위한 새로운 시공간 이동 패턴 탐사기법을 제안한다. 제안된 기법에서는 이동 객체의 이력 데이터로부터 해시 트리 기반의 이동 시퀀스 트리를 생성하여 빈발 이동 패턴을 탐사함으로써 탐사 수행 시간을 $83%{\sim}93%$ 감소시키고, 시간 및 공간 속성을 가진 상세 수준의 이력 데이터들을 공간 및 시간 개념 계층을 이용하여 실세계의 의미있는 시간 및 공간영역으로 일반화함으로써 탐사 시 소요되는 메모리양을 감소시켜 보다 효과적인 패턴 탐사를 유도한다.

Illumina를 이용한16S rRNA 기반 미생물생태분석에서 분변의 동결건조에 의한 인공적인 시퀀스 생성 감소효과 (Freeze-drying feces reduces illumina-derived artefacts on 16S rRNA-based microbial community analysis)

  • 김정만;운노타쯔야
    • Journal of Applied Biological Chemistry
    • /
    • 제59권4호
    • /
    • pp.299-304
    • /
    • 2016
  • PCR 산물을 이용한 시퀀싱방법 중 Illumina 플랫폼으로 시퀀싱을 수행하면 100개 이상의 인위적인 시퀀스가 생겨나며, 그러한 인위적으로 형성되는 시퀀스에 의해 Operational taxonomic units를 기반으로 한 미생물생태 변화 및 네트워크 분석에 영향을 미친다. 이러한 문제점이 있음에도 불구하고 분변미생물생태를 분석하는데 Illumina에서 제공하고 있는 시퀀싱을 주된 방법으로 사용하고 있으며, 또한 그러한 시퀀스 기반의 분변미생물 생태분석 결과는 분변샘플상태(i.e., 분변 보관 기간, 분변양, 분변의 신선도)에 따라 상이하게 나타난다. 본 연구에서는 분변샘플의 동결건조가 시퀀스 데이터의 퀄리티를 향상시키는지 관해 조사하였으며, 이를 통해 분변샘플에 동결건조처리는 전체적인 미생물생태구조를 변화시키지는 않지만 인위적으로 형성되었을 가능성이 있는 시퀀스의 수를 감소시키는 것으로 확인되었다. 따라서, 분변으로부터 DNA를 추출하기 이전에 동결건조처리하는 방법을 Illumina 기반의 분변미생물생태분석에 사용하는 것을 권장한다.

시계열 데이타베이스에서 유사한 서브시퀀스의 모양 기반 검색 (Shape-Based Retrieval of Similar Subsequences in Time-Series Databases)

  • 윤지희;김상욱;김태훈;박상현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권5호
    • /
    • pp.381-392
    • /
    • 2002
  • 본 논문에서는 시계열 데이타베이스에서의 모양 기반 검색 문제에 관하여 논의한다. 모양 기반 검색은 실제 요소 값과 관계없이 질의 시퀀스와 유사한 모양을 갖는 (서브)시퀀스를 찾는 연산이다. 본 연구에서는 모양 기반 서브시퀀스 검색을 위한 새로운 기법을 제안한다. 먼저, 시프팅, 스케일링, 이동 평균, 타임 워핑 등 변환들의 다양한 조합을 지원하는 모양 기반 검색을 위하여 새로운 유사 모델을 제시한다. 또한, 이러한 유사 모델을 기반으로 하는 모양 기반 검색을 효과적으로 처리하기 위하여 효율적인 인덱싱 및 질의 처리 기법들을 제안한다. 제안된 기법의 유용성을 규명하기 위하여 실제 데이타인 S&P 500 주식 데이터를 이용한 다양한 실험을 수행한다. 실험 결과에 의하면, 제안된 기법은 질의 시퀀스의 모양과 유사한 모양을 갖는 서브시퀀스들을 성공적으로 검색할 뿐만 아니라 순차 검색 기법과 비교하여 66배까지의 상당한 성능 개선 효과를 갖는 것으로 나타났다.

MPEG 압축된 비디오의 자동 분할 기법 (Automatic Parsing of MPEG-Compressed Video)

  • 김가현;문영식
    • 한국정보처리학회논문지
    • /
    • 제6권4호
    • /
    • pp.868-876
    • /
    • 1999
  • 본 논문에서는 MPEG으로 압축된 비디오(MPEG-compressed video)를 대상으로 내용기반 색인(content-based indexing)에 기초가 될 동영상 자도 d분할에 관한 효과적인 방법을 제안한다. 제안하는 방법은 MPEG 시퀀스의Ⅰ(Intra), P(Predictive), B(bidirectional) 픽쳐 구성에 구애받지 않고 장면 전환점(scene change)을 검출해 낸다. 컷(cut) 검출을 위해서는 Ⅰ픽쳐의 dc 계수와 P, B 픽쳐의 매크로 블록 참조 특성을 이용하여 차이 측도(difference measure)를 설정한다. 그리고 점진적인 (gradual)장면 전환에서는 p, B 픽쳐의 참조 블록 비율을 이용하여 정확하게 장면 전환 지점을 검출한다. 이때 MPEG 시퀀스를 완전히 복원하지 않고 필요한 데이터만을 추출해 내어 전체 데이터 처리 과정을 좀 더 효율적으로 구성한다. 차이 척도의 성능과 검출 결과는 정확도(precision)와 완전추출도(recall)를 기준으로 비교분석하고, 제안한 방법을 다양한 MPEG 시퀀스에 적용시켜 검출 결과와 수행 시간 측면에서 그 효율성을 확인하였다.

  • PDF

상향 링크 케이블 모뎀 시스템을 위한 동기 방법 (Research of Synchronization Schemes for Uplink Cable Modem System)

  • 김영제;오왕록;김환우
    • 대한전자공학회논문지TC
    • /
    • 제45권2호
    • /
    • pp.6-12
    • /
    • 2008
  • 본 논문에서는 상향 링크 케이블 모뎀 시스템에 대한 동기화 방법에 대하여 제안하였다. 상향 링크의 케이블 모뎀 시스템은 DOCSIS(data over cable service interface specification) 규격에 의해 정해져 있으며, 이에 맞는 동기화 방법에 관하여 연구하였다. 케이블 모뎀은 버스트 모드로 동작하며 시 분할 다중 접속(time division multiple access, TDMA) 버스트 포맷을 사용한다. 버스트 포맷은 프리앰블과 데이터 구간으로 나뉜다. 본 논문에서는 프리앰블을 이용한 프레임 동기, coarse 타이밍 동기, 반송파 주파수 동기, 반송파 각 동기 방법을 연구하였으며, 프리앰블로 이용할 시퀀스로 correlation 특성이 우수한 CAZAC(constant envelope zero-autocorrelation) 시퀀스를 이용하였다. 또한 타이밍 드리프트가 존재하는 경우와 나머지 주파수 오프셋이 주는 영향을 고려하여 데이터 구간에서 심벌 타이밍 동기방식과 주파수 각 오프셋 추정박식을 채택하여 시스템을 구성하였고, 이를 컴퓨터 실험 결과를 이용하여 성능을 검증하였다.

효율적인 비디오 유사도 측정을 위한 휘도 투영모델 (Luminance Projection Model for Efficient Video Similarity Measure)

  • 김상현
    • 융합신호처리학회논문지
    • /
    • 제10권2호
    • /
    • pp.132-135
    • /
    • 2009
  • 비디오 데이터들의 효율적 색인과 검색을 위해서는 비디오 시퀀스의 유사도 측정방법이 매우 중요한 요소이다. 본 논문은 비디오 시퀀스에 대한 효율적인 유사도 측정을 위해 휘도 성분 투사법을 제안한다. 기존의 알고리즘들이 히스토그램, 윤곽선, 움직임등과 같은 특성을 사용한 반면 본 논문에서 제안한 알고리즘은 휘도 성분을 투사하는 방법을 사용하여 비디오 유사도 특성을 효율적으로 나타낼 수 있다. 비디오 데이터의 효율적인 색인과 계산량 감소를 위해 누적된 유사도에 의해 추출된 키프레임들을 이용하여 비디오 시퀀스의 유사도를 구하고 수정된 하우스도르프 거리를 사용하여 키프레임 묶음들의 유사도를 측정하였다. 실험결과 제안한 휘도투시법을 사용한 비디오 색인 기법이 유사도 특성에서 기존의 특성을 사용한 방법에 비해 확연한 정확도 및 성능 차이를 보였다.

  • PDF

시간 속성을 갖는 이벤트 집합에서 인터벌 연관 규칙 마이닝 기법 (A Method for Mining Interval Event Association Rules from a Set of Events Having Time Property)

  • 한대영;김대인;김재인;나철수;황부현
    • 정보처리학회논문지D
    • /
    • 제16D권2호
    • /
    • pp.185-190
    • /
    • 2009
  • 시간 속성을 갖는 이벤트 집합에서 동일한 이벤트 타입에 대한 이벤트 시퀀스는 하나의 이벤트로 요약될 수 있다. 그러나 정의된 시간 간격이 경과된 후 발생된 이벤트 타입은 하나 이상의 독립된 서브 이벤트 시퀀스로 요약하는 것이 바람직하다. 본 논문은 Allen의 시간 관계 대수에 기반하여 인터벌 이벤트를 요약하고, 요약된 인터벌 이벤트들로부터 인터벌 연관 규칙을 찾아내는 새로운 시간 데이터 마이닝 기법을 제안한다. 제안하는 기법은 독립적인 서브 시퀀스 개념을 도입하고 인터벌 이벤트 사이의 연관 규칙을 탐사함으로써 질적으로 우수한 정보를 제공한다.