• 제목/요약/키워드: 문장 압축

검색결과 27건 처리시간 0.022초

광고비주얼의 아이디어발상을 위한 압축$\cdot$확장법의 제안 (Proposal of a condensing & amplification method for conceiving a good advertising visual idea)

  • 박용원
    • 디자인학연구
    • /
    • 제20권
    • /
    • pp.185-196
    • /
    • 1997
  • 광고디자인에서 비 주얼 아이디어를 구할 때, 기존의 발상법이 여러 가지가 있지만 활용도 및 만족도가 떨어지는 경향이 있다. 또한 섬 네일 스케치 단계에서 그림 요소로만 아이디어를 구하는 경향이 많아 기존의 자료문헌에 대한 의존도가 높아 근본적인 독창성의 추구에 문제점이 있을 수밖에 없다는 것이다. 아울러 디자이너와 카피라이터의 공용의 발상법이 있다면 매우 효과적이라는 배경 아래 언어 지향적인 접근 방법을 통해 광고 인텔리 전스의 논리적 체계를 유지하며 동시에 창의적 시각화가 용이한 압축·확장 법이라는 비 주얼 아이디어 발상법을 제안하고자 한다. 압축·확장 법은 광고 인텔리 전스((Intelligence)에 의한 소구내용을 문장과 구절을 경유하여 단어로 압축한 다음 그 단어에 대한 다양한 베리 에이션을 전개하고 그 결과 중에서 가장 독창적인 단어를 골라 구절과 문장으로 확장한 결과를 바탕으로 섬 네일 스케치에 들어가는 발상법이다.

  • PDF

VAE를 이용한 의미적 연결 관계 기반 다중 문서 요약 기법 (Multi-Document Summarization Method Based on Semantic Relationship using VAE)

  • 백수진
    • 디지털융복합연구
    • /
    • 제15권12호
    • /
    • pp.341-347
    • /
    • 2017
  • 많은 양의 문서 데이터가 증가됨에 따라 사용자는 해당 문서를 이해하기 위한 요약된 정보를 필요로 한다. 그러나, 기존 문서 요약 연구 방법들은 지나치게 단순한 통계에 의존함으로써 문장의 모호성 및 의미 있는 문장 생성을 위한 다중 문서 요약 연구가 미흡한 실정이다. 본 논문에서는 의미적 연결 관계에 대한 파악 및 불필요한 정보를 처리하기 위한 전처리 과정을 거치며, 어휘 의미 패턴 정보를 기반으로 VAE를 이용하여 문장 간의 의미적 연결성을 높인 다중 문서 요약 기법을 제안하였다. 문장을 이루고 있는 단어 벡터들을 이용하여, 잠재된 변수로 생성된 압축된 정보와 속성 판별기로부터 학습을 한 후 문장을 재구성함으로써 의미적 연결 처리가 자연스러운 요약문을 생성하였다. 제안된 방법과 다른 문서 요약 방법을 비교했을 시 미세하지만 더 향상된 성능을 나타냈으며, 이는 의미적 문장 생성 및 연결성을 높일 수 있음을 증명하였다. 앞으로, 다양한 속성 설정 값을 가지고 실험하여 의미적 연결 관계를 확장할 수 있는 방법을 연구하고자 한다.

한국어 분류를 위한 효율적인 서브 워드 분절 (Efficient Subword Segmentation for Korean Language Classification)

  • 서현진;남정재;김민석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.535-540
    • /
    • 2022
  • Out of Vocabulary(OOV) 문제는 인공신경망 기계번역(Neural Machine Translation, NMT)에서 빈번히 제기되어 왔다. 이를 해결하기 위해, 기존에는 단어를 효율적인 압축할 수 있는 Byte Pair Encoding(BPE)[1]이 대표적으로 이용되었다. 하지만 BPE는 빈도수를 기반으로 토큰화가 진행되는 결정론적 특성을 취하고 있기에, 다양한 문장에 관한 일반화된 분절 능력을 함양하기 어렵다. 이를 극복하기 위해 최근 서브 워드를 정규화하는 방법(Subword Regularization)이 제안되었다. 서브 워드 정규화는 동일한 단어 안에서 발생할 수 있는 다양한 분절 경우의 수를 고려하도록 설계되어 다수의 실험에서 우수한 성능을 보였다. 그러나 분류 작업, 특히 한국어를 대상으로 한 분류에 있어서 서브 워드 정규화를 적용한 사례는 아직까지 확인된 바가 없다. 이를 위해 본 논문에서는 서브 워드 정규화를 대표하는 두 가지 방법인 유니그램 기반 서브 워드 정규화[2]와 BPE-Dropout[3]을 이용해 한국어 분류 문제에 대한 서브 워드 정규화의 효과성을 제안한다. NMT 뿐만 아니라 분류 문제 역시 단어의 구성성 및 그 의미를 파악하는 것은 각 문장이 속하는 클래스를 결정하는데 유의미한 기여를 한다. 더불어 서브 워드 정규화는 한국어의 문장 구성 요소에 관해 폭넓은 인지능력을 함양할 수 있다. 해당 방법은 본고에서 진행한 한국어 분류 과제 실험에서 기존 BPE 대비 최대 4.7% 높은 성능을 거두었다.

  • PDF

Patent Tokenizer: 형태소와 SentencePiece를 활용한 특허문장 토크나이즈 최적화 연구 (Patent Tokenizer: a research on the optimization of tokenize for the Patent sentence using the Morphemes and SentencePiece)

  • 박진우;민재옥;심우철;노한성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.441-445
    • /
    • 2020
  • 토큰화(Tokenization)는 사람이 작성한 자연어 문장을 기계가 잘 이해할 수 있도록 최소 단위인 토큰으로 분리하는 작업을 말하여, 이러한 토큰화는 자연어처리 전반적인 태스크들의 전처리에 필수적으로 사용되고 있다. 최근 자연어처리 분야에서 높은 성능을 보이며, 다양한 딥러닝 모델에 많이 활용되고 있는 SentencePiece 토큰화는 여러 단어에서 공통적으로 출현하는 부분단어들을 기준으로, BPE 알고리즘을 이용하여 문장을 압축 표현하는 토큰화 방법이다. 본 논문에서는 한국어 기반 특허 문헌의 초록 자연어 데이터를 기반으로 SentencePiece를 비롯한 여러 토큰화 방법에 대하여 소개하며, 해당 방법을 응용한 기계번역 (Neural Machine Translation) 태스크를 수행하고, 토큰화 방법별 비교 평가를 통해 특허 분야 자연어 데이터에 최적화된 토큰화 방법을 제안한다. 그리고 본 논문에서 제안한 방법을 사용하여 특허 초록 한-영 기계번역 태스크에서 성능이 향상됨을 보였다.

  • PDF

뉴스 클러스터링을 위한 문장 간 상호 작용 기반 문서 쌍 유사도 측정 모델들 (Sentence Interaction-based Document Similarity Models for News Clustering)

  • 최성환;손동현;이호창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.401-407
    • /
    • 2020
  • 뉴스 클러스터링에서 두 문서 간의 유사도는 클러스터의 특성을 결정하는 중요한 부분 중 하나이다. 전통적인 단어 기반 접근 방법인 TF-IDF 벡터 유사도는 문서 간의 의미적인 유사도를 반영하지 못하고, 기존 딥러닝 기반 접근 방법인 시퀀스 유사도 측정 모델은 문서 단위에서 나타나는 긴 문맥을 반영하지 못하는 문제점을 가지고 있다. 이 논문에서 우리는 뉴스 클러스터링에 적합한 문서 쌍 유사도 모델을 구성하기 위하여 문서 쌍에서 생성되는 다수의 문장 표현들 간의 유사도 정보를 종합하여 전체 문서 쌍의 유사도를 측정하는 네 가지 유사도 모델을 제안하였다. 이 접근 방법들은 하나의 벡터로 전체 문서 표현을 압축하는 HAN (hierarchical attention network)와 같은 접근 방법에 비해 두 문서에서 나타나는 문장들 간의 직접적인 유사도를 통해서 전체 문서 쌍의 유사도를 추정한다. 그리고 기존 접근 방법들인 SVM과 HAN과 제안하는 네 가지 유사도 모델을 통해서 두 문서 쌍 간의 유사도 측정 실험을 하였고, 두 가지 접근 방법에서 기존 접근 방법들보다 높은 성능이 나타나는 것을 확인할 수 있었고, 그래프 기반 접근 방법과 유사한 성능을 보이지만 더 효율적으로 문서 유사도를 측정하는 것을 확인하였다.

  • PDF

저장 한계를 극복한 효율적인 디지털 워터마크 생성 방법 연구 (A Study on Effective Digital Watermark Generation Method to Overcome Capacity Limit)

  • 김희선;조대제
    • 한국콘텐츠학회논문지
    • /
    • 제5권6호
    • /
    • pp.343-350
    • /
    • 2005
  • 기존의 디지털 워터마킹 방법에서는 주로 PN-수열을 사용하여 산출된 이진데이터를 디지털 워터마크로 사용하였다. 이 방법은 영상의 크기가 작은 경우, 제한된 크기의 원 영상에 삽입 할 수 있는 워터마크의 크기는 한계가 있다. 본 논문에서는 혼돈 함수에 의하여 산출되는 혼돈수열을 이용하여 디지털 워터마크를 생성하고, 이를 사용하는 방법을 제시하였으며, 이것이 기존의 PN-수열을 대신하여 사용할 수 있음을 보였다. 또한 워터마크로 사용될 임의의 문장을 혼돈 수열로 변환하는 방법을 제시하였다. 실험을 통하여, 임의의 문장을 디지털 워터마크로 변환하여 원본 영상에 삽입하고 이를 추출하여 다시 원래의 문장으로 복원하는 과정을 구현하였다. 본 논문에서 제시한 알고리즘은 긴 문장을 짧은 혼돈 수열로 함축하는 방법을 사용하여 기존의 방법에 비해 보다 많은 정보를 원본 영상에 숨길 수 있기 때문에, 제한된 저장 한계를 극복할 수 있었다.

  • PDF

웹 페이지 저장공간 및 전송시간 축소를 위한 시스템 설계 (An algorithm for reduction of WEB Page Access Complecity)

  • 정옥란;김혜연;이은영;조동섭
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2000년도 하계학술대회 논문집 D
    • /
    • pp.3066-3068
    • /
    • 2000
  • 전자상거래의 활성화는 HTML 문서나 Javascript와 같은 웹 문서의 빈번한 전송을 요구할 것이며 이는 향후 인터넷 전송 트래픽을 야기하는 주요 요인이 될 전망이다. 웹 페이지는 비슷한 문장열이 인수에 해당하는 부분만이 변화되면서 반복하는 특징을 갖고 있다. 본 연구에서는 웹 페이지의 이러한 특징을 이용하여 매크로 기법을 사용한 웹 문서 압축 알고리즘을 제안한다 우리는 실험을 통해 본 알고리즘이 꿩 페이지의 저장공간 압축에 좋은 성능을 가짐을 보여줌으로써 전송 시간의 축소의 부가적인 효과를 거둘 수 있었다.

  • PDF

검색 기반의 질문생성에서 중복 방지를 위한 유사 응답 검출 (Detection of Similar Answers to Avoid Duplicate Question in Retrieval-based Automatic Question Generation)

  • 최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권1호
    • /
    • pp.27-36
    • /
    • 2019
  • 본 연구는 검색 기반의 질문 자동 생성 시스템에서 사용자가 이미 답변한 내용을 재질문하지 않도록 사용자의 응답과 유사도가 높은 응답을 질문-데이터베이스에서 찾는 방법을 제안한다. 유사도가 높게 검출된 응답의 질문은 이미 사용자가 아는 내용일 확률이 높기 때문에 질문 후보군에서 제거한다. 유사 응답 검출에는 두 응답간의 동일 단어, 바꿔쓰기 표현, 문장 내용을 모두 사용하였다. 바꿔쓰기 표현은 통계기반의 기계번역에서 사용하는 구절 테이블을 사용하여 구축하였다. 문장 내용은 두 문장을 주의-기반 컨볼루션 신경망으로 압축하여 유사도를 계산하였다. 평가를 위해 구축한 100개의 평가 응답에 질문-응답 데이터베이스로부터 가장 유사한 응답을 추출해서 얻은 결과는 MRR값 71%의 성능을 보였다.

고정소수점 연산구조에 기초한 MPEG-4 CELP coder구현 (A Fixed-point implementation of MPEG-4 CELP coder)

  • 이우종;이재식;박지태;장태규;이전우
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(4)
    • /
    • pp.119-122
    • /
    • 2001
  • 본 논문에서는 음성압축 앨고리즘인 MPEG-4 CELP coder를 16 bit DSP 구현에 필요한 고정소수점 연산구조로 구현하였다. 기본 앨고리즘 중에 LSP 계수를 구하는 방법인 Chebyshev series method 대신 고정소수점 구현에 유리한 Real root method 앨고리즘을 사용하였다. 또한 cosine, log 둥 DSP 명령어가 지원하지 않는 수학 함수들은 미리 계산하여 테이블 적용기법을 사용하였고 고정 소수점 연산에 불리한 나눗셈 연산을 최대한 배제하였다. 고정 소수점 연산 구조로 변환한 후 부동 소수점 연산구조와의 비교를 통하여 오차를 최소화하도록 하였다 구현한 음성코더를 남, 여 각 5문장에 적용했을 때 부동 소수점 연산구조에 비교해 음질의 열화가 없음을 확인하였다.

  • PDF

신문 기사의 언어 사용 양상: 코퍼스언어학적 접근 (Aspects of Language Use in Newspaper Articles: A Corpus Linguistic Perspective)

  • 송경화;강범모
    • 인지과학
    • /
    • 제17권4호
    • /
    • pp.255-269
    • /
    • 2006
  • 본 연구는 신문 기사에 대한 실증적 언어 분석을 목적으로 한다. <21세기 세종계획>에 의해 구축된 대용량의 신문 기사 말뭉치를 형태, 어절, 절, 문장 등의 단위로 계량화하여 분석하였다. 신문 기사를 표제, 전문, 본문의 세 구성 성분으로 나누고 표제의 표시성과 압축성의 실현 양상, 전문과 표제의 연관성, 본문의 문장 구조와 일반명사 구성 비율 등을 살펴보았다. 이 연구를 통하여 기존의 비계량적 연구 방법들과 차별화 된 실증적 연구로서 신문 이론을 검증하고, 신문 기사의 새로운 언어 현상을 발견할 수 있었다. 신문 기사와 같은 텍스트는 인간의 인지적 언어 처리의 결과이며 동시에 인지적 언어 형성에 영향을 미칠 것이다.

  • PDF