• 제목/요약/키워드: character encoding

검색결과 22건 처리시간 0.026초

음성 인식 오류 수정을 위한 Trie 기반 사전을 이용한 Guided Sequence Generation (Guided Sequence Generation using Trie-based Dictionary for ASR Error Correction)

  • 최준휘;류성한;유환조;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.211-216
    • /
    • 2016
  • 현재 나오는 많은 음성 인식기가 대체로 높은 정확도를 가지고 있더라도, 음성 인식 오류는 여전히 빈번하게 발생한다. 음성 인식 오류는 관련 어플리케이션에 있어 많은 오동작의 원인이 되므로, 음성 인식 오류는 고쳐져야 한다. 본 논문에서는 Trie 기반 사전을 이용한 Guided Sequence Generation을 제안한다. 제안하는 모델은 목표 단어와 그 단어의 문맥을 Encoding하고, 그로부터 단어를 Character 단위로 Decoding하며 단어를 Generation한다. 올바른 단어를 생성하기 위하여, Generation 시에 Trie 기반 사전을 통해 유도한다. 실험을 위해 모델은 영어 TV 가이드 도메인의 말뭉치의 음성 인식 오류를 단순히 Simulation하여 만들어진 말뭉치로부터 훈련되고, 같은 도메인의 음성 인식 문장과 결과로 이루어진 병렬 말뭉치에서 성능을 평가하였다. Guided Generation은 Unguided Generation에 비해 14.9% 정도의 오류를 줄였다.

  • PDF

문서 파일의 문자 인코딩 자동 인식 기법의 설계 및 구현 (Design and Implementation Automatic Character Set Encoding Recognition Method for Document File)

  • 서민지;김명호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.95-98
    • /
    • 2015
  • 문자 인코딩은 컴퓨터에 저장하거나 네트워크상에서 전송하기 위해 문서를 이진화 하는 방법이다. 문자 인코딩은 고유의 문자 코드 테이블을 이용하여 문서를 이진화 하기 때문에, 문서에 적용된 문자 인코딩과 다른 문자 인코딩을 이용하여 디코딩 하면 원본과 다른 문서가 출력되어 문서를 읽을 수 없게 된다. 따라서 문서를 읽기 위해서는 문서에 적용된 문자 인코딩을 알아내야 한다. 본 논문에서는 문서의 문자 인코딩을 자동으로 판별하는 방법을 제시한다. 제안하는 방법은 이스케이프 문자를 이용한 판별법, 문서에 나타난 코드 값 범위 판별법, 문서에 나타난 코드 값의 특징 판별법, 단어 데이터베이스를 이용한 판별법과 같은 여러 단계를 걸쳐 문서에 적용된 문자 인코딩을 판별한다. 제안하는 방법은 문서를 언어별로 분류하여 문자 인코딩을 판별하기 때문에, 높은 문자 인코딩 인식률을 보인다.

Korean automatic spacing using pretrained transformer encoder and analysis

  • Hwang, Taewook;Jung, Sangkeun;Roh, Yoon-Hyung
    • ETRI Journal
    • /
    • 제43권6호
    • /
    • pp.1049-1057
    • /
    • 2021
  • Automatic spacing in Korean is used to correct spacing units in a given input sentence. The demand for automatic spacing has been increasing owing to frequent incorrect spacing in recent media, such as the Internet and mobile networks. Therefore, herein, we propose a transformer encoder that reads a sentence bidirectionally and can be pretrained using an out-of-task corpus. Notably, our model exhibited the highest character accuracy (98.42%) among the existing automatic spacing models for Korean. We experimentally validated the effectiveness of bidirectional encoding and pretraining for automatic spacing in Korean. Moreover, we conclude that pretraining is more important than fine-tuning and data size.

새로운 도트형 프린트 워터마크 패턴의 생성 및 부호화 기법 (Technique for production and encoding of New dot-type Print Watermark Pattern)

  • 이부형
    • 한국산학기술학회논문지
    • /
    • 제10권5호
    • /
    • pp.979-984
    • /
    • 2009
  • 본 논문에서는 2차원 인쇄물의 고유정보 즉, 텍스트, 도형 및 기호 등에 대응하는 음성, 영상 및 기타정보를 출력시킬 수 있도록 하기 위한 새로운 방법의 도트형 프린트 워터마크 생성 방법 및 부호화 기법을 제안하였다. 프린트 워터마크는 인쇄물의 고유정보에 대응하여 고유정보위에 다시 인쇄되는 특정마크로서 고유정보의 특성을 훼손하지 않으면서 음성, 또는 영상정보와 연결시키는 중간 매개 역할을 한다. 제안한 도트형 프린트 워터마크 패턴은 $0.4mm^2$의 면적 내에 $16{\times}16$의 행렬구조를 가지며, 256개의 원소(element) 중 23개의 위치에 도트가 인쇄된다. 인쇄되는 도트의 크기는 0.02mm고 매우 작아 가시화되지 않는다. 23개의 위치는 2진수 비트 위치와 매핑 되어 800만개 정도의 인쇄물 고유정보를 표현할 수 있으며, 도트가 인쇄되는 위치에 따라 쉽게 2진수로 부호화할 수 있다는 특징을 갖는다. 또한 실험을 통해 제안한 프린트 워터마크 패턴이 자체 제작된 인식장치에 의해 쉽게 인식됨을 보였다.

A Novel Scalable and Storage-Efficient Architecture for High Speed Exact String Matching

  • Peiravi, Ali;Rahimzadeh, Mohammad Javad
    • ETRI Journal
    • /
    • 제31권5호
    • /
    • pp.545-553
    • /
    • 2009
  • String matching is a fundamental element of an important category of modern packet processing applications which involve scanning the content flowing through a network for thousands of strings at the line rate. To keep pace with high network speeds, specialized hardware-based solutions are needed which should be efficient enough to maintain scalability in terms of speed and the number of strings. In this paper, a novel architecture based upon a recently proposed data structure called the Bloomier filter is proposed which can successfully support scalability. The Bloomier filter is a compact data structure for encoding arbitrary functions, and it supports approximate evaluation queries. By eliminating the Bloomier filter's false positives in a space efficient way, a simple yet powerful exact string matching architecture is proposed that can handle several thousand strings at high rates and is amenable to on-chip realization. The proposed scheme is implemented in reconfigurable hardware and we compare it with existing solutions. The results show that the proposed approach achieves better performance compared to other existing architectures measured in terms of throughput per logic cells per character as a metric.

인증서 기반의 개선된 보안 쿠키의 설계와 구현 (The proposal of improved secure cookies system based on public-key certificate)

  • 양종필;이경현
    • 한국통신학회논문지
    • /
    • 제27권11C호
    • /
    • pp.1090-1096
    • /
    • 2002
  • 웹 프로토콜인 HTTP은 이전 상태 정보를 저장하지 못하는 stateless 특성을 해결하기 위해서 쿠키(cookie)가 제안되었다. 그러나 쿠키는 평문 형태로 전송이 되며, 사용자 컴퓨터에 일반 텍스트 형태로 저장된다. 따라서, 공격자에게 쉽게 노출되어 쿠키 파일의 복사, 수정이 가능하여 보안적인 안전성에 심각한 위험이 존재한다. 본 논문에서는 이러한 쿠키의 보안 문제를 해결하기 위해서 공개키 인증서 기반의 새로운 보안 쿠키를 설계한 후 이를 구현하였다. 제안된 보안 쿠키는 사용자와 웹 서버간의 상호 인증 및 사용자 정보의 기밀성 및 무결성을 제공한다. 또한 웹 서버의 사용자 관리에 따른 부가적인 관리비용을 최소화시키기 위해 사용자 관리 정보를 보안 쿠키에 포함시킬 수 있다. 부가적으로 제안 방안의 성능 평가를 위해 기존의 HTTP 환경에서의 보안을 위해서 널리 사용되고 있는 SSL과의 수행 시간을 비교 분석하였다.

인터넷에 기반한 내용기반 검색 시스템 설계 (Content-Based Retrieval System Design over the Internet)

  • 김영호;강대성
    • 제어로봇시스템학회논문지
    • /
    • 제11권5호
    • /
    • pp.471-475
    • /
    • 2005
  • Recently, development of digital technology is occupying a large part of multimedia information like character, voice, image, video, etc. Research about video indexing and retrieval progresses especially in research relative to video. This paper proposes the novel notation in order to retrieve MPEG video in the international standards of moving picture encoding For realizing the retrieval-system, we detect DCT DC coefficient, and then we obtain shot to apply MVC(Mean Value Comparative) notation to image constructed DC coefficient. We choose the key frame for start-frame of a shot, and we have the codebook index generating it using feature of DC image and applying PCA(principal Component Analysis) to the key frame. Also, we realize the retrieval-system through similarity after indexing. We could reduce error detection due to distinguish shot from conventional shot detection algorithm. In the mean time, speed of indexing is faster by PCA due to perform it in the compressed domain, and it has an advantage which is to generate codebook due to use statistical features. Finally, we could realize efficient retrieval-system using MVC and PCA to shot detection and indexing which is important step of retrieval-system, and we using retrieval-system over the internet.

Fringe 영상의 주파수 특성 분석 (A FRINGE CHARACTER ANALYSIS OF FRINGE IMAGE)

  • 서영호;최현준;김동욱
    • 한국통신학회논문지
    • /
    • 제30권11C호
    • /
    • pp.1053-1059
    • /
    • 2005
  • 컴퓨터 생성 홀로그램(CGH, Computer Generated Hologram)은 광 홀로그램의 간섭 패턴 대신 3차원 영상을 재생하는데 필요한 정보만을 컴퓨터로 설계 및 제작하기 때문에 물리적으로 존재하지 않는 가상의 물체의 합성 및 생성이 가능하다. 하지만 CGH를 통해 생성된 fringe 영상은 그 데이터양이 방대하기 때문에 저장, 전송 및 처리를 위해서는 데이터양을 줄일 필요성이 있다. 하나의 객체를 나타내기 위한 Fringe 영상의 데이터양을 줄이는 가장 효율적인 방법은 부호화 과정이다. 본 논문에서는 효과적인 부호화를 위해 fringe 영상을 2차원 영상으로 가정한 후에 DCT(Discrete Cosine Transform)에 비해서 좋은 주파수 변환 특성을 보이는 DWT(Discrete Wavelet Transform)을 도입하여 Fringe 영상의 주파수 특성을 분석하였다. 그리고 분석된 주파수 특성을 기반으로 Fringe 영상을 웨이블릿 기반의 코덱들을 이용해 압축한 결과 Yoshikawa(2)나 Thomas(3)에 의한 방법에 비해 최대 약 2배의 압축율을 가질 수 있어 Fringe 패턴을 압축하는 좋은 방법이 될 수 있다는 것을 확인하였다.

PPNC: Privacy Preserving Scheme for Random Linear Network Coding in Smart Grid

  • He, Shiming;Zeng, Weini;Xie, Kun;Yang, Hongming;Lai, Mingyong;Su, Xin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권3호
    • /
    • pp.1510-1532
    • /
    • 2017
  • In smart grid, privacy implications to individuals and their families are an important issue because of the fine-grained usage data collection. Wireless communications are utilized by many utility companies to obtain information. Network coding is exploited in smart grids, to enhance network performance in terms of throughput, delay, robustness, and energy consumption. However, random linear network coding introduces a new challenge for privacy preserving due to the encoding of data and updating of coefficients in forwarder nodes. We propose a distributed privacy preserving scheme for random linear network coding in smart grid that considers the converged flows character of the smart grid and exploits a homomorphic encryption function to decrease the complexities in the forwarder node. It offers a data confidentiality privacy preserving feature, which can efficiently thwart traffic analysis. The data of the packet is encrypted and the tag of the packet is encrypted by a homomorphic encryption function. The forwarder node random linearly codes the encrypted data and directly processes the cryptotext tags based on the homomorphism feature. Extensive security analysis and performance evaluations demonstrate the validity and efficiency of the proposed scheme.

Genomics Reveals Traces of Fungal Phenylpropanoid-flavonoid Metabolic Pathway in the Filamentous Fungus Aspergillus oryzae

  • Juvvadi Praveen Rao;Seshime Yasuyo;Kitamoto Katsuhiko
    • Journal of Microbiology
    • /
    • 제43권6호
    • /
    • pp.475-486
    • /
    • 2005
  • Fungal secondary metabolites constitute a wide variety of compounds which either playa vital role in agricultural, pharmaceutical and industrial contexts, or have devastating effects on agriculture, animal and human affairs by virtue of their toxigenicity. Owing to their beneficial and deleterious characteristics, these complex compounds and the genes responsible for their synthesis have been the subjects of extensive investigation by microbiologists and pharmacologists. A majority of the fungal secondary metabolic genes are classified as type I polyketide synthases (PKS) which are often clustered with other secondary metabolism related genes. In this review we discuss on the significance of our recent discovery of chalcone synthase (CHS) genes belonging to the type III PKS superfamily in an industrially important fungus, Aspergillus oryzae. CHS genes are known to playa vital role in the biosynthesis of flavonoids in plants. A comparative genome analyses revealed the unique character of A. oryzae with four CHS-like genes (csyA, csyB, csyC and csyD) amongst other Aspergilli (Aspergillus nidulans and Aspergillus fumigatus) which contained none of the CHS-like genes. Some other fungi such as Neurospora crassa, Fusarium graminearum, Magnaporthe grisea, Podospora anserina and Phanerochaete chrysosporium also contained putative type III PKSs, with a phylogenic distinction from bacteria and plants. The enzymatically active nature of these newly discovered homologues is expected owing to the conservation in the catalytic residues across the different species of plants and fungi, and also by the fact that a majority of these genes (csyA, csyB and csyD) were expressed in A. oryzae. While this finding brings filamentous fungi closer to plants and bacteria which until recently were the only ones considered to possess the type III PKSs, the presence of putative genes encoding other principal enzymes involved in the phenylpropanoid and flavonoid biosynthesis (viz., phenylalanine ammonia-lyase, cinnamic acid hydroxylase and p-coumarate CoA ligase) in the A. oryzae genome undoubtedly prove the extent of its metabolic diversity. Since many of these genes have not been identified earlier, knowledge on their corresponding products or activities remain undeciphered. In future, it is anticipated that these enzymes may be reasonable targets for metabolic engineering in fungi to produce agriculturally and nutritionally important metabolites.