• 제목/요약/키워드: 문자 인코딩

검색결과 29건 처리시간 0.03초

문서 분류의 개선을 위한 단어-문자 혼합 신경망 모델 (Hybrid Word-Character Neural Network Model for the Improvement of Document Classification)

  • 홍대영;심규석
    • 정보과학회 논문지
    • /
    • 제44권12호
    • /
    • pp.1290-1295
    • /
    • 2017
  • 문서의 텍스트를 바탕으로 각 문서가 속한 분류를 찾아내는 문서 분류는 자연어 처리의 기본 분야 중 하나로 주제 분류, 감정 분류 등 다양한 분야에 이용될 수 있다. 문서를 분류하기 위한 신경망 모델은 크게 단어를 기본 단위로 다루는 단어 수준 모델과 문자를 기본 단위로 다루는 문자 수준 모델로 나누어진다. 본 논문에서는 문서를 분류하는 신경망 모델의 성능을 향상시키기 위하여 문자 수준과 단어 수준의 모델을 혼합한 신경망 모델을 제안한다. 제안하는 모델은 각 단어에 대하여 문자 수준의 신경망 모델로 인코딩한 정보와 단어들의 정보를 저장하고 있는 단어 임베딩 행렬의 정보를 결합하여 각 단어에 대한 특징 벡터를 만든다. 추출된 단어들에 대한 특징 벡터를 바탕으로, 주의(attention) 메커니즘을 이용한 순환 신경망을 단어 수준과 문장 수준에 각각 적용하는 계층적 신경망 구조를 통해 문서를 분류한다. 제안한 모델에 대하여 실생활 데이터를 바탕으로 한 실험으로 효용성을 검증한다.

DNA 스트링에 대하여 써픽스 배열을 구축하는 빠른 알고리즘 (Fast Construction of Suffix Arrays for DNA Strings)

  • 조준하;김남희;권기룡;김동규
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제34권8호
    • /
    • pp.319-326
    • /
    • 2007
  • DNA 스트링과 같은 대용량의 데이타에 대한 빠른 검색을 수행하기 위해서는 전체 텍스트 인덱스 자료구조를 구축하여 검색하는 방법이 효율적이다. 가장 일반적인 인덱스 자료구조는 써픽스 트리와 써픽스 배열이다. 써픽스 배열은 써픽스 트리보다 적은 공간을 사용하기 때문에 DNA 스트링과 같은 대용량의 데이타에 적합한 자료구조이다. 기존의 써픽스 배열 구축 알고리즘들은 정수 문자집합에 적합한 알고리즘들이어서 DNA 스트링에 적합하지 않았다. 본 논문에서는 DNA 스트링의 문자집합이 4로 고정되어 있는 사실을 이용하여 DNA 스트링에 대한 써픽스 배열을 마르게 구축하는 방법을 제안한다. 고정길이 문자집합에 효율적인 Kim et. al.[1]의 알고리즘의 인코딩 과정과 합병 과정 개선으로 전체 구축 시간을 향상시켰다. 실험 결과 1.3배에서 1.6배 정도 구축 속도가 향상되었으며, 기존의 다른 써픽스 배열 구축 알고리즘들과 비교한 결과에서도 대부분 가장 빠르게 써픽스 배열을 구축하였다.

애너그램 문제 인지적 해결과정의 분자컴퓨팅 시뮬레이션 (Molecular Computing Simulation of Cognitive Anagram Solving)

  • 천효선;이지훈;류제환;백다솜;장병탁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권12호
    • /
    • pp.700-705
    • /
    • 2014
  • 애너그램은 주어진 문자들을 재배열하여 숨겨진 단어를 찾아내는 철자바꾸기 놀이로, 문제를 빨리 풀어내는 사람들은 제약 만족 네트워크의 병렬적 탐색에 의해 문제를 해결한다. 본 연구에서는 이러한 인지적 현상을 모델링한 분자 애너그램 풀이 알고리즘을 제시하였다. 문자를 DNA 서열로 인코딩하고, 문자 DNA 가닥을 연결하여 바이그램과 단어 서열을 만들었다. DNA 혼성화, 연결, 젤 전기영동, 추출 연산을 수행해 문자와 바이그램 집합으로부터 답을 찾는 데 필요한 바이그램을 추출한 후, 추출한 바이그램과 단어 집합으로부터 다시 네 가지 DNA 연산을 반복하여 답을 찾는다. 분자 실험 결과 분자 컴퓨터는 정답인 단어와 오답인 단어를 구분해낼 수 있었다. 이를 통해 인간의 병렬적 사고과정을 분자 컴퓨터로 모델링할 수 있는 가능성을 보였다.

무선 인터넷 서비스를 위한 WAP 게이트웨이용 WML 컴파일러의 설계 및 구현 (A Design and Implementation of WML Compiler for WAP Gateway for Wireless Internet Services)

  • 최은정;한동원;임경식
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제7권2호
    • /
    • pp.165-182
    • /
    • 2001
  • 무선 마크업 언어(Wireless Markup Language) 컴파일러는 텍스트로 구성된 문서를 바이너리 문서로 변환, 압축함으로써, 낮은 대역폭을 갖는 무선 선로에서 트래픽을 감소시키며, 낮은 성능을 갖고 있는 이동 단말기에서 브라우징 처리를 간단하게 하는 역할을 한다. 또한 이러한 변환 과정에서 확장 마크업 언어(eXtensible Markup Language)의 well-formedness와 validation 과정을 동시에 처리함으로써, 이동 단말기에서 문서처리 부담을 대폭 경감하는 효과를 가져온다. 본 논문에서 구현한 무선 마크업 언어 컴파일러는 어휘분석기 모듈과 파서 모듈로 구성되어 있는데, 파서 모듈은 파서 생성기를 사용하여 구현하였다. 이는 향후 응용 수준에서 보안 기능을 제공하기 위하여 태그를 확장하거나 무선 마크업 언어의 버전이 업그레이드 될 때에서 변경된 부분에 해당하는 문법만 다시 설계함을써 유연하게 대처할 수 있는 장점을 가지고 있다. 사용된 문법은 LALR(1) context-free 문법으로서, 확장 마크업 언어 1.0과 무선 마크업 언어 1.2의 문서 형태 정의(Document Type Definition)를 기반으로 무선 응용 프로토콜 바이너리 확장 마크업 언어(Wireless Application Protocol Binary XML) 문법을 고려하여 설계되었다. 구현된 컴파일러의 기능을 실험하여 데모하기 위하여 세 가지 방법(수작업, WML 디컴파일러, 노키아 WAP 툴킷)을 사용하였으며, 다양한 태그 조합을 갖는 임의의 130여 개 문서에 대해 실험한 결과, 최대 85%의 압축효과를 얻을 수 있었다. 그러나, 태그나 속성에 비해 일반 문자열 데이타가 많아지면 상대적으로 압축효과가 감소되므로, Hyper Text Markup Language 문서로부터 무선 마크업 언어 문서로 자동 변환된 텍스트를 인코딩하는 경우와 같이 특정한 응용 분야에서는 일반 문자열에 대한 확장 인코딩 기법을 적용할 필요가 있을 수 있다.

  • PDF

품사 부착 실험을 통한 Bags-of-Features 방법의 정량적 평가 (Quantitative Evaluation of Bags-of-Features Method Using Part-of-Speech Tagging)

  • 이찬희;이설화;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.298-300
    • /
    • 2017
  • 본 논문에서는 단순하지만 효과적인 단어 표현 방법인 Bags of Features에 대한 비교 실험을 수행한다. Bags of Features는 어휘집의 크기에 제한이 없으며, 문자 단위의 정보를 반영하고, 벡터화 과정에서 신경망 구조에 의존하지 않는 단어 표현 방법이다. 영어 품사 부착 실험을 사용하여 실험한 결과, one-hot 인코딩을 사용한 모델과 대비하여 학습 데이터에 존재하지 않는 단어의 경우 49.68%, 전체 부착 정확도는 0.96% 향상이 관찰되었다. 또한, Bags of Features를 사용한 모델은 기존의 영어 품사 부착 분야의 최첨단 모델들 중 학습 데이터 외의 추가적인 데이터를 활용하지 않는 모델들과 비견할 만한 성능을 보였다.

  • PDF

품사 부착 실험을 통한 Bags-of-Features 방법의 정량적 평가 (Quantitative Evaluation of Bags-of-Features Method Using Part-of-Speech Tagging)

  • 이찬희;이설화;임희석
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.298-300
    • /
    • 2017
  • 본 논문에서는 단순하지만 효과적인 단어 표현 방법인 Bags of Features에 대한 비교 실험을 수행한다. Bags of Features는 어휘집의 크기에 제한이 없으며, 문자 단위의 정보를 반영하고, 벡터화 과정에서 신경망 구조에 의존하지 않는 단어 표현 방법이다. 영어 품사 부착 실험을 사용하여 실험한 결과, one-hot 인코딩을 사용한 모델과 대비하여 학습 데이터에 존재하지 않는 단어의 경우 49.68%, 전체 부착 정확도는 0.96% 향상이 관찰되었다. 또한, Bags of Features를 사용한 모델은 기존의 영어 품사 부착 분야의 최첨단 모델들 중 학습 데이터 외의 추가적인 데이터를 활용하지 않는 모델들과 비견할 만한 성능을 보였다.

  • PDF

2개층 사질토지반에서 정방형 기초의 지지력 특성 (Characteristics of Bearing Capacity under Square Footing on Two-layered Sand)

  • 김병탁;김영수;이종현
    • 한국지반공학회논문집
    • /
    • 제17권4호
    • /
    • pp.289-299
    • /
    • 2001
  • 본 연구는 균질 및 2개층 비균질지반에서 사질토지반 상에 놓인 정방형 기초의 극한지지력과 침하에 대하여 고찰하였다. 본 연구는 얕은기초의 거동에 대한 정방형 기초의 크기, 지반 상대밀도, 기초 폭에 대한 상부층의 두께 비(H/B), 상부층 아래 경계면의 경사($\theta$) 그리고 지반강성비의 영향을 규명하기 위하여 모형실험을 수행하였다. 동일 상대밀도에서 지지력 계수($N_{{\gamma}}$)는 일정하지 않으며 기초 폭에 직접적으로 관련되며 지지력계수는 기초 폭이 증가함에 따라 감소하였다. 기초크기의 영향과 구속압력의 영향을 고려하는 Ueno 방법에 의한 극한지지력의 예측값은 고전적인 지지력 산정식보다 더 잘 일치하며 그 값은 실험값의 65% 이상으로 나타났다. $\theta$=$0^{\circ}$인 2개층 지반의 결과에 근거하여, 극한지지력에 대한 하부층 지반의 영향을 무시할 수 있는 한계 상부층 두께는 기초 폭의 2배로 결정되었다. 그러나, 73%의 상부층 상대밀도인 경우는 침하비($\delta$B) 0.05 이하에서만 이 결과가 유효하였다. 경계면이 경사진 2개층 지반의 결과에 근거하여, 상부층의 상대밀도가 느슨할수록 그리고 상부층의 두께가 클수록 극한지지력에 대한 경계면 경사의 영향은 크지 않는 것으로 나타났다. 경계면의 경사가 증가함에 따른 극한침하량의 변화는 경계면이 수평인 경우($\theta$=$0^{\circ}$)를 기준으로 0.82~1.2(상부층 $D_{r}$=73%인 경우) 그리고 0.9~1.07(상부층 $D_{r}$=50%인 경우) 정도로 나타났다.Markup Language 문서로부터 무선 마크업 언어 문서로 자동 변환된 텍스트를 인코딩하는 경우와 같이 특정한 응용 분야에서는 일반 문자열에 대한 확장 인코딩 기법을 적용할 필요가 있을 수 있다.mical etch-stop method for the etching of Si in TMAH:IPA;pyrazine solutions provides a powerful and versatile alternative process for fabricating high-yield Si micro-membranes. the RSC circle, but also to the logistics system in the SLC circle. Thus, the RSLC model can maximize combat synergy effects by integrating the RSC and the SLC. With a similar logic, this paper develops "A Revised System of Systems with Logistics (RSSL)" which combines "A New system of Systems" and logistics. These tow models proposed here help explain several issues such as logistics environment in future warfare, MOE(Measure of Effectiveness( on logistics performance, and COA(Course of Actions) for decreasing mass and increasing velocity. In particular, velocity in logistics is emphasized.

  • PDF

Bi-Cross 사전 학습을 통한 자연어 이해 성능 향상 (The Bi-Cross Pretraining Method to Enhance Language Representation)

  • 김성주;김선훈;박진성;유강민;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.320-325
    • /
    • 2021
  • BERT는 사전 학습 단계에서 다음 문장 예측 문제와 마스킹된 단어에 대한 예측 문제를 학습하여 여러 자연어 다운스트림 태스크에서 높은 성능을 보였다. 본 연구에서는 BERT의 사전 학습 문제 중 다음 문장 예측 문제에 대해 주목했다. 다음 문장 예측 문제는 자연어 추론 문제와 질의 응답 문제와 같이 임의의 두 문장 사이의 관계를 모델링하는 문제들에 성능 향상을 위해 사용되었다. 하지만 BERT의 다음 문장 예측 문제는 두 문장을 특수 토큰으로 분리하여 단일 문자열 형태로 모델에 입력으로 주어지는 cross-encoding 방식만을 학습하기 때문에 문장을 각각 인코딩하는 bi-encoding 방식의 다운스트림 태스크를 고려하지 않은 점에서 아쉬움이 있다. 본 논문에서는 기존 BERT의 다음 문장 예측 문제를 확장하여 bi-encoding 방식의 다음 문장 예측 문제를 추가적으로 사전 학습하여 단일 문장 분류 문제와 문장 임베딩을 활용하는 문제에서 성능을 향상 시키는 Bi-Cross 사전 학습 기법을 소개한다. Bi-Cross 학습 기법은 영화 리뷰 감성 분류 데이터 셋인 NSMC 데이터 셋에 대해 학습 데이터의 0.1%만 사용하는 학습 환경에서 Bi-Cross 사전 학습 기법 적용 전 모델 대비 5점 가량의 성능 향상이 있었다. 또한 KorSTS의 bi-encoding 방식의 문장 임베딩 성능 평가에서 Bi-Cross 사전 학습 기법 적용 전 모델 대비 1.5점의 성능 향상을 보였다.

  • PDF

딥러닝을 이용한 한글 OCR 정확도 향상에 대한 연구 (A Study on Improvement of Korean OCR Accuracy Using Deep Learning)

  • 강가현;고지현;권용준;권나영;고석주
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 춘계학술대회
    • /
    • pp.693-695
    • /
    • 2018
  • 다음은 본 논문에서는 딥러닝을 통한 한글 OCR 정확도 향상을 제안한다. OCR은 인쇄되거나 손으로 쓴 문자를 광학적 방법으로 감지 인식하여 디지털로 인코딩하는 프로그램이다. 현재 가장 많이 쓰이는 tesseract OCR의 경우, 영문 인식의 정확도가 높다. 하지만 한글은 복잡한 구조에 비해 학습 데이터가 적어 정확도가 떨어진다. 따라서 이 연구에서는 이미지 프로세싱을 통해 원하는 이미지에서 글자 영역을 추출하고, 이를 학습 데이터로 활용한 딥러닝으로 한글 OCR의 정확도를 향상시키는 방법을 제안한다. 기존 영문과 숫자 및 몇 가지 언어에만 국한되어 발전해왔던 OCR을 다양한 언어에도 응용할 수 있을 것으로 기대된다.

  • PDF