• 제목/요약/키워드: 한글 코드

검색결과 150건 처리시간 0.023초

문서 구조정보를 이용한 SGML 문서 편집 시스템의 설계 및 구현 (The Design and Implementation of SGML Document Editing System Using Document Structure Information)

  • 김창수;조인준;정회경
    • 공학논문집
    • /
    • 제3권1호
    • /
    • pp.21-27
    • /
    • 1998
  • 본 논문에서는 SGML DTD(Document Type Definition)의 문서 구조정보를 이용하여 SGML 실례문서를 편집하기 위한 시스템을 설계 및 구현하였다. 이를 위해 문서의 논리구조 표현을 위한 구조 창을 이용하여 SGML 문서를 편집할 수 있어 SGML에 대해 모르는 사용자도 편집오류 없이 문서를 생성할 수 있고 엘리먼트(element)와 속성(attribute), 엔티티(entity)를 지원하는 도구를 이용하여 엘리먼트 등을 손쉽게 수정 가능하고, 생성된 문서를 SGML 파서(parser)를 이용하여 검증할 수 있도록 시스템을 설계하였다. 또한 본 시스템은KS 5601코드를 사용하여 한글과 영문 텍스트를 모두 지원한다. 본 논문에서 설계한 SGML 문서 편집 시스템은 윈도우 사용자 인터페이스를 위해 윈도우95 시스템 환경 하에서 구현하였다.

  • PDF

S/W 취약점으로 인한 손실비용 추정 (Estimating Economic Loss by S/W Vulnerability)

  • 김민정;유진호
    • 한국전자거래학회지
    • /
    • 제19권4호
    • /
    • pp.31-43
    • /
    • 2014
  • 최근 많은 사이버 공격은 S/W의 취약점을 이용한 익스플로잇(exploit)으로 이루어지고 있다. 주기적으로 취약점 동향이 발표되고 있으며 이를 참고로 보안의 방향이 제시되고 개선 방안도 수정되고 있다. 그럼에도 불구하고 2011년 한 해 동안 발생한 해킹 등 사이버 공격은 2010년 대비 81% 증가하였고, 이러한 사이버 공격의 약 75%가 S/W 자체의 보안 취약점을 악용하고 있다. 본 논문에서는 S/W 취약점으로 인한 손실비용 측정을 위해 질병 전파 모델인 SIR 모델을 응용하여 취약점에 의한 악성코드 감염 확산 모델인 VIR모델을 제시하고, 이를 한글 S/W 취약점에 적용하여 손실비용이 어느 정도인지를 추정하였다.

홍용 문자 코드 집합을 위한 계층적 다중문자 인식기 (Hierarchical Multi-Classifier for the Mixed Character Code Set)

  • 김도현;박재현;김철기;차의영
    • 한국정보통신학회논문지
    • /
    • 제11권10호
    • /
    • pp.1977-1985
    • /
    • 2007
  • 문자 인식은 인공지능의 한 분야로써 자동화 시스템, 로봇, HCI 분야에서 그 응용성 이 증대되고 있는 첨단 기술이다. 본 논문에서는 숫자, 기호, 영어, 한글이 여러 가지 형태로 조합되어 사용될 수 있는 영역에서의 문자 인식을 위해 인식 문자 집합과 대표 문자를 도입하였다. 여러 가지 조합의 언어 집합에 따른 소규모 인식기를 계층적으로 조합하여 인식 결과의 정확성을 높이고 시간 비용을 줄일 수 있는 효율적인 인식기 구조를 제안하였다. 그리고 학습 성능이 우수한 Delta-bar-delta 알고리즘을 이용하여 개별 소규모 인식기를 학습한 다음 다양한 개별 문자를 대상으로 그 인식 성능을 살펴본 결과 99%의 인식률을 획득함으로써 혼용 언어 문자 인식의 효율성과 신뢰성을 증명하였다.

Pseudo Labeling을 통한 한국어 대화 추론 데이터셋 구축 (Constructing Korean Dialogue Natural Inference Dataset through Pseudo Labeling)

  • 이영준;;최윤수;임지희;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.205-209
    • /
    • 2022
  • 페르소나 대화 시스템이 상대방의 개인화된 정보에 일관된 응답을 생성하는 것은 상당히 중요하며, 이를 해결하기 위해 최근에 많은 연구들이 활발히 이루어지고 있다. 그 중, PersonaChat 데이터셋에 대해 수반/중립/모순 관계를 라벨링한 DialoguNLI 데이터셋이 제안되었으며, 일관성 측정, 페르소나 속성 추론 태스크 등 여러 분야에 활용되고 있다. 그러나, 공개적으로 이용가능한 한국어로 된 대화 추론 데이터셋은 없다. 본 연구에서는 한국어로 번역된 페르소나 대화 데이터셋과 한국어 자연어 추론 데이터셋에 학습된 모델을 이용하여 한국어 대화 추론 데이터셋(KorDialogueNLI)를 구축한다. 또한, 사전학습된 언어모델을 학습하여 한국어 대화 추론 모델 베이스라인도 구축한다. 실험을 통해 정확도 및 F1 점수 평가 지표에서 KLUE-RoBERTa 모델을 미세조정(fine-tuning)시킨 모델이 가장 높은 성능을 달성하였다. 코드 및 데이터셋은 https://github.com/passing2961/KorDialogueNLI에 공개한다.

  • PDF

한국어 사전학습 모델을 활용한 자연어 처리 모델 자동 산출 시스템 설계 (An Automated Production System Design for Natural Language Processing Models Using Korean Pre-trained Model)

  • 장지형;최호윤;이건우;최명석;홍참길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.613-618
    • /
    • 2022
  • 효과적인 자연어 처리를 위해 제안된 Transformer 구조의 등장 이후, 이를 활용한 대규모 언어 모델이자 사전학습 모델인 BERT, GPT, OPT 등이 공개되었고, 이들을 한국어에 보다 특화한 KoBERT, KoGPT 등의 사전학습 모델이 공개되었다. 자연어 처리 모델의 확보를 위한 학습 자원이 늘어나고 있지만, 사전학습 모델을 각종 응용작업에 적용하기 위해서는 데이터 준비, 코드 작성, 파인 튜닝 및 저장과 같은 복잡한 절차를 수행해야 하며, 이는 다수의 응용 사용자에게 여전히 도전적인 과정으로, 올바른 결과를 도출하는 것은 쉽지 않다. 이러한 어려움을 완화시키고, 다양한 기계 학습 모델을 사용자 데이터에 보다 쉽게 적용할 수 있도록 AutoML으로 통칭되는 자동 하이퍼파라미터 탐색, 모델 구조 탐색 등의 기법이 고안되고 있다. 본 연구에서는 한국어 사전학습 모델과 한국어 텍스트 데이터를 사용한 자연어 처리 모델 산출 과정을 정형화 및 절차화하여, 궁극적으로 목표로 하는 예측 모델을 자동으로 산출하는 시스템의 설계를 소개한다.

  • PDF

오류분석에 기반한 NXC 로봇프로그래밍 지원시스템의 개발 (Development of NXC Robot Programming Supporting System Based on Types of Programming Error)

  • 남재원;유인환
    • 정보교육학회논문지
    • /
    • 제15권3호
    • /
    • pp.375-385
    • /
    • 2011
  • 컴퓨터 교육은 기능 중심의 교육에서 창의력과 문제해결력을 신장시킬 수 있는 방향으로 전환되며 프로그래밍이 새롭게 주목받고 있다. 그러나 기존의 프로그래밍 교육은 여전히 문법 위주의 언어 지식 교육에 치우쳐 있어 한계가 있었다. 로봇 프로그래밍은 그 자체가 문제해결과정이며 프로그래밍 결과를 로봇이라는 구체물을 통해 직접 확인할 수 있으므로 학습자들의 흥미와 동기유발에 도움을 줄 수 있다. 그러나 실제 로봇 프로그래밍 교육을 실시해 보면 학습자들이 여러 가지 오류 때문에 어려움에 직면하는 것을 볼 수 있다. 따라서 본 연구에서는 로봇 프로그래밍에서 학습자들이 발생시키는 오류들을 유형별로 나누어 분석하고 이를 기초로 오류 해결지원 도구를 개발하였다. 개발된 오류 해결 지원 도구는 발생되는 오류를 감소시키고 오류 해결을 쉽게 할 수 있도록 명령어의 세트화, 언어 및 오류 메시지의 한글화, 학습단계별 예제소스 및 도움말, 주요 코딩 오류 제거기능, 코드정렬 및 행번호 표시 기능 등을 제공하였다. 투입 결과 오류 해결 지원 도구는 오류 감소와 오류 해결에 도움이 됨을 확인할 수 있었다.

  • PDF

유전적 알고리즘과 LSB를 이용한 스테가노그래피의 정보은닉 기법 (A Techniques for Information Hiding in the Steganography using LSB and Genetic Algorithm)

  • 지선수
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권3호
    • /
    • pp.277-282
    • /
    • 2018
  • 인터넷 상에서 비밀 메시지의 통신 목표는 비인지성과 기밀성을 유지하는 것이다. 디지털 스테가노그래피는 메시지 존재 자체를 제3자가 감지하지 못하게 커버 매체에 비밀 메시지를 삽입하여 목적지에 전송하는 기법이다. 스테가노그래피는 암호화 기법과 혼합되어 기밀성과 무결성을 함께 보장하기 위한 효율적인 방법이다. 비밀(한글) 메시지를 삽입하기 위해 비밀 문자를 분리하고 암호표를 참고로 하여 이진화 코드로 변환하며, 커버 이미지를 두 영역으로 분할하며, 비밀 메시지와 두 번째 영역의 오른쪽 l-LSB 정보를 암호화와 교차 과정을 진행한 후 첫 번째 영역의 k-LSB에 은닉하여 스테고 이미지를 구성하는 방법을 제안한다. 제안된 방법의 실험결과는 PSNR 값이 52.62로 허용 이미지 품질 수준임을 보여준다.

처방명 연계를 위한 유니코드 한자 기반의 한글-한자 매핑정보 구축에 관한 연구 (A study on Mapping the Unicode based Hangul-Hanja for prescription names in Korean Medicine)

  • 전병욱;김안나;김지영;오용택;김철;송미영;장현철
    • 한국한의학연구원논문집
    • /
    • 제18권3호
    • /
    • pp.133-139
    • /
    • 2012
  • Objective : UMLS is 'Ontology' which establishes the database for medical terminology by gathering various medical vocabularies representing same fundamental concepts. Method : Although Chinese character are represented in the Chinese part of Korean Unicode system in a computer, writing of Chinese characters is vary depending on Chinese input systems and Chinese writers' levels of knowledge. As the result of this, representation of Chinese writing in a computer will be considerably different from an old Chinese document. Therefore, a meaningful relationship between digital Chinese terminology and translated Korean is necessary in order to build Ontology for Chinese medical terms from Oriental medical prescription in a computer system. Result : This research will present 1:1 mapping information among the Chinese characters used in the Oriental medical prescription with analysis of 'same character different sound' and 'same meaning different shape' in Chinese part of Unicode systems. Conclusions : Furthermore, the research will provide top-down menu of relationship between Chinese term and Korean term in medical prescription with assumption of that the Oriental medical prescription has its own unique meaning.

포토저널리즘 사진과 캡션의 의미작용에 대한 연구 (The Signification of Words and Photography in Photojournalism)

  • 정홍기
    • 한국언론정보학보
    • /
    • 제18권
    • /
    • pp.231-268
    • /
    • 2002
  • 본 연구는 하나의 주제를 다룬 다섯 장의 사진과 캡션을 통해, 포토저널리즘의 구성단위인 사진과 글에 대한 수용자의 해독양상을 분석한 것이다. 본 논문의 연구방법은 민속지학적 방법과 의미분별법을 사용하였다. 분석은 기호의 의미작용과 해독의 의미작용을 분리시켜, 기호와 해독의 관계를 고찰할 수 있는 기호학적 방법론을 채택하였다. 위와 같은 방법을 통해 연구자는 다음과 같은 결과를 얻을 수 있었다. 첫번째, 하나의 의미로 고정되지 않고 다의성을 띤 사진이미지에 캡션이 첨가됨으로 수용자의 해독에 변화가 있었다. 두번째, 해독에있어 수용자의 문화적 배경이 중요한 변수로 작용했다. 세번째, 포토저널리즘 영역에서 사진만으로는 사실을 재현하기 어렵다는 것을 알 수 있었다. 즉 수용자의 문화적 코드를 바탕으로 한글이 들어감으로써, 포토저널리스트와 수용지간의 보다 성공적인 커뮤니케이션이 이루어졌다. 본 논문에서 연구자는 포토저널리스트가 재현한 현실과 그것을 해독하는 수용자간의 커뮤니케이션의 과정을 보여주고자 했고 이것이 성공적인 커뮤니케이션을 위한 기본 전제에 대한 고찰이 되었으면 하는 바램이다.

  • PDF

국소 구문 관계 및 의미 공기 정보에 기반한 명사 의미 모호성 해소 (Word Sense Disambiguation Based on Local Syntactic Relations and Sense Co-occurrence Information)

  • 김영길;홍문표;김창현;서영애;양성일;류철;황은하;최승권;박상규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.184-188
    • /
    • 2002
  • 본 논문에서는 단순히 주변에 위치하는 어휘들간의 문맥 공기 정보를 이용하는 방식과는 달리 국소 구문 관계 및 의미 공기 정보에 기반한 명사 의미 모호성 해소 방안을 제안한다. 기존의 WSD 방법은 구조 분석의 어려움으로 인하여 문장의 구문 관계를 충분히 고려하지 못하고 주변 어휘들과의 공기 관계로 그 의미를 파악하려 했다. 그러나 본 논문에서는 동사구의 논항 의미 관계뿐만 아니라 명사구내에서의 의미 관계도 고려한 국소 구문관계를 고려한 명사 의미 모호성 해소 방법을 제안한다. 이 때, 명사들의 의미는 자동번역 시스템의 목적에 맞게 공기(co-occurrence)하는 동사들에 따라 분류하였다. 그리고 한중 자동 번역 지식으로 사용되는 명사 의미 코드가 부착된 74,880 의미 격틀의 의미 공기정보를 이용하였으며 형태소 태깅된 말뭉치로부터 의미모호성이 발생하지 않게 의미 공기정보 및 명사구 의미 공기 정보를 자동으로 추출하였다. 실험 결과, 의미 모호성이 발생하는 명사들에 대해서 83.9%의 의미 모호성 해소 정확률을 보였다.

  • PDF