• Title/Summary/Keyword: 특수문자

Search Result 92, Processing Time 0.026 seconds

A Preprocessor for English-to-Korean Machine Translation of Web Pages (웹용 영한 기계번역을 위한 문서 전처리기의 설계 및 구현)

  • An, Dong-Un;Ryu, Hong-Jin;Seo, Jin-Won;Lee, Young-Woo;Jeong, Sung-Jong;Yuh, Sang-Hwa;Kim, Tae-Wan;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.249-254
    • /
    • 1997
  • 영어 웹 문서를 한국어로 기계번역을 하기 위해서는 HTML 태그를 번역 대상 문장과 분리하는 처리가 필요하다. HTML 태그를 단순히 제거하는 것이 아니라 대상 문장의 기계번역이 종료된 후에 같은 형태의 한국어 웹 문서로 복원하기 위한 방안이 마련 되어야 한다. 또한 문서 전처리기에서는 영어 형태소해석기의 성능을 높이기 위하여 번역 단위가 되는 문장의 인식 및 분리, 타이틀의 처리, 나열된 단어의 처리, 하이픈 처리, 고유명사 인식, 특수 문자 처리, 대소문자 정규화, 날짜 인식 등을 처리하여 문서의 정규화를 수행한다.

  • PDF

Using Naïve Bayes Classifier and Confusion Matrix Spelling Correction in OCR (나이브 베이즈 분류기와 혼동 행렬을 이용한 OCR에서의 철자 교정)

  • Noh, Kyung-Mok;Kim, Chang-Hyun;Cheon, Min-Ah;Kim, Jae-Hoon
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.310-312
    • /
    • 2016
  • OCR(Optical Character Recognition)의 오류를 줄이기 위해 본 논문에서는 교정 어휘 쌍의 혼동 행렬(confusion matrix)과 나이브 베이즈 분류기($na{\ddot{i}}ve$ Bayes classifier)를 이용한 철자 교정 시스템을 제안한다. 본 시스템에서는 철자 오류 중 한글에 대한 철자 오류만을 교정하였다. 실험에 사용된 말뭉치는 한국어 원시 말뭉치와 OCR 출력 말뭉치, OCR 정답 말뭉치이다. 한국어 원시 말뭉치로부터 자소 단위의 언어모델(language model)과 교정 후보 검색을 위한 접두사 말뭉치를 구축했고, OCR 출력 말뭉치와 OCR 정답 말뭉치로부터 교정 어휘 쌍을 추출하고, 자소 단위로 분해하여 혼동 행렬을 만들고, 이를 이용하여 오류 모델(error model)을 구축했다. 접두사 말뭉치를 이용해서 교정 후보를 찾고 나이브 베이즈 분류기를 통해 확률이 높은 교정 후보 n개를 제시하였다. 후보 n개 내에 정답 어절이 있다면 교정을 성공하였다고 판단했고, 그 결과 약 97.73%의 인식률을 가지는 OCR에서, 3개의 교정 후보를 제시하였을 때, 약 0.28% 향상된 98.01%의 인식률을 보였다. 이는 한글에 대한 오류를 교정했을 때이며, 향후 특수 문자와 숫자 등을 복합적으로 처리하여 교정을 시도한다면 더 나은 결과를 보여줄 것이라 기대한다.

  • PDF

Using Naïve Bayes Classifier and Confusion Matrix Spelling Correction in OCR (나이브 베이즈 분류기와 혼동 행렬을 이용한 OCR에서의 철자 교정)

  • Noh, Kyung-Mok;Kim, Chang-Hyun;Cheon, Min-Ah;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.310-312
    • /
    • 2016
  • OCR(Optical Character Recognition)의 오류를 줄이기 위해 본 논문에서는 교정 어휘 쌍의 혼동 행렬(confusion matrix)과 나이브 베이즈 분류기($na{\ddot{i}}ve$ Bayes classifier)를 이용한 철자 교정 시스템을 제안한다. 본 시스템에서는 철자 오류 중 한글에 대한 철자 오류만을 교정하였다. 실험에 사용된 말뭉치는 한국어 원시 말뭉치와 OCR 출력 말뭉치, OCR 정답 말뭉치이다. 한국어 원시 말뭉치로부터 자소 단위의 언어 모델(language model)과 교정 후보 검색을 위한 접두사 말뭉치를 구축했고, OCR 출력 말뭉치와 OCR 정답 말뭉치로부터 교정 어휘 쌍을 추출하고, 자소 단위로 분해하여 혼동 행렬을 만들고, 이를 이용하여 오류 모델(error model)을 구축했다. 접두사 말뭉치를 이용해서 교정 후보를 찾고 나이브 베이즈 분류기를 통해 확률이 높은 교정 후보 n개를 제시하였다. 후보 n개 내에 정답 어절이 있다면 교정을 성공하였다고 판단했고, 그 결과 약 97.73%의 인식률을 가지는 OCR에서, 3개의 교정 후보를 제시하였을 때, 약 0.28% 향상된 98.01%의 인식률을 보였다. 이는 한글에 대한 오류를 교정했을 때이며, 향후 특수 문자와 숫자 등을 복합적으로 처리하여 교정을 시도한다면 더 나은 결과를 보여줄 것이라 기대한다.

  • PDF

The Effect of Message Completeness and Leakage Cues on the Credibility of Mobile Promotion Messages (기업의 스마트폰 메시지에 대한 고객 신뢰도에 관한 연구: 메시지 정교화 모델을 중심으로)

  • Hyun Jun Jeon;Jin Seon Choe;Jai-Yeol Son
    • Information Systems Review
    • /
    • v.20 no.1
    • /
    • pp.61-80
    • /
    • 2018
  • Individuals often receive smishing campaigns (mobile phishing messages), which they treat as spam. Thus, firms should understand how their customers distinguish their promotion messages from smishing. However, only a few studies examined this important issue. The present study employs the elaboration likelihood model to develop research hypotheses on the relationship between message cue and message credibility. The message cue in this study is classified as content cue, which is found in the content of promotion messages, and as leakage cue, which is found in peripheral information in the message. Leakage cue includes orthography (inclusion of special characters)and an abbreviated link sent by a faithless sender. We also propose that contextualization has a moderating effect on the relationship between content cue and credibility. We conducted a survey experiment to examine the effect of message cues on message credibility in the context of respondents receiving discount coupons through mobile messages. The result of data analysis based on 166 responses suggests that leakage cue had a negative effect on message credibility. A message with defective content cue has a marginally negative effect on message credibility. In particular, defective content cue in a high-contextual message has a strong negative impact on message credibility. This effect was not observed in low-contextual messages. Moreover, message credibility is significantly low regardless of the degree of contextualization if there is a leakage cue in the message. Our findings suggest that mobile promotion messages should be customized for message receivers and should have no leakage cues.

Comments Classification System using Topic Signature (Topic Signature를 이용한 댓글 분류 시스템)

  • Bae, Min-Young;Cha, Jeong-Won
    • Journal of KIISE:Software and Applications
    • /
    • v.35 no.12
    • /
    • pp.774-779
    • /
    • 2008
  • In this work, we describe comments classification system using topic signature. Topic signature is widely used for selecting feature in document classification and summarization. Comments are short and have so many word spacing errors, special characters. We firstly convert comments into 7-gram. We consider the 7-gram as sentence. We convert the 7-gram into 3-gram. We consider the 3-gram as word. We select key feature using topic signature and classify new inputs by the Naive Bayesian method. From the result of experiments, we can see that the proposed method is outstanding over the previous methods.

A Study on the Inputting Method of English Pronunciation for a Computer by Constructing New Font Table (새로운 글자체 구성에 의한 영어 발음기호의 컴퓨터 입력 방법에 관한 연구)

  • Lee, Hyun-Chang
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.42 no.6
    • /
    • pp.11-18
    • /
    • 2005
  • In this paper, English pronunciation system and the methods of its notations which is used in the internet web sites or in electronic English dictionaries are analyzed and new font table and its key layout are presented to input it efficiently. By using this method, English pronunciation can be inputted to the spreadsheets, databases and presentations as well as word-processors, and each application program's data can have compatibility. Furthermore, it can have compatibility within another type of computers and increase inputting speed. In the result of experiments, every data can have the compatibility in all of application programs and inputting speed is increased highly compare with using the pre-existing functions of word-processors.

Deep Learning Model for Metaverse Environment to Detect Metaphor (메타버스 환경에서 음성 혐오 발언 탐지를 위한 딥러닝 모델 설계)

  • Song, Jin-Su;Karabaeva, Dilnoza;Son, Seung-Woo;Shin, Young-Tea
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.621-623
    • /
    • 2022
  • 최근 코로나19로 인해 비대면으로 소통할 수 있는 플랫폼에 대한 관심이 증가하고 있으며, 가상 세계의 개념을 도입한 메타버스 플랫폼이 MZ세대의 새로운 SNS로 떠오르고 있다. 아바타를 통해 상호 교류가 가능한 메타버스는 텍스트 기반의 소통뿐만 아니라 음성과 동작 시선 등을 활용하여 변화된 의사소통 방식을 사용한다. 음성을 활용한 소통이 증가함에 따라 다른 이용자에게 불쾌감을 주는 혐오 발언에 대한 신고가 증가하고 있다. 그러나 기존 혐오 발언 탐지 시스템은 텍스트를 기반으로 하여 사전에 정의된 혐오 키워드만 특수문자로 대체하는 방식을 사용하기 때문에 음성 혐오 발언에 대해서는 탐지하지 못한다. 이에 본 논문에서는 인공지능을 활용한 음성 혐오 표현 탐지 시스템을 제안한다. 제안하는 시스템은 음성 데이터의 파형을 통해 은유적 혐오 표현과 혐오 발언에 대한 감정적 특징을 추출하고 음성 데이터를 텍스트 데이터로 변환하여 혐오 문장을 탐지한 결과와 결합한다. 향후, 제안하는 시스템의 현실적인 검증을 위해 시스템 구축을 통한 성능평가가 필요하다.

House Detection on the Scanned Topographic Map (스캔된 지도상의 가옥 추출 방법)

  • Chang, Hang-Bae;Park, Jong-Am;Kwon, Young-Bin
    • Journal of Korea Spatial Information System Society
    • /
    • v.1 no.1 s.1
    • /
    • pp.49-55
    • /
    • 1999
  • Extracting information of maps is necessary to establish the GIS. In this paper, a house recognition method on the scanned topographic map is described. A contour detection method is used to extract houses from the scanned maps and RLE (run-length encoding) method is used for manipulating houses touching grid lines. To handle houses touched to roads and borderlines, morphological operation is used. To remove misrecognition occurred by morphological operation, the legions which contain characters on the map are also automatically eliminated.

  • PDF

미술작품 전시회 카타로그에 관한 연구:예술사적 특수자료서의 가치와 도서관에서의 관리

  • 노문자
    • Journal of Korean Library and Information Science Society
    • /
    • v.28
    • /
    • pp.219-262
    • /
    • 1998
  • For many years art libraries have been concerned about the problem resulting from the addition of exhibition catalogs to general art collection. Those who work or research in the art field agree that exhibition catalogs are great value, and in many cases, the essays and documentary material contained in these catalogs may be the only source of information on particular artists. This paper contains two purposes. One is to settle the exhibition catalog as a specific form of publication in the library. In theoretical aspect, this material is handled in definition, form, historical development and the position and specification. Another is to manage exhibition catalog in the library. In practical aspect, this material is handled in aquisition, classification, cataloging and use.

  • PDF

A Comparative Analysis on the Distributive Property In Korean and Japanese Elementary Textbooks (한국과 일본의 초등교과서에서 다루는 분배법칙 개념에 관한 비교 분석)

  • Byun, Hee-Hyun
    • Journal of Elementary Mathematics Education in Korea
    • /
    • v.15 no.1
    • /
    • pp.39-56
    • /
    • 2011
  • In 7th grade textbooks, the distributive property is generalized as in algebraic forms, and it seems that the students have not so good grip on this property. To get a good stock of knowledge on that generalized property, full understanding of it in concrete context should take precedence. This study would aim to propose some educational implications for better understanding of that property, through analysing the contents of it comparatively in Korean and Japanese elementary textbooks.

  • PDF