• Title/Summary/Keyword: 한글과컴퓨터

Search Result 347, Processing Time 0.041 seconds

Online Character Recognition System on Hand-held PC (HPC상에서의 온라인 한글 인식기의 구현)

  • Kang, Hyun;Kim, Hang-Joon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.378-380
    • /
    • 1998
  • 최근의 HPC같은 초소형 컴퓨터의 발달은 더 자연스럽고 더 사용하기 편한 입출력 시스템을 요구하게 되었다. 본 논문에서는 HPC상에서의 흘림한글을 인식할 수 있는 인식 시스템을 구현한 것을 주제로 하였다. 본 시스템은 획을 인식의 기본 단위로 취급하며, 획 인식을 위하여 ART-1신경망을 사용하였으며, 글자인식을 위해 HMM의 각 스테이트를 탐색하는 방법을 사용하였다. 본 논문에서는 이 시스템을 HPC상에서 구현하였고 좋은 실험결과를 얻었다.

  • PDF

Proposed Methodology for Building Korean Machine Translation Data sets Considering Phonetic Features (단어의 음성학적 특징을 이용한 한국어 기계 번역 데이터 세트 구축 방안)

  • Zhang Qinghao;Yang Hongjian;Serin Kim;Hyuk-Chul Kwon
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.592-595
    • /
    • 2022
  • 한국어에서 한자어와 외래어가 차지하는 비중은 매우 높다. 일상어의 경우 한자어와 외래어의 비중이 약 53%, 전문어의 경우 약 92%에 달한다. 한자어나 외래어는 중국이나 다른 나라로부터 영향을 받아 한국에서 쓰이는 단어들이다. 한국어에서 사용되는 한자어와 외래어의 한글 표기과 원어 표기를 발음해보면, 발음이 상당히 유사하다는 것을 알 수 있다. 한자어인 도서관(图书馆)을 중국어로 발음해보면 thu.ʂu.kwan'로 해당 단어에 대한 한국 사람의 발음과 상당히 유사하다. 본 논문에서는 Source Length, Source IPA Length, Target Length, Target IPA Length, IPA Distance 등 총 5가지의 음성학적 특징을 고려한 한국어-중국어 한국어-영어 단어 기계번역 데이터 세트를 구축하고자 한다.

  • PDF

Development of On-Line Computer Dictionary Supporting Hangul (한글을 지원하는 온라인 컴퓨터 용어 사전의 개발)

  • 황병연;박성철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.184-186
    • /
    • 2001
  • 본 논문에서는 컴퓨터 신조어를 빠른 시간 내에 제공하고 한국적으로 용어를 재정의 할 뿐만 아니라 효율적인 검색 인터페이스를 갖춘 온라인컴퓨터 용어 사전을 개발하였다. 신조어를 발리 서비스하기 위해서 FOLDOC(Free On-Line Dictionary Of Computing)의 사전을 이용하여 영문 해설을 우선적으로 제공하고, 각 용어를 한 명 이상의 번역자가 한국어로 재정의 하도록 하였다. 또한 SQL과 MS-SQL Server를 이용해서 다양한 검색 인터페이스를 제공하여 사용자가 적은 정보만으로도 원하는 용어를 손쉽게 찾을 수 있게 하였다.

  • PDF

Causal Computationalism and Language Understanding (인과적 계산이론과 언어이해)

  • Kong, Yong-Hyun
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.629-636
    • /
    • 1992
  • 컴퓨터의 언어이해 가능성을 반박하는 주된 근거는 형식적 기호들을 처리하는 프로그램이 의미론을 다룰 수 없다는 것이다. 그러나 인과적 계산이론에 따르면 컴퓨터 프로그램이 순전히 구문론적인 것은 아니고 컴퓨터 내부의 기호적 표상의 처리과정에서 의미론적인 지시와 해석이 일어난다고 할 수 있다.

  • PDF

A Tagging Support System : Hi-Tagger (태깅 지원 시스템 : Hi-Tagger)

  • Lee, In Keun;Jung, Jason J.;Hwang, Dosam;Kim, Young Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.91-94
    • /
    • 2012
  • 컴퓨터가 인간의 자연언어를 처리하고 이해하도록 하기 위한 많은 연구가 진행되어 왔다. 그러나 컴퓨터에 의해 자동으로 구축한 정보의 신뢰성 문제로 인해 그 효용성이 낮다. 따라서 최근에는 웹 2.0 환경에서의 집단지성을 통한 오픈지식의 구축과 지식 간의 링크 정보의 활용이 주목을 받고 있다. 그러나 양질의 지식을 구축하기 위해서는 인간의 개입이 불가피하며 대부분의 오픈지식도 사용자들의 노력에 의존하여 구축되고 있다. 따라서 본 논문에서는 자연언어로 작성된 문장의 용어에 대한 태깅 작업을 지원하는 태깅지원 시스템을 개발한다. 개발한 시스템에서는 사용자가 문장을 작성하는 과정에서 자동으로 태깅 가능한 용어를 추천하고, 시스템이 추천한 용어에 대해 사용자는 태그셋(tagset) 에 등록된 태그 및 링크로 태깅을 수행한다. 이 시스템을 이용하여 경제, 과학, 문학, 철학의 4개 분야에 대해 5인의 실험자가 한글문서의 태깅 실험을 수행함으로써 개발한 시스템의 효용성을 확인한다.

  • PDF

Evaluation of Different Keyboards through Computer Simulation (컴퓨터모의실험에 의한 자판 배열의 성능 평가)

  • Jung, Seung-Hun;Park, Jin-Woo;Lee, Yill-Byung
    • Annual Conference on Human and Language Technology
    • /
    • 1991.10a
    • /
    • pp.99-117
    • /
    • 1991
  • 본 연구에서는 자판배열의 과학적인 비교분석이 필요하다는 인식을 바탕으로 자판배열과 운지법에 따라 변하는 운지거리, 글쇠의 타수 및 연타수의 관점에서 KSC 5715-2벌식자판, 공병우 390-3벌식자판 및 ISO에 제출된 북한의 표준한글자판의 성능을 평가하였다. 그 구체적인 방법으로는 타자모의실험기를 작성하여 입력하는 글의 종류에 따른 각 자판배열의 성능을 비교분석하였다. 그리고 컴퓨터 모의 실험기를 작성했으므로 언급된 자판뿐만이 아닌 다른 자판도 그 자판의 자소배열과 운지법만을 추가 입력함으로써 같은 조건하에서 비교 분석할 수 있다.

  • PDF

Cross-Texting Prevention System using Korean Chat Corpus (한글 채팅 말뭉치를 이용한 크로스-텍스팅 방지 시스템)

  • Lee, Da-Young;Who, Hwan-Gue
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.377-382
    • /
    • 2020
  • cross-texting은 실수로 의도하지 않은 상대방에게 메세지를 잘못 전송하는 것을 말한다. 휴대폰 메신저 사용이 활발해짐에 따라 이 같은 실수가 빈번하게 발생하는데 메신저에서 제공하는 기능은 대체로 사후 해결책에 해당하고 사용자가 사전에 실수를 발견하기는 어렵다. 본 논문에서는 사용자가 작성한 문장의 형식적 자질를 분석하여 현재 참여중인 대화에서 작성한 문장이 cross-texting인지를 판별하는 모델을 제안했다. 문장에서 높임법, 표층적 완성도 자질을 추출하고 이를 통해 특정 사용자의 대화를 모델링하여 주어진 문장이 대화에 부합하는지 여부를 판단한다. 이같은 방식은 채팅방의 이전 기록만으로도 사용자가 작성한 문장이 cross-texting인지 여부를 쉽게 판단할 수 있는 힌트를 제공할 수 있다. 실제 메신저 대화 말뭉치를 이용해 제작한 데이터에서 94% 정확도로 cross-texting을 탐지했다.

  • PDF

Empirical Study on the Hallucination of Large Language Models Derived by the Sentence-Closing Ending (어체에 따른 초거대언어모델의 한국어 환각 현상 분석)

  • Hyeonseok Moon;Sugyeong Eo;Jaehyung Seo;Chanjun Park;Yuna Hur;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.677-682
    • /
    • 2023
  • 초거대 언어모델은 모델의 학습 없이 학습 예시만을 입력에 추가함으로써 목표하는 작업을 수행한다. 이런 방식은 상황 내 학습 (In-Context Learning, ICL)이라 불리며, 초거대 언어모델 활용의 사실상의 표준으로 사용되고 있다. 하지만 이러한 모델은, 환각현상 등 사용상의 한계가 발생하는 상황이 다수 발생한다는 연구 결과가 나오고 있다. 본 연구에서는 초거대언어모델을 한국어 작업에서 사용하는 경우, 매우 간단한 수준의 종결어미 변환만으로도 성능 편차가 매우 크게 발생함을 확인하였다. 우리는 이에 대한 분석을 통해, 학습 예시의 어체와 추론 대상의 어체의 변환에 따라 초거대언어모델의 효용성이 크게 변함을 발견하고 이에 대해 분석한다. 나아가 우리는 본 실험 결과를 바탕으로, 어체에 대한 일관성이 유지된 형태의 한국어 데이터 구축이 이루어져야 함을 제안한다.

  • PDF

Hypernews Detection using Sentence BERT Embedding (Sentence BERT 임베딩을 이용한 과편향 뉴스 판별)

  • Lim, Jungwoo;Whang, Taesun;Oh, Dongsuk;Yang, Kisu;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.388-391
    • /
    • 2019
  • 과편향 뉴스 판별(hyperpartisan news detection)은 뉴스 기사가 특정 인물 또는 정당에 편향되었는지 판단하는 task이다. 이를 위해 feature-based ELMo + CNN 모델이 제안되었으나, 이는 문서 임베딩이 아닌 단어 임베딩의 평균을 사용한다는 한계가 존재한다. 따라서 본 논문에서는 feature-based 접근법을 따르며 Sentence-BERT(SentBERT)의 문서 임베딩을 이용한 feature-based SentBERT 기반의 과편향 뉴스 판별 모델을 제안한다. 제안 모델의 효과를 입증하기 위해 ELMO, BERT, SBERT와 CNN, BiLSTM을 적용한 비교 실험을 진행하였고, 기존 state-of-the-art 모델보다 f1-score 기준 1.3%p 높은 성능을 보였다.

  • PDF

A Study on Standardization of the OPA Character set (정음 부호세트의 코드 표준안에 관한 연구)

  • Lee, Gang-Won;Kim, Woo-Sun;Kim, Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10b
    • /
    • pp.1261-1264
    • /
    • 2001
  • 오늘날 우리가 사용하는 한글은 24자로 구성되어있고, 한국어만을 적기 위한 문자체계이다. 그러나 훈민정음은 28자소로 구성되어 있으며 한국어 이외에도 세계 모든 언어와 소리를 적을 수 있는 소리기호 체계이다. 현재 한글은 인터넷이나 컴퓨터에서 사용이 어렵고, 자판 구도가 불합리하며, 남북 및 세계 표준이 아직 정해지지 않고 있으며 정열방식이 불일치하고, 내부 처리 코드가 상이한 문제점을 가지고 있다. 기존의 한글처리로는 부적합한 것들을 종합적으로 해결하기 위하여 새로운 방식을 모색 하고, 미래의 방향을 제시한 목적으로 정음부호(OPA : Ortho Phonic Alphabet)의 코드 제안에 따른 기존 KS C 5601과 KS C 5700과의 코드 변환시 문제점과 OPA 표준화를 위해 이 연구를 수행한다.

  • PDF