• Title/Summary/Keyword: Language engineering

Search Result 3,551, Processing Time 0.029 seconds

A Preprocessor for English-to-Korean Machine Translation of Web Pages (웹용 영한 기계번역을 위한 문서 전처리기의 설계 및 구현)

  • An, Dong-Un;Ryu, Hong-Jin;Seo, Jin-Won;Lee, Young-Woo;Jeong, Sung-Jong;Yuh, Sang-Hwa;Kim, Tae-Wan;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.249-254
    • /
    • 1997
  • 영어 웹 문서를 한국어로 기계번역을 하기 위해서는 HTML 태그를 번역 대상 문장과 분리하는 처리가 필요하다. HTML 태그를 단순히 제거하는 것이 아니라 대상 문장의 기계번역이 종료된 후에 같은 형태의 한국어 웹 문서로 복원하기 위한 방안이 마련 되어야 한다. 또한 문서 전처리기에서는 영어 형태소해석기의 성능을 높이기 위하여 번역 단위가 되는 문장의 인식 및 분리, 타이틀의 처리, 나열된 단어의 처리, 하이픈 처리, 고유명사 인식, 특수 문자 처리, 대소문자 정규화, 날짜 인식 등을 처리하여 문서의 정규화를 수행한다.

  • PDF

Language Modeling Approaches to Information Retrieval

  • Banerjee, Protima;Han, Hyo-Il
    • Journal of Computing Science and Engineering
    • /
    • v.3 no.3
    • /
    • pp.143-164
    • /
    • 2009
  • This article surveys recent research in the area of language modeling (sometimes called statistical language modeling) approaches to information retrieval. Language modeling is a formal probabilistic retrieval framework with roots in speech recognition and natural language processing. The underlying assumption of language modeling is that human language generation is a random process; the goal is to model that process via a generative statistical model. In this article, we discuss current research in the application of language modeling to information retrieval, the role of semantics in the language modeling framework, cluster-based language models, use of language modeling for XML retrieval and future trends.

Chunking Using Automatic Constructed Syntactic Pattern Dictionary and Rule (자동 구축된 구문패턴사전과 규칙을 이용한 구묶음)

  • Im, Ji-Hui;Choe, Ho-Seop;Lee, Jung-Chul;Ock, Cheul-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.35-39
    • /
    • 2004
  • 본 논문은 실용적인 구문분석기의 전단계로서, 자동 구축된 구문패턴사전과 규칙을 이용하여 구묶음하는 방법을 제안한다. 우선 규칙은 구문분석 말뭉치(30,875어절)를 대상으로 자동 추출된 고빈도의 규칙(Rewriting Rule)을 본 논문에 맞게 수동으로 구축하였다. 규칙은 조건부, 행위부로 이루어진 이진 규칙(binary rule)의 형태를 이루며, 명사구(NP), 수식어구(AP, DP), 인용구(X), 용언구(VP, VC)을 대상으로 15개를 구축하였다. 그리고 구문패턴은 중심어와 중심어 선행 요소의 특성뿐만 아니라 중심어 후행 요소도 고려하여 형식화시킨 것으로, 중심어의 복합용언 여부에 따라 일반용언패턴과 본+보조용언패턴으로 구분한다. 부분적인 언어 현상의 처리보다는 실세계에서 사용되는 수많은 문장들에 내재되어 있는 매우 광범위한 언어 현상의 처리를 하기 위해, 구문패턴은 형태소주석 말뭉치(460만 어절)을 대상으로 자동 구축하였다. 구축된 구문패턴사전과 규칙을 이용하여 구묶음을 수행한 결과 정확율 83.09%가 나타났다.

  • PDF

An Investigation of Robot Programming Language with the Capabilities of Sensory Information Processing (센서 정보 처리 기능을 갖는 로보트 프로그램밍 언어에 관한 조사)

  • Kim, Dae-Won;Ko, Myoun-Sam;Lee, Bum-Hee
    • Proceedings of the KIEE Conference
    • /
    • 1987.11a
    • /
    • pp.435-438
    • /
    • 1987
  • In this paper, among the robot programming languages that enable processing of sensory information, eight exemplary languages are chosen, and investigated in terms of their characteristics, why they are designed the way they are, and the kind of sensors each language can use and apply to. In addition, the characteristics of each language is compared with one another from the sensor point of view and the flow of each language is analyzed from the robot language classification point of view. Finally, We investigate the progress and the requirements of the sensor-based robot programming languages for further developments.

  • PDF

Integrated Sentence Preprocessing System for Web Indexing (웹 인덱싱을 위한 통합 전처리 시스템의 개발)

  • Shim, Jun-Hyuk;Cha, Jong-Won;Lee, Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.216-223
    • /
    • 2000
  • 웹 문서는 일반 문서들과 달리 자유로운 형식으로 기술되어 있고, 원문에 태그나 코드 등 불필요한 내용들을 많이 포함하고 있어 언어 처리에 바로 사용하기에 적합하지 못하다. 본 논문은 인덱싱 대상 문서로 사용되는 웹 문서를 자동으로 수집하여, 문장 단위로 정렬된 문서로 제작, 관리하는 통합 전처리 시스템인 Web Tagger의 구조와 전처리 방법을 소개한다. Web Tagger는 문서 정제, 문장 분할, 띄어쓰기의 과정을 거쳐 웹 문서에서 표준화된 정보를 추출하고, 형태소 분석기를 포함한 응용 시스템의 목적에 맞게 XML 형식의 원문 코퍼스를 자동으로 생성하고 관리한다. '정규문법(Regexp)', '휴리스틱', '품사 인덱스 참조', 'C4.5를 사용한 학습 규칙' 등의 다양한 전처리 기법은 형태소 분석 정확도 향상과 시스템 안정성 보장에 기여한다.

  • PDF

Real Time Recognition of Finger-Language Using Color Information and Fuzzy Clustering Algorithm

  • Kim, Kwang-Baek;Song, Doo-Heon;Woo, Young-Woon
    • Journal of information and communication convergence engineering
    • /
    • v.8 no.1
    • /
    • pp.19-22
    • /
    • 2010
  • A finger language helping hearing impaired people in communication A sign language helping hearing impaired people in communication is not popular to ordinary healthy people. In this paper, we propose a method for real-time sign language recognition from a vision system using color information and fuzzy clustering system. We use YCbCr color model and canny mask to decide the position of hands and the boundary lines. After extracting regions of two hands by applying 8-directional contour tracking algorithm and morphological information, the system uses FCM in classifying sign language signals. In experiment, the proposed method is proven to be sufficiently efficient.

Comparative Analysis of Statistical Language Modeling for Korean using K-SLM Toolkits (K-SLM Toolkit을 이용한 한국어의 통계적 언어 모델링 비교)

  • Lee, Jin-Seok;Park, Jay-Duke;Lee, Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.426-432
    • /
    • 1999
  • 통계적 언어 모델은 자연어 처리의 다양한 분야에서 시스템의 정확도를 높이고 수행 시간을 줄여줄 수 있는 중요한 지식원이므로 언어 모델의 성능은 자연어 처리 시스템, 특히 음성 인식 시스템의 성능에 직접적인 영향을 준다. 본 논문에서는 한국어를 위한 통계적 언어 모델을 구축하기 위한 다양한 언어 모델 실험을 제시하고 각 언어 모델들 간의 성능 비교를 통하여 통계적 언어 모델의 표준을 제시한다. 또한 형태소 및 어절 단위의 고 빈도 어휘만을 범용 언어 모델에 적용할 때의 적용률을 통하여 언어 모델 구축시 어휘 사전 크기 결정을 위한 기초적 자료를 제시한다. 본 연구는 음성 인식용 통계적 언어 모델의 성능을 판단하는 데 앞으로 큰 도움을 줄 수 있을 것이다.

  • PDF

Research on Methods to Increase Recognition Rate of Korean Sign Language using Deep Learning

  • So-Young Kwon;Yong-Hwan Lee
    • Journal of Platform Technology
    • /
    • v.12 no.1
    • /
    • pp.3-11
    • /
    • 2024
  • Deaf people who use sign language as their first language sometimes have difficulty communicating because they do not know spoken Korean. Deaf people are also members of society, so we must support to create a society where everyone can live together. In this paper, we present a method to increase the recognition rate of Korean sign language using a CNN model. When the original image was used as input to the CNN model, the accuracy was 0.96, and when the image corresponding to the skin area in the YCbCr color space was used as input, the accuracy was 0.72. It was confirmed that inserting the original image itself would lead to better results. In other studies, the accuracy of the combined Conv1d and LSTM model was 0.92, and the accuracy of the AlexNet model was 0.92. The CNN model proposed in this paper is 0.96 and is proven to be helpful in recognizing Korean sign language.

  • PDF

Korean and Multilingual Language Models Study for Cross-Lingual Post-Training (XPT) (Cross-Lingual Post-Training (XPT)을 위한 한국어 및 다국어 언어모델 연구)

  • Son, Suhyune;Park, Chanjun;Lee, Jungseob;Shim, Midan;Lee, Chanhee;Park, Kinam;Lim, Heuiseok
    • Journal of the Korea Convergence Society
    • /
    • v.13 no.3
    • /
    • pp.77-89
    • /
    • 2022
  • It has been proven through many previous researches that the pretrained language model with a large corpus helps improve performance in various natural language processing tasks. However, there is a limit to building a large-capacity corpus for training in a language environment where resources are scarce. Using the Cross-lingual Post-Training (XPT) method, we analyze the method's efficiency in Korean, which is a low resource language. XPT selectively reuses the English pretrained language model parameters, which is a high resource and uses an adaptation layer to learn the relationship between the two languages. This confirmed that only a small amount of the target language dataset in the relationship extraction shows better performance than the target pretrained language model. In addition, we analyze the characteristics of each model on the Korean language model and the Korean multilingual model disclosed by domestic and foreign researchers and companies.