• Title/Summary/Keyword: language processing

Search Result 2,686, Processing Time 0.032 seconds

Trusted Certificate Validation Scheme for Open LBS Application Based on XML Web Services

  • Moon, Ki-Young;Park, Nam-Je;Chung, Kyo-Il;Sohn, Sung-Won;Ryou, Jae-Cheol
    • Journal of Information Processing Systems
    • /
    • v.1 no.1 s.1
    • /
    • pp.86-95
    • /
    • 2005
  • Location-based services or LBS refer to value-added service by processing information utilizing mobile user location. With the rapidly increasing wireless Internet subscribers and world LBS market, the various location based applications are introduced such as buddy finder, proximity and security services. As the killer application of the wireless Internet, the LBS have reconsidered technology about location determination technology, LBS middleware server for various application, and diverse contents processing technology. However, there are fears that this new wealth of personal location information will lead to new security risks, to the invasion of the privacy of people and organizations. This paper describes a novel security approach on open LBS service to validate certificate based on current LBS platform environment using XKMS (XML Key Management Specification) and SAML (Security Assertion Markup Language), XACML (extensible Access Control Markup Language) in XML security mechanism.

Implementing stream processing functionalities of Splash (Splash의 스트림 프로세싱 기능 구현)

  • Ahn, Jaeho;Noh, Soonhyun;Hong, Seongsoo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.01a
    • /
    • pp.377-380
    • /
    • 2019
  • To accommodate for the difficult task of satisfying application's system timing constraints, we are developing Splash, a real time stream processing language for embedded AI applications. Splash is a graphical programming language that designs applications through data flow graph which, later automatically generates into codes. The codes are compiled and executed on top of the Splash runtime system. The Splash runtime system supports two aspects of the application. First, it supports the basic stream processing functions required for an application to operate on multiple streams of data. Second, it supports the checking and handling of the user configurated timing constraints. In this paper we explain the implementation of the first aspect of the Splash runtime system which is being developed using a real time communication middleware called DDS.

  • PDF

A Study on English-Korean Messenger MT System based on Structured Translation Memory (구조화된 번역 메모리 기반 영한 메신저 자동 번역 시스템에 관한 연구)

  • Choi, Sung-Kwon;Kim, Young-Gil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.361-364
    • /
    • 2011
  • 본 논문의 목표는 크게 두 가지이다. 하나는 2010년에 개발한 메신저 자동번역 시스템을 소개하는 것이고, 다른 하나는 메신저 대화체 문장을 더욱 고품질로 번역하기 위한 구조화된 번역 메모리(Structured Translation Memory)를 소개하는 것이다. 구조화된 번역 메모리는 기존의 문자열 기반의 번역 메모리와 자동 번역 시스템의 경계를 허무는 개념으로 구조를 표현하는 계층적 번역 메모리들로 구성된다. 구조화된 번역 메모리는 문자열 번역 메모리, 원형 어휘로 구성된 번역 메모리, 고유명사가 청킹된 번역 메모리, 날짜/숫자가 청킹된 번역 메모리, 기본명사구가 청킹된 번역 메모리, 문장 패턴 번역 메모리로 단계적으로 구성된다. 구조화된 번역 메모리를 적용하기 전의 2010년의 영한 메신저 자동 번역 시스템의 번역률이 81.67%였던 반면에, 구조화된 번역 메모리를 적용하려는 2011년의 영한 메신저 자동 번역 시스템의 시물레이션 번역률은 85.25%인 것으로 평가되었다. 따라서 구조화된 번역 메모리를 적용하였을 때는 기존의 번역률보다 3.58% 향상할 것으로 예측된다.

A Study on Generation of Polite Expressions for Dialogue Participants in Machine Translation System (대화체 자동번역 시스템에서 대화상대 맞춤 존대표현 생성에 관한 연구)

  • Choi, Sung-Kwon;Kim, Young-Gil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.11a
    • /
    • pp.399-402
    • /
    • 2011
  • 현재의 자동번역 방식의 문제점은 대화 상대에 상관없이 항상 일정한 존대 표현을 생성하여 자동번역 결과를 부자연스럽게 만들고 앞뒤 대화 문맥을 혼란하게 만든다는 것이다. 예를 들어 대화 상대가 달라지면 동일한 원문에 대해서도 자동번역 결과는 다른 존대 표현을 생성해야 하나, 현재의 자동번역 시스템은 항상 하나의 일관된 존대 표현을 생성한다. 이 이유는 자동 번역 시스템에서 사용하는 번역지식 또는 데이터가 고정되어 있어 유동적으로 변하지 않기 때문이다. 본 논문에서는 이러한 기존 자동번역의 문제점을 해결하기 위하여, 소셜 네트워크(social network)에서 제공하는 디지털 인맥 정보와 같은 비언어적 정보와 발화상의 표현과 같은 언어적 정보로부터 대화 자간의 존대 관계를 계산하여 자동번역 결과에 반영함으로써 언어 문화적 존대 차이를 자동으로 극복하는 대화 상대 맞춤형 존대표현 자동 번역 방법을 기술하는 데 그 목적이 있다.

A Study to Relation between Human Judgment and Automatic Evaluation in English-Korean Scientific Paper MT System (영한 논문 번역시스템의 수동 평가와 자동 평가의 관계)

  • Choi, Sung-Kwon;Hwang, Young-Sook;Kim, Young-Gil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.05a
    • /
    • pp.65-68
    • /
    • 2008
  • 본 논문은 영한 과학기술 논문 자동번역 시스템을 대상으로 이루어진 수동 평가와 자동 평가 사이의 상관 관계를 밝힘으로써 수동 평가와 자동 평가 중에 한쪽의 방법에 의해서 평가가 이루어지더라도 다른 쪽의 수치를 파악할 수 있도록 하는데 목표가 있다. 본 논문에서 수행한 수동 평가는 5 인의 전문 번역가가 5 회에 걸쳐 평가한 결과이며, 자동 평가는 영어 원문 1,000 문장에 대한 8 인이 번역한 8,000 문장의 정답문(References)과 자동번역 결과를 어절 단위와 형태소 단위로 N-gram 비교를 통해 평가된 결과이다. 본 논문에서 도출된 식은 사용하는 평가 집합과 대상 번역 시스템 별로 자동 평가와 수동 평가 간의 상관 계수를 만들어내고 수동 번역률을 구하는 식을 동일하게 적용한다면 시스템의 자동 평가 결과로부터 성능을 직관적으로 해석하는데 상당히 도움이 될 것이다.

Automatic Construction of Syntactic Relation in U-WIN (U-WIN의 구문관계 자동구축 방법)

  • Im, Jihui;Kim, Dongmyoung;Choe, Hoseop;Yoon, Hwa-Mook;Ock, Cheolyoung
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.84-90
    • /
    • 2007
  • 일반적인 어휘망이 의미 관계에 의한 연결 구조를 중심으로 연구 개발된 것과는 달리, U-WIN은 의미관계를 비롯하여 개념 관계, 형태 관계, 구문 관계 등과 같이 의미 관계의 범위를 확장한 어휘 관계를 적용하여 구축하고 있다. 본 연구에서는 U-WIN의 어휘 관계 중의 하나인 구문관계를 자동으로 구축하는 방법을 제시하고자 한다. 먼저, 용언의 용례에서 문형정보를 기준으로 구문관계를 형성할 수 있는 후보명사를 추출하였으며, 추출한 후보명사는 용언의 세분화된 의미별로 정확하고 다양하게 추출할 수 있었다. 그러나 U-WIN은 다의어의 뜻풀이 하나하나를 개별적인 어휘로 구분하여 구축하였으므로, 어휘 간의 구문관계를 설정하기 위해서는 후보명사의 여러 의미 중에서 하나의 의미로 결정해야 한다. 그래서 본 연구에서는 용례 매칭 규칙, 구문패턴, 의미 유사도 등을 차례로 적용하여 후보명사의 의미를 분별하였으며, 또한 구문패턴의 빈도 정보를 이용하여 용례에 나타나지 않지만 구문관계를 형성할 수 있는 명사를 추출하여 구문관계를 확장하고자 하였다. 이러한 연구는 명사 중심의 어휘망이 용언과의 구문관계 구축을 통해 형태소 분석, 구문 분석, 의미 분석 등에 광범위하게 활용할 수 있는 어휘망의 기반을 다지는 작업이 될 수 있을 것이다.

  • PDF

A Study on the Arabic numeral reading rules in Modern Korean (현대 한국어에서 아라비안 숫자의 읽기 규칙 연구)

  • Jung, Young-Im;Kim, Jeong-Se;Kim, Sang-Hoon;Lee, Young-Jik;Yoon, Ae-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.16-23
    • /
    • 2002
  • 본 논문에서는 아라비안 숫자를 포함한 텍스트를 음성으로 합성하기 위하여, 숫자 형태와 분류사 그리고 숫자가 나오는 문맥에 따라 숫자를 자동으로 문자화할 수 있는 전처리 규칙을 설정하는데 목적을 둔다. 먼저 선행연구를 통해 숫자를 포함한 수사 및 수사표현의 읽기 규칙의 적용 범위 및 한계점을 살펴보고, 음성 합성을 위한 아라비안 숫자의 문자화 규칙을 설정하고자 한다. 현대 한국어에서 아라비안 숫자를 읽는 방식은 크게 고유어 방식과 한자어 방식이 있으며 단(單)단위에서는 영어가 사용되기도 한다. 또한 한자어 방식에서도 단위를 붙여 읽는 경우와 모든 수를 단 단위로 읽는 경우가 있으므로, 아라비안 숫자의 문자화를 단순한 규칙을 설정하여 자동화하기에는 중의성이 높다. 본 연구에서는 (1) 숫자 전 전치어(pre-numeral), (2) 기호를 포함한 숫자열의 표현 형식과 크기, (3) 단위 표현, (4) 숫자 후치어(post-numeral), (5) 분류사(classifier) (6) 분류사 후치어(post-classifier), (7) 수사표현 앞뒤 문맥에 따라, 아라비안 숫자표현이 문자화되는 방식을 살펴보았다. 분석 대상 말뭉치는 C 신문의 2000년 1월부터 2000년 4월까지 전체 기사 1,400건에서 숫자가 포함된 숫자표현 약 63,000개론 구성하였다. 패턴화된 구조 및 중의성이 없는 구조를 12가지로 밝히고 중의성이 있는 구조의 유형을 밝혔으며 분류사 후치어와의 결합 관계, 좌우 문맥정보를 통해 중의성 해결의 단서를 제시하고자 하였다.

  • PDF

uLAMP: Unified Linguistic Asset Management Platform for Natural Language Processing (uLAMP: 자연어 처리를 위한 자원 통합 관리 플랫폼)

  • Um, Jung-Ho;Shin, Sung-Ho;Choi, Sung-Pil;Jung, Hanmin
    • The Journal of the Korea Contents Association
    • /
    • v.12 no.12
    • /
    • pp.25-34
    • /
    • 2012
  • Due to the development of wireless devices such as smart-phone and internet, a lot of linguistic resources actively are opened in each area of expertise. Also, various systems using semantic web technologies are developing for determining whether such information are useful or not. In order to build these systems, the processes of data collection and natural language processing are necessary. But, there is few systems to use of integrating software and data required those processes. In this paper, we propose the system, uLAMP, integrating software and data related to natural language processing. In terms of economics, the cost can be reduced by preventing duplicated implementation and data collection. On the other hand, data and software usability are increasing in terms of management aspects. In addition, for the evaluation of uLAMP usability and effectiveness, user survey was conducted. Through this evaluation, the advantages of the currentness of data and the ease of use are found.

Korean Machine Reading Comprehension for Patent Consultation Using BERT (BERT를 이용한 한국어 특허상담 기계독해)

  • Min, Jae-Ok;Park, Jin-Woo;Jo, Yu-Jeong;Lee, Bong-Gun
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.9 no.4
    • /
    • pp.145-152
    • /
    • 2020
  • MRC (Machine reading comprehension) is the AI NLP task that predict the answer for user's query by understanding of the relevant document and which can be used in automated consult services such as chatbots. Recently, the BERT (Pre-training of Deep Bidirectional Transformers for Language Understanding) model, which shows high performance in various fields of natural language processing, have two phases. First phase is Pre-training the big data of each domain. And second phase is fine-tuning the model for solving each NLP tasks as a prediction. In this paper, we have made the Patent MRC dataset and shown that how to build the patent consultation training data for MRC task. And we propose the method to improve the performance of the MRC task using the Pre-trained Patent-BERT model by the patent consultation corpus and the language processing algorithm suitable for the machine learning of the patent counseling data. As a result of experiment, we show that the performance of the method proposed in this paper is improved to answer the patent counseling query.

Considerations for Applying Korean Natural Language Processing Technology in Records Management (기록관리 분야에서 한국어 자연어 처리 기술을 적용하기 위한 고려사항)

  • Haklae, Kim
    • Journal of Korean Society of Archives and Records Management
    • /
    • v.22 no.4
    • /
    • pp.129-149
    • /
    • 2022
  • Records have temporal characteristics, including the past and present; linguistic characteristics not limited to a specific language; and various types categorized in a complex way. Processing records such as text, video, and audio in the life cycle of records' creation, preservation, and utilization entails exhaustive effort and cost. Primary natural language processing (NLP) technologies, such as machine translation, document summarization, named-entity recognition, and image recognition, can be widely applied to electronic records and analog digitization. In particular, Korean deep learning-based NLP technologies effectively recognize various record types and generate record management metadata. This paper provides an overview of Korean NLP technologies and discusses considerations for applying NLP technology in records management. The process of using NLP technologies, such as machine translation and optical character recognition for digital conversion of records, is introduced as an example implemented in the Python environment. In contrast, a plan to improve environmental factors and record digitization guidelines for applying NLP technology in the records management field is proposed for utilizing NLP technology.