• Title/Summary/Keyword: language processing

Search Result 2,653, Processing Time 0.022 seconds

Korean Word Spacing System Using Syllable N-Gram and Word Statistic Information (음절 N-Gram과 어절 통계 정보를 이용한 한국어 띄어쓰기 시스템)

  • Choi, Sung-Ja;Kang, Mi-Young;Heo, Hee-Keun;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.47-53
    • /
    • 2003
  • 본 논문은 정제된 대용량 말뭉치로부터 얻은 음절 n-gram과 어절 통계를 이용한 한국어 자동 띄어쓰기 시스템을 제안한다. 한 문장 내에서 최적의 띄어쓰기 위치는 Viterbi 알고리즘에 의해 결정된다. 통계 기반 연구에 고유한 문제인 데이터 부족 문제, 학습 말뭉치 의존 문제를 개선하기 위하여 말뭉치를 확장하고 실험을 통해 얻은 매개변수를 사용하고 최장 일치 Viable Prefix를 찾아 어절 목록에 추가한다. 본 연구에 사용된 학습 말뭉치는 33,641,511어절로 구성되어 있으며 구어와 문어를 두루 포함한다.

  • PDF

Constructing and Implementing SGML/XML Information Retrieval Systems with a Case Study : STEER-SGML/XML (SGML/XML 정보검색 시스템의 구성과 구현 방법론 사례연구 : STEER-SGML/XML)

  • Park, Young-C.;Kim, Mun-Seok;Kim, Nam-Il;Zhoo, Zong-Cheol
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.105-110
    • /
    • 1998
  • SGML/XML은 임의 형태 문서, 임의 응용에 대해 일반화 마크업을 정의하기 위한 방법을 기술하는 메타언어이다. 즉 문서의 작성시에 고려되는 문서의 논리적 정보를 표현 가능하다. 이러한 논리적 구분을 이용하여 정보사용자에게 좀 더 정확한 검색을 제공할 수 있다. SGML/XML을 이용하여 표현된 계층적 논리정보를 이용하여 다양한 문서 접근점을 제공할 수 있으며, 문서의 재사용 및 동적인 문서제시를 가능케 한다. 본 논문에서는 SGML/XML 정보검색의 장점과 이러한 시스템을 구현하기 위한 구현 단계 및 구성요소를 알아보고자 한다. 아울러 구현사례로 STEER-SGML/XML 검색 시스템을 알아본다.

  • PDF

Design and Implementation of a Multimedia Information Retrieval System based on Internet (인터넷기반 멀티미디어 정보검색시스템 : 옥서'95의 색인 및 검색)

  • Kang, Hyun-Kyu;Jang, Ho-Wook;Jun, Mi-Seon;Park, Se-Young
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.85-92
    • /
    • 1996
  • 본 논문은 인터넷 기반의 멀티미디어 정보 검색 시스템인 옥서 '95의 정보 색인 및 검색에 대한 설계 및 구현에 대하여 논한다. 정보 구축시 키워드의 확장 개념으로서의 키팩트 추출과 모호성 해소 그리고 키팩트, 하이퍼 문서 및 멀티미디어 데이타의 색인을 한다. 또한 검색시 자연언어 질의에 대한 키팩트의 추출, 확장 및 서열처리를 통하여 사용자가 원하는 정보를 검색하게 한다. 검색대상의 문서로서 백과사전, 신문기사, 기술문서를 다루었으며 여러가지 검색 기능을 설계 및 구현하였다. 전문을 대상으로 색인 및 검색을 하였으며 앞으로 전자도서관이나 정보통신 서비스에 활용할 예정이다.

  • PDF

A Chinese-Korean E-Mail Translation System (중한 이메일 자동번역시스템)

  • Jin, Yun;Kwon, Oh-Woog;Wu, Ying-Sun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.225-230
    • /
    • 2009
  • 본 논문에서는 중국어의 이메일 특성을 이용한 중한 대화체 자동번역 방법에 대하여 기술한다. 본 논문에서는 중국어와 한국어와 같이 언어 간의 어순이 다르고 이메일과 같이 특정한 도메인의 언어적 자원도 제한적인 특성을 고려하여 중국어 이메일 특성을 이용한 규칙 기반의 번역 방법을 시도하였다. 이를 위해, 본 논문에서는 중국어의 굳어진 표현이 많고, 한글자 단어 많으며, 입력 오류 많고, 청유 및 경어가 많은 이메일 특성 분석을 통해 그에 대응되는 처리 방법을 제안하였다. 그리고, 그 방법의 타당성을 증명하기 위해 규칙기반의 중한 뉴스 자동번역 시스템과 비교 실험을 하였으며, 규칙기반과 통계적 방법의 타당성 실험을 위해 Gmail과도 비교 실험을 하였다. 두 가지 비교 실험 결과, 본 논문에서 접근한 방법이 모두 우수하였으며, 그 타당성을 증명하였다.

  • PDF

Korean Named Entity Recognition using ManiFL (ManiFL을 이용한 한국어 개체명 인식)

  • Kim, Wansu;Shin, Joon-choul;Park, Seoyeon;Ock, CheolYoung
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.633-636
    • /
    • 2021
  • 개체명 인식은 주어진 문장 안의 고유한 의미가 있는 단어들을 인명, 지명, 단체명 등의 미리 정의된 개체의 범주로 분류하는 문제이다. 최근 연구에서는 딥 러닝, 대용량 언어 모델을 사용한 연구들이 활발하게 연구되어 높은 성능을 보이고 있다. 하지만 이러한 방법은 대용량 학습 말뭉치와 이를 처리할 수 있는 높은 연산 능력을 필요로 하며 모델의 실행 속도가 느려서 실용적으로 사용하기 어려운 문제가 있다. 본 논문에서는 얕은 기계 학습 기법을 적용한 ManiFL을 사용한 개체명 인식 시스템을 제안한다. 형태소의 음절, 품사 정보, 직전 형태소의 라벨만을 자질로 사용하여 실험하였다. 실험 결과 F1 score 기준 90.6%의 성능과 초당 974 문장을 처리하는 속도를 보였다.

  • PDF

A Survey of Automatic Code Generation from Natural Language

  • Shin, Jiho;Nam, Jaechang
    • Journal of Information Processing Systems
    • /
    • v.17 no.3
    • /
    • pp.537-555
    • /
    • 2021
  • Many researchers have carried out studies related to programming languages since the beginning of computer science. Besides programming with traditional programming languages (i.e., procedural, object-oriented, functional programming language, etc.), a new paradigm of programming is being carried out. It is programming with natural language. By programming with natural language, we expect that it will free our expressiveness in contrast to programming languages which have strong constraints in syntax. This paper surveys the approaches that generate source code automatically from a natural language description. We also categorize the approaches by their forms of input and output. Finally, we analyze the current trend of approaches and suggest the future direction of this research domain to improve automatic code generation with natural language. From the analysis, we state that researchers should work on customizing language models in the domain of source code and explore better representations of source code such as embedding techniques and pre-trained models which have been proved to work well on natural language processing tasks.

Korean Pronouns and Anaphoric Scale (한국어 대명사들과 조응성의 등급)

  • Sung, Won-Kyung;Park, Soo-Jun;Cha, Keon-Hoe;Park, Jae-Deuk;Seo, Lai-Won
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.391-395
    • /
    • 1997
  • 한국어 문법 연구에서 뿐만 아니라, 현대 언어학에서는 일반적으로 대명사들은 재귀적 대명사와 비재귀적 대명사라는 두 개의 구분된 통사 범주로 분류된다는 대명사의 이분법적 통사 분류 가설이 지배적이다. 그러나 최근 [Hertz 92ab]가 제시한 조응성의 등급(anaphoric scale)이라는 개념에 의거한 본 연구에서는 한국어 대명사들을 두 개의 구분된 통사 범주로 이분하지 않으며 오직 서로 다른 조응도(anaphoric degree)에 의해서만 구분하는 스칼라식 관점을 제안하였다. 한국어 대명사들의 조응도를 기술하기 위해 본 연구에서는 몇 가지 통사 의미적 준거 항목들을 제시하였다. 본 연구의 접근 방법은 그간 많은 연구들에 의해 밝혀진 바와 같은 대명사들의 다양하고도 이질적인 통사 의미 특성들을 자연스럽게 설명하여 줄 수 있다는 장점이 있다. 반면, 이와 같은 대명사들의 통사 의미적 다양성은 전통적인 이분법적 분류의 관점에서는 풀기 어려운 숙제로 남게 된다.

  • PDF

FromTo-$Web/EK^{TM}$: English-to-Korean Machine Translation System for HTML Documents (에서로-웹/$EK^{TM}$: 영한 웹 문서 번역 시스템)

  • Sim, Chul-Min;Yuh, Sang-Wha;Jung, Han-Min;Kim, Tae-Wan;Park, Dong-In;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.277-282
    • /
    • 1997
  • 최근 들어 웹 상의 문서를 번역해 주는 번역 시스템이 상용화되고 있다. 일반 문서와 달리 웹 문서는 HTML 태그를 포함하고 있어 번역 시스템에서 문장 단위로 분리하는데 어려움이 있다. 또한 그 대상 영역이 제한되지 않으므로 미등록어 및 구문 분석 실패에 대한 대처 기능이 필요하다. 따라서 웹 문서의 번역 품질이 일반 문서 번역에 비해 현저히 떨어지게 된다. 이 논문에서는 HTML 태그를 보유한 영어 웹 문서를 대상으로 하는 번역 시스템인 "에서로-웹/EK"에 대해 기술한다. 에서로-웹/EK는 HTML 문서의 특성을 고려하여 태그를 분리, 복원하는 태그 관리자를 별도로 가진다. 또한 태그를 유지하면서 영어에서 한국어로 변환되는 과정에서 발생하는 어휘 분리, 어휘 통합, 어순 변환 둥의 다양한 변환 현상을 처리한다. 이 시스템은 변환 방식에 기반한 번역 시스템으로서 영어 해석, 영한 변환, 한국어 생성의 단계를 거친다. 구현된 시스템은 Netscape와 DDE(Dynamic Data Exchange) 방식으로 연동하여 HTML 문서를 번역한다.

  • PDF

Problem Analysis on Syntactic Linguistic Knowledge Acquisition and Design of a Supporting Tool (구문적 언어지식 획득 과정의 문제점 분석 및 지원도구 설계)

  • Lee, Hyun-A;Park, Jae-Deuk;Jang, Myung-Gil;Park, Soo-Jun;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.489-496
    • /
    • 1996
  • 자연어 처리에서 언어에 대한 지식은 전자사전과 문법규칙으로 구성되어 서로 상보적 관계에 있고, 각 어휘에 대한 품사 및 기타 자질-값에 의해 매개된다. 이러한 언어지식을 전통적인 방법에서는 국어자료의 분석에 경험이 많은 언어전문가의 직관에 다분히 의존하여 정의하였고, 말뭉치를 이용한 자동 획득 기법에서는 태그세트를 먼저 설정하고, 이 태그를 원시 말뭉치에 부착하여 태깅된 말뭉치로부터 자동으로 통계적 분석을 통하여 획득한다. 그런데 두가지 접근방법이 가지고 있는 공통적인 문제점은 품사나 자질-값의 정의 및 할당기준, 선악의 평가기준, 튜닝에 대한 적극적 대처 등이 마련되어 있지 않다는 점이다. 이 연구에서는 이러한 문제점의 발생원인을 말뭉치 분석 과정에서 살펴보고, 품사 및 자질-값의 설정과 할당기준을 마련하는 방법론 및 이를 적극적으로 지원하는 도구를 설계한다.

  • PDF

Evolution of Customization Method for Commercialization of an English-Korean MT System (영한 번역기의 상용화를 위한 도메인 특화 방법의 진화)

  • Choi, Sung-Kwon;Lee, Ki-Young;Roh, Yoon-Hyung;Kwon, Oh-Woog;Kim, Young-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.72-76
    • /
    • 2011
  • 본 논문은 한국전자통신연구원 언어처리연구팀에서 2004년까지 개발하였던 웹문서 자동번역 시스템을 2006년부터 매년 도메인별로 상용화에 성공한 사례를 기술한 것이다. 상용화가 가능하였던 주요 요인 중 하나인 도메인 특화 방법을 소개하며 이 도메인 특화 방법이 시기별로 개선되어 진화되는 모습을 기술한다. 즉 2004년의 웹문서 영한 자동번역기를 2006년에 특허문서 영한 자동번역기로 특화할 때 사용한 도메인 특화 방법이 '초기 도메인 특화 방법'이라 할 수 있는데, 이 초기의 도메인 특화 방법에 번역지식 및 번역엔진 모듈의 반자동 튜닝 방법과 자동화된 평가 방법을 추가하여 2007년에 '개선된 도메인 특화 방법'을 개발하였다. 이 '개선된 도메인 특화 방법'은 2007년에 특허문서 영한 자동번역기를 기술논문 영한 자동번역기로, 2008년에 기술논문 영한 자동번역기를 IT웹신문 영한 자동번역기로, 2009년에 IT 웹신문 영한 자동번역기를 전자우편 및 기업문서 영한 자동번역기로, 그리고 2010년에 전자우편 영한 자동번역기를 메신저 영한 자동번역기로 구현할 때 사용하였으며 그 효과는 신규 도메인용 영한 번역기를 개발하는 기간을 점차적으로 줄이게 하였으며 구현 프로세스에 일관성을 제공하였다.

  • PDF