• Title/Summary/Keyword: natural language

Search Result 1,530, Processing Time 0.025 seconds

A Question Type Classifier Using a Support Vector Machine (지지 벡터 기계를 이용한 질의 유형 분류기)

  • An, Young-Hun;Kim, Hark-Soo;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.129-136
    • /
    • 2002
  • 고성능의 질의응답 시스템을 구현하기 위해서는 사용자의 질의 유형의 난이도에 관계없이 의도를 파악할 수 있는 질의유형 분류기가 필요하다. 본 논문에서는 문서 범주화 기법을 이용한 질의 유형 분류기를 제안한다. 본 논문에서 제안하는 질의 유형 분류기의 분류 과정은 다음과 같다. 우선, 사용자 질의에 포함된 어휘, 품사, 의미표지와 같은 다양한 정보를 이용하여 사용자 질의로부터 자질들을 추출한다. 이 과정에서 질의의 구문 특성을 반영하기 위해서 슬라이딩 윈도 기법을 이용한다. 또한, 다량의 자질들 중에서 유용한 것들만을 선택하기 위해서 카이 제곱 통계량을 이용한다. 추출된 자질들은 벡터 공간 모델로 표현되고, 문서 범주화 기법 중 하나인 지지 벡터 기계(support vector machine, SVM)는 이 정보들을 이용하여 질의 유형을 분류한다. 본 논문에서 제안하는 시스템은 질의 유형 분류 문제에지지 벡터 기계를 이용한 자동문서 범주화 기법을 도입하여 86.4%의 높은 분류 정확도를 보였다. 또한 질의 유형 분류기를 통계적 방법으로 구축함으로써 lexico-syntactic 패턴과 같은 규칙을 기술하는 수작업을 배제할 수 있으며, 응용 영역의 변화에 대해서도 안정적인 처리와 빠른 이식성을 보장한다.

  • PDF

Application portable Part-Of-Speech tagger mapping (응용을 위한 품사 태깅 시스템의 매핑)

  • Kim, Jun-Seok;Cha, Jung-Won;Lee, Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.368-375
    • /
    • 2000
  • 품사 태깅 시스템은 자연 언어 처리의 가장 기본이 되는 부분으로 상위 자연 언어 처리 분야인 구문분석, 의미분석의 전처리로 사용되거나, 기계번역, 정보검색이나 음성인식 및 합성 등과 같은 많은 응용 시스템을 위해서도 필요하다. 이렇게 여러 가지 목적을 위해 품사 태깅 시스템은 존재하는데, 각각의 응용을 위해서 최적화된 태깅 시스템을 따로 구성하기도 하고, 하나의 태깅 시스템을 여러 가지 응용을 위해서 사용하기도 한다. 이때, 문제가 되는 것 중에 하나는 각 응용마다 요구하는 품사 태그 세트가 다르다는 것이다. 품사 태그세트가 고정되어 있다면 어떤 응용을 위해서는 사용되는 품사 태그세트가 너무 적어서 문제가 되고, 반대로 품사태그세트가 너무 많아서 시스템의 수행속도가 중요시되는 응용에서 성능저하의 요인이 되기도 한다. 본 논문에서는 하나의 태깅 시스템의 품사태그세트를 조절할 수 있도록 하여 몇 가지 응용시스템에 맞게 최적화시킬 수 있는 방법론을 제시하고 실험을 통해서 시스템의 성능, 유지보수 및 시스템의 여러 리소스 관리 측면에서도 가장 효율적인 방법론임을 입증하고자 한다.

  • PDF

A Dictionary Constructing System based on a Web-based Object Model of Distributed Language Resources (웹 기반의 언어자원 객체화에 근거한 사전 개발 시스템)

  • 황도삼
    • Korean Journal of Cognitive Science
    • /
    • v.12 no.1_2
    • /
    • pp.1-9
    • /
    • 2001
  • In this paper. we present a web-based object model of language resources that are distributed in different places in variable forms. Language resources organized as objects distributed over web sites can be easily utilized to produce application systems of natural language processing. So. it renders effective maintenance of overall language processing environment in that upgrading language resources can lead to the mechanical upgrading of application systems. We implemented a dictionary constructing system for Korean Language (YDK2000). This system can integrate various linguistic dictionaries and also allow to construct high quality application specific dictionaries by connecting them to natural language systems on the Internet.

  • PDF

Biaffine Dependency Parser for Korean (Biaffine 한국어 의존파서)

  • Shadikhodjaev, Uygun;Min, Tae Hong;Youn, Junyoung;Lee, Jae Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.678-681
    • /
    • 2018
  • Dependency parsing is an important task in natural language processing whose results are used in many downstream tasks such as machine translation, information retrieval, relation extraction, question answering and many others. Most of the dependency parsing literature focuses on using end-to-end and sequence-to-sequence neural architectures as the core of the system. One such system, namely Biaffine dependency parser is explored in the current paper for effective dependency parsing of Korean language.

  • PDF

Adversarial Learning for Natural Language Understanding (자연어 이해를 위한 적대 학습 방법)

  • Lee, Dong-Yub;Whang, Tae-Sun;Lee, Chan-Hee;Lim, Heui-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.155-159
    • /
    • 2018
  • 최근 화두가 되고있는 지능형 개인 비서 시스템에서 자연어 이해(NLU) 시스템은 중요한 구성요소이다. 자연어 이해 시스템은 사용자의 발화로부터 대화의 도메인(domain), 의도(intent), 의미적 슬롯(semantic slot)을 분류하는 역할을 한다. 하지만 자연어 이해 시스템을 학습하기 위해서는 많은 양의 라벨링 된 데이터를 필요로 하며 새로운 도메인으로 시스템을 확장할 때, 새롭게 데이터 라벨링을 진행해야 하는 한계점이 존재한다. 이를 해결하기 위해 본 연구는 적대 학습 방법을 이용하여 풍부한 양으로 구성된 기존(source) 도메인의 데이터부터 적은 양으로 라벨링 된 데이터로 구성된 대상(target) 도메인을 위한 슬롯 채우기(slot filling) 모델 학습 방법을 제안한다. 실험 결과 적대 학습을 적용할 경우, 적대 학습을 적용하지 않은 경우 보다 높은 f-1 score를 나타냄을 확인하였다.

  • PDF

Development of a Traceability Analysis Method Based on Case Grammar for NPP Requirement Documents Written in Korean Language

  • Yoo Yeong Jae;Seong Poong Hyun;Kim Man Cheol
    • Nuclear Engineering and Technology
    • /
    • v.36 no.4
    • /
    • pp.295-303
    • /
    • 2004
  • Software inspection is widely believed to be an effective method for software verification and validation (V&V). However, software inspection is labor-intensive and, since it uses little technology, software inspection is viewed upon as unsuitable for a more technology-oriented development environment. Nevertheless, software inspection is gaining in popularity. KAIST Nuclear I&C and Information Engineering Laboratory (NICIEL) has developed software management and inspection support tools, collectively named "SIS-RT. "SIS-RT is designed to partially automate the software inspection processes. SIS-RT supports the analyses of traceability between a given set of specification documents. To make SIS-RT compatible for documents written in Korean, certain techniques in natural language processing have been studied [9]. Among the techniques considered, case grammar is most suitable for analyses of the Korean language [3]. In this paper, we propose a methodology that uses a case grammar approach to analyze the traceability between documents written in Korean. A discussion regarding some examples of such an analysis will follow.

Method for Detecting Errors of Korean-Chinese MT Using Parallel Corpus (병렬 코퍼스를 이용한 한중 기계번역 오류 탐지 방법)

  • Jin, Yun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.113-117
    • /
    • 2008
  • 본 논문에서는 패턴기반 자동번역시스템의 효율적인 번역 성능 향상을 위해 병렬 코퍼스(parallel corpus)를 이용한 오류 자동 탐지 방법을 제안하고자 한다. 번역시스템에 존재하는 대부분 오류는 크게 지식 오류와 엔진 오류로 나눌 수 있는데 통상 이런 오류는 이중 언어가 가능한 훈련된 언어학자가 대량의 자동번역 된 결과 문장을 읽음으로써 오류를 탐지하고 분석하여 번역 지식을 수정/확장하거나 또는 엔진을 개선하게 된다. 하지만, 이런 작업은 많은 시간과 노력을 필요로 하게 된다. 따라서 본 논문에서는 병렬 코퍼스 중의 목적 언어(Target Language) 문장 즉, 정답 문장과 자동번역 된 결과 문장을 다양한 방법으로 비교하면서 번역시스템에 존재하고 있는 지식 및 엔진 오류를 자동으로 탐지하는 방법을 제안한다. 제안한 방법은 한-중 자동번역시스템에 적용하여 그 정확률과 재현률을 측정하였으며, 자동적으로 오류를 탐지하여 추출 할 수 있음을 증명하였다.

  • PDF

Large Language Models: A Guide for Radiologists

  • Sunkyu Kim;Choong-kun Lee;Seung-seob Kim
    • Korean Journal of Radiology
    • /
    • v.25 no.2
    • /
    • pp.126-133
    • /
    • 2024
  • Large language models (LLMs) have revolutionized the global landscape of technology beyond natural language processing. Owing to their extensive pre-training on vast datasets, contemporary LLMs can handle tasks ranging from general functionalities to domain-specific areas, such as radiology, without additional fine-tuning. General-purpose chatbots based on LLMs can optimize the efficiency of radiologists in terms of their professional work and research endeavors. Importantly, these LLMs are on a trajectory of rapid evolution, wherein challenges such as "hallucination," high training cost, and efficiency issues are addressed, along with the inclusion of multimodal inputs. In this review, we aim to offer conceptual knowledge and actionable guidance to radiologists interested in utilizing LLMs through a succinct overview of the topic and a summary of radiology-specific aspects, from the beginning to potential future directions.

Framework for evaluating code generation ability of large language models

  • Sangyeop Yeo;Yu-Seung Ma;Sang Cheol Kim;Hyungkook Jun;Taeho Kim
    • ETRI Journal
    • /
    • v.46 no.1
    • /
    • pp.106-117
    • /
    • 2024
  • Large language models (LLMs) have revolutionized various applications in natural language processing and exhibited proficiency in generating programming code. We propose a framework for evaluating the code generation ability of LLMs and introduce a new metric, pass-ratio@n, which captures the granularity of accuracy according to the pass rate of test cases. The framework is intended to be fully automatic to handle the repetitive work involved in generating prompts, conducting inferences, and executing the generated codes. A preliminary evaluation focusing on the prompt detail, problem publication date, and difficulty level demonstrates the successful integration of our framework with the LeetCode coding platform and highlights the applicability of the pass-ratio@n metric.

An Example-Based Natural Language Dialogue System for EPG Information Access (EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템)

  • Kim, Seok-Hwan;Lee, Cheong-Jae;Jung, Sang-Keun;Lee, GaryGeun-Bae
    • Journal of KIISE:Software and Applications
    • /
    • v.34 no.2
    • /
    • pp.123-130
    • /
    • 2007
  • In this paper, we present an example-based natural language dialogue system for Electronic Program Guide Information Access. We introduce an effective and practical dialogue management technique incorporating dialogue examples and situation-based rules. In order to generate cooperative responses to smoothly lead the dialogue with users, our natural language dialogue system consists of natural language understanding, dialogue manager, system utterance generator. and EPG database manager. Each module is designed and implemented to make an effective and practical natural language dialogue system. In particular, in order to reflect the up-to-date EPG information which is updated frequently and periodically, we applied a web-mining technology to the EPG database manager, which builds the content database based on automatically extracted information from popular EPG websites. The automatically generated content database is used by other modules in the system for building their own resources. Evaluations show that our system performs EPG access task in high performance and can be managed with low cost.