• Title/Summary/Keyword: 자연언어문장생성

Search Result 58, Processing Time 0.022 seconds

A study on Implementation of English Sentence Generator using Lexical Functions (언어함수를 이용한 영문 생성기의 구현에 관한 연구)

  • 정희연;김희연;이웅재
    • Journal of Internet Computing and Services
    • /
    • v.1 no.2
    • /
    • pp.49-59
    • /
    • 2000
  • The majority of work done to date on natural language processing has focused on analysis and understanding of language, thus natural language generation had been relatively less attention than understanding, And people even tends to regard natural language generation CIS a simple reverse process of language understanding, However, need for natural language generation is growing rapidly as application systems, especially multi-language machine translation systems on the web, natural language interface systems, natural language query systems need more complex messages to generate, In this paper, we propose an algorithm to generate more flexible and natural sentence using lexical functions of Igor Mel'uk (Mel'uk & Zholkovsky, 1988) and systemic grammar.

  • PDF

Text integration processing based on connectives in Aphasics (실어증 환자의 접속사 정보처리에 관한 연구)

  • Kim, Soo-Jeong;Moon, Young-Sun;Kim, Mi-Ra;Kim, Yoo-Jeong;Nam, Ki-Chun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.441-446
    • /
    • 1999
  • 본 연구는 접속사를 통한 텍스트 통합 과정이 논리적 추론 종류에 따라 다른 정보처리 과정 혹은 다른 종류의 단원적 구조(modular structure in language processing)에 의해 처리되는지를 조사하기 위해 실시되었다. 또한, 접속사를 통한 추론 과정이 실어증의 증상 종류에 따라 다른 종류의 언어정보처리 손상이 있는지를 평가하기 위해 실시되었다. 실험에 참가한 환자는 이해성 실어증환자(Wernicke aphasic), 전반성 실어증 환자(Global aphasic), 표현성 실어증 환자(Broca aphasic) 등이었다. en 종류의 과제를 이용하였다. 한 과제는 앞 뒤 문장을 논리적 관계성을 표현하는 접속사를 채워 넣는 과제였고 다른 과제는 접속사가 포함된 텍스트가 옳은지를 판단하는 정오 판단 과제였다. 실험재료 문장에 사용된 접속사는 추가적인 정보를 제공하는 '그리고'와 대등 관계를 나타내는 '그러나' 및 인과 관계를 표현하는 '그래서' 였다. 이 세 종류의 접속사는 각기 다른 논리적 관계성을 나타낸다. 실험 결과는 실어증 환자가 전반적으로 채워 넣기 과제에서 보다는 정오 판단 과제에서 더 많은 실수를 보였으며, 표현성 실어증 환자보다는 이해성 실어증 환자가 더 많은 오류를 보였다. 또한, 세 종류의 접속사 중에 '그리고'가 표함된 텍스트에서 더 많은 실수를 보였다. 이 연구에서 나타난 흥미 있는 결과는 표현성 실어증 환자는 '그러나' 접속사가 포함된 텍스트에서의 수행이 '그래서'가 포함된 경우에서보다 좋은 반면에 전반성 실어증 환자는 '그래서'를 포함하는 텍스트에서의 수행이 '그러나'를 포함하는 텍스트에서의 수행이 더 우수해서 이중해리(double dissociation)가 나타난다는 사실이다. 이 결과는 선후 문장이 어떤 종류의 논리적 관계성을 지니는가에 따라 다른 종류의 정보처리가 진행된다는 것을 암시하는 결과이다.>$\textrm{cm}^2$.。C로 비교적 양호한 초전박막의 전기적 특성을 나타내었다.(Mg+Fe)비를 갖고 전자에 비해 Al이 풍부한 환경에서 생성되었으며, 따라서 활석과 연관되지 않은 녹니석은 생성시 광체와 인접한 화강아질 편마암에 의해 주로영향을 받았을 것으로 생각된다. 녹니석의 이러한 2가지 화학조성상의 경향은 녹니석과 공존하는 운모류나 각섬석류들의 화학분석결과와도 잘 일치한다. 이러한 결과는 이 지역의 활석 광상이 초염기성암 기원의 사문암이 열수변질작용을 받아 생성되었음을 명확하게 지시하며, 따라서 활석 광석내에 존재하는 녹니석은 활석의 근원 광물로서 녹니석편암 및 녹니석 편마암 매의 녹니석이 활석화되고 남은 잔존광물이 아니라, 주변암에 의해 성분상의 영향을 받은 열수와 사문암과의 변질교대작용에 의한 활석화과정 중에 주로 생성된 것으로 추정된다. 이러한 결과는 연구지역의 활석광상이 초염기성암의 사문암화 작용과 활석화 작용의 두 가지 변질작용에 의해 형성되어졌음을 알려준다.농도 증가 없이 폐 조직에 약 50배 정도의 고농도 cisplatin을 투여할 수 있었으며, 또한 분리 폐 관류 시 cisplatin에 의한 직접적 폐 독성은 발견되지 않았다이 낮았으나 통계학적 의의는 없었다[10.0%(4/40) : 8.2%(20/244), p>0.05]. 결론: 비디오흉강경술에서 재발을 낮추기 위해 수술시 폐야 전체를 관찰하여 존재하는 폐기포를 놓치지 않는 것이 중요하며, 폐기포를 확인하지 못한 경우와 이차성 자연기흉에 대해서는 흉막유착술에 더 세심한 주의가 필요하다는 것을 확인하였다. 비디오흉강경수술은 통증이 적고, 입원기간이 짧고, 사회로의 복귀가 빠르며, 고위험군에 적용할 수 있고, 무엇보다도 미용상의 이점이 크다는 면에서 자연기흉에 대해 유용한 치료방법임에는 틀림이 없으나 개흉술에 비해 재발율이 높고 비용이 비싸다는 문제가 제기되고 있는 만큼

  • PDF

Large Vocabulary Continuous Speech Recognition using Stochastic Pronunciatioin Lexicon Modeling (확률 발음사전을 이용한 대어휘 연속음성인식)

  • 윤성진
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.315-319
    • /
    • 1998
  • 대어휘 연속음성인식을 위한 확률 발음사전 모델에 대해서 제안하였다. 제안된 확률 발음 사전은 연속음성과 같은 자연스런 발성에서 자주 발생되는 단어의 변이를 확률적인 subword-state로 이루어진 HMM으로 모델화 함으로써 단어의 발음 변이를 효과적으로 표현할 수 있으며, 단위 인식 시스템의 성능을 보다 높일 수 있도록 구성되었다. 확률 발음사전의 생성은 음성 자료와 음소 모델을 이용하여 단어 단위의 분할과 학습을 통해서 자동으로 생성되게 됨 음소와 같은 언어학적인 단위뿐만 아니라 PLU 이나 비언어학적인 인식 모델을 이용한 연속음성인식기에도 적용이 가능하다.연속음성인식실험결과 확률 발음사전을 사용함으로써 표준 발음 표기를 사용하는 인식 시스템에 비해 단어 오류율은 39.8%, 문장 오류율은 24.4%의 큰 폭으로 오류율을 감소시킬 수 있었다.

  • PDF

Linking Korean Predicates to Knowledge Base Properties (한국어 서술어와 지식베이스 프로퍼티 연결)

  • Won, Yousung;Woo, Jongseong;Kim, Jiseong;Hahm, YoungGyun;Choi, Key-Sun
    • Journal of KIISE
    • /
    • v.42 no.12
    • /
    • pp.1568-1574
    • /
    • 2015
  • Relation extraction plays a role in for the process of transforming a sentence into a form of knowledge base. In this paper, we focus on predicates in a sentence and aim to identify the relevant knowledge base properties required to elucidate the relationship between entities, which enables a computer to understand the meaning of a sentence more clearly. Distant Supervision is a well-known approach for relation extraction, and it performs lexicalization tasks for knowledge base properties by generating a large amount of labeled data automatically. In other words, the predicate in a sentence will be linked or mapped to the possible properties which are defined by some ontologies in the knowledge base. This lexical and ontological linking of information provides us with a way of generating structured information and a basis for enrichment of the knowledge base.

High-Quality Multimodal Dataset Construction Methodology for ChatGPT-Based Korean Vision-Language Pre-training (ChatGPT 기반 한국어 Vision-Language Pre-training을 위한 고품질 멀티모달 데이터셋 구축 방법론)

  • Jin Seong;Seung-heon Han;Jong-hun Shin;Soo-jong Lim;Oh-woog Kwon
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.603-608
    • /
    • 2023
  • 본 연구는 한국어 Vision-Language Pre-training 모델 학습을 위한 대규모 시각-언어 멀티모달 데이터셋 구축에 대한 필요성을 연구한다. 현재, 한국어 시각-언어 멀티모달 데이터셋은 부족하며, 양질의 데이터 획득이 어려운 상황이다. 따라서, 본 연구에서는 기계 번역을 활용하여 외국어(영문) 시각-언어 데이터를 한국어로 번역하고 이를 기반으로 생성형 AI를 활용한 데이터셋 구축 방법론을 제안한다. 우리는 다양한 캡션 생성 방법 중, ChatGPT를 활용하여 자연스럽고 고품질의 한국어 캡션을 자동으로 생성하기 위한 새로운 방법을 제안한다. 이를 통해 기존의 기계 번역 방법보다 더 나은 캡션 품질을 보장할 수 있으며, 여러가지 번역 결과를 앙상블하여 멀티모달 데이터셋을 효과적으로 구축하는데 활용한다. 뿐만 아니라, 본 연구에서는 의미론적 유사도 기반 평가 방식인 캡션 투영 일치도(Caption Projection Consistency) 소개하고, 다양한 번역 시스템 간의 영-한 캡션 투영 성능을 비교하며 이를 평가하는 기준을 제시한다. 최종적으로, 본 연구는 ChatGPT를 이용한 한국어 멀티모달 이미지-텍스트 멀티모달 데이터셋 구축을 위한 새로운 방법론을 제시하며, 대표적인 기계 번역기들보다 우수한 영한 캡션 투영 성능을 증명한다. 이를 통해, 우리의 연구는 부족한 High-Quality 한국어 데이터 셋을 자동으로 대량 구축할 수 있는 방향을 보여주며, 이 방법을 통해 딥러닝 기반 한국어 Vision-Language Pre-training 모델의 성능 향상에 기여할 것으로 기대한다.

  • PDF

A Study on the Korean Parts-of-Speech for Korean-English Machine Translation (기계번역용 한국어 품사에 관한 연구)

  • 송재관;박찬곤
    • Journal of the Korea Society of Computer and Information
    • /
    • v.5 no.4
    • /
    • pp.48-54
    • /
    • 2000
  • This Paper classified korean Parts-of-speech for korean-english machine translation and investigated morphological characters of each parts-of-speech. Korean standard grammar classified parts-of-speech by semantic, functional and formal character. Many rules make a difficulties the understanding of grammar structure and parts-of-speech classification and it is necessary to preprocess at machine translation. This paper classified korean parts-of-speech by one rule. The parts-of-speech suggested in this paper have a same syntactic role and same parts-of-speech with english dictionary, and express the structure of korean sentence. And also it can make target language by pattern matching in korean-english translation.

  • PDF

Processing of Inflectional forms for the French-Korean Collocational Database (불-한 연어 데이터베이스 구축을 위한 굴절 정보의 처리)

  • Yoon, Ae-Sun;Jeong, Hwi-Woong;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.267-272
    • /
    • 2001
  • 구(phrase) 단위 또는 문장(sentence) 단위의 연어(collocation) 정보는 자연언어 처리를 위한 단일어 또는 이중어 데이터베이스를 구축할 수 있는 중요한 기초 자료가 될 뿐 아니라, 외국어 학습에서도 어휘 단계를 넘어선 학습 자료를 제공할 수 있다. 불어는 굴절 언어(inflectional language)로서 기본형 대 굴절형의 비율이 약 1:9 정도로 비교적 굴절 비율이 높은 언어다. 또한 불어 표제어 중 95% 이상을 차지하는 불어의 동사, 명사, 형용사 중 상당한 비율이 암기해야 할 목록(list)이라는 특성을 갖기 때문에 검색과 학습에 있어 오류가 지속적으로 일어나는 부분이다. 표제어의 검색의 경우 불어 굴절 현상을 지원하는 전자 사전이 개발되어 있지만 아직까지 연어 정보에서 굴절형을 지원할 수 사전 또는 데이터베이스는 개발되어 있지 않다. 본 연구의 목적은 전자 사전과 형태소 분석기를 이용하여 굴절형 처리를 지원할 수 있는 불-한 연어 데이터베이스를 구축하는데 있다. 이를 위해 부산대학교 언어정보 연구실에서 개발한 불어 형태소 분석기 Infection와 불-한 전자 사전 Franco를 사용하였으며, 지금까지 구축된 불-한 연어 정보는 94,965 개이다. 본 고에서는 두 정보를 이용하여 불어 굴절형 정보를 분석 및 생성하는 방식 및 불-한 연어 데이터베이스 구조를 살펴 본다.

  • PDF

Restoration of Adnominal Case 'no' in Korean-to-Japanese MT System (한-일 기계번역 시스템에서 관형격조사 'no'의 복원)

  • Chung, Yu-Jin;Heo, Nam-Won;Lee, Jong-Hyeok;Kim, Tai-Suk
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.115-120
    • /
    • 1999
  • 기존의 한-일 기계번역 시스템에서는 합성명사의 번역시 별도의 처리과정을 두지 않고 단순히 단어 각각을 일본어로 직역하여 변환시키는 방법을 채택하고 있다. 이러한 합성명사의 번역 방법은 대부분의 경우 잘 적용되지만, 매우 부자연스러운 일본어 표현이 되는 경우도 많다. 본 논문에서는 이러한 번역 방법이 갖는 문제점을 지적하고 합성명사를 관형격조사가 삽입된 명사구로 변환시키기 위해 표층 레벨에서의 어휘간 결합력과 명사 간의 의미 관계를 이용한 관형격조사 'no'의 복원 방법을 제안함으로써 보다 자연스러운 일본어 문장을 생성할 수 있도록 하고자 한다.

  • PDF

Incremental Knowledge Acquisition for Conversational Agent Using Dialogue Act Templates (화행별 템플릿 기반 적응형 대화 에이전트의 점증적 지식 획득)

  • 홍진혁;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.544-546
    • /
    • 2004
  • 최근 자연언어를 이용하여 정보를 제공하거나 업무를 수행하는 대화 에이전트가 활발히 연구되고 있다. 보다 다양한 사용자 질의를 분석하고 적절한 답변을 제공하기 위해서는 대규모의 답변 데이터베이스를 구축하여야 한다. 기존 답변 데이터베이스의 구축은 설계자가 수동으로 입력질의의 패턴을 분석하고 이에 대한 답변을 작성하여 패턴-답변쌍을 제작하여 이루어졌다. 따라서 패턴의 분석이 설계자에 의존적이어서 일반적이지 못하며 중복되거나 쓸모없는 패턴-답변쌍이 생성되기도 한다. 또한 초기에 구축된 답변 데이터베이스에 의해 성능이 제한되어 답변 성능의 향상을 위해서는 답변 데이터베이스를 수동으로 추가해야한다. 본 논문에서는 대화를 통해 필요한 정보론 수집하여 자동으로 괘턴-답변쌍을 생성하는 방법을 제안하다. 사용자 입력문장을 화행별로 구분하고 각 화행별 답변 템플릿을 이용하여 패턴-답변쌍을 완성한다. 기존의 수동제작 방식과 비교 실험을 통해 제안하는 방법이 지식구조 구축 속도나 사용자 평가 면에서 훨씬 우수함을 확인하였다.

  • PDF

On the Automatic Generation of Illustrations for Events in Storybooks: Representation of Illustrative Events (동화책에서의 삽화 자동 생성 -삽화를 위한 사건 표현)

  • Baek, Seung-Cheol;Lee, Hee-Jin;Park, Jong-C.
    • 한국HCI학회:학술대회논문집
    • /
    • 2008.02a
    • /
    • pp.390-396
    • /
    • 2008
  • Storybooks, especially those for children, may contain illustrations. An automated system for generating illustrations would help the production process of storybook publishing. In this paper, we propose a method for automatically generating layouts of objects during generating illustrations. In generated layouts, it is preferred to avoid unnecessary overlap between objects, corresponding to the spatial information in storybooks. We first define a representation scheme for spatial information in natural language sentences using tree structures and predicate-argument structures. Unification of tree structures and Region Connection Calculus are then used to manipulate the information and generate corresponding illustrations.

  • PDF