• 제목/요약/키워드: 자연언어문장생성

검색결과 58건 처리시간 0.02초

한국어 분석의 중의성 해소를 위한 하위범주화 사전 구축 (Development of Subcategorization Dictionary for the Disambiguation Korean Language Analysis)

  • 이수선;박현재;우요섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.257-264
    • /
    • 1999
  • 자연언어 처리에 있어 문장의 성분 구조를 파악하는 통사적 해석에서는 애매성 있는 결과가 많이 생성된다. 한국어의 경우 어순 등의 통사적 특성뿐 아니라 상황과 의미, 문맥이 문장의 분석에 더 중요한 역할을 하기 때문에 문맥 자유 문법에 의한 접근 방법만으로는 중의적 구조의 해결이 어렵다. 이는 또한 의미 분석시 애매성을 증가시키는 원인이 된다. 이러한 통사적, 의미적 중의성 해결을 위해 용언 중심의 하위범주화 사전을 구축하였다. 본 논문에서는 용언에 따라 제한될 수 있는 하위범주 패턴을 정의하고 패턴에 따라 하위범주 사전을 구축하였다. 하위범주화 사전에는 명사의 시소러스와 정합하여 보어를 선택 제한(Selectional Restriction)할 수 있도록 용언과 명사와의 의미적 연어 관계에 따라 의미마커를 부여했다. 말뭉치를 통해 수집된 용언 12,000여개를 대상으로 25,000여개의 하위범주 패턴을 구축하였고 이렇게 구축한 하위범주화 사전이 120,000여 명사에 대한 의미를 갖고 있는 계층 시소러스 의미 사전과 연동하도록 하였다. 또한 논문에서 구현된 하위범주화 사전이 구문과 어휘의 중의성을 어느 정도 해소하는지 확인하기 위해 반자동적으로 의미 태깅(Sense Tagging)된 2만여 문장의 말뭉치를 통해 검증 작업을 수행하고, 의존관계와 어휘의 의미를 포함하고 있는 말뭉치에 하위범주 패턴이 어느정도 정합되는지를 분석하여, 하위범주 패턴과 말뭉치의 의존관계만 일치하는 경우와 어휘의 의미까지 일치하는 경우에 대해 평가한다. 이 과정에서 하위범주 패턴에 대한 빈도 정보나, 연어 정보를 수집하여 데이터베이스에 포함시키고, 각 의미역과 용언의 통계적 공기 정보 등을 추출하는 방법도 제시하고자 한다.을 입증하였다.적응에 문제점을 가지기도 하였다. 본 연구에서는 그 동안 계속되어 온 한글과 한잔의 사용에 관한 논쟁을 언어심리학적인 연구 방법을 통해 조사하였다. 즉, 글을 읽는 속도, 글의 의미를 얼마나 정확하게 이해했는지, 어느 것이 더 기억에 오래 남는지를 측정하여 어느 쪽의 입장이 옮은 지를 판단하는 것이다. 실험 결과는 문장을 읽는 시간에서는 한글 전용문인 경우에 월등히 빨랐다. 그러나. 내용에 대한 기억 검사에서는 국한 혼용 조건에서 더 우수하였다. 반면에, 이해력 검사에서는 천장 효과(Ceiling effect)로 두 조건간에 차이가 없었다. 따라서, 본 실험 결과에 따르면, 글의 읽기 속도가 중요한 문서에서는 한글 전용이 좋은 반면에 글의 내용 기억이 강조되는 경우에는 한자를 혼용하는 것이 더 효율적이다.이 높은 활성을 보였다. 7. 이상을 종합하여 볼 때 고구마 끝순에는 페놀화합물이 다량 함유되어 있어 높은 항산화 활성을 가지며, 아질산염소거능 및 ACE저해활성과 같은 생리적 효과도 높아 기능성 채소로 이용하기에 충분한 가치가 있다고 판단된다.등의 관련 질환의 예방, 치료용 의약품 개발과 기능성 식품에 효과적으로 이용될 수 있음을 시사한다.tall fescue 23%, Kentucky bluegrass 6%, perennial ryegrass 8%) 및 white clover 23%를 유지하였다. 이상의 결과를 종합할 때, 초종과 파종비율에 따른 혼파초지의 건물수량과 사료가치의 차이를 확인할 수 있었으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract

  • PDF

딥러닝 기반 사전학습 언어모델에 대한 이해와 현황 (A Survey on Deep Learning-based Pre-Trained Language Models)

  • 박상언
    • 한국빅데이터학회지
    • /
    • 제7권2호
    • /
    • pp.11-29
    • /
    • 2022
  • 사전학습 언어모델은 자연어 처리 작업에서 가장 중요하고 많이 활용되는 도구로, 대량의 말뭉치를 대상으로 사전학습이 되어있어 적은 수의 데이터를 이용한 미세조정학습으로도 높은 성능을 기대할 수 있으며, 사전학습된 토크나이저과 딥러닝 모형 등 구현에 필요한 요소들이 함께 배포되기 때문에 자연어 처리 작업에 소요되는 비용과 기간을 크게 단축시켰다. 트랜스포머 변형 모형은 이와 같은 장점을 제공하는 사전학습 언어모델 중에서 최근 가장 많이 사용되고 있는 모형으로, 번역을 비롯하여 문서 요약, 챗봇과 같은 질의 응답, 자연스러운 문장의 생성 및 문서의 분류 등 다양한 자연어 처리 작업에 활용되고 있으며 컴퓨터 비전 분야와 오디오 관련 분야 등 다른 분야에서도 활발하게 활용되고 있다. 본 논문은 연구자들이 보다 쉽게 사전학습 언어모델에 대해 이해하고 자연어 처리 작업에 활용할 수 있도록 하기 위해, 언어모델과 사전학습 언어모델의 정의로부터 시작하여 사전학습 언어모델의 발전과정과 다양한 트랜스포머 변형 모형에 대해 조사하고 정리하였다.

텍스트로부터의 자동 디지털 영상제작을 위한 카메라 자동제어 (Automatic Camera Control for Automated Digital Cinematography from Text)

  • 장세민;박종철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.904-906
    • /
    • 2004
  • 영화를 제작하는 과정에 필수적으로 사용되고 있는 대본에는 필요한 부분마다 영상기법이 명시되어 있어서 실제 장면을 구현하는 과정에 원작자가 의도하는 상황을 비교적 정확하게 재현하는 것이 가능하다. 이에 비하여 교통사고 사건보고서나 동화 등을 기반으로 디지털 영상을 자동으로 제작하려는 경우 이러한 영상기법이 명시되어 있지 않다. 그러므로 자연언어로 기술된 자료로부터 디지털 영상을 자동으로 제작하기 위해서는 작가의 의도를 파악하여 적절한 영상기법을 추출하는 방안이 있어야 한다. 본 논문의 선행 연구에서는 동화를 대상으로 하는 애니메이션 자동 생성을 위해서 시간 관리, 참조 해결, 위치 설정, 세부 명령 결정 및 다수 캐릭터 제어 등의 요소 기술이 필요하다는 것을 보이고 특히 시간 관리 중에서 적절한 장면전환이 필요한 경우를 자동으로 파악하는 방안을 제시하였다. 본 논문에서는 결합범주문법을 사용하여 동화 문장에 나타나는 작가의 의도를 분석하고, 이에 부합하는 다양한 카메라 운용기법을 자동으로 파악하여 적용한 디지털 영상 제작 방안을 제시하고 구현한 시스템을 보인다.

  • PDF

의존관계에 기초한 일본어 키워드 추출방법 (The Method of Deriving Japanese Keyword Using Dependence)

  • 이태헌;정규철;박기홍
    • 정보처리학회논문지B
    • /
    • 제10B권1호
    • /
    • pp.41-46
    • /
    • 2003
  • 본 논문에서 일본어 키워드 추출을 목적으로 요약문서 중에 떨어진 문자열을 합성하고, 그 문장에 나타난 규칙을 가지고 단어 정보(표기, 품사)와 구문 정보를 이용하여 복합명사고로 된 키워드 추출 방법을 제안한다. 저자 자신이 부여한 학술 논문의 키워드 중에서 문서 중에 그대로 존재하지 않는 키워드의 특징을 분석한 결과로 의존 관계에 의한 복합명사 생성 규칙을 구축한다. 또 문장의 내용과 다른 키워드의 추출을 억제하기 위해 생성규칙에 대한 제약과 중복 단어를 고려한 중요도 결정법을 제안한다. 자연ㆍ 음성언어처리에 관한 일본어 논문 65파일의 타이틀과 초록부분을 이용하여 추출된 키워드의 타당성에 대한 실험을 한 결과 추출 정밀도는 중요도의 상위 1개를 출력한 경우 63%가 되어 추출 방법의 유효성을 확인 할 수가 있었다.

인터넷상에 3차원 모델을 이용한 한-일간 실시간 수화 통신 시스템의 구축을 위한 기초적인 검토 (A Study on the Construction of a Real-time Sign-language Communication System between Korean and Japanese Using 3D Model on the Internet)

  • 김상운;오지영
    • 전자공학회논문지S
    • /
    • 제36S권7호
    • /
    • pp.71-80
    • /
    • 1999
  • 수화 통신은 이종 언어간의 통신 수단으로 사용될 수 있다. 이 논문에서는 3차원 모델을 이용하여 한-일간 수화 통신 시스템을 구현하여 그 가능성을 실험하였다. 실시간 통신을 위하여 통신 시스템을 클라이언트/서버 구조로 하였으며, 지적 통신방식을 도입하였다. 각 클라이언트에 3차원 모델을 준비하여 놓고, 실제의 수화영상 대신에 애니메이션 생성을 위한 파라미터 만을 전송하였다. 클라이언트에서 입력된 문장은 서버로 전송되어 한국 또는 일본 수화 파라미터로 변환한 다음 다시 클라이언트로 전송되어 수화 애니메이션으로 재생된다. 또한 자연스러운 수화 애니메이션을 위하여 감정 표현과 가변 프레임 방식 및 3차 스플라인 보간식을 이용하였다. 실험을 위한 통신 시스템은 윈도우 플랫폼에서 Visual $C^{++}$ 와 Open Inventor 라이브러리를 이용하여 구현하였다. 실험 결과 제안 시스템이 언어의 장벽을 넘을 수 있는 비언어 통신수단으로 이용될 수 있는 가능성을 보였다.

  • PDF

이미지 캡션 및 재귀호출을 통한 스토리 생성 방법 (Automated Story Generation with Image Captions and Recursiva Calls)

  • 전이슬;조동하;문미경
    • 융합신호처리학회논문지
    • /
    • 제24권1호
    • /
    • pp.42-50
    • /
    • 2023
  • 기술의 발전은 제작 기법, 편집 기술 등 미디어 산업 전반에 걸쳐 디지털 혁신을 이루어 왔고, OTT 서비스와 스트리밍 시대를 관통하며 소비자 관람 형태의 다양성을 가져왔다. 빅데이터와 딥러닝 네트워크의 융합으로 뉴스 기사, 소설, 대본 등 형식을 갖춘 글을 자동으로 생성하였으나 작가의 의도를 반영하고 문맥적으로 매끄러운 스토리를 생성한 연구는 부족하였다. 본 논문에서는 이미지 캡션 생성 기술로 스토리보드 속 사진의 흐름을 파악하고, 언어모델을 통해 이야기 흐름이 자연스러운 스토리를 자동 생성하는 것을 기술한다. 합성곱 신경망(CNN)과 주의 집중기법(Attention)을 활용한 이미지 캡션 생성 기술을 통해 스토리보드의 사진을 묘사하는 문장을 생성하고, 첫 번째 이미지 캡션을 KoGPT-2에 입력하여 생성된 새로운 글과 두 번째 이미지의 캡션을 다음 입력값으로 활용한 재귀적 접근 방안을 제안하여 전후 문맥이 자연스럽고 기획 의도에 맞는 스토리를 생성하는 연구를 진행한다. 본 논문으로 인공지능을 통해 작가의 의도를 반영한 스토리를 자동으로 대량 생성하여 콘텐츠 창작의 고통을 경감시키고, 인공지능이 디지털 콘텐츠 제작의 전반적인 과정에 참여하여 미디어 지능화를 활성화한다.

신경망 기반 텍스트 모델링에 있어 순차적 결합 방법의 한계점과 이를 극복하기 위한 담화 기반의 결합 방법 (A Discourse-based Compositional Approach to Overcome Drawbacks of Sequence-based Composition in Text Modeling via Neural Networks)

  • 이강욱;한상규;맹성현
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권12호
    • /
    • pp.698-702
    • /
    • 2017
  • 자연 언어 처리(Natural Language Processing) 분야에 심층 신경망(Deep Neural Network)이 소개된 이후, 단어, 문장 등의 의미를 나타내기 위한 분산 표상인 임베딩(Embedding)을 학습하기 위한 연구가 활발히 진행되고 있다. 임베딩 학습을 위한 방법으로는 크게 문맥 기반의 텍스트 모델링 방법과, 기학습된 임베딩을 결합하여 더 긴 텍스트의 분산 표상을 계산하고자 하는 결합 기반의 텍스트 모델링 방법이 있다. 하지만, 기존 결합 기반의 텍스트 모델링 방법은 최적 결합 단위에 대한 고찰 없이 단어를 이용하여 연구되어 왔다. 본 연구에서는 비교 실험을 통해 문서 임베딩 생성에 적합한 결합 기법과 최적 결합 단위에 대해 알아본다. 또한, 새로운 결합 방법인 담화 분석 기반의 결합 방식을 제안하고 실험을 통해 기존의 순차적 결합 기반 신경망 모델 대비 우수성을 보인다.

태블릿 PC 기반 한국형 하이테크 AAC 소프트웨어의 사용성 평가 (A Usability Testing on the Tablet PC-based Korean High-tech AAC Software)

  • 이희연;홍기형
    • 한국HCI학회논문지
    • /
    • 제7권2호
    • /
    • pp.35-42
    • /
    • 2012
  • 본 연구의 목적은 의사소통장애인을 위한 태블릿 PC기반 한국형 하이테크 보완대체의사소통(AAC) 소프트웨어의 사용성을 평가하는 것이다. 우리나라의 언어 및 문화적 상황과 의사소통장애인의 요구에 적합한 AAC 기기를 개발하기 위해서, 본 연구에서는 과제분석을 통해 선정된 시나리오 평가를 통해 한국형 하이테크 AAC 소프트웨어의 기능들(중도 지적장애인을 위한 의사소통판, 존대, 시제, 부정, 주부와 술부 연동, 자동문장생성)의 필요성과 용이성을 평가하였고, 반구조화된 질문들과 개방형 질문들을 통하여 전반적인 기능 및 사용자 인터페이스(UI)에 대한 잠재적인 사용자의 선호도, 만족도를 평가하고 추가 요구사항을 조사하였다. 본 사용성 평가에는 특수교사 9명, 언어치료사 6명, 의사소통장애를 가진 아동의 학부모 6명으로 구성된 총 21명의 잠재적인 AAC사용자가 참여하였다. 태블릿 PC기반의 한국형 하이테크 AAC의 사용성 평가 결과, 대부분으 응답들이 5점 척도에서 4이상의 긍정적인 반응을 나타냈으나, 시제와 부정 기능의 필요성과 실행 용이성은 상대적으로 낮게 나타났는데 이는 시제/부정 기능과 존대 기능간의 비일관적인 작동방식과 관련된 것으로 보인다. 각 기능들의 UI 측면에서는 시각적인 피드백 강화, 기능키들의 작동방식의 일관화, 자연스러운 어휘 연동, 상징 내 텍스트의 띄어쓰기 등과 같은 요구가 나타났다. 본 연구의 사용성 평가 결과 및 잠재적 사용자의 피드백은 기존 AAC의 기능 및 UI의 개선과 보완을 위한 지침이 될 것이다.

  • PDF