• 제목/요약/키워드: 문장검색

검색결과 258건 처리시간 0.024초

연결형 합성시스템을 위한 문맥종속 단위 기반의 비정형 합성단위 추출 알고리즘 (An algorithm of the Non-uniform synthesis unit selection for concatenative speech synthesis system)

  • 김영일
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.273.2-277
    • /
    • 1998
  • 본 논문에서는 음소단위 비정형 연결합성 시, 접합점에서 포만트 불연속을 최소화할 수 있도록 이웃음소간 경계강도 예측모델과 합성단위 검색시 음소단위 최장일치 검색 알고리즘을 설계하였다. 합성단위 연결부에서 발생하는 신호왜곡을 최소화하기 위해 “_C_”환경에서 자음이 유성음화된 경우, “_V_”환경에서 모음이 무성음화된 경우, 그리고 유성음 사이의 포만트 주파수 차이에 대한 모델을 생성하여, 음소간의 조음강도가 약한 부분이 합성단위 경계로 설정되도록 하였다. 합성단위 경계가 결정되면 주어진 문장의 문맥정보만을 이용하여 코포스로부터 후보를 선택한다. 선택된 후보를 사이의 연결성을 측정하기 위하여 합성 경계를 기준으로 전, 후 음소에 대한 음성적 특성과 포만트 천이 특성을 고려하였다. 실험은 K-ToBI 레이블링된 200문장을 기반으로 하였으며, 코퍼스로부터 한 문장을 선택하여 이를 목적치 패턴으로 선정 한 후, 목적치 패턴과 후보사이의 단위비용과 후보들 간의 연결비용을 계산하여 최적의 합성단위열을 추출하는 방식으로 이루어졌다. 본 논문에서는 이러한 문맥종속 단위 기반의 합성단위 추출 알고리즘과 실험 결과에 대해 보고한다.

  • PDF

Cohesion Devices를 이용한 학습 적용 방법과 성능 개선을 위한 실험 (Test on Learning Method for Improving Performance Using Cohesion Devices)

  • 김용훈;정목동
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.755-758
    • /
    • 2018
  • 현재의 정보 검색 및 문서를 분류하는 기법에 대하여 신경망을 이용한 정보검색 모델에 대한 연구가 활발히 진행되고 있으며, 간단한 문장에 대한 주제어 분석에서부터 장문에 해당하는 수필 등의 문서를 분류하는 기술이 요구되고 있으며, 이를 실현하기 위한 다양한 알고리즘을 적용하거나, 단어 및 문서에 가중치를 적용하거나, 문서에서의 특이 값을 구하고, 이를 분석하는 방법에 대하여 정보화가 가속화 되면서 정확한 문서에 대한 이해가 요구되고 있다. 이러한 연구와 직접적으로 관련된 단어의 빈도에 대한 논의는 사회과학의 영어학습에 대한 연구 또는 순수 언어에 대한 연구에 머물러 있다. 이에 본 연구에서는 영문에서의 응집장치를 이용하여 문장에서의 중요 단어에 대한 빈도를 합리적으로 증가시켜 문장의 의미를 더 정확하게 분석할 수 있는 기법에 대하여 제시하고자 하며, 본 논문에서는 영문 수필 사이트의 분류를 추측하고 이를 자동 분류 할 수 있는 방법에 대하여 제시하고자 하며, 이를 구현하여 문서의 의미에 대한 연구에 기여하고자 한다.

RNN-LSTM 기반 장면 자막 메타데이터 생성 방법 (A method for creating the Scene closed-caption metadata based on RNN-LSTM)

  • 곽창욱;김선중
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 추계학술대회
    • /
    • pp.153-155
    • /
    • 2018
  • 정확한 영상 검색을 지원하기 위해 다양한 데이터와 방법들을 통한 메타데이터 생성 연구들이 이루어지고 있다. 자막 데이터를 기존의 키워드 기반의 메타데이터 생성 방법을 이용했을 경우, 구어체, 불완전 문장의 특징을 가진 특징을 반영하는데 어려움이 있었다. 또한, 단순히 키워드 매칭에 의존하기 때문에 문장에 중의적 단어가 포함되어 있을 경우에 검색 정확도가 떨어진다는 한계점이 있다. 따라서, 본 논문에서는 이러한 문제를 해결하기 위해 문장 전체를 특정 단위로 표현한 메타데이터를 생성한다. 이를 위해 비지도 학습인 RNN-LSTM 기반 네트워크를 이용하여 자막을 인코딩하고 장면 지식으로 생성하는 방법을 제안한다. 실험에서는 본 시스템을 통해 임의의 자막을 입력하고 유사도 기반의 결과 비교를 통해 자막 메타데이터의 정성적 평가를 수행하였다.

  • PDF

온톨로지 기반의 문서 생성 시스템 (A Document Generation System Based on an Ontology)

  • 류재현;박성배
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.313-316
    • /
    • 2016
  • 온톨로지란 사물이나 개념의 속성이나 관계를 사람과 컴퓨터 모두 이해할 수 있는 형태로 표현한 모델로 정보검색, 인공지능, 소프트웨어 공학 등의 분야에서 많이 활용된다. 온톨로지에는 다양한 정보가 구조화되어 저장되어 있지만 일반적으로 온톨로지가 제공하는 그래프 형태의 데이터들은 사용자들이 직관적으로 이해하기가 힘들다. 따라서 본 논문에서는 온톨로지의 정보를 문장화하여 한국어 문서를 생성하는 시스템을 제안한다. 제안하는 시스템은 주제와 관련된 트리플을 추출하고 이를 문장정렬, 결합, 생성을 위한 정보가 담긴 템플릿을 생성한 뒤 한국어 문법에 맞게 문장을 생성한다. 또한 기존 연구에서 다루지 않았던 이벤트 온톨로지의 내용을 포함하여 문장을 생성한다. 두 온톨로지로부터 생성된 문장을 연결하여 주제어를 설명하는 하나의 문서를 작성한다.

  • PDF

온톨로지 기반의 문서 생성 시스템 (A Document Generation System Based on an Ontology)

  • 류재현;박성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.313-316
    • /
    • 2016
  • 온톨로지란 사물이나 개념의 속성이나 관계를 사람과 컴퓨터 모두 이해할 수 있는 형태로 표현한 모델로 정보검색, 인공지능, 소프트웨어 공학 등의 분야에서 많이 활용된다. 온톨로지에는 다양한 정보가 구조화되어 저장되어 있지만 일반적으로 온톨로지가 제공하는 그래프 형태의 데이터들은 사용자들이 직관적으로 이해하기가 힘들다. 따라서 본 논문에서는 온톨로지의 정보를 문장화하여 한국어 문서를 생성하는 시스템을 제안한다. 제안하는 시스템은 주제와 관련된 트리플을 추출하고 이를 문장정렬, 결합, 생성을 위한 정보가 담긴 템플릿을 생성한 뒤 한국어 문법에 맞게 문장을 생성한다. 또한 기존 연구에서 다루지 않았던 이벤트 온톨로지의 내용을 포함하여 문장을 생성한다. 두 온톨로지로부터 생성된 문장을 연결하여 주제어를 설명하는 하나의 문서를 작성한다.

  • PDF

자동 문서요약을 위한 중요문 추출 방법 설계 (A Design of Important Sentence Extraction Method for Automatic Text Summarization System)

  • 신성혁;김태완
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.543-546
    • /
    • 2001
  • 본 논문에서는 빠른 속도로 증가하고 있는 인터넷상의 정보와 서비스를 검색함에 있어서 기본적인 내용은 유지하면서 정보의 과부하(information overload)문제를 해결하기 위한 문서요약의 방법으로 통계적 접근 방법에서 Kupiec의 요약문이 가지는 특성을 이용하여 문서의 방법을 설계하였다. 요약문의 각 문장에 대하여 중요도에 따라 가중치를 부여 한 후, 주어진 임계값에 따라 가중치가 낮은 문장들을 제외한다. 제외 후 가중치 점수를 부여해서 요약문 문장의 개수를 조절하면서 중요문을 추출할 수 있다.

  • PDF

한국어 문형 패턴 조사기의 설계 및 구현 (Design and Implementation of Frame Pattern Analyzer in Korean)

  • 송유석;이상곤;이인홍
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.409-412
    • /
    • 2010
  • 본 논문에서는 한국어에서 출현하는 일반적인 형태의 문장 패턴을 조사하여 제2 외국어로서 한국어를 배우는 외국인들에게 우선적으로 가르쳐야 할 한국어의 문장 패턴을 검색하는 프로그램을 개발하였다. 이를 위해 지난 10년 동안 조사 구축된 21세기 세종 계획의 결과물에 출현하는 한국어에 적합한 문장 패턴을 조사하는 프로그램을 설계하였다.

우리말 신문기사 검색을 위한 질문응답시스템 구현에 관한 연구 (Design of a Korean Question-Answering System for News Item Retrieval)

  • 정영미
    • 정보관리학회지
    • /
    • 제4권1호
    • /
    • pp.3-23
    • /
    • 1987
  • 이 연구에서 구현한 질문응답시스템은 한글 자연어로 된 텍스트와 질문을 자동으로 처리하는 지능형 정보시스템이다. 입력데이타는 스포츠관계 기사로 국한하였으며 프로그래밍 언어로는 코볼을 사용하였다. 이 시스템의 구문분석기는 격문법에 기초한 것으로서 어휘사전, 용언의 격프레임, 언어학적 규칙 등을 사용하여 문장을 분석한다. 본문검색과 사실검색이 모두 가능한 이 시스템에서는 질문에 대한 해답이 문장형태이거나 사실데이타 형태로 출력된다.

  • PDF

중국어 정보검색을 위한 확장된 바이그램 분할기법 (An Extended Bigram Segmentation Method for Chinese Information Retrieval)

  • 김운;강지훈;맹성현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.490-492
    • /
    • 2003
  • 중국어 문장은 영어와 한국어와 달리 단어에 대한 명확한 한계가 없기 때문에 중국어 정보검색 시스템에서는 중국어 문장에 대한 색인 작업을 각각의 글자를 기본단위로 자르는 방법을 사용하거나 또는 단어의 한계에 관한 정보가 이미 제공된 단어 사전을 이용하여 색인하는 방법을 사용하고 있다. 하지만 이 두 가지 방법은 모두 장단점이 있다. 본 논문에서는 이 두 가지 방법의 장점을 취하고 단점을 보안하는 방법으로 확장한 바이그램 분할기법을 제안하려 한다. 이 방법은 실용성이 있으며, 검색성능 향상을 도모하였다.

  • PDF

번역지원 시스템을 위한 유사 예문 검색 (Searching Similar Example Sentences for the Computer-Aided Translation System)

  • 김동주;김한우
    • 한국컴퓨터정보학회지
    • /
    • 제14권1호
    • /
    • pp.197-204
    • /
    • 2006
  • 본 논문에서는 번역 지원 시스템을 위한 유사문장 검색 알고리즘을 제안한다. 이 알고리즘은 Needleman- Wunsch 알고리즘에 기반을 두고 있으며, 단어의 비교를 위해 단어의 표면어 정보, 표제어 정보, 품사 정보 계층으로 된 다층 정보의 융합을 통해 유사도를 계산하고 정렬을 수행하게 된다. 제안하는 알고리즘은 전기통신 분야의 문장 데이터에 대해 매우 우수한 검색 정확률을 보였다.

  • PDF