• 제목/요약/키워드: 자연어

검색결과 1,181건 처리시간 0.026초

정보 검색 시스템의 성능 향상을 위한 구문 분석과 검색어 확장 (Syntactic Analysis and Keyword Expansion for Performance Enhancement of Information Retrieval System)

  • 윤성희
    • 한국산학기술학회논문지
    • /
    • 제5권4호
    • /
    • pp.303-308
    • /
    • 2004
  • 자연어 질의문장을 입력하는 방법은 정보 검색 시스템 사용자에게 가장 이상적인 인터페이스이다. 본 논문은 자연어 질의문장을 입력하는 검색 시스템을 위해 자연어 처리 기술에 기반 하여 사용자의 입력 질의 문장을 분석하고 검색어를 확장하는 다중검색 기법을 제안한다. 질의 문에 대한 형태소 분석 및 구문 분석을 수행하고, 구문 트리를 순회하여 구조적으로 연관된 복합명사를 조합하거나 분할하고, 이형표기 용어와 축약표기 용어들을 확장하여 다중 검색함으로써 재현율을 11.3%, 정확도를 4.7% 높였다.

  • PDF

정보 검색 시스템의 성능 향상을 위한 구문 분석과 검색어 확장 (Syntactic Analysis and Keyword Expansion for Performance Enhancement of Information Retrieval System)

  • 윤성희
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2004년도 춘계학술대회
    • /
    • pp.139-142
    • /
    • 2004
  • 자연어 질의 문장을 입력하는 방법은 정보 검색 시스템 사용자에게 아주 이상적인 인터페이스이다. 검색을 위해 색인어를 입력하거나 불리언 질의식을 사용하는 것에 비해 훨씬 친밀하지만, 동일한 의도의 검색 요구에 대해서도 개인의 성향에 따라서 다양한 형태나 구조의 자연어 질의문장으로 입력될 수 있는 본질적인 특성이 있다. 본 논문은 자연어 질의문장을 입력으로 하는 검색 시스템을 위해 사용자의 입력 질의 문장을 분석하고 검색어를 확장하는 다중 검색 기법을 제안한다. 질의 문장에 대한 형태소 분석 및 구문 분석을 수행하고, 구문 트리를 순회하여 구조적으로 연관된 복합명사를 조합하거나 분할하고 이형 표기 용어와 축약 표기 용어들을 확장하여 다중 검색함으로써 재현율과 정확도를 높일 수 있다.

  • PDF

구글 클라우드 자연어 API를 이용한 DBpedia 웹 검색 애플리케이션 (DBpedia Web Search Application using Google Cloud Natural Language API)

  • 이수형;김태영;박선재;이용주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.509-511
    • /
    • 2018
  • 본 논문은 링크드 오픈 데이터(Linked Open Data)의 일종인 DBpedia 개체를 자연어 기반으로 검색하는 애플리케이션 개발에 관한 논문이다. Google Cloud Natural Language API를 이용하여 자연어 입력을 분석하고, 이를 바탕으로 RDF(Resource Description Framework) 검색 언어인 스파클(Sparql) 질의 문장을 작성하여 결과를 웹 형식으로 반환해준다. 이를 통해 비문가도 손쉽게 링크드 오픈 데이터에 접근할 수 있는 기회를 제공하며 다양한 응용 가능성을 가진다.

자연어 처리 기반의 음악 추천 챗봇 (Chatbot for Music Recommendation Based on Natural Language Processing)

  • 신상수;장두혁;김병일;김영종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.573-575
    • /
    • 2019
  • 현존하는 음악 추천형 챗봇들은 사용자의 의도가 아닌 챗봇 임의의 분류기준을 가지고 음악을 추천해왔다. 하지만 이러한 음악 추천은 공급자의 의도에 제한되어있는 단면적인 추천이 될 가능성이 높다. 이를 개선하고자 본 논문에서는 자연어를 처리하는 기법(NLP)의 처리를 통해 추출한 단어를 자연어 이해 기법(NLU)으로 특정 감성어 데이터를 마이닝하는 방법을 채용한다. 이를 통해 추출된 감성어를 원하는 쿼리에 따라 매핑된 음악데이터만을 추출한다. 이를 통해 닫힌 대화 구조에서의 사용자 의도 해석의 한계를 극복한다.

Requirement Diagram 를 자연어로 작성하기 위한 Translation Database Design (The translation database design for being written in the Natural Language using the Requirement Diagram)

  • 이혜련;최경희;정기현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.325-327
    • /
    • 2007
  • Software testing 은 소프트웨어 개발 과정 중에 1/3 을 차지 할 만큼 중요한 부분 중 하나이다. Software testing 는 Requirement 작성이 제대로 이루어져야만이 제대로 testing 을 할 수 있고, 그에 따라 정확한 결과를 얻을 수 있다. 그 만큼 Requirement 작성이 중요시 되고 있지만, 수동적으로 기술자에 의해서 작성되는 Requirement 에는 많은 문제점을 안고 있다. 본 논문에서는 Requirement를 Graph 하게 표현한 방법을 소개하고, 표현된 방식을 이용하여 다시 자연어로 표현할 수 있도록 Database 를 설계하는 방식을 제안한다. 그 결과로 Design 된 패턴들을 이용하여 Requirement 자연어로 기술한다. 이를 통하여 Requirment 기술 방식을 통일화 시킬 수 있으며, 기술자간에 의사소통을 원할하게 수행할 수 있으며, Software testing 의 중요 기반으로 제공할 수 있다.

  • PDF

질의 응답 시스템을 위한 질의, 문서, 답변 검증기 (Question, Document, Response Validator for Question Answering System)

  • 민태홍;이재홍;인수교;문기윤;조휘열;김경덕
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.604-607
    • /
    • 2022
  • 본 논문은 사용자의 질의에 대한 답변을 제공하는 질의 응답 시스템에서, 제공하는 답변이 사용자의 질의에 대하여 문서에 근거하여 올바르게 대답하였는지 검증하는 QDR validator에 대해 기술한 논문이다. 본 논문의 과제는 문서에 대한 주장을 판별하는 자연어 추론(Natural Language inference, NLI)와 유사한 과제이지만, 문서(D)와 주장(R)을 포함하여 질의(Q)까지 총 3가지 종류의 입력을 받아 NLI 과제보다 난도가 높다. QDR validation 과제를 수행하기 위하여, 약 16,000 건 데이터를 생성하였으며, 다양한 입력 형식 실험 및 NLI 과제 데이터 추가 학습, 임계 값 조절 실험을 통해 최종 83.05% 우수한 성능을 기록하였다

  • PDF

쌍 선형 그래프 신경망을 이용한 지식 그래프 기반 질문 응답 (Question Answering over Knowledge Graphs Using Bilinear Graph Neural Network)

  • 이상의;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.563-566
    • /
    • 2020
  • 지식 그래프 기반의 질문 응답 문제는 자연어 질문에 대한 이해뿐만 아니라, 기반이 되는 지식 그래프상에서 올바른 답변을 찾기 위한 효과적인 추론 능력을 요구한다. 본 논문에서는 다중 홉 추론을 요구하는 복잡한 자연어 질문에 대해 연관 지식 그래프 위에서 답변 추론을 효과적으로 수행할 수 있는 심층 신경망 모델을 제안한다. 제안 모델에서는 지식 그래프상의 추론 과정에서 추른 경로를 명확히 하기 위한 노드의 양방향 특정 전파와 이웃 노드들 간의 맥락 정보까지 각 노드의 특정값에 반영할 수 있는, 표현력이 풍부한 쌍 선형 그래프 신경망 (BGNN)을 이용한다. 본 논문에서는 오픈 도메인의 지식 베이스 Freebase와 자연어 질문 응답 데이터 집합 WebQuestionsSP를 이용한 실험들을 통해, 제안 모델의 효과와 우수성을 확인하였다.

BART를 이용한 한국어 자연어처리: 개체명 인식, 감성분석, 의미역 결정 (BART for Korean Natural Language Processing: Named Entity Recognition, Sentiment Analysis, Semantic role labelling)

  • 홍승연;나승훈;신종훈;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.172-175
    • /
    • 2020
  • 최근 자연어처리는 대용량 코퍼스를 이용하여 언어 모델을 사전 학습하고 fine-tuning을 적용함으로 다양한 태스크에서 최고 성능을 갱신하고 있다. BERT기반의 언어 모델들은 양방향의 Transformer만 모델링 되어 있지만 BART는 양방향의 Transformer와 Auto-Regressive Transformer가 결합되어 사전학습을 진행하는 모델로 본 논문에서는 540MB의 코퍼스를 이용해 한국어 BART 모델을 학습 시키고 여러 한국어 자연어처리 태스크에 적용하여 성능 향상 있음을 보였다.

  • PDF

기계 독해 기술을 이용한 한국어 대명사 참조해결 (Korean Coreference Resolution using Machine Reading Comprehension)

  • 이동헌;김기훈;이창기;류지희;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.151-154
    • /
    • 2020
  • 대명사 참조해결은 문서 내에 등장하는 대명사와 이에 대응되는 선행사를 찾는 자연어처리 태스크이다. 기계 독해는 문단과 질문을 입력 받아 질문에 해당하는 알맞은 정답을 문단 내에서 찾아내는 태스크이며, 최근에는 주로 BERT 기반의 모델이 가장 좋은 성능을 보이고 있다. 이러한 BERT 기반 모델의 성공에 따라, 최근 여러 연구에서 자연어처리 태스크를 기계 독해 문제로 변환하여 해결하는 연구들이 진행되고 있다. 본 논문에서는 최근 여러 자연어처리에서 뛰어난 성능을 보이고 있는 BERT 기반 기계 독해 모델을 이용하여 한국어 대명사 참조해결 연구를 진행하였다. 사전 학습 된 기계 독해 모델을 사용하여 한국어 대명사 참조해결 데이터로 fine-tuning하여 실험한 결과, 개발셋에서 EM 78.51%, F1 84.79%의 성능을 보였고, 평가셋에서 EM 70.78%, F1 80.19%의 성능을 보였다.

  • PDF

한국어 ELECTRA 모델을 이용한 자연어처리 다운스트림 태스크 (Korean ELECTRA for Natural Language Processing Downstream Tasks)

  • 황태선;김정욱;이새벽
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.257-260
    • /
    • 2020
  • 사전 학습을 기반으로 하는 BERT계열의 모델들이 다양한 언어 및 자연어 처리 태스크들에서 뛰어난 성능을 보이고 있지만, masked language model의 경우 입력 문장의 15%만 마스킹을 함으로써 학습 효율이 떨어지고 미세 조정 시 마스킹 토큰이 등장하지 않는 불일치 문제도 존재한다. 이러한 문제를 효과적으로 해결한 ELECTRA는 영어 벤치마크에서 기존의 언어모델들 보다 뛰어난 성능을 보여주었지만 한국어에 대한 관련 연구는 부족한 실정이다. 본 연구에서는 ELECTRA를 한국어 코퍼스에 대해 학습시키고, 다양한 한국어 자연어 이해 태스크들에 대해 실험을 진행한다. 실험을 통해 ELECTRA의 모델 크기별 성능 평가를 진행하였고, 여러 한국어 태스크들에 대해서 평가함으로써 ELECTRA 모델이 기존의 언어 모델들보다 좋은 성능을 보인다는 것을 입증하였다.

  • PDF