• 제목/요약/키워드: 한글자연어처리

검색결과 394건 처리시간 0.023초

구문 분석에 기반한 자연어 질의로부터의 불리언 질의 생성 (Boolean Formulation of Korean Natural Language Queries Using Syntactic Analysis)

  • 박미화;원형석;이원일;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.73-80
    • /
    • 1998
  • 본 연구는 자연어 질의의 형태 및 구문 정보를 바탕으로 불리언 질의를 생성하는데 그 목적을 둔다. 일반적으로 대부분의 상용정보검색시스템은 입력형식을 검색성능이 종은 불리언 형태로 하고 있으나, 일반 사용자는 자신이 원하는 정보를 불리언 형태로 표현하는데 익숙하지 않다. 그러므로 본 정보검색시스템은 자연어 질의를 기본 입력형태로 하여 사용자의 편의성을 높이고, 이 질의를 범주문법에 기반한 구문분석 결과에 의해 복합명사를 고려한 불리언 형태로 변환하여 검색을 수행함으로써 시스템의 검색 성능의 향상을 도모하였다. 정보검색 실험용 데이터 모음인 KTSET2.0으로 실험한 결과 본 논문에서 제안한 자연어 질의로부터 자동 생성된 불리언 질의의 검객성능이 KTSET2.0에서 제공하는 수동으로 추출한 불리언 질의보다 8% 더 우수한 성능을 보였고, 기존 자연어질의 시스템이 수용해온 방법인 형태소 분석을 거쳐 불용어를 제거한 후 Vector 모델을 적용하여 검색을 수행한 경우보다는 23% 더 나은 성능을 보였다.

  • PDF

집단지성을 이용한 한글 감성어 사전 구축 (Building a Korean Sentiment Lexicon Using Collective Intelligence)

  • 안정국;김희웅
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.49-67
    • /
    • 2015
  • 최근 다양한 분야에서 빅데이터의 활용과 분석에 대한 중요성이 대두됨에 따라, 뉴스기사와 댓글과 같은 비정형 데이터의 자연어 처리 기술에 기반한 감성 분석에 대한 관심이 높아지고 있다. 하지만, 한국어는 영어와는 달리 자연어 처리가 어려운 교착어로써 정보화나 정보시스템에의 활용이 미흡한 실정이다. 이에 본 연구는 감성 분석에 활용이 가능한 감성어 사전을 집단지성으로 구축하였고, 누구나 연구와 실무에 사용하도록 API서비스 플랫폼을 개방하였다(www.openhangul.com). 집단지성의 활용을 위해 국내 최대 대학생 소셜네트워크 사이트에서 대학생들을 대상으로 단어마다 긍정, 중립, 부정에 대한 투표를 진행하였다. 그리고 집단지성의 효율성을 높이기 위해 감성을 '정의'가 아닌 '분류'하는 방식인 폭소노미의 '사람들에 의한 분류법'이라는 개념을 적용하였다. 총 517,178(+)의 국어사전 단어 중 불용어 형태를 제외한 후 감성 표현이 가능한 명사, 형용사, 동사, 부사를 우선 순위로 하여, 현재까지 총 35,000(+)번의 단어에 대한 투표를 진행하였다. 본 연구의 감성어 사전은 집단지성의 참여자가 누적됨에 따라 신뢰도가 높아지도록 설계하여, 시간을 축으로 사람들이 단어에 대해 인지하는 감성의 변화도 섬세하게 반영하는 장점이 있다. 따라서 본 연구는 앞으로도 감성어 사전 구축을 위한 투표를 계속 진행할 예정이며, 현재 제공하고 있는 감성어 사전, 기본형 추출, 카테고리 추출 외에도 다양한 자연어 처리에 응용이 가능한 API들도 제공할 계획이다. 기존의 연구들이 감성 분석이나 감성어 사전의 구축과 활용에 대한 방안을 제안하는 것에만 한정되어 있는 것과는 달리, 본 연구는 집단지성을 실제로 활용하여 연구와 실무에 활용이 가능한 자원을 구축하여 개방하여 공유한다는 차별성을 가지고 있다. 더 나아가, 집단지성과 폭소노미의 특성을 결합하여 한글 감성어 사전을 구축한 새로운 시도가 향후 한글 자연어 처리의 발전에 있어 다양한 분야들의 융합적인 연구와 실무적인 참여를 이끌어 개방적 협업의 새로운 방향과 시사점을 제시 할 수 있을 것이라 기대한다.

학생 답안 정보를 활용한 반자동 정답 템플릿 구축 도구 (Semi-automatic Answer Template Constructor using Student Responses)

  • 장은서;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.110-112
    • /
    • 2013
  • 대학수학능력시험이나 학업성취도평가와 같은 중요한 시험은 다단계의 복잡한 과정을 거쳐 채점되며, 대규모의 인적 물적 자원이 투입된다. 컴퓨터 시스템을 활용하여 채점 과정에 소모되는 자원을 절감하고 정확성을 향상시키는 등 채점 효율의 향상을 목표로 하는 연구가 진행 중에 있다. 하지만 채점하려는 문항에 대한 정보 없이 시스템이 자동으로 정 오답을 판단하는 것은 불가능하며, 채점자가 문항에 대한 정보를 일정한 형식으로 가공하여 시스템에 제공하여야 한다. 본 논문은 채점하려는 학생 답안을 정보로 이용하여 시스템이 인지할 수 있는 정답 템플릿 형식으로 구축하는 방법을 소개한다. 또한 소개한 방법으로 작성된 정답 템플릿을 이용하여 자동 채점을 수행하였을 때의 채점 결과 및 통계 자료를 수록하였다.

  • PDF

한국어 대화 모델 학습을 위한 디노이징 응답 생성 (Denoising Response Generation for Learning Korean Conversational Model)

  • 김태형;노윤석;박성배;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.29-34
    • /
    • 2017
  • 챗봇 혹은 대화 시스템은 특정 질문이나 발화에 대해 적절한 응답을 해주는 시스템으로 자연어처리 분야에서 활발히 연구되고 있는 주제 중 하나이다. 최근에는 대화 모델 학습에 딥러닝 방식의 시퀀스-투-시퀀스 프레임워크가 많이 이용되고 있다. 하지만 해당 방식을 적용한 모델의 경우 학습 데이터에 나타나지 않은 다양한 형태의 질의문에 대해 응답을 잘 못해주는 문제가 있다. 이 논문에서는 이러한 문제점을 해결하기 위하여 디노이징 응답 생성 모델을 제안한다. 제안하는 방법은 다양한 형태의 노이즈가 임의로 가미된 질의문을 모델 학습 시에 경험시킴으로써 강건한 응답 생성이 가능한 모델을 얻을 수 있게 한다. 제안하는 방법의 우수성을 보이기 위해 9만 건의 질의-응답 쌍으로 구성된 한국어 대화 데이터에 대해 실험을 수행하였다. 실험 결과 제안하는 방법이 비교 모델에 비해 정량 평가인 ROUGE 점수와 사람이 직접 평가한 정성 평가 모두에서 더 우수한 결과를 보이는 것을 확인할 수 있었다.

  • PDF

의문의 초점을 고려한 자연어 기반의 정보검색 시스템 (Natural language based Information Retrieval System considering the focus of the question)

  • 박홍원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.37-43
    • /
    • 1997
  • 본 논문에서는 기존의 키워드 검색 시스템의 불편함과 비효율성을 지적하고 이를 극복하기 위해 한국어 의문문 자체를 질의어로 채택하여 정보를 검색하는 자연어 기반의 정보검색 시스템을 제안하였다. 본 시스템은 주격 주제어와 서술격 주제어는 물론 의문의 초점과 초점 관련 어구에 대해서도 질의어 분석단계에서 분석하여 검색자의 요구에 부응하는 응답문 검색이 가능하도록 설계하였다. 본 논문에서는 의문문 질의 시스템에 적합하도록 의문사를 5형태로 분류하고 실제 한국어 문장에서 이들 각각에 대한 처리를 규칙화시켜 질의어의 체계적인 분석을 시도하였다. 한편, 후보 문장 검색을 위한 색인어로 사용되는 주격 주제어와 서술격 주제어를 정해진 규칙을 통해 추출함으로써 체계적이고 정확도 높은 질의어 분석이 이루어지도록 했다. 뿐만 아니라 의문의 초점과 초점 관련 어구또한 정해진 규칙을 통해 분석 추출함으로써 응답문 검색의 정확성을 높였다.

  • PDF

문장패턴을 이용한 자연어 질의 시스템에 대한 연구 (A Study on the Natural Language Query System Using Sentence-Pattern)

  • 우근신;송재관;홍성웅;연제용;박찬곤
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.214-218
    • /
    • 2003
  • 질의응답 시스템은 인터넷과 같은 실용적 환경에서 사용될 경우, 실제 사용자의 질의는 다양한 유형으로 나타나게 된다. 따라서 실용적인 시스템에서 사용되는 질의는 문장의 형태나 단어의 쓰임에 관계없이 같은 의도를 가진 질의를 같은 유형으로 분류할 수 있는 의문형 문장패턴을 태깅하여 다양한 형태의 자연어로 기술된 문서에서 원하는 응답으로 처리할 수 있는 질의 응답 시스템은 정보 검색 시스템으로서의 가능성을 보여준다.

  • PDF

Stack-Pointer Network를 이용한 한국어 의존 구문 분석 (Stack-Pointer Network for Korean Dependency Parsing)

  • 차다은;이동엽;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.685-688
    • /
    • 2018
  • 의존 구문 분석은 자연어 문장에 포함된 단어들 간의 의존 관계를 분석하는 과제로 다양한 자연어 이해 과제에 요구되는 핵심 기술 중 하나이다. 본 연구에서는 단어와 문자 자질을 적용한 기존 Stack-Pointer Network의 인코더의 입력 단어 표상을 확장하여, 한국어를 비롯한 형태적으로 복잡한 언어(morphologically rich language)에 적합하도록 음절-태그 단위, 형태소 단위, 형태소 품사 정보 자질을 보강한 의존 구문 분석 모델을 제안한다. 실험 결과 제안하는 모델은 의존 구조로 변환된 세종 구문 분석 말뭉치에서 UAS 90.58%, LAS 88.35%의 성능을, 2018 국어 정보 처리 시스템 경진 대회 평가 데이터에서 UAS 84.69%, LAS 82.02%의 성능을 보였다. 더불어 제안하는 모델은 포함된 문장의 전체 길이가 긴 의존 관계, 의존소와 지배소의 거리가 먼 의존 관계, 의존소를 구성하는 형태소의 개수가 많은 의존 관계에서 기존 Stack-Pointer Network보다 향상된 성능을 보였다.

  • PDF

Prompt를 활용한 페르소나 대화 생성 연구 (A Study on Prompt-based Persona Dialogue Generation)

  • 장윤나;양기수;문현석;서재형;임정우;손준영;박찬준;박기남;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.77-81
    • /
    • 2022
  • 최근 사전학습 언어모델에 내재된 지식을 최대한으로 활용하고자 태스크에 대한 설명을 입력으로 주는 manual prompt tuning 방법과 자연어 대신 학습가능한 파라미터로 태스크에 대한 이해를 돕는 soft prompt tuning 방법론이 자연어처리 분야에서 활발히 연구가 진행되고 있다. 이에 본 연구에서는 페르소나 대화 생성 태스크에서 encoder-decoder 구조 기반의 사전학습 언어모델 BART를 활용하여 manual prompt tuning 및 soft prompt tuning 방법을 고안하고, 파인튜닝과의 성능을 비교한다. 전체 학습 데이터에 대한 실험 뿐 아니라, few-shot 세팅에서의 성능을 확인한다.

  • PDF

$\mathcal{K}o$-ATOMIC: 일반 상식 기반의 한국어 지식 그래프 ($\mathcal{K}o$-ATOMIC: Korean Commonsense Knowledge Graph)

  • 이재욱;서재형;이승준;박찬준;;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.412-417
    • /
    • 2022
  • 일반 상식 기반의 지식 그래프는 대규모 코퍼스에 포함되어 있는 일반 상식을 그래프로 표현하여, 자연어 처리의 하위 작업들에 적용할 수 있도록 하는 구조화된 지식 표현 방법이다. 현재 가장 잘 알려진 일반 상식 기반의 지식 그래프로는 ATOMIC [1]이 있다. 하지만 한국어를 주요 언어로 하는 일반 상식 기반의 지식 그래프에 대한 연구는 아직 활발하지 않다. 따라서 본 연구에서는 기존에 존재하는 영어 기반의 지식 그래프와 일반 상식 기반의 한국어 데이터셋을 활용해서 한국어 일반 상식 기반 지식 그래프를 구축하는 방법론을 제시한다. 또한, 제작한 지식 그래프를 평가하여 구축하는 방법론에 대한 타당성을 검증한다.

  • PDF

근거를 이용한 한국어 감성 분석 (Korean Sentiment Analysis using Rationale)

  • 정영준;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.160-163
    • /
    • 2022
  • 감성 분석(sentiment analysis)은 자연어 문장에 나타나는 감정 상태나 주관적인 의견을 분석하는 작업이다. 최근에는 자연어 처리(Natural Language Processing) 작업에서 딥러닝 기반의 모델이 좋은 성능을 보여주고 있다. 하지만, 모델의 복잡한 구조 때문에 모델이 어떠한 근거(rationale)로 판단하였는지 해석하기 어려운 문제가 있다. 모델이 좋은 성능을 보여도 예측에 관한 판단 근거가 없으면 결과를 해석하기 어렵고, 모델에 대한 신뢰가 떨어진다. 본 논문에서는 한국어 감성 분석 작업에 대해 사후 해석 모델을 이용하여 모델의 예측 결과에 대한 근거를 추출하고, 추출한 근거 정보를 이용한 근거 임베딩을 사용하여 근거 정보를 통합하는 방법이 감성 분석 모델의 성능을 개선함을 보인다.

  • PDF