• 제목/요약/키워드: 한국어 자연어 텍스트

검색결과 82건 처리시간 0.019초

SERADE : 섹션 표현 기반 문서 임베딩 모델을 활용한 긴 문서 검색 성능 개선 (SERADE: Section Representation Aggregation Retrieval for Long Document Ranking)

  • 정혜인;전현규;김지윤;이찬형;김봉수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.135-140
    • /
    • 2022
  • 최근 Document Retrieval을 비롯한 대부분의 자연어처리 분야에서는 BERT와 같이 self-attention을 기반으로 한 사전훈련 모델을 활용하여 SOTA(state-of-the-art)를 이루고 있다. 그러나 self-attention 메커니즘은 입력 텍스트 길이의 제곱에 비례하여 계산 복잡도가 증가하기 때문에, 해당 모델들은 선천적으로 입력 텍스트의 길이가 제한되는 한계점을 지닌다. Document Retrieval 분야에서는, 문서를 특정 토큰 길이 단위의 문단으로 나누어 각 문단의 유사 점수 또는 표현 벡터를 추출한 후 집계함으로서 길이 제한 문제를 해결하는 방법론이 하나의 주류를 이루고 있다. 그러나 논문, 특허와 같이 섹션 형식(초록, 결론 등)을 갖는 문서의 경우, 섹션 유형에 따라 고유한 정보 특성을 지닌다. 따라서 문서를 단순히 특정 길이의 문단으로 나누어 학습하는 PARADE와 같은 기존 방법론은 각 섹션이 지닌 특성을 반영하지 못한다는 한계점을 지닌다. 본 논문에서는 섹션 유형에 대한 정보를 포함하는 문단 표현을 학습한 후, 트랜스포머 인코더를 사용하여 집계함으로서, 결과적으로 섹션의 특징과 상호 정보를 학습할 수 있도록 하는 SERADE 모델을 제안하고자 한다. 실험 결과, PARADE-Transformer 모델과 비교하여 평균 3.8%의 성능 향상을 기록하였다.

  • PDF

텍스트 마이닝을 이용한 기사 내 부적합 문단 검출 시스템 (Detecting Improper Sentences in a News Article Using Text Mining)

  • 김규완;신현주;김선진;이현아
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.294-297
    • /
    • 2017
  • SNS와 스마트기기의 발전으로 온라인을 통한 뉴스 배포가 용이해지면서 악의적으로 조작된 뉴스가 급속도로 생성되어 확산되고 있다. 뉴스 조작은 다양한 형태로 이루어지는데, 이 중에서 정상적인 기사 내에 광고나 낚시성 내용을 포함시켜 독자가 의도하지 않은 정보에 노출되게 하는 형태는 독자가 해당 내용을 진짜 뉴스로 받아들이기 쉽다. 본 논문에서는 뉴스 기사 내에 포함된 문단 중에서 부적합한 문단이 포함 되었는지를 판정하기 위한 방법을 제안한다. 제안하는 방식에서는 자연어 처리에 유용한 Convolutional Neural Network(CNN)모델 중 Word2Vec과 tf-idf 알고리즘, 로지스틱 회귀를 함께 이용하여 뉴스 부적합 문단을 검출한다. 본 시스템에서는 로지스틱 회귀를 이용하여 문단의 카테고리를 분류하여 본문의 카테고리 분포도를 계산하고 Word2Vec을 이용하여 문단간의 유사도를 계산한 결과에 가중치를 부여하여 부적합 문단을 검출한다.

  • PDF

트리플 필터링을 통한 한국어 자가 지식 학습 정확률 향상 (Accuracy Improvement of Self-knowledge Learning by Filtering Triple)

  • 이지수;김경훈;최수정;박성배;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.174-177
    • /
    • 2015
  • 자가 지식 학습 프레임워크는 자연어 텍스트에서 지식 트리플을 생성하기 위한 방법 중 하나로, 문장의 의존 관계 트리 상에서 주어 개체와 목적어 개체 사이의 관계를 패턴으로 학습해 이 패턴을 바탕으로 새로운 지식 트리플을 생성한다. 그러나 이 방법은 의존 관계 트리를 생성하는 도구의 성능에 영향을 받을 뿐만 아니라 생성된 지식 트리플을 반복적으로 사용하는 자가 지식 학습의 특성상 오류가 누적될 가능성이 있다. 이러한 문제점을 해결하기 위해서 본 논문에서는 자가 지식 학습 프레임워크에서 생성된 지식 트리플을 TransR 신뢰도 함수를 사용해 신뢰도 값을 측정하여 그 값에 따라 지식 트리플을 필터링하는 방법을 제안한다. 실험 결과에 따르면 필터링 된 지식 트리플들이 그렇지 않은 지식 트리플들에 비하여 더 높은 정확률을 보여주어, 제안한 방법이 자가 지식 학습 프레임워크의 정확률 향상에 효과적임을 증명하였다.

  • PDF

자연어 처리, 통계적 기법, 적합성 검증을 이용한 자동색인 시스템에 관한 연구 (A Study on Automatic Indexing System Using natural language Processing, Statistical Technique, Relevance Verification)

  • 유춘식;우선미;유철중;이종득;권오봉;김용성
    • 한국정보처리학회논문지
    • /
    • 제5권6호
    • /
    • pp.1552-1562
    • /
    • 1998
  • 형태소 분석(Morphological Analysis)과 같은 언어학적 처리에 의존하는 기존의 한국어 문헌에 대한 자동색인 기법들은 품사의 애매모호함이나 복합명사의 처리 등으로 부담(overhead)이 크다. 또한 불용어 처리에 사용되는 불용어 리스트가 대상 문헌의 주제 분야별로 따로 구축되어야 하며 그 크기가 방대하다는 문제점이 있다. 이러한 문제점들을 해결하기 위해, 본 논문에서는 각 문헌의 텍스트에 대해 복합명사 처리나 애매모호함에 대한 엄격한 분석을 수행하지 않는 간단한 형태의 형태소 분석을 수행하여 단순명사들을 추출한다. 그런 후 이들 단순명사들을 이용하여 유한 오토마타(Finite Automata)를 구성하고, 구성된 유한 오토마타와 각 명사의 단어빈도(Term Frequency)에 의해 각 색인어 후보들의 중요도를 계산하는 자동색인 기법을 제안한다. 그 결과 품사의 애매모호함에 대한 처리나 복합명사의 처리에따른 부담을 줄일 수 있었으며, 선정된 색인어들과 수작업으로 선정한 색인어들의 비교 실험에 의해 제안한 자동색인 기법의 성능을 검증하였다.

  • PDF

텍스트 기반의 바이오마커 검출을 위한 가우시안 혼합 모델의 응용 (Application of Gaussian Mixture Model for Text-based Biomarker Detection)

  • 오병두;김기현;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.550-551
    • /
    • 2018
  • 바이오마커는 체내의 상태 및 변화를 파악할 수 있는 지표이다. 이는 암을 비롯한 다양한 질병에 대하여 진단하는데 활용도가 높은 것으로 알려져 있으나, 새로운 바이오마커를 찾아내기 위한 임상 실험은 많은 시간과 비용을 소비되며, 모든 바이오마커가 실제 질병을 진단하는데 유용하게 사용되는 것은 아니다. 따라서 본 연구에서는 자연어처리 기술을 활용해 바이오마커를 발굴할 때 요구되는 많은 시간과 비용을 줄이고자 한다. 이 때 다양한 의미를 가진 어휘들이 해당 질병과 연관성이 높은 것으로 나타나며, 이들을 분류하는 것은 매우 어렵다. 따라서 우리는 Word2Vec과 가우시안 혼합 모델을 사용하여 바이오마커를 분류하고자 한다. 실험 결과, 대다수의 바이오마커 어휘들이 하나의 군집에 나타나는 것을 확인할 수 있었다.

  • PDF

STT로 생성된 자막의 자동 문장 분할 (Automatic sentence segmentation of subtitles generated by STT)

  • 김기현;김홍기;오병두;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.559-560
    • /
    • 2018
  • 순환 신경망(RNN) 기반의 Long Short-Term Memory(LSTM)는 자연어처리 분야에서 우수한 성능을 보이는 모델이다. 음성을 문자로 변환해주는 Speech to Text (STT)를 이용해 자막을 생성하고, 생성된 자막을 다른 언어로 동시에 번역을 해주는 서비스가 활발히 진행되고 있다. STT를 사용하여 자막을 추출하는 경우에는 마침표가 없이 전부 연결된 문장이 생성되기 때문에 정확한 번역이 불가능하다. 본 논문에서는 영어자막의 자동 번역 시, 정확도를 높이기 위해 텍스트를 문장으로 분할하여 마침표를 생성해주는 방법을 제안한다. 이 때, LSTM을 이용하여 데이터를 학습시킨 후 테스트한 결과 62.3%의 정확도로 마침표의 위치를 예측했다.

  • PDF

이미지검색을 위한 색상어 질의 분석 (Query Analysis of Color-Term for Image Retrieval)

  • 허정;김현진;박성희;최재훈;장명길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.48-53
    • /
    • 2001
  • 인터넷 환경의 급속한 성장과 더불어 기존의 텍스트 정보들이 다양한 형태의 멀티미디어 정보(소리, 이미지, 동영상 등)로 대체되었다. 이로 인해 멀티미디어 정보검색의 필요성이 대두되기 시작했다. 멀티미디어 정보검색 중 이미지검색은 크게 주석기반과 특징기반 (color, shape, texture 등) 검색으로 나눌 수 있다. 본 고는 이미지 검색 중 전처리에 해당하는 색상어 질의처리의 한 방법을 제안한다. 즉, 사용자에게 익숙한 자연어 질의로부터 이미지의 특징에 해당하는 색상 정보와 주석에 해당하는 키워드 정보를 중심어 후위원칙기반으로 파싱트리를 구성한 후, 후위순회방식에 의해 불리언 검색을 수행하는 방법을 제안한다.

  • PDF

온톨로지 인스턴스 생성을 위한 상호참조 해결 연구 (Reference Resolution for Ontology Population)

  • 최미란;이창기;왕지현;장명길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.140-144
    • /
    • 2007
  • 시맨틱 웹 기술의 주축을 이루는 온톨로지의 구축시에 인스턴스를 생성하기 위하여 대상 문서를 구성하는 자연어 문장을 텍스트 마이닝 기술을 이용하여 트리플을 추출한다. 인스턴스를 생성할 때 보다 많은 정보를 추출하기 위해서 문장에 나타나는 상호참조 해결이 필요하다. 본 연구에서는 문서에서 많이 나타나는 명사구로 이루어진 대용어를 해석하기 위하여 언어 분석된 다양한 결과 정보를 이용한다. 본 연구에서는 계층적인 의미구조와 청킹을 이용한 규칙기반의 상호참조 해결 방법을 제안하고 실험을 통해 알고리즘의 정확도를 제시한다.

  • PDF

문서의 공기관계를 이용하여 국가 R&D 보고서간 유사도 계산 (Similarity calculation between national R&D reports using co-occurrence)

  • 김남훈;주종민;박혁로;양형정;최광남
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.201-204
    • /
    • 2016
  • 본 논문에서는 문서의 공기관계를 통해 추출된 문서의 특징을 이용하여 유사 보고서를 판별하는 시스템을 제안한다. 국가 R&D 보고서의 XML형식 파일에서 텍스트를 추출 후, 문장 단위로 나누어 각 문장의 공기 관계를 추출한다. 그 후 공기관계의 노드와 엣지를 문서에 추가하고, 노드로 사용된 단어만 남기고 나머지 단어는 제외한다. 그리고 이것을 문서의 특징으로 삼고 유사도 계산을 한다. 이 때, 유사도 계산은 코사인 유사도를 사용한다. 실험결과, 국가 R&D문서 유사도 계산에서 제안된 방법이 기존의 방법보다 높은 분류율을 보여주었다.

  • PDF

Google Dialogflow를 활용해 『논어』의 메시지를 전하는 챗봇에 관한 연구 (A study on a chatbot that conveys the message of 『The Analects』 using Google Dialogflow)

  • 류연수;우영석;윤영채;박소정
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.565-570
    • /
    • 2022
  • 본 논문은 Google Dialogflow 챗봇 개발 플랫폼으로 『논어』의 메시지를 현대화한 고민상담 챗봇을 제안한다. Dialogflow 챗봇 개발 플랫폼은 사전에 설계된 대화 아키텍처에 따라 응답을 제시한다. 즉, 질문의 의도가 파악되면 별도의 문장생성 없이 사전에 입력된 시나리오가 출력되기 때문에 고전 텍스트의 낯선 어투와 함축성의 허들을 극복할 수 있다. '챗봇'을 매체로 선정한 주된 이유는 쌍방향성 때문이다. 사용자는 챗봇을 통해 원하는 내용을 주체적이고 선별적으로 학습할 수 있다. 본 연구는 인문학적 문화원형과 공학 분야의 기술을 접목한 융복합 서비스 모델을 제시한다. 이를 통해 『논어』의 메시지를 젊은 세대에게 친숙하게 전달함으로써 세대 간 문화적 공통성을 마련할 수 있다.

  • PDF