• 제목/요약/키워드: 한글텍스트

검색결과 377건 처리시간 0.023초

한국어 텍스트 결속성 측정 도구: KorCAT (KorCAT: Cohesion Analysis Tool for Korean Text)

  • 김동현;김현정;김철희;서영덕
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.582-587
    • /
    • 2022
  • 결속성은 텍스트의 의미 관계 분석에서 주요하게 고려되는 요인 중 하나이다. 결속성이 높을 수록 텍스트 내 언어적 의미 관계가 긴밀한 것으로 볼 수 있기 때문이다. 사람에 의한 텍스트 결속성 분석은 주관이 개입되는 문제를 배제할 수 없는데, 영어에는 TAACO라고 불리는 결속성 자동 측정 도구가 있어 다양한 지표들로 텍스트의 결속성을 측정하고 있다. 그러나 한국어에는 이와 같은 텍스트 결속성 자동 측정 도구가 거의 없으며, 관련 연구도 상당히 부족한 실정이다. 따라서 본 논문에서는 한국어 텍스트의 의미 관계 분석을 위한 결속성 지표를 정의하고, 한국어의 특성에 맞는 결속성 측정 도구인 KorCAT을 제안한다.

  • PDF

하이퍼텍스트 한글백과사전의 개발 (Development of Hypertext Encyclopedia)

  • 전경헌;강현규;김용일;박상규;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.59-70
    • /
    • 1993
  • 개인용 컴퓨터가 많이 보급되고, CD-ROM과 같은 대용량의 기록장치가, 널리 퍼지면서, 전자화된 사전이 널리 사용되게 되었다. 그러나 이러한 전자사전들은 대개 매우 단순화된 탐색기능만을 제공하므로, 전자화의 잇점을 크게 살리지 못하고 있다. 따라서, 컴퓨터의 힘을 빌린, 보통의 종이로된 사전보다 훨씬 유용한 전자사전을 생각해 볼 수 있을 것이다. 이러한 노력이 과거 80년대 말에 하이퍼텍스트로 시작되어 이제는 매우 상업적인 곳에까지 사용되어지고있다. 국내에서도 전자사전의 개발은 다양하게 진행되어오고 있으나, 대부분 컴퓨터를 위한 사전, 다시 말하면, 빠른 접근시간, 적은 메모리사용만을 고려한 사전에 그치고 있다. 본 논문에서는 이러한 필요성에 부합하여, 백과사전자료를 가지고 사람을 위한 전자백과사전을 개발하는 방법을 소개한다. 특히, 이러한 개발과정을 자동화 할 수 있음을 보이고, 백과사전을 하이퍼텍스트로 자동변환하는 방법을 자세히 기술한다. 이 방법은 원시 자료를 하이퍼텍스트로 변환하기 좋은 정형화된 중간자료로 바꾸고, 이 중간자료와 기초적인 명사추출 알고리즘을 이용하여, 각 노드들 사이에 링크를 만드는 것이다. 또한, 이 방법을 이용하여 개발한 HE(Hypertext Encyclopedia) 시스템을 소개한다.

  • PDF

규칙기반과 신경망 모델을 결합한 한국어 글자-음소 변환 시스팀 개발에 관한 연구

  • 김세훈;이주헌
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1991년도 제3회 한글 및 한국어정보처리 학술대회
    • /
    • pp.307-320
    • /
    • 1991
  • 본 연구는 한국어 음성합성 시스팀에서 한글 텍스트를 음소로 변환 시키는 규칙기반과 신경망을 결합한 한글-음소 변환 시스팀을 제안하고 이를 위해 시스팀 모델을 설계하고 시스팀의 각 구성요소들을 설명하며 한국어 음운 변동 규칙중 설측음화 데이타와 설측음화에 상충되는 데이타를 사용하여 시스팀을 실험하고 제안된 모형의 타당성을 분석한다.

  • PDF

텍스트기반의 통화서비스 (Telephone communication service based on the text)

  • 하윤경;우상우;손진수
    • 한국IT서비스학회:학술대회논문집
    • /
    • 한국IT서비스학회 2009년도 춘계학술대회
    • /
    • pp.380-383
    • /
    • 2009
  • QOOK 인터넷전화는 BcN(Broadband Convergence Network) IMS(IP Multimedia Subsystem)기반으로 음성/영상 전화를 제공한다. 본 논문에서 소개하는 QOOK 부가서비스인 한글로서비스는 인터넷 전화기를 이용하여 착신자 전화번호를 눌러 발,착신자간에 통화가 이루어지는 것이 아니라 전화번호를 모르더라도 한글이름을 입력하여 발,착신자간에 통화가 이루어지는 서비스이다. 본 논문은 일반 전화번호기반의 통화서비스에서 진화되어 전화번호가 아닌 한글이름을 이용하여 발신, 착신을 위한 BcN_소프트스위치, 응용서버 등에서 입력된 이름을 처리하는 기능을 소개한다.

  • PDF

KorBERT 기반 빈칸채우기 문제를 이용한 텍스트 분류 (Text Classification using Cloze Question based on KorBERT)

  • 허정;이형직;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.486-489
    • /
    • 2021
  • 본 논문에서는 KorBERT 한국어 언어모델에 기반하여 텍스트 분류문제를 빈칸채우기 문제로 변환하고 빈칸에 적합한 어휘를 예측하는 방식의 프롬프트기반 분류모델에 대해서 소개한다. [CLS] 토큰을 이용한 헤드기반 분류와 프롬프트기반 분류는 사전학습의 NSP모델과 MLM모델의 특성을 반영한 것으로, 텍스트의 의미/구조적 분석과 의미적 추론으로 구분되는 텍스트 분류 태스크에서의 성능을 비교 평가하였다. 의미/구조적 분석 실험을 위해 KLUE의 의미유사도와 토픽분류 데이터셋을 이용하였고, 의미적 추론 실험을 위해서 KLUE의 자연어추론 데이터셋을 이용하였다. 실험을 통해, MLM모델의 특성을 반영한 프롬프트기반 텍스트 분류에서는 의미유사도와 토픽분류 태스크에서 우수한 성능을 보였고, NSP모델의 특성을 반영한 헤드기반 텍스트 분류에서는 자연어추론 태스크에서 우수한 성능을 보였다.

  • PDF

자연스러운 텍스트 생성을 위한 추계적 텍스트 구조화 (A Stochastic Text Structuring using Simulated Annealing)

  • 노지은;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.199-206
    • /
    • 2002
  • 언어가 아닌 다양한 지식원으로부터 그것을 설명하는 텍스트를 생성하는 텍스트 생성 (text generation)은 여러 가지 복합적이고 단계적인 과정을 거쳐 이루어진다. 자연스러운 텍스트를 생성하기 위한 여러 단계 중, 지식원으로부터 텍스트에 포함되기 위해 뽑힌 정보들간의 순서를 적절히 결정하는 과정을 텍스트 구조화(text structuring)라고 한다. 텍스트 구조화는 생성될 텍스트의 결속성(coherence)을 크게 좌우하므로, 양질의 텍스트를 생성하기 위해서는 텍스트 구조화를 다루기 위한 정교한 방법론이 요구된다. 본 논문에서는 SA(simulated annealing) 알고리즘을 이용해 추계적 텍스트 구조화 방안을 제안하며 특히, SA의 평가 함수(evaluation function)로서, 총 4가지의 방법론-중심화 이론(centering theory)을 이용한 센터 전이 유형의 선호도, 추론 비용에 근거한 전이 유형간의 선호도, 서두 문장을 결정하기 위한 가중치 할당에 따른 선호도, 인접한 문장간의 유사도에 따른 선호도-을 제안하고 실험을 통해, 그 효용성을 보였다.

  • PDF

한국어 텍스트의 논증 구조 내 담화 관계의 자동 분류 연구 (An Automatic Classification of Discourse Relations in the Arguing Structure of Korean Texts)

  • 이상아;신효필
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.59-64
    • /
    • 2015
  • 최근 온라인 텍스트 자료를 이용하여 대중의 의견을 분석하는 작업이 활발히 이루어지고 있다. 이러한 작업에는 주관적 방향성을 갖는 텍스트의 논증 구조와 중요 내용을 파악하는 과정이 필요하며, 자료의 양과 다양성이 급격히 증가하면서 그 과정의 자동화가 불가피해지고 있다. 본 연구에서는 정책에 대한 찬반 의견으로 구성된 한국어 텍스트 자료를 직접 구축하고, 글을 구성하는 기본 단위들 사이의 담화 관계를 정의하였다. 각 단위들 사이의 관계는 기계학습과 규칙 기반 방식을 이용하여 예측되고, 그 결과는 합성되어 하나의 글에 대응되는 트리 구조를 이룬다. 또한 텍스트의 구조상에서 주제문을 직접적으로 뒷받침하는 문장 혹은 절을 추출하여 글의 중요 내용을 얻고자 하였다.

  • PDF

클래스 활성화 맵을 이용한 카테고리 의존적 요약 (Category-wise Neural Summarizer with Class Activation Map)

  • 김소언;박성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.287-292
    • /
    • 2019
  • 다양한 매체를 통해 텍스트 데이터가 빠르게 생성되면서 요약된 텍스트에 대한 수요가 증가하고 있다. 시퀀스-투-시퀀스 모델의 등장과 attention 기법의 출현은 추상적 요약의 난도를 낮추고 성능을 상승시켰다. 그러나 그동안 진행되어 온 attention 기반의 시퀀스-투-시퀀스 모델을 통한 요약 관련 연구들은 요약 시 텍스트의 카테고리 정보를 이용하지 않았다. 텍스트의 카테고리 정보는 Class Activation Map(CAM)을 통해 얻을 수 있는데, 텍스트를 요약할 때 핵심이 되는 단어와 CAM에서 높은 수치를 보이는 단어가 상당수 일치한다는 사실은 요약문 생성이 텍스트의 카테고리에 의존적일 필요가 있음을 증명한다. 본 논문에서는 요약문 생성 시 집중 정도에 대한 정보를 CAM을 통해 전달하여 attention matrix를 보강할 수 있는 모델을 제안하였다. 해당 모델을 사용하여 요약문을 생성하고 대표적인 요약 성능 지표인 ROUGE로 측정한 결과, attention 기반의 시퀀스-투-시퀀스 모델이 질이 떨어지는 요약문을 생성할 때 attention의 성능을 보강하여 요약문의 질을 높일 수 있음을 알 수 있었다.

  • PDF

다중 인스턴스 학습 기반 사용자 프로파일 식별 (Discriminating User Attributes in Social Text based on Multi-Instance Learning)

  • 송현제;김아영;박성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.47-52
    • /
    • 2012
  • 본 논문에서는 소셜 네트워크 서비스에서 사용자가 작성한 텍스트로부터 그 사용자 프로파일 식별하는 문제를 다룬다. 프로파일 식별 관련 기존 연구에서는 개별 텍스트를 하나의 학습 단위로 간주하고 이를 기반으로 학습 모델을 구축한다. 프로파일을 식별하고자 하는 사용자의 텍스트들이 주어지면 각 텍스트마다 프로파일을 식별하고, 식별된 결과들을 합쳐 최종 프로파일로 선택한다. 하지만 SNS 특성상 프로파일을 식별하는 데에 영향을 끼치지 않는 텍스트들이 다수 존재하며, 기존 연구들은 이 텍스트들을 특별한 처리없이 학습 및 테스트에 사용함으로 인해 프로파일 식별 성능이 저하되는 문제점이 있다. 본 논문에서는 다중 인스턴스 학습(Multi-Instance Learning)을 기반으로 사용자 프로파일을 식별한다. 제안한 방법은 사용자가 작성한 텍스트 전체, 즉 텍스트 집합을 학습 단위로 간주하고 다중 인스턴스 학습 문제로 변환하여 프로파일을 식별한다. 다중 인스턴스 학습을 사용함으로써 프로파일 식별에 유의미한 텍스트들만이 고려되고 그 결과 프로파일 식별에 영향을 끼치지 않는 텍스트로부터의 성능 하락을 최소화할 수 있다. 실험을 통해 제안한 방법이 기존 학습 방법보다 성별, 나이, 결혼/연애 상태를 식별함에 있어서 더 좋은 성능을 보인다.

  • PDF

텍스트 이해 모델에 기반한 정보 검색 시스템 (Text Undestanding System for Summarization)

  • 송인석;박혁로
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.1-6
    • /
    • 1997
  • 본 논문에서는 인지적 텍스트 이해 모형을 제시하고 이에 기반한 자동 요약 시스템을 구현하였다. 문서는 정보의 단순한 집합체가 아닌 정형화된 언어 표현 양식으로서 단어의 의미적 정보와 함께 표현 양식, 문장의 구조와 문서의 구성을 통해 정보를 전달한다. 요약 목적의 텍스트 이해 및 분석 과정을 위해 경제 분야 기사 1000건에 대한 수동 요약문을 분석, 이해 모델을 정립하였고. 경제 분야 기사 1000건에 대한 테스트 결과를 토대로 문장간의 관계, 문서의 구조에서 요약 정보 추출에 사용되는 정보를 분석하였다. 본 텍스트 이해 모형은 단어 빈도수에 의존하는 통계적 모델과 비교해 볼 때, 단어 간의 관련성을 찾아내고, 문서구조정보에 기반한 주제문 추출 및 문장간의 관계를 효과적으로 사용함으로서 정보를 생성한다. 그리고 텍스트 이해 과정에서 사용되는 요약 지식과 구조 분석정보의 상관관계를 체계적으로 연결함으로서 자동정보 추출에서 야기되는 내용적 만족도 문제를 보완한다.

  • PDF