• 제목/요약/키워드: 문장 벡터

검색결과 146건 처리시간 0.023초

언어장애인용 문장발생장치에 적용 가능한 동사예측 (An Applicable Verb Prediction in Augmentative Communication System for Korean Language Disorders)

  • 이은실;홍승홍;민홍기
    • 감성과학
    • /
    • 제3권1호
    • /
    • pp.25-32
    • /
    • 2000
  • 본 논문에서는 언어장애인용 문장발생장치의 통신율을 증진시키기 위한 처리방안으로 신경망을 이용하여 문장발생장치에 동사예측을 적용하는 방법을 제안하였다. 각 단어들은 구문론과 의미론에 따른 정보벡터로 표현되며, 언어처리는 전통적으로 사전을 포함하는 것과는 달리, 상태공간에서 다양한 영역으로 분류되어 개념적으로 유사한 단어는 상태공간에서의 위치를 통하여 알게 된다. 사용자가 심볼을 누르면 심볼에 해당하는 단어는 상태공간에서의 위치를 찾아가며, 신경망 학습을 통해 동사를 예측하였고 그 결과 제한된 공간 내에서 약 20% 통신율 증진을 가져올 수 있었다.

  • PDF

문장 임베딩을 위한 Cross-Encoder의 Re-Ranker를 적용한 의미 검색 기반 대조적 학습 (Contrastive Learning of Sentence Embeddings utilizing Semantic Search through Re-Ranker of Cross-Encoder)

  • 오동석;김수완;박기남;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.473-476
    • /
    • 2022
  • 문장 임베딩은 문장의 의미를 고려하여 모델이 적절하게 의미적인 벡터 공간에 표상하는 것이다. 문장 임베딩을 위해 다양한 방법들이 제안되었지만, 최근 가장 높은 성능을 보이는 방법은 대조적 학습 방법이다. 대조적 학습을 이용한 문장 임베딩은 문장의 의미가 의미적으로 유사하면 가까운 공간에 배치하고, 그렇지 않으면 멀게 배치하도록 학습하는 방법이다. 이러한 대조적 학습은 비지도와 지도 학습 방법이 존재하는데, 본 논문에서는 효과적인 비지도 학습방법을 제안한다. 기존의 비지도 학습 방법은 문장 표현을 학습하는 언어모델이 자체적인 정보를 활용하여 문장의 의미를 구별한다. 그러나, 하나의 모델이 판단하는 정보로만 문장 표현을 학습하는 것은 편향적으로 학습될 수 있기 때문에 한계가 존재한다. 따라서 본 논문에서는 Cross-Encoder의 Re-Ranker를 통한 의미 검색으로부터 추천된 문장 쌍을 학습하여 기존 모델의 성능을 개선한다. 결과적으로, STS 테스크에서 베이스라인보다 2% 정도 더 높은 성능을 보여준다.

  • PDF

한국어 문서의 통계적 정보를 이용한 문서 요약 시스템 구현 (Implementation of the Text Abstraction System using the Statistical Information of Korean Documents)

  • 강상배;조혁규;권혁철;박재득;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.28-33
    • /
    • 1997
  • 이 논문에서는 문장 유사도 측정 기법과 말뭉치 정보를 이용한 문서요약 시스템을 구현하였다. 문서 요약은 문서에서 문장 단위로 단어를 추출하여 문장을 단어의 벡터로 표현하고, 문서 내 단어의 출현빈도와 말뭉치 내 단어의 사용빈도를 이용하여 각 문장의 중요도를 계산한다. 그리고 중요도가 높은 상위 몇 위의 문장을 요약문장으로 추출한다. 실험 결과, 문서내 단어빈도의 중요도를 낮추고, 말뭉치내 일반 사용빈도를 단어의 가중치에 추가했을 때 가장 좋은 효율을 보였다. 또 요약하고자 하는 문서와 유사한 말뭉치를 사용 했을 때 높은 효율을 보였다.

  • PDF

비교 문장으로부터 비교 요소 자동 추출 (Extracting Comparative Elements from Comparative Sentences)

  • 양선;고영중
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.225-228
    • /
    • 2011
  • 본 논문은 비교 마이닝(comparison mining) 의 일환인 비교 요소 자동 추출에 관하여 연구한다. 비교 마이닝은 텍스트 마이닝의 한 분야로서 대용량의 텍스트를 대상으로 비교 관계롤 자동 분석하며, 비교 문장인지 아닌지를 식별하는 단계, 비교 타입을 분류하는 단계, 다양한 비교 요소들을 추출하는 단계, 추출된 요소를 분석 및 요약하는 단계 등을 거치게 된다. 본 연구에서는 특정 타입의 비교 문장이 주어졌을때, 그 문장에서 비교 요소를 자동으로 추출하는 단계의 과제를 수행하며, 우열 비교 타입 및 최상급 타입 문장들을 대상으로 비교 주체, 비교 대상, 비교 술어를 추출한다. 실험 과정으로는, 우선 비교 요소 후보들을 선정하고, 그 후 각 요소별로 확률을 계산하여 가장 높은 수치를 기록한 요소를 정답으로 채택하게 된다. 확률 계산은 지지 벡터 기계 (Support Vector Machine)를 이용한다. 인터넷 상의 다양한 도메인에서 추출된 비교 문장들을 대상으로 비교 요소 추출을 수출한 결과, 정확도 86.81 %의 우수한 성능을 산출 할 수 있었다.

더 좋은 인코더 표현을 위한 뇌 동기화 모방 이중 번역 (Dual Translation Imitating Brain-To-Brain Coupling for Better Encoder Representations)

  • 최규현;김선훈;장헌석;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.333-338
    • /
    • 2019
  • 인코더-디코더(Encoder-decoder)는 현대 기계 번역(Machine translation)의 가장 기본이 되는 모델이다. 인코딩은 마치 인간의 뇌가 출발어(Source language) 문장을 읽고 이해를 하는 과정과 유사하고, 디코딩은 뇌가 이해한 의미를 상응하는 도착어(Target language) 문장으로 재구성하는 행위와 비슷하다. 그렇다면 벡터로 된 인코더 표현은 문장을 읽고 이해함으로써 변화된 뇌의 상태에 해당한다고 볼 수 있다. 사람이 어떤 문장을 잘 번역하기 위해서는 그 문장에 대한 이해가 뒷받침되어야 하는 것처럼, 기계 역시 원 문장이 가진 의미를 제대로 인코딩해야 향상된 성능의 번역이 가능할 것이다. 본 논문에서는 뇌과학에서 뇌 동기화(Brain-to-brain coupling)라 일컫는 현상을 모방해, 출발어와 도착어의 공통된 의미를 인코딩하여 기계 번역 성능 향상에 도움을 줄 수 있는 이중 번역 기법을 소개한다.

  • PDF

벡터 양자화를 이용한 한국어 억양 곡선 생성 (Generation of Korean Intonation using Vector Quantization)

  • 안혜선;김형순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.209-212
    • /
    • 2001
  • 본 논문에서는 text-to-speech 시스템에서 사용할 억양 모델을 위해 벡터 양자화(vector quantization) 방식을 이용한다. 어절 경계강도(break index)는 세단계로 분류하였고, CART(Classification And Regression Tree)를 사용하여 어절 경계강도의 예측 규칙을 생성하였다. 예측된 어절 경계강도를 바탕으로 운율구를 예측하였으며 운율구는 다섯 개의 억양 패턴으로 분류하였다. 하나의 운율구는 정점(peak)의 시간축, 주파수축 값과 이를 기준으로 한 앞, 뒤 기울기를 추출하여 네 개의 파라미터로 단순화하였다. 운율구에 대해서 먼저 운율구가 문장의 끝일 경우와 아닐 경우로 분류하고, 억양 패턴 다섯 개로 분류하여. 모두 10개의 운율구 set으로 나누었다. 그리고 네 개의 파라미터를 가지고 있는 운율구의 억양 패턴을 벡터 양자화 방식을 이용하여 분류(clusteing)하였다 운율의 변화가 두드러지는 조사와 어미는 12 point의 기본주파수 값을 추출하고 벡터 양자화하였다. 운율구와 조사 어미의 codebook index는 문장에 대한 특징 변수 값을 추출하고 CART를 사용하여 예측하였다. 합성할 때에는 입력 tort에 대해서 운율구의 억양 파라미터를 추정한 다음, 조사와 어미의 12 point 기본주파수 값을 추정하여 전체 억양 곡선을 생성하였고 본 연구실에서 제작한 음성합성기를 통해 합성하였다.

  • PDF

ELMo 임베딩 기반 문장 중요도를 고려한 중심 문장 추출 방법 (Method of Extracting the Topic Sentence Considering Sentence Importance based on ELMo Embedding)

  • 김은희;임명진;신주현
    • 스마트미디어저널
    • /
    • 제10권1호
    • /
    • pp.39-46
    • /
    • 2021
  • 본 연구는 뉴스 기사에서 기사문을 구성하는 문장별 중요도를 고려하여 요약문을 추출하는 방법에 관한 것으로 문장 중요도에 영향을 주는 특성으로 중심 문장(Topic Sentence)일 확률, 기사 제목 및 다른 문장과의 유사도, 문장 위치에 따른 가중치를 추출하여 문장 중요도를 계산하는 방법을 제안한다. 이때, 중심 문장(Topic Sentence)은 일반 문장과는 구별되는 특징을 가질 것이라는 가설을 세우고, 딥러닝 기반 분류 모델을 학습시켜 입력 문장에 대한 중심 문장 확률값을 구한다. 또한 사전학습된 ELMo 언어 모델을 활용하여 문맥 정보를 반영한 문장 벡터값을 기준으로 문장간 유사도를 계산하여 문장 특성으로 추출한다. LSTM 및 BERT 모델의 중심 문장 분류성능은 정확도 93%, 재현율 96.22%, 정밀도 89.5%로 높은 분석 결과가 나왔으며, 이렇게 추출된 문장 특성을 결합하여 문장별 중요도를 계산한 결과, 기존 TextRank 알고리즘과 비교하여 중심 문장 추출 성능이 10% 정도 개선된 것을 확인할 수 있었다.

스탠포드 감성 트리 말뭉치를 이용한 감성 분류 시스템 (Sentiment Analysis System Using Stanford Sentiment Treebank)

  • 이성욱
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제39권3호
    • /
    • pp.274-279
    • /
    • 2015
  • 본 연구는 스탠포드 감성 트리 말뭉치를 이용하여 감성 분류 시스템을 구현하였으며, 분류기로는 지지벡터기계(Support Vector Machines)를 이용하여 긍정, 중립, 부정 등의 3가지 감성으로 분류하였다. 먼저 감성 문장의 품사를 부착한 후 의존구조를 부착하였다. 트리 말뭉치의 모든 노드와 감성 태그를 자동으로 추출하여 문장 레벨의 지지벡터 분류 시스템과 노드 레벨의 지지벡터 분류 시스템을 각각 구현하였다. 자질로는 어휘, 품사, 감성어휘, 의존관계, 형제관계 등 다양한 자질의 조합을 이용하였다. 평가 말뭉치를 이용하여 3클래스로 분류한 결과, 노드 단위에서는 74.2%, 문장 단위에서는 67.0%의 정확도를 얻었으나 2클래스 분류에서는 현재 알려진 최고의 시스템에 어느 정도 필적하는 성능을 거두었다.

LSA를 이용한 문장 상호 추천과 문장 성향 분석을 통한 문서 요약 (Document Summarization Using Mutual Recommendation with LSA and Sense Analysis)

  • 이동욱;백서현;박민지;박진희;정혜욱;이지형
    • 한국지능시스템학회논문지
    • /
    • 제22권5호
    • /
    • pp.656-662
    • /
    • 2012
  • 본 논문에서는 그래프기반 문장랭킹 방식인 문장 상호 추천과 문장의 주관, 객관 성향을 이용하는 문장 성향 분석을 혼합한 새로운 요약문 추출 방법에 대해서 기술한다. 문장 상호 추천에서는 문장을 단어벡터로 변환한 후에 LSA를 이용하여 문장과 문장 사이의 유사도 점수를 계산하였다. 이렇게 얻어진 유사도와 각 단어의 희귀도(Rarity Score)를 기반으로 문장과 문장 사이의 연결 강도를 정의하여, 그래프 기반 문장 랭킹 방식을 적용 하였다. 한편, 문장성향 분석에서는 주관, 객관 성향을 결정하기 위해서 기존의 Golden Standard 단어 성향 분류를 기반으로 워드넷을 확장하여 데이터베이스를 구축하였다. 이를 통해 각 단어들의 성향을 판단하고 단어들의 평균 성향을 문장의 전체 성향에 반영하여, 주관적 성향을 띄는 문장들을 선택하였다. 최종적으로 문장 상호 추천 결과와 문장 성향 분석 결과를 혼합하여 주어진 문서로부터 요약문을 추출하였다. 요약문 추출 기능의 객관적인 성능 평가를 위하여 추출된 요약문 토대로 한 분류게임을 실시하였고, 그 결과를 MS-Word에 포함된 문서 요약 기능과 비교함으로써, 제안한 모델의 효과성을 확인하였다.

가중치 부여 휴리스틱을 이용한 개념 기반 문서분류기 TAXON의 개선 (Improvement of A Concept-Based Text Categorization System(TAXON) Using Weight Determination Heuristic)

  • 강원석;강현규;김영섬
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.153-155
    • /
    • 1998
  • 본 논문에서는 개념을 기반으로 문서의 분류를 하는 확률벡터 모델의 분류기TAXON(Concept-based Text Categorization System)의 개선을 도모한다. TAXON은 한국어 문장을 분석하여 명사를 추출하고 명사의 개념을 시소러스 도구를 통해 획득한 후 이를 벡터화하여 주제와 입력 문서와의 관계성을 검사하는 문서 분류기이다. 본 논문은 문서 분류기 TAXON의 성능을 향상시키기 위하여 확률벡터 계산에 가중치 부여 휴리스틱을 도입한다. 그리고 시소러스 도구를 확장하여 문서 분류의 질을 높인다.

  • PDF