• 제목/요약/키워드: 문장 벡터

검색결과 146건 처리시간 0.024초

지지 벡터 기계와 토픽 시그너처를 이용한 댓글 분류 시스템 언어에 독립적인 댓글 분류 시스템 (Comments Classification System using Support Vector Machines and Topic Signature)

  • 배민영;은지현;장두성;차정원
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.263-266
    • /
    • 2009
  • 댓글은 일반적인 글에 비해 작성가능한 문장의 길이가 짧고, 띄어쓰기나 마침표를 잘 쓰지 않는 등 비정형화된 형식 구조를 가진다. 이러한 댓글의 악성 여부를 판별하기 위하여 본 논문에서는 문장을 n-gram으로 나누고 문서요약이나 문서분류에서 자질 선택에 많이 사용되는 토픽 시그너처(Topic Signature)를 이용하여 자질을 추출한다. 또한 지지 벡터 기계(Support Vector Machines)을 사용하여 댓글의 악성 여부를 판별한다. 본 논문에서는 한글과 영어 댓글에 대한 악성 여부를 판별하는 실험을 통하여 복잡한 전처리과정을 요구하는 기존에 제안된 방법들 보다 우수한 성능을 보이는 것을 확인할 수 있었다.

  • PDF

FVQ(Fuzzy Vector Quantization) 사상화에 의한 화자적응 음성합성 (Speaker-Adaptive Speech Synthesis by Fuzzy Vector Quantization Mapping)

  • 이진이;이광형
    • 한국지능시스템학회논문지
    • /
    • 제3권4호
    • /
    • pp.3-20
    • /
    • 1993
  • 본 연구에서는 퍼지사상화(fuzzy mapping)에 의한 사상된(mapped) 코드북을 사용하는 화자적은 음성합성 알고리즘을 제안한다. 입력화자와 기준화자의 코드북은 신경망 클러스터링 알고리즘인 자율경쟁 학습을 사용하여 작성된다. 사상된 코드북은 입력 음성벡터에 대한 두 화자의 대응 코드벡터의 소속갑(membership value)으로 퍼지 히스토그랩을 작성하여 이들을 1차 결합함으로써 얻어지는 퍼지사상화에 의하여 작성된다. 음성합성시에는 사상된 코드북을 사용하여 입력화자의 음것을 퍼지 벡터양자화한 다음, CFM 연산으로 합성함으로써 입력화자에 적응된 합성음을 얻는다. 실험에서 여러 입력화자로 30대의 남성, 20대의 여성음을 사용하였고 기준음석으로 입력음성과는 다른 20대의 여성음성을 사용하였다.실험에 사용된 음성데이타는 문장/안녕하십니까/와/굿모닝/이다. 실험결과는 각각의 입력화자에 기준화자 음성이 적응된 합성음을 얻었다.

  • PDF

임베딩 자질을 이용한 대화의 감정 분류 (Emotion Classification in Dialogues Using Embedding Features)

  • 신동원;이연수;장정선;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.109-114
    • /
    • 2015
  • 대화 시스템에서 사용자 발화에 대한 감정 분석은 적절한 시스템 응답과 서비스를 제공하는데 있어 매우 중요한 정보이다. 본 연구에서는 단순한 긍, 부정이 아닌 분노, 슬픔, 공포, 기쁨 등 Plutchick의 8 분류 체계에 해당하는 상세한 감정을 분석 하는 데 있어, 임베딩 모델을 사용하여 기존의 어휘 자질을 효과적으로 사용할 수 있는 새로운 방법을 제안한다. 또한 대화 속에서 발생한 감정의 지속성을 반영하기 위하여 문장 임베딩 벡터와 문맥 임베딩 벡터를 자질로서 이용하는 방법에 대해 제안한다. 실험 결과 제안하는 임베딩 자질은 특히 내용어에 대해 기존의 어휘 자질을 대체할 수 있으며, 데이터 부족 문제를 다소 해소하여 성능 향상에 도움이 되는 것으로 나타났다.

  • PDF

지지벡터기계(Support Vector Machines)를 이용한 한국어 화행분석 (An analysis of Speech Acts for Korean Using Support Vector Machines)

  • 은종민;이성욱;서정연
    • 정보처리학회논문지B
    • /
    • 제12B권3호
    • /
    • pp.365-368
    • /
    • 2005
  • 본 연구에서는 지지 벡터 기계(Support Vector Machines)를 이용하여 한국어 대화의 화행을 분석하는 방법을 제안한다. 우리는 발화의 어휘 및 품사와 이진 품사 쌍을 문장 자질로 사용하고 이전 발화의 문맥을 문맥 발화로 사용한다. 카이 제곱 통계량을 이용해 적절한 자질을 선택하고 선택된 자질로 지지 벡터 기계를 학습하였다. 학습된 지지 벡터 기계 분류기를 이용하여 각 발화의 화행을 분석하였다. 호텔 예약 영역의 말뭉치에 대해 제안된 시스템을 이용하여 실험한 결과 약 $90.54\%$의 정확률을 얻었다.

한국어 문법관계에 대한 부분구문 분석 (Shallow Parsing on Grammatical Relations in Korean Sentences)

  • 이성욱;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권10호
    • /
    • pp.984-989
    • /
    • 2005
  • 본 연구의 목적은 한국어 문장의 문법관계를 분석하는 데 있다. 주된 문제는 문장의 주어, 목적어, 부사어를 문장에서 찾아내는 것이다. 이 문제를 해결하기 위해서 한국어 구문 분석에서 발생하는 여러 중의성을 고려해야 한다. 우리는 문법관계의 중의성을 먼저 해결하고 그 다음에 주어진 명사구와 용언구의 문법관계 확률을 이용하여 용언구의 술어-논항 관계 중의성을 해소하는 통계적 방법을 제안한다. 제안된 방법은 어절간의 거리, 교차구조 금지, 일문일격의 원칙 둥의 한국어 언어 특성을 반영하였다. 용언구와 명사구 사이의 문법관계에 대한 확률은 지지벡터 분류기를 이용하여 추정하였다. 제안된 방법은 문법관계 및 구문구조 부착 말뭉치를 이용하여 자동으로 문법관계를 학습하였고 주어, 목적어, 부사 각각의 문법관계분석에 대해 각각 $84.8\%,\;94.1\%,\;84.8\%$의 성능을 얻었다.

문장 독립 화자 검증을 위한 그룹기반 화자 임베딩 (Group-based speaker embeddings for text-independent speaker verification)

  • 정영문;엄영식;이영현;김회린
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.496-502
    • /
    • 2021
  • 딥러닝 기반의 심층 화자 임베딩 방식은 최근 문장 독립 화자 검증 연구에 널리 사용되고 있으며, 기존의 i-vector 방식에 비해 더 좋은 성능을 보이고 있다. 본 연구에서는 심층 화자 임베딩 방식을 발전시키기 위하여, 화자의 그룹 정보를 도입한 그룹기반 화자 임베딩을 제안한다. 훈련 데이터 내에 존재하는 전체 화자들을 정해진 개수의 그룹으로 비지도 클러스터링 하며, 고정된 길이의 그룹 임베딩 벡터가 각각의 그룹을 대표한다. 그룹 결정 네트워크가 각 그룹에 대응되는 그룹 가중치를 출력하며, 이를 이용한 그룹 임베딩 벡터들의 가중 합을 통해 집합 그룹 임베딩을 추출한다. 최종적으로 집합 그룹 임베딩을 심층 화자 임베딩에 더해주어 그룹기반 화자 임베딩을 생성한다. 이러한 방식을 통해 그룹 정보를 심층 화자 임베딩에 도입함으로써, 화자 임베딩이 나타낼 수 있는 전체 화자의 검색 공간을 줄일 수 있고, 이를 통해 화자 임베딩은 많은 수의 화자를 유연하게 표현할 수 있다. VoxCeleb1 데이터베이스를 이용하여 본 연구에서 제안하는 방식이 기존의 방식을 개선시킨다는 것을 확인하였다.

A study on the Extraction of Similar Information using Knowledge Base Embedding for Battlefield Awareness

  • Kim, Sang-Min;Jin, So-Yeon;Lee, Woo-Sin
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권11호
    • /
    • pp.33-40
    • /
    • 2021
  • 고도화된 무기체계와 복잡한 전략으로 인하여 지휘관이 분석하고 판단해야 할 정보의 복잡도가 증가하고 있다. 지휘관의 적시적 판단을 위해서 전장의 정보를 지식화하고 분석할 수 있는 지능형 서비스가 필요하다. 지능형 서비스는 전장상황 정보로부터 지식을 추출하는 단계와 지식베이스를 구축하는 단계, 지식베이스로부터 전장상황을 분석하는 단계로 구성된다. 본 논문은 두 번째 단계에서 구축 완료된 지식베이스를 임베딩함으로써 입력 쿼리와 유사한 정보를 추출하는 방안을 연구한다. 지식베이스 임베딩을 위해 문장화 과정이 필요하며 random-walk 알고리즘을 적용한다. 문장화된 정보는 Word2Vec을 활용하여 벡터화되고 코사인 유사도를 통해 입력 쿼리와 유사한 정보를 찾는다. 본 논문에서는 오픈 지식베이스로부터 98개 개체를 기준으로 980개의 문장을 생성하고 100차원의 벡터로 임베딩함으로써 코사인 유사도 기반 유사 개체가 추출됨을 확인했다.

문장 감정 강도를 반영한 개선된 자질 가중치 기법 기반의 문서 감정 분류 시스템 (A Document Sentiment Classification System Based on the Feature Weighting Method Improved by Measuring Sentence Sentiment Intensity)

  • 황재원;고영중
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권6호
    • /
    • pp.491-497
    • /
    • 2009
  • 본 논문은 한국어 문서감정 분류에서 각 문장의 감정 정도의 차이를 고려하여 자질의 가중치를 계산하는 방법을 제안한다. 감정자질은 어휘 자원으로서 감정을 가지는 단어들의 집합이며, 학습데이터를 이용하여 이 감정자질의 카이제곱 통계량 값(${\chi}^2$ statistic)을 얻을 수 있다. 이렇게 얻어진 카이제곱 통계량 값으로 문서에서 출현한 각 문장의 감정강도를 수치화 할 수 있다. 각 문장의 감정강도는 문서에서 가장 강한 감정을 가진 문장에 근한 비율로 계산되며, 이 값을 TF-IDF 가중치 기법에 적용하여 최종적인 자질의 가중치를 결정하게 된다. 그리고 일반적으로 문서 분류에서 뛰어난 성능을 보여주는 지지벡터기계(Support Vector Machine)를 사용하여 기계학습을 수행한 후 성능을 평가한다. 성능평가에서 제안된 기법은 문장감정의 강도를 고려하지 않은 내용어(Content Word) 기반의 자질을 사용한 경우보다 약 2.0%의 성능향상을 얻었다.

VAE를 이용한 의미적 연결 관계 기반 다중 문서 요약 기법 (Multi-Document Summarization Method Based on Semantic Relationship using VAE)

  • 백수진
    • 디지털융복합연구
    • /
    • 제15권12호
    • /
    • pp.341-347
    • /
    • 2017
  • 많은 양의 문서 데이터가 증가됨에 따라 사용자는 해당 문서를 이해하기 위한 요약된 정보를 필요로 한다. 그러나, 기존 문서 요약 연구 방법들은 지나치게 단순한 통계에 의존함으로써 문장의 모호성 및 의미 있는 문장 생성을 위한 다중 문서 요약 연구가 미흡한 실정이다. 본 논문에서는 의미적 연결 관계에 대한 파악 및 불필요한 정보를 처리하기 위한 전처리 과정을 거치며, 어휘 의미 패턴 정보를 기반으로 VAE를 이용하여 문장 간의 의미적 연결성을 높인 다중 문서 요약 기법을 제안하였다. 문장을 이루고 있는 단어 벡터들을 이용하여, 잠재된 변수로 생성된 압축된 정보와 속성 판별기로부터 학습을 한 후 문장을 재구성함으로써 의미적 연결 처리가 자연스러운 요약문을 생성하였다. 제안된 방법과 다른 문서 요약 방법을 비교했을 시 미세하지만 더 향상된 성능을 나타냈으며, 이는 의미적 문장 생성 및 연결성을 높일 수 있음을 증명하였다. 앞으로, 다양한 속성 설정 값을 가지고 실험하여 의미적 연결 관계를 확장할 수 있는 방법을 연구하고자 한다.

듀얼 SMS 스팸 필터링: 그래프 기반 자질 가중치 기법 (Dual SMS SPAM Filtering: A Graph-based Feature Weighting Method)

  • 황재원;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.95-99
    • /
    • 2014
  • 본 논문에서는 최근 급속히 증가하여 사회적 이슈가 되고 있는 SMS 스팸 필터링을 위한 듀얼 SMS 스팸필터링 기법을 제안한다. 지속적으로 증가하고 새롭게 변형되는 SMS 문자 필터링을 위해서는 패턴 및 스팸 단어 사전을 통한 필터링은 많은 수작업을 요구하여 부적합하다. 그리하여 기계 학습을 이용한 자동화 시스템 구축이 요구되고 있으며, 효과적인 기계 학습을 위해서는 자질 선택과 자질의 가중치 책정 방법이 중요하다. 하지만 SMS 문자 특성상 문장들이 짧기 때문에 출현하는 자질의 수가 적어 분류의 어려움을 겪게 된다. 이 같은 문제를 개선하기 위하여 본 논문에서는 슬라이딩 윈도우 기반 N-gram 확장을 통해 자질을 확장하고, 확장된 자질로 그래프를 구축하여 얕은 구조적 특징을 표현한다. 학습 데이터에 출현한 N-gram 자질을 정점(Vertex)으로, 자질의 출현 빈도를 그래프의 간선(Edge)의 가중치로 설정하여 햄(HAM)과 스팸(SPAM) 그래프를 각각 구성한다. 이렇게 구성된 그래프를 바탕으로 노드의 중요도와 간선의 가중치를 활용하여 최종적인 자질의 가중치를 결정한다. 입력 문자가 도착하면 스팸과 햄의 그래프를 각각 이용하여 입력 문자의 2개의 자질 벡터(Vector)를 생성한다. 생성된 자질 벡터를 지지 벡터 기계(Support Vector Machine)를 이용하여 각 SVM 확률 값(Probability Score)을 얻어 스팸 여부를 결정한다. 3가지의 실험환경에서 바이그램 자질과 이진 가중치를 사용한 기본 시스템보다 F1-Score의 약 최대 2.7%, 최소 0.5%까지 향상되었으며, 결과적으로 평균 약 1.35%의 성능 향상을 얻을 수 있었다.

  • PDF