• 제목/요약/키워드: CBOW 모델

검색결과 5건 처리시간 0.02초

과학의 본성 관련 문헌들의 단어수준 워드임베딩 모델 적용 가능성 탐색 -정성적 성능 평가를 중심으로- (The Study on Possibility of Applying Word-Level Word Embedding Model of Literature Related to NOS -Focus on Qualitative Performance Evaluation-)

  • 김형욱
    • 과학교육연구지
    • /
    • 제46권1호
    • /
    • pp.17-29
    • /
    • 2022
  • 본 연구의 목적은 NOS 관련 주제를 대상으로 컴퓨터가 얼마나 효율적이고 타당하게 학습할 수 있는지에 대하여 정성적으로 탐색하고자 한 연구이다. 이를 위해 NOS와 관련되는 문헌(논문초록 920편)을 중심으로 말뭉치를 구성하였으며, 최적화된 Word2Vec (CBOW, Skip-gram)모델의 인자를 확인하였다. 그리고 NOS의 4가지 영역(Inquiry, Thinking, Knowledge, STS)에 따라 단어수준 워드임베딩 모델 비교평가를 수행하였다. 연구 결과, 선행연구와 사전 성능 평가에 따라 CBOW 모델은 차원 200, 스레드 수 5, 최소빈도수 10, 반복횟수 100, 맥락범위 1로 결정되었으며, Skip-gram 모델은 차원수 200, 스레드 수 5, 최소빈도수 10, 반복횟수 200, 맥락범위 3으로 결정되었다. NOS의 4가지 영역에 적용하여 확인한 모델별 유사도가 높은 단어의 종류는 Skip-gram 모델이 Inquiry 영역에서 성능이 좋았다. Thinking 및 Knowledge 영역에서는 두 모델별 임베딩 성능 차이는 나타나지 않았으나, 각 모델별 유사도가 높은 단어의 경우 상호 영역 명을 공유하고 있어 제대로 된 학습을 하기 위해 다른 모델의 추가 적용이 필요해 보였다. STS 영역에서도 지나치게 문제 해결과 관련된 단어를 나열하면서 포괄적인 STS 요소를 탐색하기에 부족한 임베딩 성능을 지닌 것으로 평가되었다. 본 연구를 통해 NOS 관련 주제를 컴퓨터에게 학습시켜 과학교육에 활용할 수 있는 모델과 인공지능 활용에 대한 전반적인 시사점을 줄 수 있을 것으로 기대된다.

Word Embedding 자질을 이용한 한국어 개체명 인식 및 분류 (Korean Named Entity Recognition and Classification using Word Embedding Features)

  • 최윤수;차정원
    • 정보과학회 논문지
    • /
    • 제43권6호
    • /
    • pp.678-685
    • /
    • 2016
  • 한국어 개체명 인식에 다양한 연구가 있었지만, 영어 개체명 인식에 비해 자질이 부족한 문제를 가지고 있다. 본 논문에서는 한국어 개체명 인식의 자질 부족 문제를 해결하기 위해 word embedding 자질을 개체명 인식에 사용하는 방법을 제안한다. CBOW(Continuous Bag-of-Words) 모델을 이용하여 word vector를 생성하고, word vector로부터 K-means 알고리즘을 이용하여 군집 정보를 생성한다. word vector와 군집 정보를 word embedding 자질로써 CRFs(Conditional Random Fields)에 사용한다. 실험 결과 TV 도메인과 Sports 도메인, IT 도메인에서 기본 시스템보다 각각 1.17%, 0.61%, 1.19% 성능이 향상되었다. 또한 제안 방법이 다른 개체명 인식 및 분류 시스템보다 성능이 향상되는 것을 보여 그 효용성을 입증했다.

Sent2Vec 문장 임베딩을 통한 한국어 유사 문장 판별 구현 (Implementation of Korean Sentence Similarity using Sent2Vec Sentence Embedding)

  • 박상길;신명철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.541-545
    • /
    • 2018
  • 본 논문에서는 Sent2Vec을 이용한 문장 임베딩으로 구현한 유사 문장 판별 시스템을 제안한다. 또한 한국어 특성에 맞게 모델을 개선하여 성능을 향상시키는 방법을 소개한다. 고성능 라이브러리 구현과 제품화 가능한 수준의 완성도 높은 구현을 보였으며, 자체 구축한 평가셋으로 한국어 특성을 반영한 모델에 대한 P@1 평가 결과 Word2Vec CBOW에 비해 9.25%, Sent2Vec에 비해 1.93% 더 높은 성능을 보였다.

  • PDF

이상 탐지를 위한 시스템콜 시퀀스 임베딩 접근 방식 비교 (Comparison of System Call Sequence Embedding Approaches for Anomaly Detection)

  • 이근섭;박경선;김강석
    • 융합정보논문지
    • /
    • 제12권2호
    • /
    • pp.47-53
    • /
    • 2022
  • 최근 지능화된 보안 패러다임의 변화에 따라, 다양한 정보보안 시스템에서 발생하는 각종 정보를 인공지능 기반 이상탐지에 적용하기 위한 연구가 증가하고 있다. 따라서 본 연구는 로그와 같은 시계열 데이터를 수치형 특성인 벡터로 변환하기 위하여 딥러닝 기반 Word2Vec 모델의 CBOW와 Skip-gram 추론 방식과 동시발생 빈도 기반 통계 방식을 사용하여 공개된 ADFA 시스템콜 데이터에 대하여, 벡터의 차원, 시퀀스 길이 및 윈도우 사이즈를 고려한 다양한 임베딩 벡터로의 변환에 대한 실험을 진행하였다. 또한 임베딩 모델로 생성된 벡터를 입력으로 하는 GRU 기반 이상 탐지 모델을 통해 탐지 성능뿐만 아니라 사용된 임베딩 방법들의 성능을 비교 평가하였다. 통계 모델에 비해 추론 기반 모델인 Skip-gram이 특정 윈도우 사이즈나 시퀀스 길이에 치우침 없이 좀 더 안정되게(stable) 성능을 유지하여, 시퀀스 데이터의 각 이벤트들을 임베딩 벡터로 만드는데 더 효과적임을 확인하였다.

CNN을 적용한 한국어 상품평 감성분석: 형태소 임베딩을 중심으로 (Sentiment Analysis of Korean Reviews Using CNN: Focusing on Morpheme Embedding)

  • 박현정;송민채;신경식
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.59-83
    • /
    • 2018
  • 고객과 대중의 니즈를 파악하기 위한 감성분석의 중요성이 커지면서 최근 영어 텍스트를 대상으로 다양한 딥러닝 모델들이 소개되고 있다. 본 연구는 영어와 한국어의 언어적인 차이에 주목하여 딥러닝 모델을 한국어 상품평 텍스트의 감성분석에 적용할 때 부딪히게 되는 기본적인 이슈들에 대하여 실증적으로 살펴본다. 즉, 딥러닝 모델의 입력으로 사용되는 단어 벡터(word vector)를 형태소 수준에서 도출하고, 여러 형태소 벡터(morpheme vector) 도출 대안에 따라 감성분석의 정확도가 어떻게 달라지는지를 비정태적(non-static) CNN(Convolutional Neural Network) 모델을 사용하여 검증한다. 형태소 벡터 도출 대안은 CBOW(Continuous Bag-Of-Words)를 기본적으로 적용하고, 입력 데이터의 종류, 문장 분리와 맞춤법 및 띄어쓰기 교정, 품사 선택, 품사 태그 부착, 고려 형태소의 최소 빈도수 등과 같은 기준에 따라 달라진다. 형태소 벡터 도출 시, 문법 준수도가 낮더라도 감성분석 대상과 같은 도메인의 텍스트를 사용하고, 문장 분리 외에 맞춤법 및 띄어쓰기 전처리를 하며, 분석불능 범주를 포함한 모든 품사를 고려할 때 감성분석의 분류 정확도가 향상되는 결과를 얻었다. 동음이의어 비율이 높은 한국어 특성 때문에 고려한 품사 태그 부착 방안과 포함할 형태소에 대한 최소 빈도수 기준은 뚜렷한 영향이 없는 것으로 나타났다.