• 제목/요약/키워드: Word-embedding

검색결과 234건 처리시간 0.026초

A Study on the Performance Analysis of Entity Name Recognition Techniques Using Korean Patent Literature

  • Gim, Jangwon
    • 한국정보기술학회 영문논문지
    • /
    • 제10권2호
    • /
    • pp.139-151
    • /
    • 2020
  • Entity name recognition is a part of information extraction that extracts entity names from documents and classifies the types of extracted entity names. Entity name recognition technologies are widely used in natural language processing, such as information retrieval, machine translation, and query response systems. Various deep learning-based models exist to improve entity name recognition performance, but studies that compared and analyzed these models on Korean data are insufficient. In this paper, we compare and analyze the performance of CRF, LSTM-CRF, BiLSTM-CRF, and BERT, which are actively used to identify entity names using Korean data. Also, we compare and evaluate whether embedding models, which are variously used in recent natural language processing tasks, can affect the entity name recognition model's performance improvement. As a result of experiments on patent data and Korean corpus, it was confirmed that the BiLSTM-CRF using FastText method showed the highest performance.

다양한 앙상블 알고리즘을 이용한 한국어 의존 구문 분석 (Korean Dependency Parsing Using Various Ensemble Models)

  • 조경철;김주완;김균엽;박성진;강상우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.543-545
    • /
    • 2019
  • 본 논문은 최신 한국어 의존 구문 분석 모델(Korean dependency parsing model)들과 다양한 앙상블 모델(ensemble model)들을 결합하여 그 성능을 분석한다. 단어 표현은 미리 학습된 워드 임베딩 모델(word embedding model)과 ELMo(Embedding from Language Model), Bert(Bidirectional Encoder Representations from Transformer) 그리고 다양한 추가 자질들을 사용한다. 또한 사용된 의존 구문 분석 모델로는 Stack Pointer Network Model, Deep Biaffine Attention Parser와 Left to Right Pointer Parser를 이용한다. 최종적으로 각 모델의 분석 결과를 앙상블 모델인 Bagging 기법과 XGBoost(Extreme Gradient Boosting) 이용하여 최적의 모델을 제안한다.

  • PDF

의생명 분야의 개체명 인식에서 순환형 신경망과 조건적 임의 필드의 성능 비교 (Performance Comparison of Recurrent Neural Networks and Conditional Random Fields in Biomedical Named Entity Recognition)

  • 조병철;김유섭
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.321-323
    • /
    • 2016
  • 최근 연구에서 기계학습 중 지도학습 방법으로 개체명 인식을 하고 있다. 그러나 지도 학습 방법은 데이터를 만드는 비용과 시간이 많이 필요로 한다. 본 연구에서는 주석 된 말뭉치를 사용하여 지도 학습 방법을 사용 한다. 의생명 개체명 인식은 Protein, RNA, DNA, Cell type, Cell line 등을 포함한 텍스트 처리에 중요한 기초 작업입니다. 그리고 의생명 지식 검색에서 가장 기본과 핵심 작업 중 하나이다. 본 연구에서는 순환형 신경망과 워드 임베딩을 자질로 사용한 조건적 임의 필드에 대한 성능을 비교한다. 조건적 임의 필드에 N_Gram만을 자질로 사용한 것을 기준점으로 설정 하였고, 기준점의 결과는 70.09% F1 Score이다. RNN의 jordan type은 60.75% F1 Score, elman type은 58.80% F1 Score의 성능을 보여준다. 조건적 임의 필드에 CCA, GLOVE, WORD2VEC을 사용 한 결과는 각각 72.73% F1 Score, 72.74% F1 Score, 72.82% F1 Score의 성능을 얻을 수 있다.

  • PDF

단어 임베딩을 이용한 단위성 의존명사 분별 (Disambiguation of Counting Unit Noun using Word Embedding)

  • 이주상;옥철영
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.246-248
    • /
    • 2016
  • 단위성 의존명사는 수나 분량 따위를 나타내는 의존명사로 혼자 사용할 수 없으며 수사나 수관형사와 함께 사용하는 의존명사이다. 단위성 의존명사가 2가지 이상인 동형이의어의 경우 기존의 인접 어절을 이용한 동형이의어 분별 모델에서는 동형이의어 분별에 어려움이 있다. 본 논문에서는 단위성 의존명사 분별을 위해 단어 임베딩을 사용했으며 총 115,767개의 단어를 벡터로 표현하였으며 분별할 의존명사 주변에 등장한 명사들과의 유사도를 계산하여 단위성 의존명사를 분별하였다. 단어 임베딩을 이용한 단위성 의존명사 분별이 효과가 있음을 보았다.

  • PDF

워드임베딩을 이용한 온라인 비디오 강의의 고빈도 단어와 키워드 간의 유사도 비교 연구 (A Study on Comparative Analysis with High-Frequency Word and Keyword using Word Embedding)

  • 조재춘;임희석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.385-386
    • /
    • 2017
  • 무료 온라인 교육환경은 교육의 기회를 제공함으로써, 지속적으로 관심이 높아지고 있으며 배움에 대한 노력에 중시하고 있다. 따라서 본 연구는 배움에 대한 노력을 온라인에서 자동으로 판단할 수 있는 최소학습 판단 시스템을 제안해 왔다. 최소학습을 판단하기 위해 온라인 비디오 강의에서 고빈도 단어를 추출하여 단어게임을 통해 판단하는데, 이때 고빈도 단어가 최소학습을 판단하기 위한 키워드로 사용할 수 있는지에 대한 검증 실험이 요구되었다. 따라서 본 논문은 워드임베딩을 이용하여 고빈도 단어와 키워드간의 유사도를 비교하여 고빈도 단어에 대한 검증 실험을 실시하였다. 실험 결과, 고빈도 단어가 온라인 비디오 강의를 대표할 수 있는 키워드로 사용될 수 있는 긍정적인 결과를 보였고 최소 학습을 판단하기 위한 요소(Feature)로 충분히 사용가능함을 보였다.

단어 임베딩을 이용한 단위성 의존명사 분별 (Disambiguation of Counting Unit Noun using Word Embedding)

  • 이주상;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.246-248
    • /
    • 2016
  • 단위성 의존명사는 수나 분량 따위를 나타내는 의존명사로 혼자 사용할 수 없으며 수사나 수관형사와 함께 사용하는 의존명사이다. 단위성 의존명사가 2가지 이상인 동형이의어의 경우 기존의 인접 어절을 이용한 동형이의어 분별 모델에서는 동형이의어 분별에 어려움이 있다. 본 논문에서는 단위성 의존명사 분별을 위해 단어 임베딩을 사용했으며 총 115,767개의 단어를 벡터로 표현하였으며 분별할 의존명사 주변에 등장한 명사들과의 유사도를 계산하여 단위성 의존명사를 분별하였다. 단어 임베딩을 이용한 단위성 의존명사 분별이 효과가 있음을 보았다.

  • PDF

한국어에 적합한 단어 임베딩 모델 및 파라미터 튜닝에 관한 연구 (On Word Embedding Models and Parameters Optimized for Korean)

  • 최상혁;설진석;이상구
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.252-256
    • /
    • 2016
  • 본 논문에서는 한국어에 최적화된 단어 임베딩을 학습하기 위한 방법을 소개한다. 단어 임베딩이란 각 단어가 분산된 의미를 지니도록 고정된 차원의 벡터공간에 대응 시키는 방법으로, 기계번역, 개체명 인식 등 많은 자연어처리 분야에서 활용되고 있다. 본 논문에서는 한국어에 대해 최적의 성능을 낼 수 있는 학습용 말뭉치와 임베딩 모델 및 적합한 하이퍼 파라미터를 실험적으로 찾고 그 결과를 분석한다.

  • PDF

건설현장 안전 지적 사항 분석 (Vocabulary Analysis of Safety Warnings in Construction Site)

  • 강경수;류한국
    • 한국건축시공학회:학술대회논문집
    • /
    • 한국건축시공학회 2019년도 추계 학술논문 발표대회
    • /
    • pp.40-41
    • /
    • 2019
  • The purpose of this study is to analyze the vocabulary related to safety accidents based on the reports recorded on the violation of safety rules at the construction sites. We used Word2Vec and Topic Model as natural language processing techniques to analyze the safety accidents presented in the reports of the large enterprise. The words that appeared based on the occupational accident types such as the fall, falling objects, and others were derived and visualized. We derive the frequency and similarity of the words and topics of the accident that occur at the construction site. In future studies, we will be able to proceed with the generation of texts from pictures based on images and this reports.

  • PDF

Analysis of Hip-hop Fashion Codes in Contemporary Chinese Fashion

  • Sen, Bin;Haejung, Yum
    • 패션비즈니스
    • /
    • 제26권6호
    • /
    • pp.1-13
    • /
    • 2022
  • The purpose of this study was to find out the type of fashion codes hip-hop fashion has in contemporary Chinese fashion, and the frequency and characteristics of each fashion code. Text mining, which is the most basic analysis method in big data analyticswas used rather than traditional design element analysis. Specific results were as follows. First, hip-hop initially entered China in the late 1970s. The most historical turning point was the American film "Breakin". Second, frequency and word cloud analysis results showed that the "national tide" fashion code was the most notable code. Third, through word embedding analysis, fashion codes were divided into types of "original hip-hop codes", "trendy hip-hop codes", and "hip-hop codes grafted with traditional Chinese culture".

Profane or Not: Improving Korean Profane Detection using Deep Learning

  • Woo, Jiyoung;Park, Sung Hee;Kim, Huy Kang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권1호
    • /
    • pp.305-318
    • /
    • 2022
  • Abusive behaviors have become a common issue in many online social media platforms. Profanity is common form of abusive behavior in online. Social media platforms operate the filtering system using popular profanity words lists, but this method has drawbacks that it can be bypassed using an altered form and it can detect normal sentences as profanity. Especially in Korean language, the syllable is composed of graphemes and words are composed of multiple syllables, it can be decomposed into graphemes without impairing the transmission of meaning, and the form of a profane word can be seen as a different meaning in a sentence. This work focuses on the problem of filtering system mis-detecting normal phrases with profane phrases. For that, we proposed the deep learning-based framework including grapheme and syllable separation-based word embedding and appropriate CNN structure. The proposed model was evaluated on the chatting contents from the one of the famous online games in South Korea and generated 90.4% accuracy.