• 제목/요약/키워드: Tokenize

검색결과 6건 처리시간 0.032초

정치 도메인에서 신조어휘의 효과적인 추출 및 의미 분석에 대한 연구 (Study on Effective Extraction of New Coined Vocabulary from Political Domain Article and News Comment)

  • 이지현;김재홍;조예성;이민구;최혜봉
    • 문화기술의 융합
    • /
    • 제7권2호
    • /
    • pp.149-156
    • /
    • 2021
  • 정치적 사안에 대한 대중의 의견과 인식을 객관적으로 이해하기 위한 방법으로 텍스트 마이닝을 통한 빅데이터 분석을 수행할 수 있다. 기존 어휘 사전에 기반한 텍스트 마이닝 알고리즘은 신조어와 같이 사전에 수록되지 않은 어휘를 분석하는데 한계가 나타난다. SNS를 통해 나타나는 사용자들의 의견은 많은 경우 신조어와 비속어를 포함하는데, 이러한 어휘들을 효과적으로 분석하지 못한다면 정확한 대중의 인식과 의견을 파악하기 어렵게 된다. 본 논문은 정치 섹션의 뉴스 댓글로부터 정치적 의미성을 지니는 신조어와 비속어를 효과적으로 추출하는 방법을 제안하고, 추출한 신조어휘들의 의미와 맥락을 이해하기 위한 다양한 방법을 제시하였음.

CNN을 이용한 발화 주제 다중 분류 (Multi-labeled Domain Detection Using CNN)

  • 최경호;김경덕;김용희;강인호
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.56-59
    • /
    • 2017
  • CNN(Convolutional Neural Network)을 이용하여 발화 주제 다중 분류 task를 multi-labeling 방법과, cluster 방법을 이용하여 수행하고, 각 방법론에 MSE(Mean Square Error), softmax cross-entropy, sigmoid cross-entropy를 적용하여 성능을 평가하였다. Network는 음절 단위로 tokenize하고, 품사정보를 각 token의 추가한 sequence와, Naver DB를 통하여 얻은 named entity 정보를 입력으로 사용한다. 실험결과 cluster 방법으로 문제를 변형하고, sigmoid를 output layer의 activation function으로 사용하고 cross entropy cost function을 이용하여 network를 학습시켰을 때 F1 0.9873으로 가장 좋은 성능을 보였다.

  • PDF

CNN을 이용한 발화 주제 다중 분류 (Multi-labeled Domain Detection Using CNN)

  • 최경호;김경덕;김용희;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.56-59
    • /
    • 2017
  • CNN(Convolutional Neural Network)을 이용하여 발화 주제 다중 분류 task를 multi-labeling 방법과, cluster 방법을 이용하여 수행하고, 각 방법론에 MSE(Mean Square Error), softmax cross-entropy, sigmoid cross-entropy를 적용하여 성능을 평가하였다. Network는 음절 단위로 tokenize하고, 품사정보를 각 token의 추가한 sequence와, Naver DB를 통하여 얻은 named entity 정보를 입력으로 사용한다. 실험결과 cluster 방법으로 문제를 변형하고, sigmoid를 output layer의 activation function으로 사용하고 cross entropy cost function을 이용하여 network를 학습시켰을 때 F1 0.9873으로 가장 좋은 성능을 보였다.

  • PDF

Korean Patent ELECTRA : 한국 특허문헌 자연어처리 연구를 위한 사전 학습된 언어모델(KorPatELECTRA) (Korean Patent ELECTRA : a pre-trained Korean Patent language representation model for the study of Korean Patent natural language processing(KorPatELECTRA))

  • 민재옥;장지모;조유정;노한성
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.69-71
    • /
    • 2021
  • 특허분야에서 자연어처리 태스크는 특허문헌의 언어적 특이성으로 문제 해결의 난이도가 높은 과제임에 따라 한국 특허문헌에 최적화된 언어모델의 연구가 시급한 실정이다. 본 논문에서는 대량의 한국 특허문헌 데이터를 최적으로 사전 학습(pre-trained)한 Korean Patent ELECTRA 모델과 tokenize 방식을 제안하며 기존 범용 목적의 사전학습 모델과 비교 실험을 통해 한국 특허문헌 자연어처리에 대한 발전 가능성을 확인하였다.

  • PDF

페트리넷 기반의 ETL프로세스 모델링 (Petri net based ETL Process Modeling)

  • 정성재;최윤호;황종하;김동훈;이화식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1239-1241
    • /
    • 2015
  • ETL(Extraction, Transformation, Loading)작업은 데이터웨어하우스 시스템 구축 및 유지관리 뿐만 아니라 차세대 정보시스템 구축의 핵심 프로세스에 해당한다. 특히 차세대 정보시스템 구축에 있어서 ETL 작업의 성능은 시스템오픈의 성패를 좌우하는 중요한 요소이다. 일반적으로 차세대시스템 구축의 데이터 전환을 위해 수행되는 ETL작업은 대용량데이터에 대한 다양한 형태의 데이터변형 과정을 수반하며 반드시 정해진 시간안에 완료되어야 한다. 또한, 수 많은 원천 집합을 추출하여 타겟시스템의 형태에 맞게 변형 및 적재하는 작업은 한정된 컴퓨팅 자원내에서 수행되어야 한다. 따라서 자원성능을 고려한 ETL작업 스케줄 최적화는 데이터전환 작업에 있어 필수적인 고려사항이 된다. 이 연구에서는 가용한 물리자원을 최대한 활용하여 ETL 프로세스의 처리능(throughput)을 최대화 하는데 초점을 맞추어, ETL프로세스를 페트리넷을 이용해 모델링하는 기법을 제시한다. 이 모델에는 ETL 프로세스가 수행될 서버의 컴퓨팅자원이 토큰화(tokenize)되어 포함된다. 이 모델을 기반으로 가용자원을 최대한 활용하면서도 자원병목이 발생하지 않는 수준으로 ETL 작업이 수행될 수 있도록 프로세스를 제어할 수 있는 방안을 제시한다.

Patent Tokenizer: 형태소와 SentencePiece를 활용한 특허문장 토크나이즈 최적화 연구 (Patent Tokenizer: a research on the optimization of tokenize for the Patent sentence using the Morphemes and SentencePiece)

  • 박진우;민재옥;심우철;노한성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.441-445
    • /
    • 2020
  • 토큰화(Tokenization)는 사람이 작성한 자연어 문장을 기계가 잘 이해할 수 있도록 최소 단위인 토큰으로 분리하는 작업을 말하여, 이러한 토큰화는 자연어처리 전반적인 태스크들의 전처리에 필수적으로 사용되고 있다. 최근 자연어처리 분야에서 높은 성능을 보이며, 다양한 딥러닝 모델에 많이 활용되고 있는 SentencePiece 토큰화는 여러 단어에서 공통적으로 출현하는 부분단어들을 기준으로, BPE 알고리즘을 이용하여 문장을 압축 표현하는 토큰화 방법이다. 본 논문에서는 한국어 기반 특허 문헌의 초록 자연어 데이터를 기반으로 SentencePiece를 비롯한 여러 토큰화 방법에 대하여 소개하며, 해당 방법을 응용한 기계번역 (Neural Machine Translation) 태스크를 수행하고, 토큰화 방법별 비교 평가를 통해 특허 분야 자연어 데이터에 최적화된 토큰화 방법을 제안한다. 그리고 본 논문에서 제안한 방법을 사용하여 특허 초록 한-영 기계번역 태스크에서 성능이 향상됨을 보였다.

  • PDF