• Title/Summary/Keyword: 언어 식별

Search Result 161, Processing Time 0.022 seconds

Language Identification using Genetic Algorithms (유전자 알고리즘을 이용한 언어식별)

  • 전화성;정성원;장길진;오영환
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.520-522
    • /
    • 2000
  • 본 논문에서는 통계적인 언어 모델을 이용하여 한국어, 중국어, 스페인어를 식별할 수 있는 언어식별기를 구현하고, 유전자 알고리즘을 이용하여 그 성능을 향상시키는 방법에 대하여 연구를 수행하였다. 언어 모델은 통계적 모델의 하나인 바이그랜(bigram)을 이용하였고, 유전자 알고리즘으로 각 바이그램에 최적의 가중치를 주는 방법을 제안하였다. 유전자 코드는 두 가지 방법으로 평가하였으며, 각각의 성능을 경험적(heuristic)으로 주는 가중치와 비교평가하였다.

  • PDF

Discriminating User Attributes in Social Text based on Multi-Instance Learning (다중 인스턴스 학습 기반 사용자 프로파일 식별)

  • Song, Hyun-Je;Kim, A-Yeong;Park, Seong-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.47-52
    • /
    • 2012
  • 본 논문에서는 소셜 네트워크 서비스에서 사용자가 작성한 텍스트로부터 그 사용자 프로파일 식별하는 문제를 다룬다. 프로파일 식별 관련 기존 연구에서는 개별 텍스트를 하나의 학습 단위로 간주하고 이를 기반으로 학습 모델을 구축한다. 프로파일을 식별하고자 하는 사용자의 텍스트들이 주어지면 각 텍스트마다 프로파일을 식별하고, 식별된 결과들을 합쳐 최종 프로파일로 선택한다. 하지만 SNS 특성상 프로파일을 식별하는 데에 영향을 끼치지 않는 텍스트들이 다수 존재하며, 기존 연구들은 이 텍스트들을 특별한 처리없이 학습 및 테스트에 사용함으로 인해 프로파일 식별 성능이 저하되는 문제점이 있다. 본 논문에서는 다중 인스턴스 학습(Multi-Instance Learning)을 기반으로 사용자 프로파일을 식별한다. 제안한 방법은 사용자가 작성한 텍스트 전체, 즉 텍스트 집합을 학습 단위로 간주하고 다중 인스턴스 학습 문제로 변환하여 프로파일을 식별한다. 다중 인스턴스 학습을 사용함으로써 프로파일 식별에 유의미한 텍스트들만이 고려되고 그 결과 프로파일 식별에 영향을 끼치지 않는 텍스트로부터의 성능 하락을 최소화할 수 있다. 실험을 통해 제안한 방법이 기존 학습 방법보다 성별, 나이, 결혼/연애 상태를 식별함에 있어서 더 좋은 성능을 보인다.

  • PDF

Feature Selection for Chinese Named Entity Recognition using SVM (SVM을 이용한 중국어 고유명사 식별에서의 자질 선택)

  • Jin, Feng;Na, Seung-Hoon;Kang, In-Su;Li, Jin-Ji;Kim, Dong-Il;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.90-95
    • /
    • 2004
  • "고유명사 식별"은 사전에 등록되어 있지 않은 고유명사를 찾아내고 분류하는 과정으로 주로 인명, 지명, 조직 명을 처리 대상으로 한다. 처리할 데이터는 점점 많아지고 고유명사는 수시로 생겨나기 때문에 고유명사 식별은 정보검색, 질의응답, 기계번역시스템의 핵심 기술 중의 하나로 부각되었다. 고유명사 식별에 있어 정확률과 더불어 식별속도와 식별모듈의 크기가 시스템의 성능에 미치는 문제도 쟁점이 되고 있다. 본 논문에서는 SVM과 자질선택을 결합한 다양한 실험을 통하여 중국어 고유명사의 식별 효율을 높이는 방법을 연구하였다.

  • PDF

An algorithm for identification of zero pronouns in Korean (한국어 영형 대명사의 식별 알고리듬)

  • Yi, Chun-Suk;No, Yong-Kyoon
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.353-357
    • /
    • 1998
  • 이 논문은 대용어의 한 유형으로 인정되는 영형 대명사를 식별하기 위한 것이다. 이를 위해서는 한국어 통사 규칙들과 사전 항목들이 필요하다. 사전 항목들은 각각 자질과 값을 갖고, 통사 규칙 내부에는 이런 자질과 값들이 명세된다. 이 통사 규칙들을 토대로 하여, 발화체에 통사 구조들을 부여한다. 영형 대명사는 자질과 값을 명세한 통사 규칙을 씀으로써 식별이 가능하다. 영형 대명사는 주어와 보충어로 나뉘는데, 영형 주어는 동사가 머리인 S의 subj 자질 값이 cov(covert)일 때 식별된다. 영형 보충어는 다시 명사구와 동사구의 covc (covert complement) 자질 값이 0이 아닐 때 식별된다. 이러한 자질과 값으로 영형 대명사를 식별하는 하나의 알고리듬을 제안한다.

  • PDF

Character Identification on Multiparty Dialogues using Multimodal Features (멀티모달 자질을 활용한 다중 화자 대화 속 인물 식별)

  • Han, Kijong;Choi, Seong-Ho;Shin, Giyeon;Zhang, Byoung-Tak;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.215-219
    • /
    • 2018
  • 다중 화자 대화 속 인물 식별이란 여러 등장인물이 나오는 대본에서 '그녀', '아버지' 등 인물을 지칭하는 명사 또는 명사구가 실제 어떤 인물을 나타내는지 파악하는 문제이다. 대본 자연어 데이터만을 입력으로 하는 대화 속 인물 식별 문제는 드라마 대본에 대해서 데이터가 구축 되었고 이를 기반으로 여러 연구가 진행되었다. 그러나, 사람도 다중 화자 대화의 문장만 보고는 인물을 지칭하는 명사 또는 명사구가 실제 어떤 인물인지 파악하기 어려운 경우가 있다. 이에 본 논문에서는 발화가 되는 시점의 영상 장면 정보를 추가적으로 활용하여 인물 식별의 성능을 높이는 방법을 제시한다. 또한 기존 대화 속 인물 식별 연구들은 미리 정의된 인물을 대상으로 분류하는 형태로 접근해왔다. 이는 학습에 사용되지 않았던 인물이 나오는 임의의 다른 드라마 대본이나 대화 등에 바로 적용될 수 없다. 이에 본 논문에서는 영상 정보는 활용하되, 한번 학습하면 임의의 대본에 적용될 수 있도록 사전 인물 정보를 사용하지 않는 상호참조해결 기반의 인물 식별 방법도 제시한다.

  • PDF

Principle and Algorithm of Cloth Covering and Application to Script Identification (천 커버링의 원리와 알고리즘 그리고 언어 식별에 응용)

  • Kim, Min-Woo;Oh, Il-Seok
    • The Journal of the Korea Contents Association
    • /
    • v.12 no.3
    • /
    • pp.67-76
    • /
    • 2012
  • This paper proposes a concept and algorithm of cloth covering. It is a physically-based model which simulates computationally a shape of cloth covering some objects. The goal of cloth covering is to conceal the details of object and to reveal only the shape outline. It has one scale parameter which controls the degree of suppressing fine-scale structures. To show viability of the proposed cloth covering, this paper performed an experiment of script recognition. The results of comparing accuracies of feature extraction using Gaussian and cloth covering showed that the cloth covering is superior to Gaussian. We discuss the reason for the superiority.

Language Identification System using phoneme recognizer and phonotactic language model (음소인식기와 음소결합확률모델을 이용한 언어식별시스템)

  • Lee Dae-Seong;Kim Se-Hyun;Oh Yung-Hwan
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.73-76
    • /
    • 2001
  • 본 논문에서는 음소인식기와 음소결합확률모델을 이용하여 전화음성을 대상으로 입력음성이 어느 나라 말 인지를 식별할 수 있는 언어식별시스템을 구현하였고 성능을 실험하였다. 시스템은 음소인식기로 입력음성에 대한 음소열을 인식하는 과정, 인식된 음소열을 이용하여 인식대상 언어별 음소결합확률모델을 생성하는 훈련과정, 훈련과정에서 생성된 음소결합확률모델로부터 확률 값을 계산하여 인식결과를 출력하는 식별과정으로 구성된다. 본 논문에서는 음소결합확률모델로부터 우도를 계산할 때 정보이론(Information Theory, Shannon and Weaver, 1949)을 이용하여 가중치를 적용하는 방법을 제안하였다. 시스템의 훈련 및 실험에는 OGI 11개국어 전화음성 corpus (OGI-TS)를 사용하였으며, 음소인식기는 HTK를 이용하여 구현하였고 음소인식기 훈련에는 NTIMIT 전화음성 DB를 이용하였다. 실험결과 11개국어를 대상으로 45초 길이의 음성에 대해서 평균 $74.1\%$, 10초 길이의 음성에 대해서는 평균 $57.1\%$의 인식률을 얻을 수 있었다.

  • PDF

A Study on the Construction of Specialized NER Dataset for Personal Information Detection (개인정보 탐지를 위한 특화 개체명 주석 데이터셋 구축 및 분류 실험)

  • Hyerin Kang;Li Fei;Yejee kang;Seoyoon Park;Yeseul Cho;Hyeonmin Seong;Sungsoon Jang;Hansaem Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.185-191
    • /
    • 2022
  • 개인정보에 대한 경각심 및 중요성 증대에 따라 텍스트 내 개인정보를 탐지하는 태스크가 주목받고 있다. 본 연구에서는 개인정보 탐지 및 비식별화를 위한 개인정보 특화 개체명 태그셋 7개를 고안하는 한편 이를 바탕으로 비식별화된 원천 데이터에 가상의 데이터를 대치하고 개체명을 주석함으로써 개인정보 특화 개체명 데이터셋을 구축하였다. 개인정보 분류 실험에는 KR-ELECTRA를 사용하였으며, 실험 결과 일반 개체명 및 정규식 바탕의 규칙 기반 개인정보 탐지 성능과 비교하여 특화 개체명을 활용한 딥러닝 기반의 개인정보 탐지가 더 높은 성능을 보임을 확인하였다.

  • PDF

100 K-Poison: Poisonous Texts Resistance Test Dataset For Korean Generative Models (100 K-Poison: 한국어 생성 모델을 위한 독성 텍스트 저항력 검증 데이터셋 )

  • Li Fei;Yejee Kang;Seoyoon Park;Yeonji Jang;Hansaem Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.149-154
    • /
    • 2023
  • 본고는 한국어 생성 모델의 독성 텍스트 저항 능력을 검증하기 위해 'CVALUE' 데이터셋에서 추출한 고난도 독성 질문-대답 100쌍을 바탕으로 한국어 생성 모델을 위한 '100 K-Poison' 데이터셋을 시범적으로 구축했다. 이 데이터셋을 토대로 4가지 대표적인 한국어 생성 모델 'ZeroShot TextClassifcation'과 'Text Generation7 실험을 진행함으로써 현재 한국어 생성 모델의 독성 텍스트 식별 및 응답 능력을 종합적으로 고찰했고, 모델 간의 독성 텍스트 저항력 격차 현상을 분석했으며, 앞으로 한국어 생성 모델의 독성 텍스트 식별 및 웅대 성능을 한층 더 강화하기 위한 '이독공독(以毒攻毒)' 학습 전략을 새로 제안하였다.

  • PDF

Named Entity Detection Using Generative Al for Personal Information-Specific Named Entity Annotation Conversation Dataset (개인정보 특화 개체명 주석 대화 데이터셋 기반 생성AI 활용 개체명 탐지)

  • Yejee Kang;Li Fei;Yeonji Jang;Seoyoon Park;Hansaem Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.499-504
    • /
    • 2023
  • 본 연구에서는 민감한 개인정보의 유출과 남용 위험이 높아지고 있는 상황에서 정확한 개인정보 탐지 및 비식별화의 효율을 높이기 위해 개인정보 항목에 특화된 개체명 체계를 개발하였다. 개인정보 태그셋이 주석된 대화 데이터 4,981세트를 구축하고, 생성 AI 모델을 활용하여 개인정보 개체명 탐지 실험을 수행하였다. 실험을 위해 최적의 프롬프트를 설계하여 퓨샷러닝(few-shot learning)을 통해 탐지 결과를 평가하였다. 구축한 데이터셋과 영어 기반의 개인정보 주석 데이터셋을 비교 분석한 결과 고유식별번호 항목에 대해 본 연구에서 구축한 데이터셋에서 더 높은 탐지 성능이 나타났으며, 이를 통해 데이터셋의 필요성과 우수성을 입증하였다.

  • PDF