• 제목/요약/키워드: 한글인명

검색결과 36건 처리시간 0.02초

자동 구축된 문맥 패턴과 개체명 사전에 기반한 제목 개체명 인식 (Title Named Entity Recognition based on Automatically Constructed Context Patterns and Entity Dictionary)

  • 이주영;송영인;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.40-45
    • /
    • 2004
  • 본 논문에서는 영화명, 도서명, 음악명 등의 제목 개체명 인식을 위한 새로운 방법에 대해 기술한다. 제목 개체명은 개체명 내부에 기존 MUC에서 분류한 인명, 지명, 기관명 등과 같은 일반적인 개체명과는 달리, 철자 자질 등 내부 자질을 사용하기 어려우며, 제목 개체명 부착 말뭉치가 없기 때문에 기존 연구에서 좋은 성능을 보인 방법들을 적용하기는 힘들다. 이러한 문제를 해결하기 위해 본 논문에서는 원시 말뭉치에서 자동으로 구축한 문맥 패턴 정보와 개체명 사전을 사용하여 제목 개체명을 인식하는 방법을 제안한다. 패턴과 제목 개체명 사전 구축을 위해, 사전 정보를 이용한 패턴 확장과 이렇게 구축된 패턴 정보를 사용한 사전 확장 단계를 반복 수행하여 문맥 패턴과 제목 개체명 사진을 점진적으로 증가시키는 방법을 사용하였으며, 이러한 정보가 제목 개체명 인식에 도움이 됨을 실험적으로 입증하였다.

  • PDF

SVM을 이용한 중국어 고유명사 식별에서의 자질 선택 (Feature Selection for Chinese Named Entity Recognition using SVM)

  • 김풍;나승훈;강인수;리금희;김동일;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.90-95
    • /
    • 2004
  • "고유명사 식별"은 사전에 등록되어 있지 않은 고유명사를 찾아내고 분류하는 과정으로 주로 인명, 지명, 조직 명을 처리 대상으로 한다. 처리할 데이터는 점점 많아지고 고유명사는 수시로 생겨나기 때문에 고유명사 식별은 정보검색, 질의응답, 기계번역시스템의 핵심 기술 중의 하나로 부각되었다. 고유명사 식별에 있어 정확률과 더불어 식별속도와 식별모듈의 크기가 시스템의 성능에 미치는 문제도 쟁점이 되고 있다. 본 논문에서는 SVM과 자질선택을 결합한 다양한 실험을 통하여 중국어 고유명사의 식별 효율을 높이는 방법을 연구하였다.

  • PDF

모바일 기기에서 일정 관리를 위한 개체명 인식 (Named Entity Recognition for Schedule Management in Mobile Devices)

  • 장은서;강승식;이재원;김도현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.171-174
    • /
    • 2013
  • 본 논문은 모바일 기기에서 일정을 메모하거나 음성 인식 등의 인터페이스로부터 일정 관리, 약속과 관련된 문구가 입력되었을 때 입력 문자열로부터 개체명을 인식하여 시간, 장소, 참석자 등을 일정 관리 시스템에 자동으로 등록하는 개체명 인식 시스템을 개발하는 방법에 관한 연구이다. 일정 관리의 편의성을 위한 개체명 인식 시스템을 개발하기 위하여 개체명 사전을 구축하고, 자연어 처리 기술을 이용하여 정확하고 향후 발전 가능성이 높은 시스템을 개발하고자 한다.

  • PDF

품사 임베딩과 음절 단위 개체명 분포 기반의 Bidirectional LSTM CRFs를 이용한 개체명 인식 (Named Entity Recognition Using Bidirectional LSTM CRFs Based on the POS Tag Embedding and the Named Entity Distribution of Syllables)

  • 유홍연;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.105-110
    • /
    • 2016
  • 개체명 인식이란 문서 내에서 인명, 기관명, 지명, 시간, 날짜 등 고유한 의미를 가지는 개체명을 추출하여 그 종류를 결정하는 것을 말한다. 최근 개체명 인식 연구에서는 bidirectional LSTM CRFs가 가장 우수한 성능을 보여주고 있다. 하지만 LSTM 기반의 딥 러닝 모델은 입력이 되는 단어 표상에 의존적이기 때문에 입력이 되는 단어 표상을 확장하는 방법에 대한 연구가 많이 진행되어지고 있다. 본 논문에서는 한국어 개체명 인식을 위하여 bidirectional LSTM CRFs모델을 사용하고, 그 입력으로 사용되는 단어 표상을 확장하기 위해 사전 학습된 단어 임베딩 벡터, 품사 임베딩 벡터, 그리고 음절 기반에서 확장된 단어 임베딩 벡터를 사용한다. 음절 기반에서 단어 기반 임베딩 벡터로 확장하기 위하여 bidirectional LSTM을 이용하고, 그 입력으로 학습 데이터에서 추출한 개체명 분포를 이용하였다. 그 결과 사전 학습된 단어 임베딩 벡터만 사용한 것보다 4.93%의 성능 향상을 보였다.

  • PDF

딥러닝 기반의 개체명 인식을 위한 효과적인 사전 자질 사용 방법 (How to Use Effective Dictionary Feature for Deep Learning based Named Entity Recognition)

  • 김홍진;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.293-296
    • /
    • 2019
  • 개체명 인식은 입력 문장에서 인명, 지명, 기관명, 날짜, 시간과 같이 고유한 의미를 갖는 단어들을 찾아 개체명을 부착하는 기술이다. 최근 개체명 인식기는 형태소 단위나 음절 단위의 입력을 사용하는 연구가 주로 진행되고 있다. 그러나 형태소 단위 개체명 인식은 미등록어를 처리하지 못하는 문제점이 존재하고 음절 단위 개체명 인식은 단어의 의미를 제대로 반영하지 못하는 문제점이 존재한다. 본 논문에서는 이 문제점을 보완하기 위해 품사 정보를 활용한 음절 단위 개체명 인식기를 제안한다. 또한 개체명 인식 성능에 큰 영향을 미치는 개체명 사전 자질을 더 효과적으로 사용할 수 있는 방법을 제안하며 이 방법을 사용했을 때 기존의 방법보다 향상된 개체명 인식 성능(F1-score 0.8576)을 보였다.

  • PDF

ELECTRA와 Label Attention Network를 이용한 한국어 개체명 인식 (Korean Named Entity Recognition Using ELECTRA and Label Attention Network)

  • 김홍진;오신혁;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.333-336
    • /
    • 2020
  • 개체명 인식이란 문장에서 인명, 지명, 기관명 등과 같이 고유한 의미를 갖는 단어를 찾아 개체명을 분류하는 작업이다. 딥러닝을 활용한 연구가 수행되면서 개체명 인식에 RNN(Recurrent Neural Network)과 CRF(Condition Random Fields)를 결합한 연구가 좋은 성능을 보이고 있다. 그러나 CRF는 시간 복잡도가 분류해야 하는 클래스(Class) 개수의 제곱에 비례하고, 최근 RNN과 Softmax 모델보다 낮은 성능을 보이는 연구도 있었다. 본 논문에서는 CRF의 단점을 보완한 LAN(Label Attention Network)와 사전 학습 언어 모델인 음절 단위 ELECTRA를 활용하는 개체명 인식 모델을 제안한다.

  • PDF

ManiFL을 이용한 한국어 개체명 인식 (Korean Named Entity Recognition using ManiFL)

  • 김완수;신준철;박서연;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.633-636
    • /
    • 2021
  • 개체명 인식은 주어진 문장 안의 고유한 의미가 있는 단어들을 인명, 지명, 단체명 등의 미리 정의된 개체의 범주로 분류하는 문제이다. 최근 연구에서는 딥 러닝, 대용량 언어 모델을 사용한 연구들이 활발하게 연구되어 높은 성능을 보이고 있다. 하지만 이러한 방법은 대용량 학습 말뭉치와 이를 처리할 수 있는 높은 연산 능력을 필요로 하며 모델의 실행 속도가 느려서 실용적으로 사용하기 어려운 문제가 있다. 본 논문에서는 얕은 기계 학습 기법을 적용한 ManiFL을 사용한 개체명 인식 시스템을 제안한다. 형태소의 음절, 품사 정보, 직전 형태소의 라벨만을 자질로 사용하여 실험하였다. 실험 결과 F1 score 기준 90.6%의 성능과 초당 974 문장을 처리하는 속도를 보였다.

  • PDF

한글 저자명 중의성 해소를 위한 기계학습기법의 적용 (Application of Machine Learning Techniques for Resolving Korean Author Names)

  • 강인수
    • 정보관리학회지
    • /
    • 제25권3호
    • /
    • pp.27-39
    • /
    • 2008
  • 동일한 인명을 갖는 서로 다른 실세계 사람들이 존재하는 현실은 인터넷 세계에서 인명으로 표현된 개체의 신원을 식별해야 하는 문제를 발생시킨다. 상기의 문제가 학술정보 내의 저자명 개체로 제한된 경우를 저자식별이라 부른다. 저자식별은 식별 대상이 되는 저자명 개체 사이의 유사도 즉 저자유사도를 계산하는 단계와 이후 저자명 개체들을 군집화하는 단계로 이루어진다. 저자유사도는 공저자, 논문제목, 게재지정보 등의 저자식별자질들의 자질유사도로부터 계산되는데, 이를 위해 기존에 교사방법과 비교사방법들이 사용되었다. 저자식별된 학습샘플을 사용하는 교사방법은 비교사방법에 비해 다양한 저자식별자진들을 결합하는 최저의 저자유사도함수를 자동학습할 수 있다는 장점이 있다. 그러나, 기존교사방법 연구에서는 SVM, MEM 등의 일부 기계학습기법만이 시도되었다. 이 논문은 다양한 기계학습기법들이 저자식별에 미치는 성능, 오류, 효율성을 비교하고, 공저자와 논문제목 자질에 대해 자질값 추출 및 자질 유사도 계산을 위한 여러 기법들의 비교분석을 제공한다.

"한국문헌목록정보"에 있어서의 문제점 (A Problems in Korean MARC on Disc)

  • 정옥경
    • 한국문헌정보학회지
    • /
    • 제32권3호
    • /
    • pp.81-96
    • /
    • 1998
  • 본 논문은 국립중앙도서관에서 발행한 $\ulcorner$한국문헌목록정보$\lrcorner$에 있어서 기술부와 표목부의 문제점과 개선 방안을 연구하였다. $\ulcorner$한국문헌목록정보$\lrcorner$에 의하면, 간략정보와 상세정보에서 두권 이상의 다권본인 경우 서명저자사항 다음에 권차를 표시하는 한편, 이들 자료를 모두 낱권별로 별도로 입력하고, 이들에 대한 복본 까지도 각각 별도로 입력한 것은 크나큰 오류이다. 또한 한글로 표기된 한사람의 저자명 하에서 한자로 쓰인 10가지 이상의 동음이명의 저자들의 간략목록정보가 하나의 리스트에 혼합되어 열거되고 있는 경우가 상당히 많다. 그러므로 우리나라의 저자명표목은 첫째 한글로 표기하고 둘째 한자인명을 기입하고, 셋째 저작자의 전공주제명을 표시하고, 넷째 생몰년을 표시하는 것이 효과적이고 합리적인 방법이다. 그러기 위해서는 주제명의 통일성을 유지하기 위해서 사전에 정형화된 합리적인 주제명일람표를 작성하고, 이에 따라 한국의 저자명에 대한 정확한 전자데이터베이스를 구축해야만 한다.

  • PDF

어휘 정보의 자동 추출과 이를 이용한 한국어 품사 태깅 (Korean Part-of-Speech Tagging using Automatically Acquired Lexical Information)

  • 강인호;김도완;이신목;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.117-122
    • /
    • 1999
  • 본 연구는 형태소 분석에 필요한 언어 지식과 품사 태깅에 필요한 확률 정보를 별도의 언어 지식 추가 없이 학습 말뭉치를 통해서 얻어내는 방법을 제안한다. 먼저 품사 부착된 학습 말뭉치로부터 형태소 사전과 결합 정보를 추출한다. 그리고 자주 발생하는 어절 및 해석상 모호성이 많은 어절에 대해서는 학습 말뭉치에서 발견된 형태소 분석 결과를 저장하여 형태소 분석에 소요되는 시간과 형태소 분석의 정확률을 높인다. 또한 미등록어의 많은 부분을 차지하는 인명, 지명, 조직명에 대해서는 정보 추출 분야에서 사용하는 고유 명사 분류법으로 해결한다. 품사 태깅을 위해서는 품사열 정보와 품사열 정보로는 해결할 수 없는 경우를 위한 어휘 정보를 학습 말뭉치에서 추출한다. 품사열 정보와 어휘 정보는 정형화 과정을 거쳐 최대 엔트로피 모델의 자질로 사용되어 품사 태깅 시스템을 위한 확률 분포를 구성한다. 본 연구에서 제안하는 방법은 학습 말뭉치를 기반으로 한다는 특성에 의해 다양한 영역에 사용하기 쉽다. 또한 어휘 정보로 품사 문맥 정보를 보완하기 때문에 품사 분류 체계와 형태소 해석 규칙에 영향을 적게 받는다는 장점을 가진다. MATEC '99 데이터 실험 결과 형태소 단위로 94%의 재현률과 93%의 정확률을 얻을 수 있었다.

  • PDF