• 제목/요약/키워드: 사전기반

검색결과 3,174건 처리시간 0.03초

트라이와 구간트리를 이용한 사전기반 전문용어 인식 속도 향상 (Improving Speed for Dictionary-Based Term Recognition Using Trie and Interval Tree)

  • 김형철;김재훈;최윤수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.191-193
    • /
    • 2010
  • 전문용어는 특정 분야의 문서들에서 그 분야 특징을 반영하는 용어를 지칭하는 말로 최근 이러한 전문용어를 자동으로 인식하는 연구들이 활발하게 이루어지고 있다. 본 논문에서는 전문용어 인식의 방법 중 규칙 기반 방법의 한 종류인 사전 기반 방법을 이용하여 전문용어를 인식한다. 사전 기반 방법의 보통 다음과 같은 문제점이 있다. 첫째 같은 의미를 가지지만 형태가 다른 전문용어의 인식이 어려우며, 둘째 정확한 경계를 인식하기 위해서는 모든 단어에 대해 사전에 존재하는 가장 긴 단어의 크기만큼 매칭을 시도해야하며, 셋째 인식된 경계가 겹칠 수 있다는 문제점이 있다. 본 논문에서는 사전 매칭시 정규표현을 이용하여 첫 번째 문제를 해결하며, 트라이를 이용하여 사전을 구축하고, 매칭시 스택을 이용한 병렬구조를 사용하여 두 번째 문제를 해결하였으며, 구간트리라는 자료구조를 이용하여 세 번째 문제를 해결하였다.

  • PDF

사전 기반의 하이퍼 e-Mail 문서 생성기 (Dictionary Based Hyper e-Mail Document Generator)

  • 최지연;민수홍;조동섭
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 춘계학술발표대회논문집
    • /
    • pp.720-723
    • /
    • 2003
  • E-Mai1 서비스는 현재 가장 많이 쓰이는 WWW 시스템의 가장 기본적인 기능이다. 그러나 현 e-mai1 서비스는 텍스트 기반 구조를 통한 비동기적인 형태의 서비스를 계속 유지하고 있어, 동기적인 표현방법이 요구되는 실정이다 따라서 단순한 정보의 제공을 위한 서비스로서가 아니라, 사용자가 직접 설정하여 서비스를 받는 형태의 e-mai1 을 제안하고자 한다. 사용자가 지정해놓은 사전을 기반으로 HTML 문서가 재생산되어, 색 지정 기능과 하이퍼 텍스트 기능을 제공하는 한편, 사전에 등록된 정보를 바탕으로 개체에 대한 정보가 tooltip으로 표시될 수 있도록 하는 사전기반 하이퍼 문서 생성기능을 지원하도록 한다

  • PDF

레이블 전파를 통한 감정사전 제작 (Developing a Korean sentiment lexicon through label propagation)

  • 박호민;천민아;남궁영;최민석;윤호;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.91-94
    • /
    • 2018
  • 감정분석은 텍스트에서 나타난 저자 혹은 발화자의 태도, 의견 등과 같은 주관적인 정보를 추출하는 기술이며, 여론 분석, 시장 동향 분석 등 다양한 분야에 두루 사용된다. 감정분석 방법은 사전 기반 방법, 기계학습 기반 방법 등이 있다. 본 논문은 사전 기반 감정분석에 필요한 한국어 감정사전 자동 구축 방법을 제안한다. 본 논문은 영어 감정사전으로부터 한국어 감정사전을 자동으로 구축하는 방법이며, 크게 세 단계로 구성된다. 첫 번째는 영한 병렬말뭉치를 이용한 영한사전을 구축하는 단계이고, 두 번째는 영한사전을 통한 이중언어 그래프를 생성하는 단계이며, 세 번째는 영어 단어의 감정값을 한국어 단어의 감정값으로 전파하는 단계이다. 본 논문에서는 제안된 방법의 유효성을 보이기 위해 사전 기반 한국어 감정분석 시스템을 구축하여 평가하였으며, 그 결과 제안된 방법이 합리적인 방법임을 확인할 수 있었으며 향후 연구를 통해 개선한다면 질 좋은 한국어 감정사전을 효과적인 방법으로 구축할 수 있을 것이다.

  • PDF

사전기반 항목명 표준화 시스템 설계 및 구현 (Design and Implementation of Dictionary-based Column Name Standardization System)

  • 신수미;문영수
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.621-624
    • /
    • 2021
  • 최근 빅데이터에 대한 관심이 높아지면서 분석을 위해 필요한 데이셋의 표준화에 대한 중요성이 강조되고 있다. 데이터 표준화를 위해서는 업무 처리에 필요한 모든 데이터의 명명 규칙을 규정하고 그 기준에 따라 표준 명칭을 부여하여야 한다. 본 연구에서는 사전을 기반으로 하는 항목명 표준화 시스템을 제안하였다. 제안한 시스템은 공개된 표준단어사전을 활용하여 유의어를 포함한 참조 사전을 구축하고 이를 기반으로 표준사전을 구축하여 표준 항목명을 제공한다. 기 구축된 데이터셋의 항목명을 입력하거나 사용자가 원하는 새로운 항목명을 입력하면 항목명 표준화 시스템은 표준화된 한글 항목명과 영문 항목명, 그리고 테이블 설계에 사용하는 영문 약어명을 출력한다. 본 연구에서 제안한 시스템을 테이블 설계에 활용하거나 기 구축된 데이터셋을 표준화하는데 적용하면 일관된 데이터 해석이나 관리가 가능할 것으로 기대된다.

  • PDF

웹문서에서의 출현빈도를 이용한 한국어 미등록어 사전 자동 구축 (Automatic Construction of Korean Unknown Word Dictionary using Occurrence Frequency in Web Documents)

  • 박소영
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권3호
    • /
    • pp.27-33
    • /
    • 2008
  • 본 논문에서는 한국어 형태소 분석의 성능향상을 위해서, 어절에서 미등록어를 인식하여 자동으로 사전을 구축하는 방법을 제안한다. 제안하는 사전 구축 방법은 전문 분석 기반 사전 구축 방법과 웹 출현빈도 기반 사전 구축방법으로 구성되어 있다. 전문 분석 기반사전 구축 방법은 전체 문서에서 반복적으로 나타나는 문자열을 미등록어로 인식하고, 웹 출현빈도 기반사전 구축 방법은 반복되지 않은 문자열을 웹 문서에서 검색하여 그 출현빈도를 바탕으로 미등록어를 인식한다. 실험결과 전문 분석만을 바탕으로 하는 기존 접근방법에 비해서 웹 문서에서의 출현빈도도 함께 고려하여 제안하는 사전 구축 방법은 32.39% 정도 재현율이 높게 나타났다.

  • PDF

EDI 의미사전 및 브리지의 개발 (Development of EDI Semantic Dictionary and Bridge)

  • 정용규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (D)
    • /
    • pp.277-279
    • /
    • 2006
  • 본 연구에서는 KIEC 라이브러리라 UBL 라이브러리 간에 의미를 기반으로 한 상호운용의 결과물과 연계가 되도록 하며 이를 확장하여 EDIFACT문서를 대상으로 XML-EDI 간의 상호운용이 가능하게 한다. 이를 위해서 우선 KEDIFACT 표준전자문서에 대해 그 사용실태를 조사하고 사용되고 있는 문서를 중심으로 의미를 기반으로 한 항목정의 및 분석을 하였다. 관련된 국내 외 표준을 준용하여 KEDIFACT 표준 전자문서를 대상으로 EDI 의미사전(Semantic Dictionary)을 구축하여 의미를 기반으로 한 EDI 컨텐츠를 구축하였다. 구축한 KEDIFACT 의미사전을 기반으로 기존에 구축되어있는 XML(KIEC, UBL) 의미사전과 의미기반의 비교 분석 작업을 통하여 EDI-XML 라이브러리 간 매핑이 가능하도록 브릿지를 구축하여 상호운용 기반을 마련하였다.

  • PDF

사전 기반 자질과 동적 마스킹을 이용한 ELECTRA 기반 개체명 인식 (Named Entity Recognition based on ELECTRA with Dictionary Features and Dynamic Masking)

  • 김정욱;황태선;김봉수;이새벽
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.509-513
    • /
    • 2021
  • 개체명 인식이란, 문장에서 인명, 지명, 기관명, 날짜, 시간 등의 고유한 의미의 단어를 찾아서 미리 정의된 레이블로 부착하는 것이다. 일부 단어는 문맥에 따라서 인명 혹은 기관 등 다양한 개체명을 가질 수 있다. 이로 인해, 개체명에 대한 중의성을 가지고 있는 단어는 개체명 인식 성능에 영향을 준다. 본 논문에서는 개체명에 대한 중의성을 최소화하기 위해 사전을 구축하여 ELECTRA 기반 모델에 적용하는 학습 방법을 제안한다. 또한, 개체명 인식 데이터의 일반화를 개선시키기 위해 동적 마스킹을 이용한 데이터 증강 기법을 적용하여 실험하였다. 실험 결과, 사전 기반 모델에서 92.81 %로 성능을 보였고 데이터 증강 기법을 적용한 모델은 93.17 %로 높은 성능을 보였다. 사전 기반 모델에서 추가적으로 데이터 증강 기법을 적용한 모델은 92.97 %의 성능을 보였다.

  • PDF

부트스트래핑 기반의 단어-임베딩 투영 학습에 의한 대역어 사전 구축 (Bootstrapping-based Bilingual Lexicon Induction by Learning Projection of Word Embedding)

  • 이종서;왕지현;이승진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.462-467
    • /
    • 2020
  • 대역사전의 구축은 저자원 언어쌍 간의 기계번역의 품질을 높이는데 있어 중요하다. 대역사전 구축을 위해 기존에 제시된 방법론 중 단어 임베딩을 기반으로 하는 방법론 대부분이 영어-프랑스어와 같이 형태적 및 구문적으로 유사한 언어쌍 사이에서는 높은 성능을 보이지만, 영어-중국어와 같이 유사하지 않은 언어쌍에 대해서는 그렇지 못하다는 사실이 널리 알려져 있다. 본 논문에서는 단어 임베딩을 기반으로 부트스트래핑을 통해 대역사전을 구축하는 방법론을 제안한다. 제안하는 방법론은 소량의 seed 사전으로부터 시작해 반복적인 과정을 통해 대역사전을 자동으로 구축하게 된다. 이후, 본 논문의 방법론을 이용해 한국어-영어 언어쌍에 대한 실험을 진행하고, 기존에 대역사전 구축 용도로 많이 활용되고 있는 도구인 Moses에 사용된 방법론과 F1-Score 성능을 비교한다. 실험 결과, F1-Score가 약 42%p 증가함을 확인할 수 있었으며, 초기에 입력해준 seed 사전 대비 7배 크기의 대역사전을 구축하였다.

  • PDF

다차원 이진트리를 기반으로 하는 한글 전자사전의 성능 분석

  • 김희철;이창식
    • 한국산업정보학회논문지
    • /
    • 제3권1호
    • /
    • pp.165-174
    • /
    • 1998
  • 본 연구는 기존의 한글 전자사전의 단점들인 과다한 검색 횟수, 비효율적인 주 기억장치 사용, 이미 구축된 사전에 새로운 단어에 대한 추가·삭제의 난이성 등을 해결할 수 있는 다차원 이진트리 구조 기반의 한글 전자사전의 설계 및 구현을 그 내용으로 하고 있다. 본 논문에서 구현된 한글 전자사전의 검색시간 성능평가를 위해 입력 키워드의 종류에 따라 실험1, 실험2 의 두가지 성능평가를 수행하였다. 실험1에서는 구현된 사전의 단어를 입력 키워드로 사용하여 실험하였으며 그 결과로서 제안한 사전구조가 검색 속도 면에서 기존의 트라이 사전구조보다 약 1.5배의 성능향상을 부여주고 있음을 보았다. 실험 2는 다차원 이진트리 구조의 한글 전자사전이 트라이 구조의 한글 전자사전보다 약 2.3배의 성능향상을 이루고 있음을 보여주고 있다. 한편, 사전 구축시 필요한 주기억장치 용량에 대한 성능평가 결과는 트라이구조사전은 1.987Kbyte를 가지는 반면 제안한 다차원 이진트리 구조의 한글 전자사전은 1.136Kbyte를 가지므로 약 1.8배의 성능향상을 보여주고 있다.

Bayesian MCMC를 이용한 저수량 점 빈도분석: I. 사전분포의 적용성 비교 (At-site Low Flow Frequency Analysis Using Bayesian MCMC: I. Comparative study for construction of Prior distribution)

  • 김상욱;이길성;박경신
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2008년도 학술발표회 논문집
    • /
    • pp.1121-1124
    • /
    • 2008
  • 저수분석(low flow analysis)은 수자원공학에서 중요한 분야 중 하나이며, 특히 저수량 빈도분석(low flow frequency analysis)의 결과는 저수(貯水)용량의 설계, 물 수급계획, 오염원의 배치 및 관개와 생태계의 보존을 위한 수량과 수질의 관리에 중요하게 사용된다. 그러므로 본 연구에서는 저수량 빈도분석을 위한 점빈도분석을 수행하였으며, 특히 빈도분석에 있어서의 불확실성을 탐색하기 위하여 Bayesian 방법을 적용하고 그 결과를 기존에 사용되던 불확실성 탐색방법과 비교하였다. 본 논문의 I편에서는 Bayesian 방법 중 사전분포(prior distribution)와 우도함수(likelihood function)의 복잡성에 상관없이 계산이 가능한 Bayesian MCMC(Bayesian Markov Chain Monte Carlo) 방법과 Metropolis-Hastings 알고리즘을 사용하기 위한 여러과정의 이론적 배경과 Bayesian 방법에서 가장 중요한 요소인 사전분포를 구축하고 이를 비교 및 평가하였다. 고려된 사전분포는 자료에 기반하지 않은 사전분포와 자료에 기반한 사전분포로써 두 사전분포를 이용하여 Metropolis-Hastings 알고리즘을 수행하고 그 결과를 비교하여 저수량 빈도분석에 합리적인 사전분포를 선정하였다. 또한 알고리즘의 수행과정에서 필요한 제안분포(proposal distribution)를 적용하여 그에 따른 알고리즘의 효율성을 채택률(acceptance rate)을 산정하여 검증해 보았다. 사전분포의 분석 결과, 자료에 기반한 사전분포가 자료에 기반하지 않은 사전분포보다 정확성 및 불확실성의 표현에 있어서 우수한 결과를 제시하는 것을 확인할 수 있었고, 채택률을 이용한 알고리즘의 효용성 역시 기존 연구자들이 제시하였던 만족스러운 범위를 가지는 것을 알 수 있었다. 최종적으로 선정된 사전분포는 본 연구의 II편에서 Bayesian MCMC 방법의 사전분포로 이용되었으며, 그 결과를 기존 불확실성의 추정방법의 하나인 2차 근사식을 이용한 최우추정(maximum likelihood estimation)방법의 결과와 비교하였다.

  • PDF