• 제목/요약/키워드: 토크나이저 기법

검색결과 2건 처리시간 0.015초

동적 윈도우와 토크나이저를 이용한 영-중 음차표기 대역쌍 자동 추출 (Automatic Extraction of English-Chinese Transliteration Pairs using Dynamic Window and Tokenizer)

  • 김성국;나승훈;김동일;이종혁
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제13권6호
    • /
    • pp.417-421
    • /
    • 2007
  • 인터넷의 발달로 대량의 이중언어 문서 구축이 가능해짐에 따라 이런 언어자원을 이용하여 음차표기 대역쌍을 추출하는 연구가 활발히 진행되고 있다. 이런 연구들은 대부분 통계기반 음차표기 모델을 기반으로 하고 있다. 본 논문에서는 기존의 통계기반 음차표기 모델의 문제점에 대하여 분석하고 동적 윈도우와 토크나이저 기법을 제안하여 약 99%의 단어 정확률을 나타냈으며 그 결과 기존의 통계기반 음차표기 모델에 비하여 약 23%정도의 성능 향상을 보였다.

웹2.0에서 의견정보의 실시간 모니터링을 위한 웹 콘텐츠 마이닝 시스템 (Web Contents Mining System for Real-Time Monitoring of Opinion Information based on Web 2.0)

  • 김영춘;주해종;최혜길;조문택;김영백;이상용
    • 한국지능시스템학회논문지
    • /
    • 제21권1호
    • /
    • pp.68-79
    • /
    • 2011
  • 본 연구에서 제안하는 시스템은 인터넷 상에 존재하는 여러 웹사이트들에 흩어져 있는 웹 콘텐츠에서 사용자 의견 정보들을 자동 추출 및 분석함으로써, 긍정/부정 의견별로 검색 및 통계를 확인할 수 있는 의견 검색 서비스를 제공한다. 그 결과 의견 검색 사용자들은 특정 키워드에 대하여 다른 사용자들의 의견을 손쉽게 한눈에 검색 및 모니터링하는 시스템을 용이하게 사용할 수 있으며, 웹 콘텐츠에서의 의견 추출 및 분석하는 기능을 제공받는다. 제안한 기법들은 다른 기법들과의 비교 실험을 수행하여 실제 성능이 우수함을 증명하였다. 성능 평가는 긍정/부정 의견 정보를 추출하는 기능의 성능 평가, 다국어 정보 검색을 위한 동적 윈도우 기법과 토크나이저 기법을 적용한 성능 평가, 그리고 정확한 다국어 음차표기를 추출 기법에 성능 평가를 실시하였다. 그 적용 사례로 대표적인 영화 리뷰 문장과 위키디피아 실험 데이터를 대상으로 실험하고 그 결과를 분석하였다.