• Title/Summary/Keyword: 단어 필터링

Search Result 96, Processing Time 0.044 seconds

Handwritten Hangul Recognition by Dynamic Lattice Search with Structural Constraints (문자의 구조적 제약과 동적 격자 탐색을 이용한 필기 한글 문자 인식)

  • Kang, Kyung-Won;Kim, Jin-Hyung
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.359-364
    • /
    • 2001
  • 필기 한글문자 인식은 다양한 필기 변형, 자모 간의 접촉과 같은 문제들을 내포하고 있다. 최근 이를 해결하기 위한 방법으로 랜덤 그래프를 이용한 필기 한글 모델링이 제안되었으나, 상향식 정보처리의 한계인 시간 복잡도 문제를 겪고 있다. 영어 단어인식에 관한 인지과학적 연구에서는 하향식 정보처리의 주요한 역할 중 하나로 인식 과정에서의 계산 중복을 없애는 필터링의 역할을 들고 있다. 본 논문에서는 랜덤 그래프를 이용한 필기 한글 모델링을 기반으로 하여 필기체에 나타나는 다양한 변형을 흡수하며, 시간 복잡도를 해결하기 위한 한글 문자의 구조에 바탕을 둔 하향식 정보처리 방법을 제안한다. 제안하는 방법은 모델 발화를 이용한 자모 후보 추출 DP 정합과 동적 격자 탐색을 이용한 문자 후보 탐색, 그리고 문자의 구조적 제약을 이용한 후보 제거 기법을 포함한다. 필기 한글 데이터베이스인 SERI-DB에 대한 예비 실험 결과, 제안한 방법은 인식률의 큰 저하 없이 상향식 정보 처리에 바탕을 둔 기존 방법에 비해 높은 속도 향상을 가져 왔다.

  • PDF

Virtual dress up and tuck in Top on Smart Mirror (스마트 거울기반 의상 가상착의와 상의 내어입기)

  • Cho, Jae-Hyeon;Moon, Nam-Mee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.11a
    • /
    • pp.1189-1191
    • /
    • 2017
  • '스마트'라는 단어가 대중화가 되면서 전자기기 뿐만 아니라 거울에도 스마트가 붙게 되었다. 하지만 스마트 거울에 다양한 기능이 추가되면서 '꾸미는 것을 돕는다'라는 거울 본연의 기능이 부가적인 요소가 되는 경우가 있거나 매장 내에 모델링이 끝난 옷을 보여주지만 집에 있는 자신의 옷을 보는 것이 부족한 경우가 많다. 본 논문에서는 OpenCV를 활용하여 옷을 여러벌 갈아입으면서 코디를 할 때 번거로움을 줄이고자 거울 앞에서 찍으면 프레임과 전경 추출 알고리즘을 사용하여 사용자의 옷을 추출하고 추출된 옷의 정확도를 위해 보정작업을 추가한다. 윤곽선의 노이즈를 줄이기 위해 Morphology 필터링을 사용하고 Clahe 히스토그램 균일화를 통해 옷의 선명도를 높혔다. 추가적으로 가상으로 띄워주는 기능과 옷을 보여줄 때 HSV 모델의 특성을 활용하여 채도나 명도의 변화의 상관없이 색을 추출하여 상의와 하의를 분리하여 상의를 내어입는 기능도 선택할 수 있게 구현 하였다.

A Study of Korean Semantic Role Labeling using Word Sense (의미 정보를 이용한 한국어 의미역 인식 연구)

  • Lim, Soojong;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.18-22
    • /
    • 2015
  • 기계학습 기반의 의미역 인식에서 주로 어휘, 구문 정보가 자질로 주로 쓰이지만, 의미 정보를 분석하는 의미역 인식은 단어의 의미 정보 또한 매우 주요한 정보이다. 그러나, 기존 연구에서는 의미 정보를 활용할 수 있는 방법이 제한되어 있기 때문에, 소수의 연구만 진행되었다. 본 논문에서는 동형이의어 수준의 의미 애매성 해소 기술, 고유 명사에 대한 개체명 인식 기술, 의미 정보에 기반한 필터링, 유의어 사전을 이용한 클러스터 및 기존 프레임 정보를 확장하는 방법을 제안한다. 제안하는 방법은 기존 연구 대비 뉴스 도메인인 Korean Propbank는 3.14, 위키피디아 문서 기반의 WiseQA 평가셋인 GS 3.0에서는 6.57의 성능 향상을 보였다.

  • PDF

Event Detection System Based on Twitter Applied Geographical Name Denoising (지명 노이즈제거 기법을 적용한 트위터 기반 이벤트 탐지 시스템)

  • Woo, Seungmin;Hwang, Byung-Yeon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.1095-1097
    • /
    • 2015
  • 본 논문에서는 트위터 기반 이벤트 탐지에서의 기계학습을 통한 지명 노이즈제거 방식을 제안한다. 이벤트 탐지 시스템은 트위터 사용자 개개인을 이벤트 탐지의 센서로 이용하여 특정 지명에서 발생하는 이벤트를 탐지하였다. 그러나 지명과 동형이의어 관계의 단어가 탐지되어 이벤트 탐지의 정확도를 낮추는 요인이 된다. 이에 본 논문에서는 먼저 노이즈 관련 데이터베이스 구축을 이용하여 제거 필터링을 진행한 후에 기계학습을 이용해서 지명 유무를 결정하였다. 실험결과 본 논문에서 제시하는 예측기법은 89.6%의 신뢰도로 노이즈제거 기법의 필요성을 보였다.

Design and Implementation of Keywords Extraction System from CQI Reports by the Analysis of Graph Centrality (그래프 중심성 분석에 의한 CQI 보고서 핵심어 추출 시스템의 설계 및 개발)

  • Pheaktra, They;Lim, JongBeom;Lee, JongHyuk;Gil, Joon-Min
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.256-259
    • /
    • 2019
  • 최근 대학교는 CQI(Continuous Quality Improvement) 등의 방대한 교육 관련 데이터를 수집하고 있고 이를 분석하여 교육 및 경영에 활용하고 있다. 핵심어는 텍스트의 내용을 간결하게 표현할 수 있는 단어이다. 그래서 CQI 보고서의 의미를 파악하기 위해서는 먼저 핵심어 추출이 필요하다. CQI 보고서에서 핵심어를 추출하면 이후 정보 검색, 인덱싱, 분류, 클러스터링, 필터링 등과 같은 많은 응용 작업을 용이하게 수행할 수 있다. 따라서 방대한 양의 CQI 보고서로부터 핵심어 추출을 자동화한다면 이후 요약 및 의미 파악에 많은 도움이 될 것이다. 이 논문에서는 CQI 보고서 요약을 위해 자동적으로 핵심어를 추출하는 방법을 제안한다.

Abusive Sentence Detection using Deep Learning in Online Game (딥러닝를 사용한 온라인 게임에서의 욕설 탐지)

  • Park, Sunghee;Kim, Huy Kang;Woo, Jiyoung
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.07a
    • /
    • pp.13-14
    • /
    • 2019
  • 욕설은 게임 내 가장 큰 불쾌 요소 중 하나이다. 지금까지 게임 사용자들의 욕설을 방지하기 위해서 금칙어를 기반으로 필터링 해왔으나, 한국어 특성상 단어를 변형하거나 중간에 숫자를 넣는 등 우회할 방법이 다양하기 때문에 효과적이지 않다. 따라서 본 논문에서는 실제 온라인 게임 'Archeage'에서 수집된 채팅 데이터를 기반으로 딥러닝 기법 중 하나인 콘볼루션 신경망을 사용하여 욕설을 탐지하는 모델을 구축하였다. 한글의 자음, 모음을 분리하여 실험하였을 때, 87%라는 정확도를 얻었다. 한 글자씩 분리한 경우, 조금 더 좋은 정확도를 얻었으나, 사전의 수가 자소를 분리한 경우보다 10배 이상 늘어난 것을 고려해보면 자소를 분리한 것이 더 효율적이다.

  • PDF

Design and Implementation of Movie Recommention System Based on User Emotion (사용자 감성 기반 영화 추천 시스템의 설계 및 구현)

  • Byeon, Jaehee;Hong, Jongui;Yang, Janghun;Choi, Yoo-Joo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.964-965
    • /
    • 2013
  • 본 연구에서는 사용자의 감성 정보를 기반으로 한 영화 추천 시스템을 설계 및 구현하였다. 이를 위하여 영화 리뷰에서 기본적인 4가지 감성을 뜻하는 단어를 추출 및 분류하고, MovieLens Dataset의 메타데이터에 추가한 후 협업 필터링을 사용하여 영화를 추천한다.

Noise filtering method based on voice frequency correlation to increase STT efficiency (STT 효율 증대를 위한 음성 주파수 correlation 기반 노이즈 필터링 방안)

  • Lim, Jiwon;Hwang, Yonghae;Kim, Kyuheon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.176-179
    • /
    • 2021
  • 현재 음성인식 기술은 인공지능 비서, 전화자동응답, 네비게이션 등 다양한 분야에서 사용되고 있으며 인간의 음성을 디바이스에 전달하기 위해 음성 신호를 텍스트로 변환하는 Speech-To-Text (STT) 기술을 필요로 한다. 초기의 STT 기술의 대부분은 확률 통계 방식인 Hidden Markov Model (HMM)기반으로 이루졌으며, 딥러닝 기술의 발전으로 HMM과 함께 Recurrent Nural Network (RNN), Deep Nural Network (DNN) 기법을 사용함으로써 과거보다 단어 인식 오류를 개선하며 20%의 성능 향상을 이루어냈다. 그러나 다수의 화자 혹은 생활소음, 노래 등 소음이 있는 주변 환경의 간섭 신호 영향을 받으면 인식 정확도에 차이가 발생한다. 본 논문에서는 이러한 문제를 해결하기 위하여 음성 신호를 추출하여 주파수성분을 분석하고 오디오 신호 사이의 주파수 영역 correlation 연산을 통해 음성 신호와 노이즈 신호를 구분하는 것으로 STT 인식률을 높이고, 목소리 신호를 더욱 효율적으로 STT 기술에 입력하기 위한 방안을 제안한다.

  • PDF

Analysing data literacy levels in DigComp (DigComp의 데이터 리터러시 수준 분석)

  • Hyunwoo Moon;Youngjun Lee
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2024.01a
    • /
    • pp.469-470
    • /
    • 2024
  • 본 논문에서는 DigComp를 분석하여 데이터 리터러시 수준을 분석하고자 하였다. 이를 위해 DigComp의 구성요소인 데이터 리터러시, 소통 및 협업, 디지털 콘텐츠 제작, 보안, 문제해결 중 데이터 리러터시 영역의 세부 요소를 살펴보았다. 데이터 리터러시는 탐색·검색·필터링, 평가, 관리 3가지로 세분되어 있었고, 각각은 수준에 따라 기초, 중급, 고급, 전문가의 4단계로 구분되어 있었다. 그리고 3가지 영역의 수준을 분석하여 각 수준을 대표하는 핵심 단어를 추출하였다. 향후 이를 바탕으로 한 구체적 적용방안에 관한 연구가 이뤄지길 기대한다.

  • PDF

Efficient Keyword Extraction from Social Big Data Based on Cohesion Scoring

  • Kim, Hyeon Gyu
    • Journal of the Korea Society of Computer and Information
    • /
    • v.25 no.10
    • /
    • pp.87-94
    • /
    • 2020
  • Social reviews such as SNS feeds and blog articles have been widely used to extract keywords reflecting opinions and complaints from users' perspective, and often include proper nouns or new words reflecting recent trends. In general, these words are not included in a dictionary, so conventional morphological analyzers may not detect and extract those words from the reviews properly. In addition, due to their high processing time, it is inadequate to provide analysis results in a timely manner. This paper presents a method for efficient keyword extraction from social reviews based on the notion of cohesion scoring. Cohesion scores can be calculated based on word frequencies, so keyword extraction can be performed without a dictionary when using it. On the other hand, their accuracy can be degraded when input data with poor spacing is given. Regarding this, an algorithm is presented which improves the existing cohesion scoring mechanism using the structure of a word tree. Our experiment results show that it took only 0.008 seconds to extract keywords from 1,000 reviews in the proposed method while resulting in 15.5% error ratio which is better than the existing morphological analyzers.