• Title/Summary/Keyword: 단어 분리

Search Result 112, Processing Time 0.043 seconds

Abusive Sentence Detection using Deep Learning in Online Game (딥러닝를 사용한 온라인 게임에서의 욕설 탐지)

  • Park, Sunghee;Kim, Huy Kang;Woo, Jiyoung
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.07a
    • /
    • pp.13-14
    • /
    • 2019
  • 욕설은 게임 내 가장 큰 불쾌 요소 중 하나이다. 지금까지 게임 사용자들의 욕설을 방지하기 위해서 금칙어를 기반으로 필터링 해왔으나, 한국어 특성상 단어를 변형하거나 중간에 숫자를 넣는 등 우회할 방법이 다양하기 때문에 효과적이지 않다. 따라서 본 논문에서는 실제 온라인 게임 'Archeage'에서 수집된 채팅 데이터를 기반으로 딥러닝 기법 중 하나인 콘볼루션 신경망을 사용하여 욕설을 탐지하는 모델을 구축하였다. 한글의 자음, 모음을 분리하여 실험하였을 때, 87%라는 정확도를 얻었다. 한 글자씩 분리한 경우, 조금 더 좋은 정확도를 얻었으나, 사전의 수가 자소를 분리한 경우보다 10배 이상 늘어난 것을 고려해보면 자소를 분리한 것이 더 효율적이다.

  • PDF

Implementation of Korean Error Correction System (한국어 오류 교정 시스템의 구현)

  • Choi, Jae-hyuk;Kim, Kweon-yang
    • The Journal of Korean Association of Computer Education
    • /
    • v.3 no.2
    • /
    • pp.115-127
    • /
    • 2000
  • Korean error detectors of word processors have defects such as inconvenience that users choose one of error groups, lower detecting rate of 60%, and slow processing time. In this study, I proposed a resolution method of these defects. For these, I applied bidirectional longest match strategy for morphological analysis to improve processing time. I suggested dictionaries and several algorithms such as seperation of compound noun and assistant declinable words, correction of typing error to improve processing time and to guarantee correction accuracy. I also suggested a distinguishable method for dependent noun/suffix and Josa/Eomi where many ambiguities are generated, and a distinguishable method for Korean "로써/로서" to improve the reliability of the correction system.

  • PDF

An Efficient Method to Extract Units of Manchu Characters (만주 글자의 단위를 추출하는 효율적인 방법)

  • Snowberger, Aaron Daniel;Lee, Choong Ho
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.05a
    • /
    • pp.617-619
    • /
    • 2021
  • Since Manchu characters are written vertically and are connected without spaces within a word, a preprocessing process is required to separate the character area and the units that make up the characters before recognizing the characters. In this paper, we describe a preprocessing method that extracts the character area and cuts off the unit of the character. Unlike existing research that presupposes a method of recognizing each word or character unit, or recognizing the remaining part after removing the stem of a continuous character, this method cuts the character into each recognizable unit. It can be applied to the method of recognizing letters by combining the units. Through an experiment, the effectiveness of this method was verified.

  • PDF

A Study on the Recognition of Population Problems of Male and Female Students using Text-mining: To Drive the Implications of Population Education (텍스트마이닝기법을 활용한 남녀 학생의 인구문제에 관한 인식 분석: 인구교육의 시사점 도출을 위하여)

  • Wang, Seok-Soon;Shim, Joon-Young
    • Journal of Korean Home Economics Education Association
    • /
    • v.31 no.3
    • /
    • pp.73-90
    • /
    • 2019
  • The purpose of this study was to explore the differences in perceptions of male and female students about population problems and to draw up implications for population education. Using text mining, the report about population problem, which had written by students in population education class, were analysed. After extracting key words, semantic networks were visualized. The results were as follows. First, the high frequency words were the same for each gender. Second, key words based on frequency did not differ depending on gender. And the key words extracted by the correlation analysis and bigram were different. That is, in the semantic network of girls' words, the network of "life"-"marriage"-"birth"-"pregnancy" appeared independently, distinguishing it from male students who showed separate objective links to population problems. Therefore, it drew suggestions that male and female students should be viewed as heterogeneous groups with different cognitive structures on population problems and that the content and methods of population education should be approached differently depending on gender.

Word Image Decomposition from Image Regions in Document Images using Statistical Analyses (문서 영상의 그림 영역에서 통계적 분석을 이용한 단어 영상 추출)

  • Jeong, Chang-Bu;Kim, Soo-Hyung
    • The KIPS Transactions:PartB
    • /
    • v.13B no.6 s.109
    • /
    • pp.591-600
    • /
    • 2006
  • This paper describes the development and implementation of a algorithm to decompose word images from image regions mixed text/graphics in document images using statistical analyses. To decompose word images from image regions, the character components need to be separated from graphic components. For this process, we propose a method to separate them with an analysis of box-plot using a statistics of structural components. An accuracy of this method is not sensitive to the changes of images because the criterion of separation is defined by the statistics of components. And then the character regions are determined by analyzing a local crowdedness of the separated character components. finally, we devide the character regions into text lines and word images using projection profile analysis, gap clustering, special symbol detection, etc. The proposed system could reduce the influence resulted from the changes of images because it uses the criterion based on the statistics of image regions. Also, we made an experiment with the proposed method in document image processing system for keyword spotting and showed the necessity of studying for the proposed method.

Analysis of Domestic Security Solution Market Trend using Big Data (빅데이터를 활용한 국내 보안솔루션 시장 동향 분석)

  • Park, Sangcheon;Park, Dongsoo
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.20 no.5
    • /
    • pp.492-501
    • /
    • 2019
  • To use the system safely in cyberspace, you need to use a security solution that is appropriate for your situation. In order to strengthen cyber security, it is necessary to accurately understand the flow of security from past to present and to prepare for various future threats. In this study, information security words of security/hacking news of Naver News which is reliable by using text mining were collected and analyzed. First, we checked the number of security news articles for the past seven years and analyzed the trends. Second, after confirming the security/hacking word rankings, we identified major concerns each year. Third, we analyzed the word of each security solution to see which security group is interested. Fourth, after separating the title and the body of the security news, security related words were extracted and analyzed. The fifth confirms trends and trends by detailed security solutions. Lastly, annual revenue and security word frequencies were analyzed. Through this big data news analysis, we will conduct an overall awareness survey on security solutions and analyze many unstructured data to analyze current market trends and provide information that can predict the future.

Keyword Spotting on Hangul Document Images Using Image-to-Image Matching (영상 대 영상 매칭을 이용한 한글 문서 영상에서의 단어 검색)

  • Park Sang Cheol;Son Hwa Jeong;Kim Soo Hyung
    • The KIPS Transactions:PartB
    • /
    • v.12B no.3 s.99
    • /
    • pp.357-364
    • /
    • 2005
  • In this paper, we propose an accurate and fast keyword spotting system for searching user-specified keyword in Hangul document images by using two-level image-to-image matching. The system is composed of character segmentation, creating a query image, feature extraction, and matching procedure. Two different feature vectors are used in the matching procedure. An experiment using 1600 Hangul word images from 8 document images, downloaded from the website of Korea Information Science Society, demonstrates that the proposed system is superior to conventional image-based document retrieval systems.

Character Grouping using 3-D Neighborhood Graph on Raster Map (래스터 지도상에서 3차원 인접 그래프를 이용한 문자 그룹핑)

  • Gang, Yong-Bin;Ok, Se-Yeong;Jo, Hwan-Gyu
    • Journal of KIISE:Software and Applications
    • /
    • v.26 no.2
    • /
    • pp.273-283
    • /
    • 1999
  • 래스터 지도에서 직선 또는 곡선과 중첩되어 있는 경우의 문자는 추출하기가 쉽지 않다. 따라서 본 논문에서는 고립되어 있는 문자뿐만 아니라 문자이외의 요소와 중첩되어 있는 문자도 효과적으로 추출할수 있는 분할 정복(divide and conquer) 개념에 기반한 문자 추출방법을 제시한다. 이를 위해 먼저 이미지의 연결 요소로부터 볼록다각형(convex hull)을 생성한다. 그리고 이 다각형이 충분한게 문자영역만을 포함할때가지 볼록 다각형을 이등분하면서 가장 긴 선분(투사 선분)을 기준으로 두 영역으로 분할한다. 다음으로 문자를 추출하기 위해서 이 선분을 기준으로 연결 요소상의 픽셀의 밀집도를 계산하는 알고리즘(프로파일링)을 적용한다. 또한 지도상에서 추출된 개별적인 문자들을 의미있는 단어들로 묶기(grouping)한 새로운 알고리즘을 소개한다. 특히 지도상에 나타나는 문자의 종류는 매우 다양하고 또한 이 문자들이 놓여있는 방향 역시 일정하지 않기 때문에 이러한 단어를 찾는 kd법은 쉽지 않다. 이를 위해 본 논문에서는 3차원 인접 그래프(3-D neighborhood graph)G를 소개한다. 이 그래프 G에서 각 노드는 하나의 분리된 문자를 나타내며 자신의 크기와 위치에 따라서 3차원 공간상에서 위치하게된다. 따라서, 크기가 큰 (작은)문자들은 보다 큰 (작은) z값을 가지고 되며 이 그래프 G에서 서로 인접한 노드들을 연결함으로써 지도상에 존재하는 서로 다른 종류의 문자 스트링을 추출할수 있다. 실험결과는 서로 다른 지도 이미지에 대해서 약 95% 이상의 단어 추출율을 보여준다.

Korean Question Generation Using Co-Attention Layer of Answer and Passage (정답과 구절의 공동 주의 집중 계층을 이용한 한국어 질문 생성)

  • Kim, Jintae;Noh, Hyungjong;Lee, Yeonsoo;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.315-320
    • /
    • 2019
  • 질문 생성이란 구절이 입력되면 구절에서 답을 찾을 수 있는 질문을 자동으로 생성하는 작업으로 교육용 시스템, 대화 시스템, QA 시스템 등 다양한 분야에서 중요한 역할을 한다. 질문 생성에서 정답의 단어가 질문에 포함되는 문제점을 해결하기 위해 구절과 정답을 분리한다. 하지만 구절과 정답을 분리하게 되면 구절에서 정답의 정보가 손실되고, 정답에서는 구절의 문맥 정보가 손실되어 정답 유형에 맞는 질문을 생성할 수 없는 문제가 발생된다. 본 논문은 이러한 문제를 해결하기 위해 분리된 정답과 구절의 정보를 연결시켜주는 정답과 구절의 공동 주의 집중 계층을 제안한다. 23,658개의 질문-응답 쌍의 말뭉치를 이용한 실험에서 정답과 구절의 공동 주의 집중 계층이 성능 향상에 기여해 우수한 성능(BLEU-26.7, ROUGE-57.5)을 보였다.

  • PDF

Classification and Disambiguation of Morphological Ambiguity of the Korean Language (한국어의 형태론적 모호성 유형 및 해결 방안)

  • Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.83-87
    • /
    • 1997
  • 한국어는 실질형태소와 형식형태소가 결합되는 교착어라는 특성 때문에 품사 모호성을 비롯한 여러 가지 유형의 형태론적 모호성이 발생한다. 형태론적 모호성 해결의 관점에서 형태론적 모호성을 한국어의 특성에 따라 어근 유형 모호성, 형태소 분리 모호성, 형태소 길이 모호성, 불규칙 용언의 원형 복원 모호성, '아/에/이' 탈락 모호성 등으로 분류한다. 이 때 임의의 두 분석 결과에서 발생하는 모호성이 특정 유형에만 속하도록 모호성 유형들을 서로 독립적으로 정의한다. 또한 품사 모호성을 계층적 품사 분류 체계에 따라 $1{\sim}3$차적 품사 모호성으로 구분하고 국어사전에서 발견되는 품사 모호성을 분석한다. 이를 기반으로 형태론적 모호성의 유형을 단어 내에서 해결 가능한 것과 그렇지 않은 것으로 구분하여, 단어 내에서 해결 가능한 모호성을 해결하는 방법을 제안한다.

  • PDF