• 제목/요약/키워드: Stemming

검색결과 260건 처리시간 0.024초

관용표현 중의성 해소를 위한 다층위 임베딩 연구 (Embedding with different levels for idiom disambiguation)

  • 박서윤;강예지;강혜린;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.167-172
    • /
    • 2021
  • 관용표현 중에는 중의성을 가진 표현이 많다. 즉 하나의 표현이 맥락에 따라 일반적 의미와 관용적 의미 두 가지 이상으로 해석될 가능성이 있어 이런 유형의 관용표현을 중의성 해소 없이 자연어 처리 태스크에 적용할 경우 문제가 발생하게 된다. 본 연구에서는 관용표현의 특성인 중의성과 더불어 '관용표현은 이미 사용자의 머릿속에 하나의 토큰으로 저장되어 있다'라는 'Idiom Principle'을 바탕으로 관용표현에 대해 각각 표면형, 단순 단일 토큰형, stemming 단일 토큰형 층위의 임베딩을 만들어 관용표현 분류 연구를 진행하였으며, 실험 결과 표면형 및 stemming을 적용하지 않은 단순 단일 토큰으로 학습하는 것보다, stemming을 적용한 후 단일 토큰으로 학습하는 것이 관용표현의 중의성 해소에 유의미한 효과가 있음을 확인하였다.

  • PDF

Effects of Preprocessing on Text Classification in Balanced and Imbalanced Datasets

  • Mehmet F. Karaca
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권3호
    • /
    • pp.591-609
    • /
    • 2024
  • In this study, preprocessings with all combinations were examined in terms of the effects on decreasing word number, shortening the duration of the process and the classification success in balanced and imbalanced datasets which were unbalanced in different ratios. The decreases in the word number and the processing time provided by preprocessings were interrelated. It was seen that more successful classifications were made with Turkish datasets and English datasets were affected more from the situation of whether the dataset is balanced or not. It was found out that the incorrect classifications, which are in the classes having few documents in highly imbalanced datasets, were made by assigning to the class close to the related class in terms of topic in Turkish datasets and to the class which have many documents in English datasets. In terms of average scores, the highest classification was obtained in Turkish datasets as follows: with not applying lowercase, applying stemming and removing stop words, and in English datasets as follows: with applying lowercase and stemming, removing stop words. Applying stemming was the most important preprocessing method which increases the success in Turkish datasets, whereas removing stop words in English datasets. The maximum scores revealed that feature selection, feature size and classifier are more effective than preprocessing in classification success. It was concluded that preprocessing is necessary for text classification because it shortens the processing time and can achieve high classification success, a preprocessing method does not have the same effect in all languages, and different preprocessing methods are more successful for different languages.

화약발파에서 폴리머 겔의 전색효과에 관한 실험적 및 수치해석적 연구 (An Experimental and Numerical Study on the Stemming Effect of a Polymer Gel in Explosive Blasting)

  • ;김정규;고영훈;김승준;정승원;양형식;김용기;김종관
    • 화약ㆍ발파
    • /
    • 제36권4호
    • /
    • pp.35-47
    • /
    • 2018
  • 본 연구에서는 콘크리트 블록발파 실험과 AUTODYN 수치해석을 통해 몇 가지 전색제 및 충전재가 폭발결과에 미치는 효과를 분석하였다. 전색제와 충전재는 공기, 모래, 폴리머 겔을 이용하였다. 이들 재료들의 전색효과 및 충전효과는 밀장전 조건의 경우와 비교하였다. 매립된 콘크리트 블록을 사용하여 현장 누두공 시험을 실시하였다. 콘크리트 블록 실험 및 수치해석 결과 폴리머 겔을 사용한 경우가 모래 및 디커플링의 경우에 비해 누두공의 크기와 발파공 주위의 최대압력이 더 크게 나타나는 것을 확인하였다. 또한, 수치해석 결과는 현장시험 결과와 잘 일치하는 경향을 보여주었다. 주변암반 중에서 계산된 최대압력은 폴리머 겔, 모래, 무전색 및 디커플링 조건일 때 각각 37, 30, 16 MPa로 나타났다. 수치해석 모델 내 밀장전 시 최대 압력은 52 MPa로 가장 높게 나타났다. 그러나 손상영역의 크기는 폴리머 겔을 사용한 경우보다 작게 나타났다. 또한, 밀장전은 기준 실험으로 사용되었다.

Comparative Study of Various Persian Stemmers in the Field of Information Retrieval

  • Moghadam, Fatemeh Momenipour;Keyvanpour, MohammadReza
    • Journal of Information Processing Systems
    • /
    • 제11권3호
    • /
    • pp.450-464
    • /
    • 2015
  • In linguistics, stemming is the operation of reducing words to their more general form, which is called the 'stem'. Stemming is an important step in information retrieval systems, natural language processing, and text mining. Information retrieval systems are evaluated by metrics like precision and recall and the fundamental superiority of an information retrieval system over another one is measured by them. Stemmers decrease the indexed file, increase the speed of information retrieval systems, and improve the performance of these systems by boosting precision and recall. There are few Persian stemmers and most of them work based on morphological rules. In this paper we carefully study Persian stemmers, which are classified into three main classes: structural stemmers, lookup table stemmers, and statistical stemmers. We describe the algorithms of each class carefully and present the weaknesses and strengths of each Persian stemmer. We also propose some metrics to compare and evaluate each stemmer by them.

Information Retrieval Systems: Between Morphological Analyzers and Systemming Algorithms

  • Mohamed, Afaf Abdel Rhman;Ouni, Chafika;Eljack, Sarah Mustafa;Alfayez, Fayez
    • International Journal of Computer Science & Network Security
    • /
    • 제22권3호
    • /
    • pp.375-381
    • /
    • 2022
  • The main objective of an Information Retrieval System (IRS) is to obtain suitable information within a reasonable time to satisfy a user need. To achieve this purpose, an IRS should have a good indexing system that is based on natural language processing.In this context, we focus on the available Arabic language processing techniques for an IRS with the goal of contributing to an improvement in the performance. Our contribution consists of integrating morphological analysis into an IRS in order to compare the impact of morphological analysis with that of stemming algorithms.

기후변화로 인한 고온의 미래 사망부담 추정 (Estimation of Future Death Burden of High Temperatures from Climate Change)

  • 양지훈;하종식
    • 한국환경보건학회지
    • /
    • 제39권1호
    • /
    • pp.19-31
    • /
    • 2013
  • Objectives: Elevated temperatures during summer months have been reported since the early 20th century to be associated with increased daily mortality. However, future death impacts of high temperatures resulting from climate change could be variously estimated in consideration of the future changes in historical temperature-mortality relationships, mortality, and population. This study examined the future death burden of high temperatures resulting from climate change in Seoul over the period of 2001-2040. Methods: We calculated yearly death burden attributable to high temperatures stemming from climate change in Seoul from 2001-2040. These future death burdens from high temperature were computed by multiplying relative risk, temperature, mortality, and population at any future point. To incorporate adaptation, we assumed future changes in temperature-mortality relationships (i.e. threshold temperatures and slopes), which were estimated as short-term temperature effects using a Poisson regression model. Results: The results show that climate change will lead to a substantial increase in summer high temperature-related death burden in the future, even considering adaptation by the population group. The yearly death burden attributable to elevated temperatures ranged from approximately 0.7 deaths per 100,000 people in 2001-2010 to about 1.5 deaths per 100,000 people in Seoul in 2036-2040. Conclusions: This study suggests that adaptation strategies and communication regarding future health risks stemming from climate change are necessary for the public and for the political leadership of South Korea.

Stability of intervalwise receding horizon control for linear tie-varying systems

  • Ki, Ki-Baek;Kwon, Wook-Hyun
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 1997년도 한국자동제어학술회의논문집; 한국전력공사 서울연수원; 17-18 Oct. 1997
    • /
    • pp.430-433
    • /
    • 1997
  • In this paper, an intervalwise receding horizon control (IRHC) is proposed which stabilizes linear continuous and discrete time-varying systems each other by means of a feedback control stemming from a receding horizon concept and a minimum quadratic cost. The results parallel those obtained for continuous [4],[9] and discrete time varying system [5],[15] each other.

  • PDF

축산환경의 오염 잠재력 : 축산오염 물질의 발생과 대기환경계 순환 (The Pollution Potential of Animal Production Systems : Origin and Atmospheric Cycling of Their Pollutants)

  • 김기현;김동균;윤종만
    • 한국축산시설환경학회지
    • /
    • 제1권2호
    • /
    • pp.155-164
    • /
    • 1995
  • Despite considerable progresses made in our understanding of environmental fate of pollutants stemming from animal production systems, relatively little is known about the processes and mechanisms regulating their dispersement (via emission) into and deposition from the earth's atmospheric system. Here we present and summarize up-to-date knowledge on this topic with a main emphasis on their origin, physico-chemical characteristics, and geochemical distribution behavior.

  • PDF

A Comparative Study on Requirements Analysis Techniques using Natural Language Processing and Machine Learning

  • Cho, Byung-Sun;Lee, Seok-Won
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권7호
    • /
    • pp.27-37
    • /
    • 2020
  • 본 연구의 목적은 다양한 도메인에 대한 소프트웨어 요구사항 명세서로부터 수집된 요구사항을 데이터로 활용하여 데이터 중심적 접근법(Data-driven Approach)의 연구를 통해 요구사항을 분류한다. 이 과정에서 기존 요구사항의 특징과 정보를 바탕으로 다양한 자연어처리를 이용한 데이터 전처리와 기계학습 모델을 통해 요구사항을 기능적 요구사항과 비기능적 요구사항으로 분류하고 각 조합의 결과를 제시한다. 그 결과로, 요구사항을 분류하는 과정에서, 자연어처리를 이용한 데이터 전처리에서는 어간 추출과 불용어제거와 같은 토큰의 개수와 종류를 감소하여 데이터의 희소성을 좀 더 밀집형태로 변형하는 데이터 전처리보다는 단어 빈도수와 역문서 빈도수를 기반으로 단어의 가중치를 계산하는 데이터 전처리가 다른 전처리보다 좋은 결과를 도출할 수 있었다. 이를 통해, 모든 단어를 고려하여 가중치 값은 기계학습에서 긍정적인 요인을 볼 수 있고 오히려 문장에서 의미 없는 단어를 제거하는 불용어 제거는 부정적인 요소로 확인할 수 있었다.