• 제목/요약/키워드: word based classification

검색결과 224건 처리시간 0.023초

나이브 베이즈 기반 소셜 미디어 상의 신조어 감성 판별 기법 (Sensitivity Identification Method for New Words of Social Media based on Naive Bayes Classification)

  • 김정인;박상진;김형주;최준호;김한일;김판구
    • 스마트미디어저널
    • /
    • 제9권1호
    • /
    • pp.51-59
    • /
    • 2020
  • 인터넷의 발달과 스마트폰의 보급으로 인하여 그에 따른 소셜 미디어 문화가 형성됨에 따라 PC통신부터 지금까지 소셜 미디어 신조어가 그 문화로 자리 잡아가고 있다. 소셜 미디어의 등장과 사람들의 가교역할을 해주는 스마트폰의 보급화로 신조어가 생기고 빈번하게 사용되고 있는 추세이다. 신조어의 사용은 다양한 문자 제한 메신저의 문제점을 해결하고 짧은 문장을 사용하여 데이터를 줄이는 등 많은 장점을 가지고 있다. 그러나 신조어에는 사전적인 의미가 없으므로 데이터 마이닝 기술이나 빅데이터와 같은 연구에서 사용되는 알고리즘의 성능 저하와 연구에 제약사항이 발생한다. 따라서 본 논문에서는 웹 크롤링을 통해 텍스트 데이터를 추출하고, 텍스트 마이닝과 오피니언 마이닝을 통해 의미부여 및 단어들에 대한 감정적 분류를 통한 문장의 오피니언 파악을 진행하고자 한다. 실험은 다음과 같이 3단계로 진행하였다. 첫째, 소셜 미디어에서 새로운 단어를 수집하여 수집된 단어는 긍정적이고 부정적인 학습을 받게 하였다. 둘째, 표준 문서를 사용하여 감정적 가치를 도출하고 검증하기 위해 TF-IDF를 사용하여 데이터의 감정적 가치를 측정하기 위해 명사 빈도수를 측정한다. 신조어와 마찬가지로 분류된 감정적 가치가 적용되어 감정이 표준 언어 문서로 분류되는지 확인하였다. 마지막으로, 새로 합성된 단어와 표준 감정적 가치의 조합을 사용하여 장비 기술의 비교분석을 수행하였다.

토픽모델링과 딥 러닝을 활용한 생의학 문헌 자동 분류 기법 연구 (A Study of Research on Methods of Automated Biomedical Document Classification using Topic Modeling and Deep Learning)

  • 육지희;송민
    • 정보관리학회지
    • /
    • 제35권2호
    • /
    • pp.63-88
    • /
    • 2018
  • 본 연구는 LDA 토픽 모델과 딥 러닝을 적용한 단어 임베딩 기반의 Doc2Vec 기법을 활용하여 자질을 선정하고 자질집합의 크기와 종류 및 분류 알고리즘에 따른 분류 성능의 차이를 평가하였다. 또한 자질집합의 적절한 크기를 확인하고 문헌의 위치에 따라 종류를 다르게 구성하여 분류에 이용할 때 높은 성능을 나타내는 자질집합이 무엇인지 확인하였다. 마지막으로 딥 러닝을 활용한 실험에서는 학습 횟수와 문맥 추론 정보의 유무에 따른 분류 성능을 비교하였다. 실험문헌집단은 PMC에서 제공하는 생의학 학술문헌을 수집하고 질병 범주 체계에 따라 구분하여 Disease-35083을 구축하였다. 연구를 통하여 가장 높은 성능을 나타낸 자질집합의 종류와 크기를 확인하고 학습 시간에 효율성을 나타냄으로써 자질로의 확장 가능성을 가지는 자질집합을 제시하였다. 또한 딥 러닝과 기존 방법 간의 차이점을 비교하고 분류 환경에 따라 적합한 방법을 제안하였다.

문자 기반 유해사이트 판별 기법 (A Harmful Site Judgement Technique based on Text)

  • 정규철;이진관;이태헌;박기홍
    • 컴퓨터교육학회논문지
    • /
    • 제7권5호
    • /
    • pp.83-91
    • /
    • 2004
  • 본 논문에서 청소년들의 정신 건강을 해치는 유해 정보 사이트를 차단하기 위해 기존 방식이 아닌 내용 기반을 중심으로 하여 중요도가 가장 높은 한 개의 복합 키워드와 정보통신윤리 위원회에서 제시한 유해단어의 가중치를 이용하여 가중치 평균을 더해 유해도를 판단하여 유해 사이트와 일반 사이트를 구별하는 시스템을 구현하였다. 예비 실험을 통해 구해진 유해도의 값 3.5를 유해정보 사이트를 판단하는 기준으로 정한 다음 유해 정보 차단 시스템의 성능 실험을 위해 유해 정보 사이트와 일반 사이트를 각각 무작위로 100개씩 추출해 접속해 본 결과 유해 사이트를 유해 정보 사이트로 판명한 비율이 78%를 보였고 일반 사이트를 일반 사이트로 판명한 비율이 96%가 되어 본 시스템의 유효성을 확인 할 수가 있었다.

  • PDF

목적 지향 대화를 위한 효율적 질의 의도 분석에 관한 연구 (Effective Text Question Analysis for Goal-oriented Dialogue)

  • 김학동;고명현;임헌영;이유림;지민규;김원일
    • 방송공학회논문지
    • /
    • 제24권1호
    • /
    • pp.48-57
    • /
    • 2019
  • 본 연구는 목적 지향 대화 시스템 내에서 단일 한국어 텍스트 형식의 질문으로부터 질의자의 의도를 파악하는 것을 목적으로 한다. 목적 지향 대화 시스템은 텍스트 또는 음성을 통한 사용자의 특수한 요구를 만족시켜주는 대화 시스템을 의미한다. 의도 분석 과정은 답변 생성에 앞서 사용자의 질의 의도를 파악하는 단계로, 목적 지향 대화 시스템 전체의 성능에 큰 영향을 준다. 생활화학제품이라는 특정 분야에 제안 모델을 사용하였고, 해당 분야와 관련된 한국어 텍스트 데이터를 이용하였다. 특정 분야에 독립적이며 범용적인 의도를 의미하는 화행과, 특정 분야에 종속적인 의도를 의미하는 개념열로 나누어 분석한다. 화행과 개념열을 분석하기 위하여 단어 임베딩 모델, 합성곱 신경망을 이용한 분류 방법을 제안한다. 단어 임베딩 모델을 통하여 단어의 의미정보를 추상화하고, 추상화된 단어의 의미정보를 기반으로 합성곱 신경망을 통하여 개념열 및 화행 분류를 수행한다.

프롭테크 비즈니스 가치창출 프레임워크 (Towards a Value-Creation Framework for Proptech Business)

  • 김재영;박승봉
    • 지식경영연구
    • /
    • 제22권1호
    • /
    • pp.105-120
    • /
    • 2021
  • 최근 정보기술의 발달과 함께 부동산 시장에도 급속한 변화가 일어나고 있다. 프롭테크는 인공지능, 센싱기술, 빅데이터 등 다양한 정보기술의 적용으로 촉진되는 부동산 거래혁신으로 정의된다. 본 연구의 목적은 프롭테크 비즈니스에서 어떤 가치가 창출되고 공유되는지에 대한 이해를 바탕으로 조직의 전략 및 비즈니스개발에 도움을 주는 프롭테크 비즈니스 가치창출 프레임워크를 제시하는 것이다. 연구의 결과에서는 인지된 가치 활동을 바탕으로 프롭테크 비즈니스 분류 매트릭스를 구분하고 이 매트릭스를 중심으로 프롭테크 비즈니스의 주요 가치를 무형화, 관계화, 고도화가치로 도출하고, 프롭테크 비즈니스 유형별로 이들 가치가 구현되는 사례를 제시하였다.

Verification of Normalized Confidence Measure Using n-Phone Based Statistics

  • Kim, Byoung-Don;Kim, Jin-Young;Na, Seung-You;Choi, Seung-Ho
    • 음성과학
    • /
    • 제12권1호
    • /
    • pp.123-134
    • /
    • 2005
  • Confidence measure (CM) is used for the rejection of mis-recognized words in an automatic speech recognition (ASR) system. Rahim, Lee, Juang and Cho's confidence measure (RLJC-CM) is one of the widely-used CMs [1]. The RLJC-CM is calculated by averaging phone-level CMs. An extension of the RLJC-CM was achieved by Kim et al [2]. They devised the normalized CM (NCM), which is a statistically normalized version of the RLJC-CM by using the tri-phone based CM normalization. In this paper we verify the NCM by generalizing tri-phone to n-phone unit. To apply various units for the normalization, mono-phone, tri-phone, quin-phone and $\infty$-phone are tested. By the experiments in the domain of the isolated word recognition we show that tri-phone based normalization is sufficient enough to enhance the rejection performance of the ASR system. Also we explain the NCM in regard to two class pattern classification problems.

  • PDF

On a Novel Way of Processing Data that Uses Fuzzy Sets for Later Use in Rule-Based Regression and Pattern Classification

  • Mendel, Jerry M.
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제14권1호
    • /
    • pp.1-7
    • /
    • 2014
  • This paper presents a novel method for simultaneously and automatically choosing the nonlinear structures of regressors or discriminant functions, as well as the number of terms to include in a rule-based regression model or pattern classifier. Variables are first partitioned into subsets each of which has a linguistic term (called a causal condition) associated with it; fuzzy sets are used to model the terms. Candidate interconnections (causal combinations) of either a term or its complement are formed, where the connecting word is AND which is modeled using the minimum operation. The data establishes which of the candidate causal combinations survive. A novel theoretical result leads to an exponential speedup in establishing this.

Machine Printed and Handwritten Text Discrimination in Korean Document Images

  • Trieu, Son Tung;Lee, Guee Sang
    • 스마트미디어저널
    • /
    • 제5권3호
    • /
    • pp.30-34
    • /
    • 2016
  • Nowadays, there are a lot of Korean documents, which often need to be identified in one of printed or handwritten text. Early methods for the identification use structural features, which can be simple and easy to apply to text of a specific font, but its performance depends on the font type and characteristics of the text. Recently, the bag-of-words model has been used for the identification, which can be invariant to changes in font size, distortions or modifications to the text. The method based on bag-of-words model includes three steps: word segmentation using connected component grouping, feature extraction, and finally classification using SVM(Support Vector Machine). In this paper, bag-of-words model based method is proposed using SURF(Speeded Up Robust Feature) for the identification of machine printed and handwritten text in Korean documents. The experiment shows that the proposed method outperforms methods based on structural features.

Learning Algorithms in AI System and Services

  • Jeong, Young-Sik;Park, Jong Hyuk
    • Journal of Information Processing Systems
    • /
    • 제15권5호
    • /
    • pp.1029-1035
    • /
    • 2019
  • In recent years, artificial intelligence (AI) services have become one of the most essential parts to extend human capabilities in various fields such as face recognition for security, weather prediction, and so on. Various learning algorithms for existing AI services are utilized, such as classification, regression, and deep learning, to increase accuracy and efficiency for humans. Nonetheless, these services face many challenges such as fake news spread on social media, stock selection, and volatility delay in stock prediction systems and inaccurate movie-based recommendation systems. In this paper, various algorithms are presented to mitigate these issues in different systems and services. Convolutional neural network algorithms are used for detecting fake news in Korean language with a Word-Embedded model. It is based on k-clique and data mining and increased accuracy in personalized recommendation-based services stock selection and volatility delay in stock prediction. Other algorithms like multi-level fusion processing address problems of lack of real-time database.

파워쉘 기반 악성코드에 대한 역난독화 처리와 딥러닝 기반 탐지 방법 (Deobfuscation Processing and Deep Learning-Based Detection Method for PowerShell-Based Malware)

  • 정호진;유효곤;조규환;이상근
    • 정보보호학회논문지
    • /
    • 제32권3호
    • /
    • pp.501-511
    • /
    • 2022
  • 2021년에는 코로나의 여파로 랜섬웨어를 활용한 공격이 유행했으며 그 수는 매년 급증하고 있다. 그 중 파워쉘은 랜섬웨어에 주요 기술로 사용되고 있어 파워쉘 기반 악성코드 탐지 기법의 필요성은 증가하고 있으나 기존의 탐지기법은 난독화가 적용된 스크립트를 탐지하지 못하거나 역난독화에 시간이 오래 소요되는 한계가 존재한다. 이에 본 논문에서는 간단하고 빠른 역난독화 처리과정, Word2Vec과 CNN(Convolutional Neural Network)으로 구성되어 스크립트의 의미를 학습하고 특징을 추출해 악성 여부를 판단할 수 있는 딥러닝 기반의 분류 모델을 제안한다. 2021 사이버보안 AI/빅데이터 활용 경진대회의 AI 기반 파워쉘 악성 스크립트 탐지 트랙에서 제공된 1400개의 악성코드와 8600개의 정상 스크립트를 이용하여 제안한 모델을 테스트한 결과 기존보다 5.04배 빠른 역난독화 실행시간, 100%의 역난독화 성공률, 0.01의 FPR(False Positve Rate), 0.965의 TPR(True Positive Rate)로 악성코드를 빠르고 효과적으로 탐지함을 보인다.