• Title/Summary/Keyword: Natural Language Processing

검색결과 940건 처리시간 0.027초

소셜 미디어(SNS) 데이터 증강을 활용한 효과적인 여론조사 예측 모델 분석 (Analyzing Effective Poll Prediction Model Using Social Media (SNS) Data Augmentation)

  • 황선익;오하영
    • 한국정보통신학회논문지
    • /
    • 제26권12호
    • /
    • pp.1800-1808
    • /
    • 2022
  • 선거기간이 되면 많은 여론조사 기관에서 후보자별 지지율을 조사하여 배포한다. 과거에는 여론조사 기관에 의존하여 지지율을 조사할 수밖에 없었지만, 현대 사회에서는 인터넷이나 모바일 SNS나 커뮤니티를 통해 국민 여론이 표출된다. 따라서 인터넷상에 표출된 국민 여론을 자연어 분석을 통해서 파악하면 여론조사 결과만큼 정확한 후보자 지지율을 파악할 수 있다. 따라서 본 논문은 인터넷 커뮤니티 게시글 데이터를 통해 유저들의 정치 관련 언급을 종합하여 선거기간 후보자의 지지율을 추론하는 방법을 제시한다. 게시글에서 지지율을 분석하기 위해 KoBert, KcBert, KoELECTRA모델을 활용하여 실제 여론조사와 가장 상관관계가 높은 모델 생성 방법을 제시하고자 한다.

Automated Prioritization of Construction Project Requirements using Machine Learning and Fuzzy Logic System

  • Hassan, Fahad ul;Le, Tuyen;Le, Chau;Shrestha, K. Joseph
    • 국제학술발표논문집
    • /
    • The 9th International Conference on Construction Engineering and Project Management
    • /
    • pp.304-311
    • /
    • 2022
  • Construction inspection is a crucial stage that ensures that all contractual requirements of a construction project are verified. The construction inspection capabilities among state highway agencies have been greatly affected due to budget reduction. As a result, efficient inspection practices such as risk-based inspection are required to optimize the use of limited resources without compromising inspection quality. Automated prioritization of textual requirements according to their criticality would be extremely helpful since contractual requirements are typically presented in an unstructured natural language in voluminous text documents. The current study introduces a novel model for predicting the risk level of requirements using machine learning (ML) algorithms. The ML algorithms tested in this study included naïve Bayes, support vector machines, logistic regression, and random forest. The training data includes sequences of requirement texts which were labeled with risk levels (such as very low, low, medium, high, very high) using the fuzzy logic systems. The fuzzy model treats the three risk factors (severity, probability, detectability) as fuzzy input variables, and implements the fuzzy inference rules to determine the labels of requirements. The performance of the model was examined on labeled dataset created by fuzzy inference rules and three different membership functions. The developed requirement risk prediction model yielded a precision, recall, and f-score of 78.18%, 77.75%, and 75.82%, respectively. The proposed model is expected to provide construction inspectors with a means for the automated prioritization of voluminous requirements by their importance, thus help to maximize the effectiveness of inspection activities under resource constraints.

  • PDF

119 신고 데이터를 이용한 자연어처리 기반 재난안전 상황 분류 알고리즘 분석 (Analysis of Disaster Safety Situation Classification Algorithm Based on Natural Language Processing Using 119 Calls Data)

  • 권수정;강윤희;이용학;이민호;박성호;강명주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권10호
    • /
    • pp.317-322
    • /
    • 2020
  • 인공지능의 발달로 인하여 재난 분야에서는 재난대응 지원 시스템으로 이용되고 있다. 재난은 언제 어디서든지 발생할 수 있으며, 재난 발생 시 소방청 119 신고접수대에 접수되는 신고는 크게 화재, 구조, 구급, 기타 신고 등 4가지로 구분된다. 119 신고에 따른 재난 대응도 그 종류 및 상황에 따라 다르게 대응된다. 본 논문에서는 119 신고 데이터 1280개 문서를 학습 데이터 셋을 이용하여 SVM, NB, k-NN, DT, SGD, RF 상황 분류 기계학습 알고리즘을 3 클래스로 테스트한 분류 성능은 최고 92%, 최소 77%의 성능을 보였다. 인공지능의 발달로 인하여 재난 분야에서는 재난 대응 지원 시스템으로 이용되고 있다. 재난은 언제 어디서든지 발생할 수 있으며, 재난 발생 시 소방청 119 신고접수대에 접수되는 신고는 크게 화재, 구조, 구급, 기타 신고 등 4가지로 구분된다. 119 신고에 따른 재난대응도 그 종류 및 상황에 따라 다르게 대응된다. 본 논문에서는 119 신고 데이터 1280개 문서를 학습 데이터 셋을 이용하여 SVM, NB, k-NN, DT, SGD, RF 상황 분류 알고리즘을 3 클래스로 테스트한 분류 성능은 최고 92%, 최소 77%의 성능을 보였다. 앞으로 다양한 분야의 재난별 데이터 셋을 확보하여 효율적인 재난 대응 연구가 필요하다.

CNN 기반 감성 변화 패턴을 이용한 가짜뉴스 탐지 (Fake News Detection Using CNN-based Sentiment Change Patterns)

  • 이태원;박지수;손진곤
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권4호
    • /
    • pp.179-188
    • /
    • 2023
  • 최근 가짜뉴스는 뉴스 콘텐츠 형식을 가장하고 중요한 사건이 발생할 때마다 등장하여 사회적 혼란을 초래한다. 이에 가짜뉴스를 탐지하기 위한 연구로 인공지능 기술이 사용된다. 자연어 처리를 통해 가짜뉴스를 자동으로 인지 및 차단하거나, 네트워크 인과 추론과 결합함으로써 허위 정보를 확산시키는 소셜미디어 인플루언스 계정을 감지하는 등의 가짜뉴스 탐지 접근법이 딥러닝을 통해 구현될 수 있었다. 그러나 가짜뉴스 탐지는 여러 자연어 처리 분야 중에서도 해결이 어려운 문제로 분류된다. 가짜뉴스가 가지는 형식 및 표현의 다양성으로 특성 추출의 난도가 높고, 뉴스가 속한 범주에 따라 하나의 특성이 서로 다른 의미를 가질 수도 있는 등 다양한 한계점이 존재한다. 본 논문에서는 가짜뉴스를 탐지하기 위한 추가적인 식별 기준으로 감성 변화 패턴을 제시한다. 합성곱 신경망을 가짜뉴스 데이터 세트에 적용하여 콘텐츠 특성에 기반한 분석을 수행하고, 감성 변화 패턴을 추가로 분석함으로써 성능이 개선된 모델을 제안한다. 뉴스를 구성하는 문장에 대하여 감성 극성을 산출하고 장단기 메모리를 적용함으로써 문장 순서에 의존적인 결괏값을 얻을 수 있다. 이를 감성 변화의 패턴으로 정의하고 뉴스의 콘텐츠 특성과 결합하여 가짜뉴스 탐지를 위한 제안 모델의 독립변수로 활용한다. 제안 모델과 비교 모델을 딥러닝으로 학습시키고 가짜뉴스 데이터 세트를 이용한 실험을 진행하여 감성 변화 패턴이 가짜뉴스 탐지 성능을 개선할 수 있음을 확인한다.

사용자 친화적인 대화형 챗봇 구축을 위한 개발방법론에 관한 연구 (A Study on the Development Methodology for User-Friendly Interactive Chatbot)

  • 현영근;임정택;한정현;채우리;이기현;고진덕;조영희;이주연
    • 디지털융복합연구
    • /
    • 제18권11호
    • /
    • pp.215-226
    • /
    • 2020
  • 챗봇이 비즈니스의 중요한 인터페이스 창구로 떠오르고 있다. 이러한 변화는 챗봇 관련 연구가 자연어처리(Natural Language Processing)기법에서 자연어이해(Natural Language Understanding) 그리고 자연어생성(Natural Language Generation)으로 지속적으로 발전했기 때문이다. 하지만, 챗봇을 개발하는 과정에서 도메인 지식을 이끌어내고, 사용자 친화적인 대화형 인터페이스로 개발하는 방법론적 연구는 미약한 것이 현실이다. 본 논문에서는 챗봇 개발의 프로세스적 기준을 제시하기 위해 이전 논문에서 제시한 방법론을 바탕으로 실제 프로젝트에 적용하며 개발방법론을 개선하였다. 결론적으로 가장 핵심적인 단계인 테스트 단계의 생산성을 33.3% 향상하였으며, 그 반복횟수도 37.5%로 단축하였다. 이러한 결과를 바탕으로 "3 Phase and 17 Tasks 개발방법론"을 제시하였으며, 이것은 챗봇 개발의 시행착오를 획기적으로 개선할 것으로 기대한다.

상호 정보를 이용한 구조적 모호성 해소와 결과에 대한 확신도 측정 (Structural Disambiguation using Mutual Information and the Measure of Confidence)

  • 심광섭
    • 인지과학
    • /
    • 제4권1호
    • /
    • pp.153-176
    • /
    • 1993
  • 구조적 모호성은 자연 언어 문장을 분석할 때 흔히 나타내는 문제점 중의 하나로,지금까지 이문제의 해결은 대단히 어려운 것으로 인식되어 왔다.그러나,구조적 모호성을 해소하지 않고 올바른 언어 처리를 한다는 것은 사실상 불가능하다.본 논문에서는 이 문제에 대하여 정보 이론적(information-theoretic)개념인 상호 정보(mutual information)를 이용한 통계적 접근방법을 제안한다.상호정보는 말 뭉치로 부터 자동 습득이 가능하므로 지식습득속도가 대단히 빠를뿐만 아니라 지속적인 지식습득이 가능하다. 구조적 모호성 해소는 물론 모호성 해소 결과의 옳고 그름을 스스로 판단할수 있는 능력을 부여할수 있다면 보다 지능적인 시스템을 개발하는데 도움이 될것이다.본 논문에서는 그와 같은 지적 능력을 부여한느데 필요한 확신도(congidence measure) 개념도 또한 제시한다.확신도는 구조적 모호성을 해소하고 난 후에 계산되는 수치로서,구조적 모호성이 올바르게 해소되었을 가능성이 높으면 높을수록 그 값이 커지는 성질을 가지고 있다. 본 논문에서 제시한 구조적 모호성 해소 알고리즘의 타당성을 검증하기 위하여 이공계 논문 초록으로부터 발췌된 약 160만 단어의 말뭉치로부터 상호 정보를 자동 습득하고 이를 이용하요,1,639개의 문장에 대하여 구조적 모호성을 해소하는 실험을 하였다. 실험결과 구조적 모호성 해소 정화도는 약 80%로 나타났다.확신도 개념을 이용할 경우 구조적 모호성 해소가 잘못된 문장을 찾아 정정하는 작업을 매우 효과적으로 진행할 수 있었다.

휴대전화에서 단문 메시지로부터 일정 자동 등록 (Automatically Registering Schedules from SMS Messages on Handheld Devices)

  • 김재훈;김형철
    • 인지과학
    • /
    • 제22권1호
    • /
    • pp.1-18
    • /
    • 2011
  • 휴대전화가 대중에게 널리 보급됨에 따라, 단문 서비스(SMS)가 새로운 의사소통 수단으로 등장하고 있다. 단문 서비스는 가격이 저렴할 뿐 아니라 단문 메시지를 쉽게 저장할 수 있어 약속이나 일정 알림용으로 널리 사용된다. 본 논문은 단문 메시지로부터 일정 정보(시간과 장소)를 추출하여 자동으로 일정 관리 시스템에 등록하는 시스템을 개발한다. 단문 메시지는 짧고 간결하지만 비속어나 준말 등이 많이 사용된다. 이것이 일정 정보를 추출하는데 더욱 어렵게 한다. 또한 휴대전화에는 계산 능력과 저장 공간이 충분하지 못하므로 형태소 분석과 같은 일반적인 자연언어 처리 모듈을 그대로 사용하는 것은 다소 무리가 있다. 이 문제를 해결하기 위해서 본 논문에서는 형태소 분석과 같이 복잡한 언어 처리 모듈을 사용하지 않고 기계학습 기반으로 일정 정보를 추출하고 추출된 정보를 휴대전화의 일정 관리 시스템에 등록한다. 본 논문에서 제안된 자동 일정 등록 시스템은 삼성전자 옴니아 휴대전화에 탑재되어 정상적으로 잘 동작함을 확인할 수 있었다.

  • PDF

망관리 정보베이스 접근 제어 시스템 (The Access Control System of Network Management Information Base)

  • 김종덕;이형효;노봉남
    • 한국정보처리학회논문지
    • /
    • 제5권5호
    • /
    • pp.1246-1256
    • /
    • 1998
  • 망관리 시스템의 여러 가지 구성 요소들 중 가장 핵심적인 요소 중의 하나는 망관리에 필요한 정보들인 관리 객체들의 개념적인 저장소인 관리 정보베이스이다. 관리 정보베이스에 저장된 관리 객체들은 망관리에 필수적이며 중요한 모든 정보들을 유지하고 있기 때문에 안전하게 유지되어야 한다. 본 논문에서는 접근 제어를 위한 포괄적인 클래스 정의 및 접근 제어 보안 모델을 정의한 ISO/IEC 10164-9 권고안을 바탕으로 기존의 표준 관리 객체 클래스 구조를 명시적 규칙과 묵시적 규칙으로 세분화함으로써 크게 확장 및 보완하였다. 또한 세분화된 접근 제어 규칙에 따라 해당 규칙이 적용되는 절차를 각 접근 제어 정책에 적용하여 봄으로써 접근 제어 규칙 수행의 타당성을 검증하였으며, 접근 제어 시스템의 각 기능과 권고안 및 확장된 모델에 정의된 GDMO의 비정형적인 구조를 명세언어 Z를 이용해 정형화된 구조로 표현하였다.

  • PDF

망관리 객체의 시간지원 능동 특성에 대한 전형적 모델링 (A Formal Modeling for Temporal and Active Properties of Managed Object Behavior)

  • 최은복;이형호;노봉남
    • 한국정보처리학회논문지
    • /
    • 제6권9호
    • /
    • pp.2479-2492
    • /
    • 1999
  • 통신망 관리시스템은 다양한 구조와 특성을 가진 이질적인 통신망 구성요소를 효과적으로 감시, 제어하여 통신망을 효율적으로 운영하는 기능 외에, 사용자들로부터 요구되는 고도의 통신서비스를 신속하게 제공할 수 있어야 한다. 이를 위하여 ITU-T, ISO 등에 의해 제정된 표준 권고안은 통신망 구성요소들간의 단순한 통신규칙을 정의하는 것 외에 통신망 관리에 필요한 자원들의 속성과 동적 특성에 대한 추상화된 표현, 그리고 통신망 구성요소들에 대한 관리기능을 포괄적으로 규정하고 있다. 그러나 표준 통신망 구성요소를 기술하는 현재의 표준안이 관리객체의 구조나 속성 등 정적인 부분은 전형적으로 기술하는데 반해 관리객체의 동적 특성에 대해서는 체계적으로 기술하지 못하고 있어, 관리객체의 전체적인 특성을 완전히 표현하지 못하는 문제점을 가지고 있다. 본 논문에서는 통신망 관리에 대한 표준 권고안을 근거로 모든 통신망 관리객체에 공통적으로 적용될 수 있는 관리객체 동적 특성의 구성요소를 정의하고, 이들 구성요소간의 시간지원, 능동 특성을 기반으로 한 관리객체의 동적 특성에 대한 체계적이고 전형적인 기술방법을 제시한다.

  • PDF

영상 콘텐츠의 신뢰도 평가를 위한 언어와 비언어 통합 감성 분석 시스템 (Integrated Verbal and Nonverbal Sentiment Analysis System for Evaluating Reliability of Video Contents)

  • 신희원;이소정;손규진;김혜린;김윤희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권4호
    • /
    • pp.153-160
    • /
    • 2021
  • IT 기술 발달에 따른 영상 콘텐츠 생산과 소비가 증가함에 따라 영상 콘텐츠를 통한 제품 리뷰 정보로 구매의사 결정이 빈번해졌다. 따라서, 리뷰 영상에 대한 신뢰성을 평가할 필요가 있다. 본 연구에서는 제품 리뷰 영상을 얼굴 표정 분석과 텍스트 마이닝을 통해 리뷰어의 표정과 음성을 분석하여 영상의 신뢰도를 분석한다. 영상 내 인물 표정의 감성 값을 추출하는 알고리즘을 활용하여 비언어 감성을 정량화하고, 유의미한 감정 변화 구간을 추출한다. 유의미한 감정 변화 구간의 리뷰어 음성을 텍스트화하여 표준어 및 비표준어 감성 사전 활용을 통해 긍정과 부정으로 리뷰에 대한 언어 감성 분석 후 수치화 한다. 비언어 감성 분석과 언어 감성 분석의 결과를 통합하여 일치 여부에 따라 신뢰도를 도출한다. 본 연구를 통해 영상 콘텐츠의 신뢰성 평가 방법을 제시한다.