• 제목/요약/키워드: 자연어분석

검색결과 552건 처리시간 0.03초

블로그 데이터 감성분석을 통한 북한산둘레길 구간별 선호도 평가 (Evaluation of Preference by Bukhansan Dulegil Course Using Sentiment Analysis of Blog Data)

  • 이성희;손용훈
    • 한국조경학회지
    • /
    • 제49권3호
    • /
    • pp.1-10
    • /
    • 2021
  • 본 연구는 탐방객이 자유롭게 서술한 블로그 텍스트 데이터를 자연어 처리 기술 중 하나인 감성분석을 활용하여 북한산둘레길의 선호도를 평가하고, 선호 요인과 비선호 요인을 도출하는 것을 목적으로 하였다. 이에 2019년 1년 동안 작성된 블로그를 수집하고 21개 둘레길 구간별 텍스트에 나타난 긍정 및 부정 감성 단어 도출을 통해 감성점수를 산출하였다. 이후 내용분석을 통해 탐방객이 어떤 요소로 인해 구간을 선호하거나 선호하지 않는지 파악하였다. 북한산둘레길에 대해 작성된 블로그에서는 긍정적인 단어가 평균적으로 약 73% 출현하고 있었고, 각 구간별 게시물의 감성 극성 비율에서도 긍정적인 문서의 비율이 부정적인 문서의 비율보다 높았다. 이를 통해 탐방객은 북한산둘레길에 대하여 대체로 긍정적으로 인식하고 있는 것으로 나타났다. 그럼에도 감성점수를 도출한 결과, 21개 둘레길 구간에서는 선호하는 구간과 선호하지 않는 구간이 존재하고 있었다. 선호 구간과 비선호 구간에 대해 탐방객은 난이도가 낮고 부담 없이 걸을 수 있는 구간을 선호하고 있었고, 경관에 대한 여러 요소(시각, 청각, 후각 등)가 조화롭고 계절감이 뚜렷해 다양한 경관이 연출되는 곳, 경관 시퀀스의 변화가 존재하는 구간을 선호하는 것으로 나타났다. 또한 탐방객은 전망대, 조망점 등의 뷰포인트 유무를 둘레길에서의 주요 요소로 인식하고 있었고, 접근성이 우수하고 안내판 등 정보 제공이 원활하게 이뤄지는 구간에 대해 선호도가 더 높은 것을 알 수 있다. 반면, 도로와 인접함에 따라 발생되는 주변 소음과 과도한 시가지 비율, 구간별 난이도 불균형 등으로 인한 둘레길 동선 불만족이 비선호 요인으로 크게 작용하고 있었으며, 경관 단절 및 구간에 대한 정보 부족 등이 선호도를 떨어트리는 원인으로 나타났다. 본 연구의 결과는 국립공원뿐만 아니라 근교 산림 녹지 관리에 있어서 둘레길 정비 및 개선방안 마련에 활용될 수 있으며, 연구에 활용된 감성분석은 자연지역에 대한 실제 이용자들의 반응을 지속적으로 모니터링 할 수 있다는 점에 의의가 있다. 다만 사전에 정의된 감성사전을 기반으로 평가하였기에 지속적인 사전 업데이트가 필요하다. 또한 소셜미디어 특성상 부정적인 견해보다는 긍정적인 내용을 공유하는 경향이 존재하기 때문에, 현장 설문조사 등의 분석 결과와 비교, 검토하는 작업이 필요하다.

위키피디어 기반 개념 공간을 가지는 시멘틱 텍스트 모델 (A Semantic Text Model with Wikipedia-based Concept Space)

  • 김한준;장재영
    • 한국전자거래학회지
    • /
    • 제19권3호
    • /
    • pp.107-123
    • /
    • 2014
  • 텍스트마이닝 연구의 기본적인 난제는 기존 텍스트 표현모델이 자연어 문장으로 기술된 텍스트 데이터로부터 의미 또는 개념 정보를 표현하지 않는데 기인한다. 기존 텍스트 표현모델인 벡터공간 모델(vector space model), 불리언 모델(Boolean model), 통계 모델(statistical model), 텐서공간 모델(tensor space model) 등은 'Bag-of-Words' 방식에 바탕을 두고 있다. 이러한 텍스트 모델들은 텍스트에 포함된 단어와 그것의 출현 횟수만으로 텍스트를 표현하므로, 단어의 함축 의미, 단어의 순서 및 텍스트의 구조를 전혀 표현하지 못한다. 대부분의 텍스트 마이닝 기술은 대상 문서를 'Bag-of-Words' 방식의 텍스트 모델로 표현함을 전제로 하여 발전하여 왔다. 하지만 오늘날 빅데이터 시대를 맞이하여 방대한 규모의 텍스트 데이터를 보다 정밀하게 분석할 수 있는 새로운 패러다임의 표현모델을 요구하고 있다. 본 논문에서 제안하는 텍스트 표현모델은 개념공간을 문서 및 단어와 동등한 매핑 공간으로 상정하여, 그 세 가지 공간에 대한 연관 관계를 모두 표현한다. 개념공간의 구성을 위해서 위키피디어 데이터를 활용하며, 하나의 개념은 하나의 위키피디어 페이지로부터 정의된다. 결과적으로 주어진 텍스트 문서집합을 의미적으로 해석이 가능한 3차 텐서(3-order tensor)로 표현하게 되며, 따라서 제안 모델을 텍스트 큐보이드 모델이라 명명한다. 20Newsgroup 문서집합을 사용하여 문서 및 개념 수준의 클러스터링 정확도를 평가함으로써, 제안 모델이 'Bag-of-Word' 방식의 대표적 모델인 벡터공간 모델에 비해 우수함을 보인다.

기술 용어에 대한 한국어 정의 문장 자동 생성을 위한 순환 신경망 모델 활용 연구 (Research on the Utilization of Recurrent Neural Networks for Automatic Generation of Korean Definitional Sentences of Technical Terms)

  • 최가람;김한국;김광훈;김유일;최성필
    • 한국문헌정보학회지
    • /
    • 제51권4호
    • /
    • pp.99-120
    • /
    • 2017
  • 본 논문에서는 지속적으로 커져가는 산업 시장에 대해 관련 연구자들이 이를 효율적으로 분석할 수 있는 반자동 지원 체제개발을 위한 기술 용어와 기술 개념에 대한 정의문 및 설명문을 자동으로 생성하는 한국어 문장 생성 모델을 제시한다. 한국어 정의 문장 생성을 위하여 딥러닝 기술 중 데이터의 전/후 관계를 포함한 시퀀스 레이블링이 가능한 LSTM을 활용한다. LSTM을 근간으로 한 두 가지 모델은 기술명을 입력할 시 그에 대한 정의문 및 설명문을 생성한다. 다양하게 수집된 대규모 학습 말뭉치를 이용해 실험한 결과, 본 논문에서 구현한 2가지 모델 중 CNN 음절 임베딩을 활용한 어절 단위 LSTM 모델이 용어에 대한 정의문 및 설명문을 생성하는데 더 나은 결과를 도출시킨다는 사실을 확인하였다. 본 논문의 연구 결과를 바탕으로 동일한 주제를 다루는 문장 집합을 생성할 수 있는 확장 모델을 개발할 수 있으며 더 나아가서는 기술에 대한 문헌을 자동으로 작성하는 인공지능 모델을 구현할 수 있으리라 사료된다.

웹 페이지의 내재 규칙 습득 과정에서 규칙식별 역할에 대한 효과 분석 (Effect of Rule Identification in Acquiring Rules from Web Pages)

  • 강주영;이재규;박상언
    • 지능정보연구
    • /
    • 제11권1호
    • /
    • pp.123-151
    • /
    • 2005
  • 오늘날 자원의 보고라 할 수 있는 웹에는 자연어로 표현된 텍스트와 테이블들로 구성된 무수히 많은 문서들이 존재하고 있다. 이러한 웹 문서들로부터 규칙을 습득하고 습득된 규칙과 웹 문서간의 일관성을 유지하기 위해, 본 논문에서는 확장형 규칙 표식 언어 (extensible Rule Markup Language, XRML) 체계를 개발하였다. XRML은 웹 페이지에 내재되어 있는 규칙을 식별하여 자동으로 정형화된 규칙을 생성할 수 있도록 지원하는 규칙 식별 표식 언어 (Rule Identification Markup Language, XRML)와 구조화된 규칙 표현을 위한 규칙 구조 표식 언어 (Rule Structure Markup Language)로 구성된다. 특히, RIML은 HTML안에 내재되어 있는 규칙을 HTML 문서에 직접 명시할 수 있도록 설계되었기 때문에, RIML을 통해 웹페이지에 있는 규칙들을 식별하고 이 식별된 규칙은 RSML으로 표현된 정형화된 규칙으로 자동 변환될 수 있다. 본 논문에서는 RIML의 설계 시 웹페이지로부터 규칙을 식별하는 과정에서 발생하는 공유되는 변수 (variables) 및 값 (values),생략된 어구 ,동의어와 같은 몇 가지 중요한 현상들을 발견하고 이를 해결하고자 하였다. 제안된 XRML 접근 방법의 성능을 측정하고자, 3개의 대표적인 온라인 서점인 Amazon.com, BarnesandNoble.com, Powells.com의 실제 웹페이지들로부터 배송 및 환불과 관련된 규칙을 습득하여 XRML의 효과를 측정하는 실험을 수행하였다. 실험 결과에 따르면, 웹페이지로부터 규칙은 $97.7\%$의 매우 높은 정확성을 가지고 습득되었으며, 생성된 규칙의 완전성은 $88.5\%$로 측정되어, XRML이 특정 주제에 관한 전문가 시스템을 구축하기 위해 웹페이지로부터 규칙을 추출할 때 효율적인 도구가 될 수 있음이 예시되었다.

  • PDF

효과적인 HLA개체인식을 위한 부분매칭기법 (The partial matching method for effective recognizing HLA entities)

  • 채정민;정영희;이태민;채지은;오흥범;정순영
    • 컴퓨터교육학회논문지
    • /
    • 제14권2호
    • /
    • pp.83-94
    • /
    • 2011
  • 생의학분야에서 문헌에 표기된 개체를 인식하기 위해 길이우선매칭기법을 빈번히 사용한다. 길이우선매칭기법은 사전을 이용한 개체인식기법으로 좋은 사전만 구축되어 있다면 빠르고 정확하게 개체를 찾아낼 수 있다는 장점을 가진다. 그러나 개체가 나열되고 중복된 단어가 생략될 경우에는 길이우선매칭기법을 이용할 경우 성능이 현저히 떨어지게 된다. 우리는 이러한 인식성능문제를 해결하기 위해 부분매칭기법을 제안한다. 제안된 부분매칭기법은 생략이 발생될 수 있다는 것을 가정하여 다수의 후보개체를 만들어 내고 그 후에 최적화 알고리즘을 통해 다수의 개체후보 중에서 가장 타당해 보이는 개체를 선택한다. 우리는 생의학분야의 개체 중에서 나열되는 경우가 빈번한 HLA 유전자, HLA 항원, HLA 대립유전자 개체들을 대상으로 길이우선매칭기법과 제안된 부분매칭기법의 개체인식성능을 분석하였다. 3종의 HLA 개체들을 인식하기 위해서 먼저 확장사전과 태그기반사전을 구축하였으며, 그 후 구축된 사전을 이용해 길이우선매칭과 부분매칭을 수행하였다. 실험결과에 따르면 길이우선매칭기법은 HLA 항원 개체에서 좋은 성능을 보였으며 부분매칭기법은 생략된 표현이 빈번한 HLA 유전자 개체, HLA 대립유전자 개체에서 좋은 성능을 보였다. 부분매칭기법은 HLA 대립유전자 개체를 대상으로 95.59%의 높은 F-score를 얻었다.

  • PDF

한국어 단어 및 문장 분류 태스크를 위한 분절 전략의 효과성 연구 (A Comparative study on the Effectiveness of Segmentation Strategies for Korean Word and Sentence Classification tasks)

  • 김진성;김경민;손준영;박정배;임희석
    • 한국융합학회논문지
    • /
    • 제12권12호
    • /
    • pp.39-47
    • /
    • 2021
  • 효과적인 분절을 통한 양질의 입력 자질 구성은 언어모델의 문장 이해력을 향상하기 위한 필수적인 단계이다. 입력 자질의 품질 제고는 세부 태스크의 성능과 직결된다. 본 논문은 단어와 문장 분류 관점에서 한국어의 언어적 특징을 효과적으로 반영하는 분절 전략을 비교 연구한다. 분절 유형은 언어학적 단위에 따라 어절, 형태소, 음절, 자모 네 가지로 분류하며, RoBERTa 모델 구조를 활용하여 사전학습을 진행한다. 각 세부 태스크를 분류 단위에 따라 문장 분류 그룹과 단어 분류 그룹으로 구분 지어 실험함으로써, 그룹 내 경향성 및 그룹 간 차이에 대한 분석을 진행한다. 실험 결과에 따르면, 문장 분류에서는 단위의 언어학적 분절 전략을 적용한 모델이 타 분절 전략 대비 최대 NSMC: +0.62%, KorNLI: +2.38%, KorSTS: +2.41% 높은 성능을, 단어 분류에서는 음절 단위의 분절 전략이 최대 NER: +0.7%, SRL: +0.61% 높은 성능을 보임으로써, 각 분류 그룹에서의 효과성을 보여준다.

기술과학 분야 학술문헌에 대한 학습집합 반자동 구축 및 자동 분류 통합 연구 (Semi-automatic Construction of Learning Set and Integration of Automatic Classification for Academic Literature in Technical Sciences)

  • 김선우;고건우;최원준;정희석;윤화묵;최성필
    • 정보관리학회지
    • /
    • 제35권4호
    • /
    • pp.141-164
    • /
    • 2018
  • 최근 학술문헌의 양이 급증하고, 융복합적인 연구가 활발히 이뤄지면서 연구자들은 선행 연구에 대한 동향 분석에 어려움을 겪고 있다. 이를 해결하기 위해 우선적으로 학술논문 단위의 분류 정보가 필요하지만 국내에는 이러한 정보가 제공되는 학술 데이터베이스가 존재하지 않는다. 이에 본 연구에서는 국내 학술문헌에 대해 다중 분류가 가능한 자동 분류 시스템을 제안한다. 먼저 한국어로 기술된 기술과학 분야의 학술문헌을 수집하고 K-Means 클러스터링 기법을 활용하여 DDC 600번 대의 중분류에 맞게 매핑하여 다중 분류가 가능한 학습집합을 구축하였다. 학습집합 구축 결과, 메타데이터가 존재하지 않는 값을 제외한 총 63,915건의 한국어 기술과학 분야의 자동 분류 학습집합이 구축되었다. 이를 활용하여 심층학습 기반의 학술문헌 자동 분류 엔진을 구현하고 학습하였다. 객관적인 검증을 위해 수작업 구축한 실험집합을 통한 실험 결과, 다중 분류에 대해 78.32%의 정확도와 72.45%의 F1 성능을 얻었다.

도서관의 인공지능(AI) 서비스 현황 및 서비스 제공 방안에 관한 연구 (A Study on the Current State of the Library's AI Service and the Service Provision Plan)

  • 곽우정;노영희
    • 한국도서관정보학회지
    • /
    • 제52권1호
    • /
    • pp.155-178
    • /
    • 2021
  • 4차산업혁명 시대에서 공공도서관은 인공지능과 같은 외부 환경 변화에 능동적으로 대응하기 위하여 도서관 지능형서비스 추진 전략이 필요하다. 따라서 본 연구에서는 인공지능의 개념과 국내외 인공지능 관련 동향 및 정책, 사례 등의 분석 내용을 기반으로 도서관에서의 향후 인공지능 서비스 도입 및 발전 방향성에 대해 제안하였다. 현재 도서관에서는 딥러닝, 자연어처리 등 인공지능 기술 도입을 통해 자동으로 답변을 제공하는 참고정보서비스를 운영하며, 빅데이터 기반 AI 도서 추천 및 자동 도서 점검 시스템을 개발하여 업무 활용도를 높이고, 이용자 맞춤형 서비스를 제공하고 있다. 기업 및 산업 분야에서는 국내외를 막론하고, 사용자 개인 맞춤형 등을 기반으로 한 기술을 개발하여 서비스하고 있으며, 딥러닝을 사용하여 정보를 스스로 학습하여 최적의 결과를 제공하는 식의 형태로 개발하고 있다. 이에 따라 향후 도서관에서 인공지능을 활용하여, 이용자의 이용 기록을 기반으로 한 개인 맞춤형 도서 추천, 독서·문화 프로그램 추천, 도서 택배 서비스 시 자율주행 드론·자동차 등 운송수단을 통한 실시간 배송 서비스 도입 등 다양한 서비스 개발을 도모해야 한다.

사회문제 해결 연구보고서 기반 문장 의미 식별 데이터셋 구축 (Building Sentence Meaning Identification Dataset Based on Social Problem-Solving R&D Reports)

  • 신현호;정선기;전홍우;권이남;이재민;박강희;최성필
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권4호
    • /
    • pp.159-172
    • /
    • 2023
  • 일반적으로 사회문제 해결 연구는 과학기술을 활용하여 다양한 사회적 현안들에 의미있는 해결 방안을 제시함으로써 중요한 사회적 가치를 창출하는 것을 연구 목표로 한다. 그러나 사회문제와 쟁점을 완화하기 위하여 많은 연구들이 국가적으로 수행되었음에도 불구하고 여전히 많은 사회문제가 남아 있는 상황이다. 사회문제 해결 연구의 전 과정을 원활하게 하고 그 효과를 극대화하기 위해서는 사회적으로 시급한 현안들에 대한 문제를 명확하게 파악하는 것이 중요하다. 사회문제 해결과 관련된 기존 R&D 보고서와 같은 자료에서 중요한 사안을 자동으로 식별할 수 있다면 사회문제 파악 단계가 크게 개선될 수 있다. 따라서 본 논문은 다양한 국가 연구보고서에서 사회문제와 해결방안을 자동으로 감지하기 위한 기계학습 모델을 구축하는 데에 필수적인 데이터셋을 제안하고자 한다. 우선 데이터를 구축하기 위해 사회문제와 쟁점을 다룬 연구보고서를 총 700건 수집하였다. 수집된 연구보고서에서 사회문제, 목적, 해결 방안 등 사회문제 해결과 관련된 내용이 담긴 문장을 추출 후 라벨링을 수행하였다. 또한 4개의 사전학습 언어모델을 기반으로 분류 모델을 구현하고 구축된 데이터셋을 통해 일련의 성능 실험을 수행하였다. 실험 결과 KLUE-BERT 사전학습 언어모델을 미세조정한 모델이 정확도 75.853%, F1 스코어 63.503%로 가장 높은 성능을 보였다.

KOMUChat : 인공지능 학습을 위한 온라인 커뮤니티 대화 데이터셋 연구 (KOMUChat: Korean Online Community Dialogue Dataset for AI Learning)

  • 유용상;정민화;이승민;송민
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.219-240
    • /
    • 2023
  • 사용자가 만족감을 느끼며 상호작용할 수 있는 대화형 인공지능을 개발하기 위한 노력이 이어지고 있다. 대화형 인공지능 개발을 위해서는 사람들의 실제 대화를 반영한 학습 데이터를 구축하는 것이 필요하지만, 기존 데이터셋은 질문-답변 형식이 아니거나 존대어를 사용하여 사용자가 친근감을 느끼기 어려운 문체로 구성되어 있다. 이에 본 논문은 온라인 커뮤니티에서 수집한 30,767개의 질문-답변 문장 쌍으로 구성된 대화 데이터셋(KOMUChat)을 구축하여 제안한다. 본 데이터셋은 각각 남성, 여성이 주로 이용하는 연애상담 게시판의 게시물 제목과 첫 번째 댓글을 질문-답변으로 수집하였다. 또한, 자동 및 수동 정제 과정을 통해 혐오 데이터 등을 제거하여 양질의 데이터셋을 구축하였다. KOMUChat의 타당성을 검증하기 위해 언어 모델에 본 데이터셋과 벤치마크 데이터셋을 각각 학습시켜 비교분석하였다. 그 결과 답변의 적절성, 사용자의 만족감, 대화형 인공지능의 목적 달성 여부에서 KOMUChat이 벤치마크 데이터셋의 평가 점수를 상회했다. 본 연구는 지금까지 제시된 오픈소스 싱글턴 대화형 텍스트 데이터셋 중 가장 대규모의 데이터이며 커뮤니티 별 텍스트 특성을 반영하여 보다 친근감있는 한국어 데이터셋을 구축하였다는 의의를 가진다.