• 제목/요약/키워드: 자연어 처리 연구

검색결과 644건 처리시간 0.032초

온라인 호텔 리뷰와 평점 불일치 문제 해결을 위한 딥러닝 기반 개인화 추천 서비스 연구 (A Study of Deep Learning-based Personalized Recommendation Service for Solving Online Hotel Review and Rating Mismatch Problem)

  • 이청용;최사박;신병규;김재경
    • 경영정보학연구
    • /
    • 제23권3호
    • /
    • pp.51-75
    • /
    • 2021
  • 세계적인 전자상거래 기업들은 지속 가능한 경쟁력을 확보하기 위해 사용자 맞춤형 추천 서비스를 제공하고 있다. 기존 관련 연구에서는 주로 평점, 구매 여부 등 정량적 선호도 정보를 사용하여 개인화 추천 서비스를 제공하였다. 하지만 이와 같은 정량적 선호도 정보를 사용하여 개인화 추천 서비스를 제공하면 추천 성능이 저하될 수 있다는 문제점이 제기되고 있다. 호텔을 이용한 사용자가 호텔 서비스, 청결 상태 등에 대하여 만족하지 못한다고 리뷰를 작성하였으나 선호도 평점 5점을 부여했을 때 정량적 선호도(평점)와 정성적 선호도(리뷰)가 불일치한 문제가 발생할 수 있다. 따라서 본 연구에서는 정량적 선호도 정보와 정성적 선호도 정보가 일치하는지를 확인하고 이를 바탕으로 선호도 정보가 일치하는 사용자를 바탕으로 새로운 프로파일을 구축하여 개인화 추천 서비스를 제공하고자 한다. 리뷰에서 정성적 선호도를 추출하기 위해 자연어 처리 관련 연구에서 널리 사용되고 있는 CNN, LSTM, CNN + LSTM 등 딥러닝 기법을 사용하여 감성분석 모델을 구축하였다. 이를 통해 사용자가 작성한 리뷰에서 정성적 선호도 정보를 정교하게 추출하여 정량적 선호도 정보와 비교하였다. 본 연구에서 제안한 추천 방법론의 성능을 평가하기 위해 세계 최대 여행 플랫폼 TripAdvisor에서 실제 호텔을 이용한 사용자 선호도 정보를 수집하여 사용하였다. 실험 결과 본 연구에서 제안한 추천 방법론이 기존의 정량적 선호도만을 고려하는 추천 방법론보다 우수한 추천 성능을 나타냄을 확인할 수 있었다.

CNN(Convolutional Neural Network) 알고리즘을 활용한 음성신호 중 비음성 구간 탐지 모델 연구 (A Study on a Non-Voice Section Detection Model among Speech Signals using CNN Algorithm)

  • 이후영
    • 융합정보논문지
    • /
    • 제11권6호
    • /
    • pp.33-39
    • /
    • 2021
  • 음성인식 기술은 딥러닝과 결합되며 빠른 속도로 발전하고 있다. 특히 음성인식 서비스가 인공지능 스피커, 차량용 음성인식, 스마트폰 등의 각종 기기와 연결되며 음성인식 기술이 산업의 특정 분야가 아닌 다양한 곳에 활용되고 있다. 이러한 상황에서 해당 기술에 대한 높은 기대 수준을 맞추기 위한 연구 역시 활발히 진행되고 있다. 그중에서 자연어처리(NLP, Natural Language Processing)분야에서 음성인식 인식률에 많은 영향을 주는 주변의 소음이나 불필요한 음성신호를 제거하는 분야에 연구가 필요한 상황이다. 이미 많은 국내외 기업에서 이러한 연구를 위해 최신의 인공지능 기술을 활용하고 있다. 그중에서 합성곱신경망 알고리즘(CNN)을 활용한 연구가 활발하게 진행되고 있다. 본 연구의 목적은 합성곱 신경망을 통해서 사용자의 발화구간에서 비음성 구간을 판별하는 것으로 5명의 발화자의 음성파일(wav)을 수집하여 학습용 데이터를 생성하고 이를 합성곱신경망을 활용하여 음성 구간과 비음성 구간을 판별하는 분류 모델을 생성하였다. 이후 생성된 모델을 통해 비음성 구간을 탐지하는 실험을 진행한 결과 94%의 정확도를 얻었다.

공공연구성과 실용화를 위한 데이터 기반의 기술 포트폴리오 분석: 빅데이터 및 인공지능 분야를 중심으로 (Data-Driven Technology Portfolio Analysis for Commercialization of Public R&D Outcomes: Case Study of Big Data and Artificial Intelligence Fields)

  • 전은지;이채원;류제택
    • 한국빅데이터학회지
    • /
    • 제6권2호
    • /
    • pp.71-84
    • /
    • 2021
  • 빅데이터 및 인공지능 기술은 4차 산업혁명에 핵심적인 기술이나, 국내 중소·중견 기업의 빅데이터 분석 활용과 복합 인공지능 분야의 기술경쟁력 확보가 미흡한 상황이다. 따라서 빅데이터 및 인공지능 분야의 기술사업화를 통해 산업군 전반의 경쟁력을 강화하는 것이 중요하다. 본 연구에서는 기술 포트폴리오 분석을 통해 공공연구성과 실용화 우선순위를 평가하고자 한다. 우선 공공연구성과 정보에 대해 앙상블 기법을 적용한 딥러닝 모델을 사용하여 과제의 6T 분류 결측값을 개선하였다. 이후 6T 분야별 빅데이터 및 인공지능융합 분야를 대상으로 토픽 모델링을 진행하여 10개의 세부기술분야를 도출하였다. 세부기술분야별 기술사업화 가능성을 판단하기 위해 기술활동성과 기술효율성을 새롭게 정의하고 측정하였다. 두 축을 기반으로 포트폴리오를 4가지의 유형으로 구분하여 기술사업화 최우선 고려 대상, 장기 투자가 필요한 기술분야 등을 제안하였다. '영상 및 이미지 기반의 진단 기술'은 기술활동성 및 기술효율성이 높아 시장의 수요와 사업화 역량 모두 이상적인 수준으로 나타났다. 이처럼 체계적인 산업·기술시장 분석을 통해 공공연구성과 창출 기술의 활용을 활성화할 수 있으며 중소·중견으로의 효율적인 기술 이전 및 사업화 추진이 가능하다.

텍스트 마이닝 기법을 이용한 환경 분야의 ICT 활용 연구 동향 분석 (A Study on Environmental research Trends by Information and Communications Technologies using Text-mining Technology)

  • 박보영;오관영;이정호;윤정호;이승국;이명진
    • 대한원격탐사학회지
    • /
    • 제33권2호
    • /
    • pp.189-199
    • /
    • 2017
  • 본 연구는 텍스트 마이닝 기법을 활용하여 환경 분야에서 ICT의 활용 연구동향을 정량적으로 분석하였다. 이를 위해 환경 분야 키워드 38개, ICT 관련 키워드 16개를 바탕으로 국가과학기술정보센터(NDSL)에서 최근 20년(1996년-2015년)의 논문 359편을 수집하였다. 해당 논문을 대상으로 환경 분야 및 ICT 관련 자연어를 처리하여 말뭉치(Corpus)단위로 분류체계를 재구성하였다. 전술된 분류체계의 키워드를 바탕으로 텍스트 마이닝 분석 기법인 빈도 분석, 키워드 분석, 키워드 간 연관규칙을 확인하였다. 그 결과 '환경 일반' 및 '기후' 분야의 키워드 출현 빈도가 전체의 77 %, ICT는 '공공융합서비스' 및 '산업융합서비스'가 약 30 %의 비율을 차지하였다. 시계열 분석을 통해 환경 분야에서의 ICT 활용 연구는 최근 5년(2011년-2015년)사이에 급증하여 과거(1996년-2010년)과 비교하여 약 2배 이상 관련 연구가 증가된 것으로 나타났다. 키워드 간 연관 규칙을 생성하여 환경 분야를 기준으로 나타내었을 때, '환경 일반'은 16개, '기후'는 '14'개의 ICT 기반 기술을 주로 활용하고 있는 것으로 확인하였다.

키워드 출현 빈도 분석과 CONCOR 기법을 이용한 ICT 교육 동향 분석 (Analysis of ICT Education Trends using Keyword Occurrence Frequency Analysis and CONCOR Technique)

  • 이영석
    • 산업융합연구
    • /
    • 제21권1호
    • /
    • pp.187-192
    • /
    • 2023
  • 본 연구는 기계학습의 키워드 출현 빈도 분석과 CONCOR(CONvergence of iteration CORrealtion) 기법을 통한 ICT 교육에 대한 흐름을 탐색한다. 2018년부터 현재까지의 등재지 이상의 논문을 'ICT 교육'의 키워드로 구글 스칼라에서 304개 검색하였고, 체계적 문헌 리뷰 절차에 따라 ICT 교육과 관련이 높은 60편의 논문을 선정하면서, 논문의 제목과 요약을 중심으로 키워드를 추출하였다. 단어 빈도 및 지표 데이터는 자연어 처리의 TF-IDF를 통한 빈도 분석, 동시 출현 빈도의 단어를 분석하여 출현 빈도가 높은 49개의 중심어를 추출하였다. 관계의 정도는 단어 간의 연결 구조와 연결 정도 중심성을 분석하여 검증하였고, CONCOR 분석을 통해 유사성을 가진 단어들로 구성된 군집을 도출하였다. 분석 결과 첫째, '교육', '연구', '결과', '활용', '분석'이 주요 키워드로 분석되었다. 둘째, 교육을 키워드로 N-GRAM 네트워크 그래프를 진행한 결과 '교육과정', '활용'이 가장 높은 단어의 관계로 나타났다. 셋째, 교육을 키워드로 군집분석을 한 결과, '교육과정', '프로그래밍', '학생', '향상', '정보'의 5개 군이 형성되었다. 이러한 연구 결과를 바탕으로 ICT 교육 동향의 분석 및 트렌드 파악을 토대로 ICT 교육에 필요한 실질적인 연구를 수행할 수 있을 것이다.

2015 및 2022 개정 초등학교 과학과 교육과정에 대한 비교 - 네트워크 분석을 중심으로 - (Comparing the 2015 with the 2022 Revised Primary Science Curriculum Based on Network Analysis)

  • 조헌국
    • 한국초등과학교육학회지:초등과학교육
    • /
    • 제42권1호
    • /
    • pp.178-193
    • /
    • 2023
  • 본 연구는 2015 및 2022 개정 과학과 교육과정 중 초등학교급과 관련된 성취기준을 중심으로 네트워크 분석을 통해 어떠한 변화 양상을 갖는지 비교하고 이를 토대로 초등학교 과학 교수학습을 위한 시사점을 제공하는 것을 목적으로 하였다. 이에 따라 본 연구에서는 2015 및 2022 개정 초등 과학과 교육과 정의 성취기준을 추출하여 성취기준 영역 변화에 따른 차이를 살펴보고, 각 영역별 중심성 지수를 중심으로 한 비교, 커뮤니티 탐지 기법을 활용한 군집 분석을 통해 어떠한 변화가 있는지 분석하였다. 연구 결과, 2015 개정 과학과 교육과정에 비해 전체 성취기준은 10% 가량 감소하였으나, 성취 기준의 길이나 주요어의 빈도는 오히려 증가하였으며, 관찰이나 조사, 설명 외에도 공유, 실천, 설계 등 디지털 도구활용 및 협동학습과 관련된 과정·기능적 측면이 강조되었다. 그러나 이러한 변화는 과학의 각 영역에 따라 서로 다른 차이를 보임을 알 수 있었다. 또한 군집 분석 결과 대체적으로 군집의 숫자나 관련 개념이나 용어의 영역은 유사하였으나, 과정·기능 및 가치·태도와 관련된 주요어를 중심으로 수행 방식 등에 변화가 나타났음을 확인할 수 있었다. 이러한 연구 결과를 토대로 본 연구에서는 새로운 교육과정의 적용 시 고려해야 할 점들을 시사점으로 제시하였다.

텍스트마이닝 기법을 활용한 사용후핵연료 건식처리기술 관련 언론 동향 분석 (Analysis of media trends related to spent nuclear fuel treatment technology using text mining techniques)

  • 정지송;김호동
    • 지능정보연구
    • /
    • 제27권2호
    • /
    • pp.33-54
    • /
    • 2021
  • 최근 4차 산업혁명, 코로나로 인한 뉴노멀 시대의 도래 등을 계기로 인공지능, 빅데이터 연구와 같은 언택트 관련 기술의 중요성이 더욱 급상하고 있다. 각 종 연구 분야에서는 이러한 연구 트렌드를 따라가기 위한 융합적 연구가 본격적으로 시행되고 있으나 원자력 분야의 경우 자연어 처리, 텍스트마이닝 분석 등 인공지능 및 빅데이터 관련 기술을 적용한 연구가 많이 수행되지 않았다. 이에 원자력 연구 분야에 데이터 사이언스 분석기술의 적용 가능성을 확인해보고자 본 연구를 수행하였다. 원자로 연료로 사용된 뒤 배출되는 사용후핵연료 인식 동향 파악에 대한 연구는 원자력 산업 정책에 대한 방향을 결정하고 산업정책 변화를 사전에 대응할 수 있다는 측면에서 매우 중요하다. 사용후핵연료 처리기술은 크게 습식 재처리 방식과 건식 재처리 방식으로 나뉘는데, 이 중 환경 친화적이고 핵비확산성 및 경제성이 높은 건식재처리 기술인 '파이로프로세싱'과 그 연계 원자로 '소듐냉각고속로'의 연구개발에 대한 재평가가 현재 지속적으로 검토되고 있다. 따라서 위와 같은 이유로, 본 연구에서는 사용후핵연료 처리기술인 파이로프로세싱에 대한 언론 동향 분석을 진행하였다. 사용후핵연료 처리기술인 '파이로프로세싱' 키워드를 포함하는 네이버 웹 뉴스 기사 전문의 텍스트데이터를 수집하여 기간에 따라 인식변화를 분석하였다. 2016년 발생한 경주 지진, 2017년 새 정부의 에너지 전환정책 시행된 2010년대 중반 시기를 기준으로 전, 후의 동향 분석이 시행되었고, 빈도분석을 바탕으로 한 워드 클라우드 도출, TF-IDF(Term Frequency - Inverse Document Frequency) 도출, 연결정도 중심성 산출 등의 분석방법을 통해 텍스트데이터에 대한 세부적이고 다층적인 분석을 수행하였다. 연구 결과, 2010년대 이전에는 사용후핵연료 처리기술에 대한 사회 언론의 인식이 외교적이고 긍정적이었음을 알 수 있었다. 그러나 시간이 흐름에 따라 '안전(safety)', '재검토(reexamination)', '대책(countermeasure)', '처분(disposal)', '해체(disassemble)' 등의 키워드 출현빈도가 급증하며 사용후핵연료 처리기술 연구에 대한 지속 여부가 사회적으로 진지하게 고려되고 있음을 알 수 있었다. 정치 외교적 기술로 인식되던 사용후핵연료 처리기술이 국내 정책의 변화로 연구 지속 가능성이 모호해짐에 따라 언론 인식도 점차 변화했다는 것을 확인하였다. 이러한 연구 결과를 통해 원자력 분야에서의 사회과학 연구의 지속은 필수불가결함을 알 수 있었고 이에 대한 중요성이 부각되었다. 또한, 현 정부의 원전 감축과 같은 에너지 정책의 영향으로, 사용후핵연료 처리기술 연구개발에 대한 재평가가 시행되는 이 시점에서 해당 분야의 주요 키워드 분석은 향후 연구 방향 설정에 기여할 수 있을 것이라는 측면에서 실무적 의의를 갖는다. 더 나아가 원자력 공학 분야에 사회과학 분야를 폭넓게 적용할 필요가 있으며, 국가 정책적 변화를 고려해야 원자력 산업이 지속 가능할 것으로 사료된다.

기술과학 분야 학술문헌에 대한 학습집합 반자동 구축 및 자동 분류 통합 연구 (Semi-automatic Construction of Learning Set and Integration of Automatic Classification for Academic Literature in Technical Sciences)

  • 김선우;고건우;최원준;정희석;윤화묵;최성필
    • 정보관리학회지
    • /
    • 제35권4호
    • /
    • pp.141-164
    • /
    • 2018
  • 최근 학술문헌의 양이 급증하고, 융복합적인 연구가 활발히 이뤄지면서 연구자들은 선행 연구에 대한 동향 분석에 어려움을 겪고 있다. 이를 해결하기 위해 우선적으로 학술논문 단위의 분류 정보가 필요하지만 국내에는 이러한 정보가 제공되는 학술 데이터베이스가 존재하지 않는다. 이에 본 연구에서는 국내 학술문헌에 대해 다중 분류가 가능한 자동 분류 시스템을 제안한다. 먼저 한국어로 기술된 기술과학 분야의 학술문헌을 수집하고 K-Means 클러스터링 기법을 활용하여 DDC 600번 대의 중분류에 맞게 매핑하여 다중 분류가 가능한 학습집합을 구축하였다. 학습집합 구축 결과, 메타데이터가 존재하지 않는 값을 제외한 총 63,915건의 한국어 기술과학 분야의 자동 분류 학습집합이 구축되었다. 이를 활용하여 심층학습 기반의 학술문헌 자동 분류 엔진을 구현하고 학습하였다. 객관적인 검증을 위해 수작업 구축한 실험집합을 통한 실험 결과, 다중 분류에 대해 78.32%의 정확도와 72.45%의 F1 성능을 얻었다.

미술품 거래 빅데이터를 이용한 작가 분석 시스템 구현 (Art transaction using big data Artist analysis system implementation)

  • 이승경;임종태
    • 서비스연구
    • /
    • 제11권2호
    • /
    • pp.79-93
    • /
    • 2021
  • 국내 미술시장 규모는 2018년 기준으로 최근 5년간 매년 21.9%씩 증가하는 성장세를 유지하고 있다. 미술품 유통 플랫폼은 화랑과 오프라인 경매 방식, 그리고 온라인 경매로 다양해지고 있다. 미술시장은 작품의 제작(창작), 유통(무역), 소비(매수) 등 3개 분야로 구성되어 있으며, 경제적 가치는 물론 예술적 가치에 대한 인식이 확산되면서 투자 수단으로써 관심도가 높아지고 있다. 작품을 재테크 수단으로 생각하는 소비자는 작품의 객관적 정보에 대한 욕구가 높아지지만, 예술시장 유통 분야의 정보 제공이 폐쇄적이고 불균형해 객관적이고 신뢰할 수 있는 통계를 수집·분석하는 데 한계가 있다. 본 연구는 예술시장 유통 분야에 대한 빅데이터 수집과 정형·비구조적 데이터 분석을 통해 객관적이고 신뢰할 수 있는 미술품 유통 현황을 파악한다. 이를 통해 현재 시장에서 저자의 분석을 객관적으로 제공할 수 있는 시스템을 구현하고자 한다. 본 연구에서는 미술품 유통 사이트에서 저자 정보를 수집하고 일간지 매일경제에서 저자의 기사를 수집·분석해 작가별 연관 단어의 빈도를 산출했다. 이를 통해 본 연구에서는 소비자에게 객관적이고 신뢰할 수 있는 정보를 제공하는 것을 목표로 한다.

회선 신경망을 활용한 자모 단위 한국형 감성 분석 모델 개발 및 검증 (Development and Validation of the Letter-unit based Korean Sentimental Analysis Model Using Convolution Neural Network)

  • 성원경;안재영;이중정
    • 한국전자거래학회지
    • /
    • 제25권1호
    • /
    • pp.13-33
    • /
    • 2020
  • 본 연구는 자모 단위의 임베딩과 회선 신경망을 활용한 한국어 감성 분석 알고리즘을 제안한다. 감성 분석은 텍스트에서 나타난 사람의 태도, 의견, 성향과 같은 주관적인 데이터 분석을 위한 자연어 처리 기술이다. 최근 한국어 감성 분석을 위한 연구는 꾸준히 증가하고 있지만, 범용 감성 사전을 사용하지 못하고 각 분야에서 자체적인 감성 사전을 구축하여 사용하고 있다. 이와 같은 현상의 문제는 한국어 특성에 맞지 않게 형태소 분석을 수행한다는 것이다. 따라서 본 연구에서는 감성 분석 절차 중 형태소 분석을 배제하고 초성, 중성, 종성을 기반으로 음절 벡터를 생성하여 감성 분석을 하는 모델을 개발하였다. 그 결과 단어 학습 문제와 미등록 단어의 문제점을 최소화할 수 있었고 모델의 정확도는 88% 나타내었다. 해당 모델은 입력 데이터의 비 정형성에 대한 영향을 적게 받으며, 텍스트의 맥락에 따른 극성 분류가 가능하게 되었다. 한국어 특성을 고려하여 개발된 본 모델이 한국어 감성 분석을 수행하고자 하는 비전문가에게 보다 쉽게 이용될 수 있기를 기대한다.