• 제목/요약/키워드: 토픽 모델

검색결과 186건 처리시간 0.022초

자기 지도 학습 기반의 언어 모델을 활용한 다출처 정보 통합 프레임워크 (Multi-source information integration framework using self-supervised learning-based language model)

  • 김한민;이정빈;박규동;손미애
    • 인터넷정보학회논문지
    • /
    • 제22권6호
    • /
    • pp.141-150
    • /
    • 2021
  • 인공지능(Artificial Intelligence) 기술을 활용하여 인공지능 기반의 전쟁 (AI-enabled warfare)가 미래전의 핵심이 될 것으로 예상한다. 자연어 처리 기술은 이러한 AI 기술의 핵심 기술로 지휘관 및 참모들이 자연어로 작성된 보고서, 정보 및 첩보를 일일이 열어확인하는 부담을 줄이는데 획기적으로 기여할 수 있다. 본 논문에서는 지휘관 및 참모의 정보 처리 부담을 줄이고 신속한 지휘결심을 지원하기 위해 언어 모델 기반의 다출처 정보 통합 (Language model-based Multi-source Information Integration, LAMII) 프레임워크를 제안한다. 제안된 LAMII 프레임워크는 자기지도 학습법을 활용한 언어 모델에 기반한 표현학습과 오토인코더를 활용한 문서 통합의 핵심 단계로 구성되어 있다. 첫 번째 단계에서는, 자기지도 학습 기법을 활용하여 구조적으로 이질적인 두 문장간의 유사 관계를 식별할 수 있는 표현학습을 수행한다. 두 번째 단계에서는, 앞서 학습된 모델을 활용하여 다출처로부터 비슷한 내용 혹은 토픽을 함양하는 문서들을 발견하고 이들을 통합한다. 이 때, 중복되는 문장을 제거하기 위해 오토인코더를 활용하여 문장의 중복성을 측정한다. 본 논문의 우수성을 입증하기 위해, 우리는 언어모델들과 이의 성능을 평가할 때 활용되는 대표적인 벤치마크 셋들을 함께 활용하여 이질적인 문장간의 유사 관계를 예측의 비교 실험하였다. 실험 결과, 제안된 LAMII 프레임워크가 다른 언어 모델에 비하여 이질적인 문장 구조간의 유사 관계를 효과적으로 예측할 수 있음을 입증하였다.

퍼지이론을 이용한 자동문서 요약 기술 (Automatic Document Summary Technique Using Fuzzy Theory)

  • 이상훈;문승진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권12호
    • /
    • pp.531-536
    • /
    • 2014
  • 인터넷에서 사용 가능한 수많은 정보로 인해서 대용량의 문서를 다루는 기술은 점차 그 필요성이 증가되어 왔지만, 효과적으로 문서 내 정보를 처리하기 위한 기술의 문제는 여전히 풀어야 할 과제로 남아 있다. 자동문서 요약 기술은 문서 내 중요한 부분을 유지하고, 중복된 내용을 제거함으로써 이러한 대용량의 문서를 처리하는 데 중요한 방법으로 인식되어 왔다. 본 논문에서는 이러한 요약문을 만들 때 중요도를 결정하는 문제를 해결하기 위해서 퍼지 이론을 이용한 문서 요약 기술을 제안한다. 제안된 요약 기술은 중요도를 결정하는 여러 특징들의 애매모호한 문제를 해결하고, 그 실험결과는 기존의 다른 방법과 비교해서 전반적으로 높은 결과를 보인다.

Latent Dirichlet Allocation (LDA) 모델 기반의 인공지능(A.I.) 기술 관련 연구 활동 및 동향 분석 (Systemic Analysis of Research Activities and Trends Related to Artificial Intelligence(A.I.) Technology Based on Latent Dirichlet Allocation (LDA) Model)

  • 정명석;이주연
    • 한국산업정보학회논문지
    • /
    • 제23권3호
    • /
    • pp.87-95
    • /
    • 2018
  • 최근 인공지능(Artificial Intelligence; A.I.)의 기술 발전과 함께 이에 대한 관심이 증가하고 있으며 관련 시장도 비약적으로 확대되고 있다. 아직은 초기단계이지만 2000년 이후 현재까지 계속 확장되고 있는 인공지능 기술 분야의 연구방향과 투자 분야에 대한 불확실성을 줄이는 것이 중요한 시점이다. 이러한 기술 변화와 시대적 요구에 따라서 본 연구는 빅데이터(Big Data) 분석방법 중 텍스트 마이닝(Text Mining)과 토픽모델링(Topic Modeling)을 활용하여 기술동향을 살펴보고, 핵심기술과 성장 가능성이 있는 연구의 향후 방향성을 제시하였다. 본 연구의 결과로부터 인공지능의 기술동향에 대한 이해를 바탕으로 향후 연구 방향에 대한 새로운 시사점을 도출할 수 있으리라 기대한다.

철학 디지털 지식 자원의 효과적인 구축 방향에 대한 연구 (A Study of Effective Creating Methods of Philosophy Digital Knowledge Resources)

  • 최병일;정현숙
    • 한국콘텐츠학회논문지
    • /
    • 제5권2호
    • /
    • pp.39-51
    • /
    • 2005
  • 철학의 연구는 과거의 연구 성과에 대한 지식을 축적하고 이를 재구성한 다음 새롭게 해석하는 과정이다. 철학 디지털 지식 자원은 연구 성과의 축적 및 검색을 지원함으로써 철학 연구에 있어서 필수 불가결한 요소가 되었다. 본 논문에서는 국내외 철학 디지털 지식 자원의 구축 현황에 대한 조사 결과를 소개하고 이들 철학 디지털 지식 자원이 가지는 문제점과 개선 방안에 대해 서술한다. 또한 온톨로지 데이터 모델인 토픽맵을 기반으로 철학 온톨로지를 구축함으로써 철학 지식의 계층적 및 연관적 관계 정의와 의미 기반 지식 검색이 가능함을 보인다.

  • PDF

2019년 강원도 화재 보도에 대한 언어망 분석: 미디어의제 분석을 중심으로 (Semantic Network Analysis of 2019 Gangwon-do Wild Fire News Reporting: Focusing on Media Agenda Analysis)

  • 이정훈
    • 한국콘텐츠학회논문지
    • /
    • 제19권11호
    • /
    • pp.153-167
    • /
    • 2019
  • 이번 연구는 지상파 TV, 중앙일간지, 지역지, 등 총 37개의 보도 매체의 2019년 강원도 대형 화재 보도를 분석하여 미디어의제를 파악하고 매체별, 시기별 미디어의제를 비교, 분석하였다. 토픽모델링 알고리즘과 의미망 분석을 활용한 연구는 네트워크 미디어의제의 구성을 분석하고 QAP 상관분석을 활용하여 매체간 의제 설정 효과도 검증하였다. 분석 결과, 2019년 강원도 화재 보도에서는 이재민 지원과 정치권 갈등 속성을 중심으로 다소 선정적인 미디어의제가 형성되었고 시기별, 매체별 미디어의제 간 유사성이 높은 것으로 나타났다. 이번 연구는 네트워크 의제설정 모델을 토대로 의미망 분석 도구를 활용해 대량의 기사를 분석하면서 기존의 빈도분석과는 구별되는 조사방법론을 구현한 연구라는 점에서 또 하나의 의미를 가질 수 있다.

fMRI 데이터에 적용한 인디언 뷔페 프로세스 닮은 성분 분석법 (Indian Buffet Process Inspired Component Analysis for fMRI Data)

  • 김준식;김은솔;임병권;이충연;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.191-194
    • /
    • 2011
  • 문서를 이루는 단어들의 빈도수가 지수법칙(power law)를 따른다는 지프의 법칩(Zipf's law)이 있다. 이러한 단어분포를 고려하여 문서의 토픽을 찾아내는 기계학습법이 디리쉴레 프로세스(Dirichlet process) 이다. 이를 발전시켜서 데이터의 잠재 요인(latent factor)들을 베이즈 확률모델에 기반한 샘플링 바탕으로 찾는 방법이 인디언 뷔페 과정(Indian buffet process) 이다. 우리는 25가지의 특징(feature)들에 대한 점수(rating)들이 볼드(blood oxygen dependent level) 신호와 함께 주어지는 PBAIC 2007 데이터에 주성분 분석법(principal component analysis)를 적용했다. PBAIC 2007 데이터는 비디오 게임을 수행하며 기능적뇌영상(functional magnetic resonance imaging, fMRI) 촬영을 하여 얻어진 공개데이터이다. 우리의 연구에서는 주성분 분석법을 이용하여 10개의 독립 성분(independent component)들을 찾았다. 그리고 1.75초 마다 촬영된 BOLD 신호와 10개의 고유벡터(eigenvector)들간의 내적을 취하여 가중치(weight)를 구하였다. 성분들의 가중치를 낮은 순서로 정렬함으로써 각 시간마다 주도적으로 영향을 미치는 성분들을 알아낼 수 있었다.

BERT 기반 자연어처리 모델의 미세 조정을 통한 한국어 리뷰 감성 분석: 입력 시퀀스 길이 최적화 (Fine-tuning BERT-based NLP Models for Sentiment Analysis of Korean Reviews: Optimizing the sequence length)

  • 황성아;박세연;장백철
    • 인터넷정보학회논문지
    • /
    • 제25권4호
    • /
    • pp.47-56
    • /
    • 2024
  • 본 연구는 BERT 기반 자연어처리 모델들을 미세 조정하여 한국어 리뷰 데이터를 대상으로 감성 분석을 수행하는 방법을 제안한다. 이 과정에서 입력 시퀀스 길이에 변화를 주어 그 성능을 비교 분석함으로써 입력 시퀀스 길이에 따른 최적의 성능을 탐구하고자 한다. 이를 위해 의류 쇼핑 플랫폼 M사에서 수집한 텍스트 리뷰 데이터를 활용한다. 웹 스크래핑을 통해 리뷰 데이터를 수집하고, 데이터 전처리 단계에서는 긍정 및 부정 만족도 점수 라벨을 재조정하여 분석의 정확성을 높였다. 구체적으로, GPT-4 API를 활용하여 리뷰 텍스트의 실제 감성을 반영한 라벨을 재설정하고, 데이터 불균형 문제를 해결하기 위해 6:4 비율로 데이터를 조정하였다. 의류 쇼핑 플랫폼에 존재하는 리뷰들을 평균적으로 약 12 토큰의 길이를 띄었으며, 이에 적합한 최적의 모델을 제공하기 위해 모델링 단계에서는 BERT기반 사전학습 모델 5가지를 활용하여 입력 시퀀스 길이와 메모리 사용량에 집중하여 성능을 비교하였다. 실험 결과, 입력 시퀀스 길이가 64일 때 대체적으로 가장 적절한 성능 및 메모리 사용량을 나타내는 경향을 띄었다. 특히, KcELECTRA 모델이 입력 시퀀스 길이 64에서 가장 최적의 성능 및 메모리 사용량을 보였으며, 이를 통해 한국어 리뷰 데이터의 감성 분석에서 92%이상의 정확도와 신뢰성을 달성할 수 있었다. 더 나아가, BERTopic을 활용하여 새로 입력되는 리뷰 데이터를 카테고리별로 분류하고, 최종 구축한 모델로 각 카테고리에 대한 감성 점수를 추출하는 한국어 리뷰 감성 분석 프로세스를 제공한다.

사용자 리뷰를 통한 소셜커머스와 오픈마켓의 이용경험 비교분석 (A Comparative Analysis of Social Commerce and Open Market Using User Reviews in Korean Mobile Commerce)

  • 채승훈;임재익;강주영
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.53-77
    • /
    • 2015
  • 국내 모바일 커머스 시장은 현재 소셜커머스가 이용자 수 측면에서 오픈마켓을 압도하고 있는 상황이다. 산업계에서는 모바일 시장에서 소셜커머스의 성장에 대해 빠른 모바일 시장진입, 큐레이션 모델 등을 주요 성공요인으로 제시하고 있지만, 이에 대한 학계의 실증적인 연구 및 분석은 아직 미미한 상황이다. 본 연구에서는 사용자 리뷰를 바탕으로 모바일 소셜커머스와 오픈마켓의 사용자 이용경험을 비교 분석하는 탐험적인 연구를 수행하였다. 먼저 본 연구는 구글 플레이에 등록된 국내 소셜커머스 주요 3개 업체와 오픈마켓 주요 3개 업체의 모바일 앱 리뷰를 수집하였다. 본 연구는 LDA 토픽모델링을 통해 1만여건에 달하는 모바일 소셜커머스와 오픈마켓 사용자 리뷰를 지각된 유용성과 지각된 편리성 토픽으로 분류한 뒤 감정분석과 동시출현단어분석을 수행하였다. 이를 통해 본 연구는 국내 모바일 커머스 상에서 오픈마켓 이용자들에 비해 소셜커머스 이용자들이 서비스와 이용편리성 측면에서 더 긍정적인 경험을 하고 있음을 증명하였다. 소셜커머스는 '배송', '쿠폰', '할인'을 중심으로 서비스 측면에서 이용자들에게 긍정적인 이용경험을 이끌어내고 있는 반면, 오픈마켓의 경우 '로그인 안됨', '상세보기 불편', '멈춤'과 같은 기술적 문제 및 불편으로 인한 이용자 불만이 높았다. 이와 같이 본 연구는 사용자 리뷰를 통해 서비스 이용경험을 효과적으로 비교 분석할 수 있는 탐험적인 실증연구법을 제시하였다. 구체적으로 본 연구는 LDA 토픽모델링과 기술수용모형을 통해 사용자 리뷰를 서비스와 기술 토픽으로 분류하여 효과적으로 분석할 수 있는 새로운 방법을 제시하였다는 점에서 의의가 있다. 또한 본 연구의 결과는 향후 소셜커머스와 오픈마켓의 경쟁 및 벤치마킹 전략에 중요하게 활용될 수 있을 것으로 기대된다.

뉴스와 소셜 데이터를 활용한 텍스트 기반 가짜 뉴스 탐지 방법론 (Text Mining-based Fake News Detection Using News And Social Media Data)

  • 현윤진;김남규
    • 한국전자거래학회지
    • /
    • 제23권4호
    • /
    • pp.19-39
    • /
    • 2018
  • 최근 가짜 뉴스가 분야를 막론하고 전 세계에서 주목을 받고 있으며, 현대경제연구원에서는 이러한 가짜 뉴스로 인한 피해 규모가 연간 약 30조 900억원에 달하는 것으로 추산하였다. 정부에서는 "가짜 뉴스 찾기"를 주제로 "인공지능 R&D 챌린지" 대회를 개최하여 가짜 뉴스를 가려낼 인공지능 원천기술 개발에 대한 첫 걸음을 내딛고 있으며, 민간 차원에서도 다양한 분야에서 팩트 체크 서비스가 제공되고 있다. 학계에서도 가짜 뉴스를 탐지하기 위한 시도가 전문가 기반, 집단지성 기반, 인공지능 기반, 시맨틱 기반 등으로 활발하게 이루어지고 있다. 하지만 이러한 시도는 조작의 정밀도가 높을수록 뉴스 자체에 대한 분석만으로 진위 여부를 식별하기가 더욱 어렵다는 한계를 경험하고 있으며, 가짜 뉴스 탐지 모델의 정확도가 과평가된 경향을 보이고 있다. 따라서 본 연구에서는 가짜 뉴스 탐지 모델 정확도의 공정성을 확보하고, 뉴스의 내용뿐만 아니라 해당 뉴스에 대한 반응으로 자연적으로 발생한 광범위한 소셜 데이터를 활용하여 뉴스의 진위 여부를 판정하는 방안을 제안하고자 한다.

공공연구성과 실용화를 위한 데이터 기반의 기술 포트폴리오 분석: 빅데이터 및 인공지능 분야를 중심으로 (Data-Driven Technology Portfolio Analysis for Commercialization of Public R&D Outcomes: Case Study of Big Data and Artificial Intelligence Fields)

  • 전은지;이채원;류제택
    • 한국빅데이터학회지
    • /
    • 제6권2호
    • /
    • pp.71-84
    • /
    • 2021
  • 빅데이터 및 인공지능 기술은 4차 산업혁명에 핵심적인 기술이나, 국내 중소·중견 기업의 빅데이터 분석 활용과 복합 인공지능 분야의 기술경쟁력 확보가 미흡한 상황이다. 따라서 빅데이터 및 인공지능 분야의 기술사업화를 통해 산업군 전반의 경쟁력을 강화하는 것이 중요하다. 본 연구에서는 기술 포트폴리오 분석을 통해 공공연구성과 실용화 우선순위를 평가하고자 한다. 우선 공공연구성과 정보에 대해 앙상블 기법을 적용한 딥러닝 모델을 사용하여 과제의 6T 분류 결측값을 개선하였다. 이후 6T 분야별 빅데이터 및 인공지능융합 분야를 대상으로 토픽 모델링을 진행하여 10개의 세부기술분야를 도출하였다. 세부기술분야별 기술사업화 가능성을 판단하기 위해 기술활동성과 기술효율성을 새롭게 정의하고 측정하였다. 두 축을 기반으로 포트폴리오를 4가지의 유형으로 구분하여 기술사업화 최우선 고려 대상, 장기 투자가 필요한 기술분야 등을 제안하였다. '영상 및 이미지 기반의 진단 기술'은 기술활동성 및 기술효율성이 높아 시장의 수요와 사업화 역량 모두 이상적인 수준으로 나타났다. 이처럼 체계적인 산업·기술시장 분석을 통해 공공연구성과 창출 기술의 활용을 활성화할 수 있으며 중소·중견으로의 효율적인 기술 이전 및 사업화 추진이 가능하다.