• 제목/요약/키워드: 임베딩벡터

검색결과 146건 처리시간 0.025초

조세심판 문서 검색 효율 향상 모델에 관한 연구 (A Study on the Improvement Model of Document Retrieval Efficiency of Tax Judgment)

  • 이후영;박구락;김동현
    • 한국융합학회논문지
    • /
    • 제10권6호
    • /
    • pp.41-47
    • /
    • 2019
  • 조세 심판에 대한 선결정례는 법원 판례의 경우 유사 심판례를 검색하여 파악하는 것이 매우 중요한 상황이다. 그러나 기존 심판문에 대한 검색은 사용자가 입력하는 키워드를 통하여 검색하는 방법을 사용하고 있으나, 정확한 키워드의 입력이 필요하며, 키워드를 모르는 경우 필요한 문서를 검색하는 것은 불가능하다. 또한 검색된 문서 중에는 내용이 다른 경우도 발생한다. 이에 본 논문에서는 정확한 심판례의 검색을 위하여 문서를 3차원 공간에 벡터화하고, 코사인 유사도를 계산하여, 거리상 가까운 문서를 검색하는 방법의 효율성을 향상시키기 위하여 심판례에서 사용되고 있는 단어들의 유사도를 분석한 후, 최빈값을 추출하여 본문의 텍스트에 삽입하는 방법으로 검색하고자 하는 문서의 코사인 유사도를 향상시키는 방안을 제안한다. 제안 모델을 통하여 조세와 관련된 심판례를 검색하고자 하는 사용자에게 신속하고, 정확한 검색을 제공할 수 있을 것으로 기대된다.

단어 임베딩 기법을 이용한 한글의 의미 변화 파악 (Understanding the semantic change of Hangeul using word embedding)

  • 선현석;이영섭;임창원
    • 응용통계연구
    • /
    • 제34권3호
    • /
    • pp.295-308
    • /
    • 2021
  • 최근 들어 많은 사람들이 자신의 관심사를 SNS에 게시하거나 인터넷과 컴퓨터의 기술 발달로 디지털 형태의 문서 저장이 가능하게 됨으로써 생성되는 텍스트 자료의 양이 폭발적으로 증가하게 되었다. 이에 따라 수많은 문서 자료로부터 가치 있는 정보를 창출하기 위한 기술의 요구 또한 증가하고 있다. 본 연구에서는 대통령 연설 기록문과 신문기사 공공데이터를 활용하여 한글 단어들이 시간에 따라 어떻게 의미가 변화되어 가는지를 통계적 기법을 통해 발굴하였다. 이를 이용하여 한글의 통시적 변화 연구에 활용할 수 있는 방안을 제시한다. 기존 언어학자나 원어민의 직관에 의해 연구되던 한글의 이론적 언어 현상 연구에서 벗어나 누구나 사용할 수 있는 공공문서를 통해 수치화된 값을 도출하고 단어의 의미변화 현상을 설명하고자 한다.

전자상거래에서 고객 행동 정보와 구매 기록을 활용한 딥러닝 기반 개인화 추천 시스템 (Deep Learning-Based Personalized Recommendation Using Customer Behavior and Purchase History in E-Commerce)

  • 홍다영;김가영;김현희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권6호
    • /
    • pp.237-244
    • /
    • 2022
  • 본 논문은 고객의 온라인 행동 정보와 구매 기록을 활용하여 기존의 추천 시스템이 갖는 데이터 희소성의 문제와 콜드 스타트 문제를 해결하고자 VAE 기반 추천 시스템을 제시하였다. 고객의 구매 기록을 임베딩하고 차원 축소하여 단일 변수로 생성하였으며, 온라인 행동 정보를 활용하여 학습을 통해 고객의 잠재 요인을 추출하는데 Variational Autoencoders를 적용하였다. VAE 기반 추천 시스템은 총 12개의 고객의 특성 변수에 VAE를 적용하여 저차원의 벡터를 생성한 뒤 이를 통해 유사 사용자를 찾은 다음, 유사 사용자들이 구매했던 상품들을 고객에게 추천한다. 이렇게 추천한 상품들의 점수를 매겨 nDCG로 성능을 평가하였다. 실험 결과 구매 기록 변수 그리고 온라인 행동 로그 변수를 활용한 VAE 기반의 추천시스템이 SVD 기반의 추천 시스템보다 성능이 좋다는 것을 알 수 있었다. 따라서 고객의 온라인 행동 로그 및 구매 기록을 사용하여 상품을 추천하면 정보 수집에 발생하는 비용과 시간을 줄일 수 있을 뿐만이 아니라 기존 추천 시스템보다 더욱 효율적으로 상품을 추천할 수 있다는 것을 보여주었다.

거대언어모델 기반 특징 추출을 이용한 단기 전력 수요량 예측 기법 (Large Language Models-based Feature Extraction for Short-Term Load Forecasting)

  • 이재승;유제혁
    • 한국산업정보학회논문지
    • /
    • 제29권3호
    • /
    • pp.51-65
    • /
    • 2024
  • 스마트 그리드에서 전력 시스템을 효과적으로 운영하기 위해서는 전력 수요량을 정확히 예측하는 것이 중요하다. 최근 기계학습 기술의 발달로, 인공지능 기반의 전력 수요량 예측 모델이 활발히 연구되고 있다. 하지만, 기존 모델들은 모든 입력변수를 수치화하여 입력하기 때문에, 이러한 수치들 사이의 의미론적 관계를 반영하지 못해 예측 모델의 정확도가 하락할 수 있다. 본 논문은 입력 데이터에 대하여 거대언어모델을 통해 추출한 특징을 이용하여 단기 전력 수요량을 예측하는 기법을 제안한다. 먼저, 입력변수를 문장 형식의 프롬프트로 변환한다. 이후, 가중치가 동결된 거대언어모델을 이용하여 프롬프트에 대한 특징을 나타내는 임베딩 벡터를 도출하고, 이를 입력으로 받은 모델을 학습하여 예측을 수행한다. 실험 결과, 제안 기법은 수치형 데이터에 기반한 예측 모델에 비해 높은 성능을 보였고, 프롬프트에 대한 거대언어모델의 주의집중 가중치를 시각화함으로써 예측에 있어 주요한 영향을 미친 정보를 확인하였다.

다중플립 오류정정을 위한 새로운 QECCs (New QECCs for Multiple Flip Error Correction)

  • 박동영;김백기
    • 한국전자통신학회논문지
    • /
    • 제14권5호
    • /
    • pp.907-916
    • /
    • 2019
  • 본 논문은 CNOT 게이트만을 사용해 모든 다중비트플립 오류들로부터 표적큐비트를 완벽하게 보호할 수 있는 새로운 5-큐비트 다중비트플립코드를 제안하였다. 제안한 다중비트플립코드는 기존의 단일비트플립코드에서와 같이 근원오류부에 Hadamard 게이트 쌍들을 임베딩 할 경우에 쉽게 다중위상플립코드로 확장될 수 있다. 본 논문의 다중비트플립코드와 다중위상플립코드는 4 개 보조큐비트들에 의한 상태벡터 오류정보를 공유한다. 이 4-큐비트 상태벡터들은 Pauli X와 Z 정정이 수반되는 모든 다중플립오류들이 특정 근원오류를 공통으로 포함하는 특성을 반영한다. 이 특성을 이용해 본 논문은 Pauli X와 Z 근원오류의 검출과 정정을 단 3개의 CNOT 게이트로 배치 처리함으로써 다중플립 오류정정을 위한 QECC 설계에도 불구하고 저비용 실현이 가능함을 보였다. 본 논문이 제안한 5-큐비트 다중비트플립코드와 다중위상플립코드는 100% 오류정정율과 50% 오류판별율 특성을 보였다. 이 논문에 제시된 모든 QECC는 QCAD 시뮬레이터를 사용해 검증되었다.

카드 데이터 기반 심층 관광 추천 연구 (Card Transaction Data-based Deep Tourism Recommendation Study)

  • 홍민성;김태경;정남호
    • 지식경영연구
    • /
    • 제23권2호
    • /
    • pp.277-299
    • /
    • 2022
  • 관광산업에서 발생하는 방대한 카드 거래 데이터는 관광객의 소비 행태와 패턴을 암시하는 중요한 자원이 되었다. 거래 데이터에 기반을 둔 스마트 서비스 시스템을 개발하는 것은 관광산업과 지식관리시스템 개발자들의 주요한 목표들 중 하나이다. 그러나 기존 추천 기법의 근간이 되어 온 평점을 활용하기 어렵다는 점은 시스템 설계자들이 학습 과정을 평가하기 어렵게 한다. 또한 시간적, 공간적, 인구통계학적 정보와 같이 추천 성과를 높일 수 있는 보조 요소들을 적절히 활용하는 방법도 어려운 상황이다. 이러한 문제들에 대하여 본 논문은 카드 거래 데이터를 기반으로 관광 서비스를 추천하는 새로운 방식인 CTDDTR을 제안한다. 먼저 Doc2Vec를 이용하여 시간성 선호도를 임베딩하여 관광객 그룹과 서비스 벡터로 데이터를 표현하였다. 다음 단계로 딥러닝 기술 중 하나인 다중 계층 퍼셉트론을 도입하여 얻어진 벡터와 관광 RDF로부터 도출한 보조 요소를 통합하여 심층 추천 모듈을 구성하였다. 추가로, 지식경영 분야의 RFM 분석 기법을 심층 추천 모듈에 도입하여 심층 신경망을 학습하는데 사용되는 평점을 생성함으로써 평점 부재 문제에 대응하였다. 제안한 CTDDTR의 추천 성능을 평가하기 위해 제주도에서 8년 동안 발생한 카드 거래 데이터를 사용하였고, 제안된 방법의 우수한 추천 성능과 보조 요소의 효과를 증명하였다.

Word2Vec을 활용한 제품군별 시장규모 추정 방법에 관한 연구 (A Study on Market Size Estimation Method by Product Group Using Word2Vec Algorithm)

  • 정예림;김지희;유형선
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 인공지능 기술의 급속한 발전과 함께 빅데이터의 상당 부분을 차지하는 비정형 텍스트 데이터로부터 의미있는 정보를 추출하기 위한 다양한 연구들이 활발히 진행되고 있다. 비즈니스 인텔리전스 분야에서도 새로운 시장기회를 발굴하거나 기술사업화 주체의 합리적 의사결정을 돕기 위한 많은 연구들이 이뤄져 왔다. 본 연구에서는 기업의 성공적인 사업 추진을 위해 핵심적인 정보 중의 하나인 시장규모 정보를 도출함에 있어 기존에 제공되던 범위보다 세부적인 수준의 제품군별 시장규모 추정이 가능하고 자동화된 방법론을 제안하고자 한다. 이를 위해 신경망 기반의 시멘틱 단어 임베딩 모델인 Word2Vec 알고리즘을 적용하여 개별 기업의 생산제품에 대한 텍스트 데이터를 벡터 공간으로 임베딩하고, 제품명 간 코사인 거리(유사도)를 계산함으로써 특정한 제품명과 유사한 제품들을 추출한 뒤, 이들의 매출액 정보를 연산하여 자동으로 해당 제품군의 시장규모를 산출하는 알고리즘을 구현하였다. 실험 데이터로서 통계청의 경제총조사 마이크로데이터(약 34만 5천 건)를 이용하여 제품명 텍스트 데이터를 벡터화 하고, 한국표준산업분류 해설서의 산업분류 색인어를 기준으로 활용하여 코사인 거리 기반으로 유사한 제품명을 추출하였다. 이후 개별 기업의 제품 데이터에 연결된 매출액 정보를 기초로 추출된 제품들의 매출액을 합산함으로써 11,654개의 상세한 제품군별 시장규모를 추정하였다. 성능 검증을 위해 실제 집계된 통계청의 품목별 시장규모 수치와 비교한 결과 피어슨 상관계수가 0.513 수준으로 나타났다. 본 연구에서 제시한 모형은 의미 기반 임베딩 모델의 정확성 향상 및 제품군 추출 방식의 개선이 필요하나, 표본조사 또는 다수의 가정을 기반으로 하는 전통적인 시장규모 추정 방법의 한계를 뛰어넘어 텍스트 마이닝 및 기계학습 기법을 최초로 적용하여 시장규모 추정 방식을 지능화하였다는 점, 시장규모 산출범위를 사용 목적에 따라 쉽고 빠르게 조절할 수 있다는 점, 이를 통해 다양한 분야에서 수요가 높은 세부적인 제품군별 시장정보 도출이 가능하여 실무적인 활용성이 높다는 점에서 의의가 있다.

CNN을 적용한 한국어 상품평 감성분석: 형태소 임베딩을 중심으로 (Sentiment Analysis of Korean Reviews Using CNN: Focusing on Morpheme Embedding)

  • 박현정;송민채;신경식
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.59-83
    • /
    • 2018
  • 고객과 대중의 니즈를 파악하기 위한 감성분석의 중요성이 커지면서 최근 영어 텍스트를 대상으로 다양한 딥러닝 모델들이 소개되고 있다. 본 연구는 영어와 한국어의 언어적인 차이에 주목하여 딥러닝 모델을 한국어 상품평 텍스트의 감성분석에 적용할 때 부딪히게 되는 기본적인 이슈들에 대하여 실증적으로 살펴본다. 즉, 딥러닝 모델의 입력으로 사용되는 단어 벡터(word vector)를 형태소 수준에서 도출하고, 여러 형태소 벡터(morpheme vector) 도출 대안에 따라 감성분석의 정확도가 어떻게 달라지는지를 비정태적(non-static) CNN(Convolutional Neural Network) 모델을 사용하여 검증한다. 형태소 벡터 도출 대안은 CBOW(Continuous Bag-Of-Words)를 기본적으로 적용하고, 입력 데이터의 종류, 문장 분리와 맞춤법 및 띄어쓰기 교정, 품사 선택, 품사 태그 부착, 고려 형태소의 최소 빈도수 등과 같은 기준에 따라 달라진다. 형태소 벡터 도출 시, 문법 준수도가 낮더라도 감성분석 대상과 같은 도메인의 텍스트를 사용하고, 문장 분리 외에 맞춤법 및 띄어쓰기 전처리를 하며, 분석불능 범주를 포함한 모든 품사를 고려할 때 감성분석의 분류 정확도가 향상되는 결과를 얻었다. 동음이의어 비율이 높은 한국어 특성 때문에 고려한 품사 태그 부착 방안과 포함할 형태소에 대한 최소 빈도수 기준은 뚜렷한 영향이 없는 것으로 나타났다.

회선 신경망을 활용한 자모 단위 한국형 감성 분석 모델 개발 및 검증 (Development and Validation of the Letter-unit based Korean Sentimental Analysis Model Using Convolution Neural Network)

  • 성원경;안재영;이중정
    • 한국전자거래학회지
    • /
    • 제25권1호
    • /
    • pp.13-33
    • /
    • 2020
  • 본 연구는 자모 단위의 임베딩과 회선 신경망을 활용한 한국어 감성 분석 알고리즘을 제안한다. 감성 분석은 텍스트에서 나타난 사람의 태도, 의견, 성향과 같은 주관적인 데이터 분석을 위한 자연어 처리 기술이다. 최근 한국어 감성 분석을 위한 연구는 꾸준히 증가하고 있지만, 범용 감성 사전을 사용하지 못하고 각 분야에서 자체적인 감성 사전을 구축하여 사용하고 있다. 이와 같은 현상의 문제는 한국어 특성에 맞지 않게 형태소 분석을 수행한다는 것이다. 따라서 본 연구에서는 감성 분석 절차 중 형태소 분석을 배제하고 초성, 중성, 종성을 기반으로 음절 벡터를 생성하여 감성 분석을 하는 모델을 개발하였다. 그 결과 단어 학습 문제와 미등록 단어의 문제점을 최소화할 수 있었고 모델의 정확도는 88% 나타내었다. 해당 모델은 입력 데이터의 비 정형성에 대한 영향을 적게 받으며, 텍스트의 맥락에 따른 극성 분류가 가능하게 되었다. 한국어 특성을 고려하여 개발된 본 모델이 한국어 감성 분석을 수행하고자 하는 비전문가에게 보다 쉽게 이용될 수 있기를 기대한다.

새로운 반려견 등록방식 도입을 위한 안면 인식 성능 개선 연구 (A Study on Improving Facial Recognition Performance to Introduce a New Dog Registration Method)

  • 이동수;박구만
    • 방송공학회논문지
    • /
    • 제27권5호
    • /
    • pp.794-807
    • /
    • 2022
  • 동물보호법 개정에 따라 반려견 등록이 의무화 되었음에도 불구하고, 현재 등록 방법의 불편함으로 등록율이 저조한 상태이다. 본 논문에서는 새로운 등록 방법으로 검토되고 있는 반려견 안면 인식 기술에 대한 성능 개선 연구를 진행하였다. 딥러닝 학습을 통해, 반려견의 안면 인식을 위한 임베딩 벡터를 생성하여 반려견 개체별로 식별하기 위한 방법을 실험하였다. 딥러닝 학습을 위한 반려견 이미지 데이터셋을 구축하고, InceptionNet과 ResNet-50을 백본 네트워크로 사용하여 실험하였다. 삼중항 손실 방법으로 학습하였으며, 안면 검증과 안면 식별로 나뉘어 실험하였다. ResNet-50 기반의 모델에서 최고 93.46%의 안면 검증 성능을 얻을 수 있었으며, 안면 식별 시험에서는 rank-5에서 91.44%의 최고 성능을 각각 얻을 수 있었다. 본 논문에서 제시한 실험 방법과 결과는 반려견의 등록 여부 확인, 반려견 출입시설에서의 개체 확인 등 다양한 분야로 활용이 가능하다.