• 제목/요약/키워드: Space vector approach

검색결과 179건 처리시간 0.025초

단어선택과 SMOTE 알고리즘을 이용한 불균형 텍스트 데이터의 소수 범주 예측성능 향상 기법 (Improving minority prediction performance of support vector machine for imbalanced text data via feature selection and SMOTE)

  • 김종찬;장성준;손원
    • 응용통계연구
    • /
    • 제37권4호
    • /
    • pp.395-410
    • /
    • 2024
  • 텍스트 데이터는 일반적으로 많은 다양한 단어들로 구성되어 있다. 평범한 텍스트 데이터의 경우에도 수만 개의 서로 다른 단어들을 포함하고 있는 경우를 흔히 관찰할 수 있으며 방대한 양의 텍스트 데이터에서는 수십만 개에 이르는 고유한 단어들이 포함되어 있는 경우도 있다. 텍스트 데이터를 전처리하여 문서-단어 행렬을 만드는 경우 고유한 단어를 하나의 변수로 간주하게 되는데 이렇게 많은 단어들을 각각 하나의 변수로 간주한다면 텍스트 데이터는 매우 많은 변수를 가진 데이터로 볼 수 있다. 한편, 텍스트 데이터의 분류 문제에서는 분류의 목표변수가 되는 범주의 비중에 큰 차이가 나는 불균형 데이터 문제를 자주 접하게 된다. 이렇게 범주의 비중에 큰 차이가 있는 불균형 데이터의 경우에는 일반적인 분류모형의 성능이 크게 저하될 수 있다는 사실이 잘 알려져 있다. 따라서 불균형 데이터에서의 분류 성능을 개선하기 위해 소수집단의 관측값들을 합성하여 소수집단에 포함되는 새로운 관측값을 생성하는 합성과표집기법(synthetic over-sampling technique; SMOTE) 등의 알고리즘을 적용할 수 있다. SMOTE는 k-최근접이웃(k-nearset neighbor; kNN) 알고리즘을 이용하여 새로운 합성 데이터를 생성하는데 텍스트 데이터와 같이 많은 변수를 가진 데이터의 경우에는 오차가 누적되어 kNN의 성능에 문제가 생길 수 있다. 이 논문에서는 변수선택을 통해 변수가 많은 불균형 텍스트 데이터를 오차가 축소된 공간에 표현하고 이 공간에서 새로운 합성 관측값을 생성하여 불균형 텍스트 데이터에서 소수 범주에 대한 SVM 분류모형의 예측 성능을 향상시키는 방법을 제안한다.

컴퓨터 비전을 활용한 토마토, 파프리카, 멜론 및 오이 작물의 표현형 특성화 (Computer Vision Approach for Phenotypic Characterization of Horticultural Crops)

  • 윤승리;신민주;김진현;정호정;박준영;안태인
    • 생물환경조절학회지
    • /
    • 제33권1호
    • /
    • pp.63-70
    • /
    • 2024
  • 본 연구는 오픈소스 라이브러리인 OpenCV를 활용해 다양한 시설과채류의 표현형 분석에 적용 가능한 컴퓨터 비전 기술을 탐구하였다. 토마토에 대해서는 이미지의 색상을 분석하여 숙성도를 판정하며, support vector machine(SVM) and histogram of oriented gradients 기법을 통해 숙성된 토마토를 효과적으로 검출하였다. 파프리카의 경우, 색상 분포를 시각화한 후, 가우스 혼합 모델로 클러스터링을 실행하여 수확 파프리카의 색상 특성을 분석하였다. 네트 멜론의 품질 평가에서는 LAB 색상 공간, 이진화 이미지 및 깊이 매핑을 활용하여 멜론의 네트 패턴을 정량화하였다. 추가로, 오이 온실에서 화방 검출을 위해 깊이 정보와 색상 정보를 조합하여 다양한 크기와 거리의 화방을 성공적으로 검출하였다. 이 연구의 결과로, 해당 컴퓨터 비전 기술들이 시설과채류의 생장 모니터링, 숙성 및 품질 평가 등에서의 유효성을 확인하였다. 농산업에서 컴퓨터 비전의 효과적 적용을 위해, 후속 연구자나 개발자들이 재배 생리와 연관된 지표를 기반으로 이 기술들을 보완할 경우, 실제 농업 현장 및 연구에서 널리 활용될 가능성이 크다.

다중요인모델에 기반한 텍스트 문서에서의 토픽 추출 및 의미 커널 구축 (Multiple Cause Model-based Topic Extraction and Semantic Kernel Construction from Text Documents)

  • 장정호;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권5호
    • /
    • pp.595-604
    • /
    • 2004
  • 문서 집합 내의 개념 또는 의미 관계의 자동 분석은 보다 효율적인 정보 획득과 단어 이상의 개념 수준에서의 문서간 비교를 가능케 한다. 본 논문에서는 다중요인모델에 기반 하여 텍스트 문서로부터 토픽들을 추출하고 이로부터 의미 커널(semantic kernel)을 구축하여 문서간 유사도를 측정하는 방안을 제시한다. 텍스트 문서는 내재된 토픽들의 다양한 결합에 의해 생성된다고 가정하며 하나의 토픽은 공통 주제에 관련되거나 적어도 자주 같이 나타나는 단어들의 집합으로 정의한다. 다중요인모델은 은닉층을 갖는 하나의 네트워크 형태로 표현되며, 토픽을 표현하는 단어 집합은 은닉노드로부터의 가중치가 높은 단어들로 구성된다. 일반적으로 이러한 다중요인 네트워크에서의 학습과 추론과정을 용이하게 하기 위해서는 근사적 확률 추정 기법이 요구되는데, 본 논문에서는 헬름홀츠 머신에 의한 방법을 활용한다. TDT-2 문서 집합에 대한 실험에서 토픽별로 관련 있는 단어 집합들을 추출할 수 있었으며, 4개의 텍스트 집합에 대한문서 검색 실험에서는 다중요인모델의 분석결과에 기반 한 의미 커널을 사용함으로써 기본 벡터공간 모델에 비해 평균정확도 면에서 통계적으로 유의한 수준의 성능 향상을 얻을 수 있었다.

RawNet3 화자 표현을 활용한 임의의 화자 간 음성 변환을 위한 StarGAN의 확장 (Extending StarGAN-VC to Unseen Speakers Using RawNet3 Speaker Representation)

  • 박보경;박소민;홍현기
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권7호
    • /
    • pp.303-314
    • /
    • 2023
  • 음성 변환(Voice Conversion)은 개인의 음성 데이터를 다른 사람의 음향적 특성(음조, 리듬, 성별 등)으로 재생성할 수 있는 기술로, 교육, 의사소통, 엔터테인먼트 등 다양한 분야에서 활용되고 있다. 본 논문은 StarGAN-VC 모델을 기반으로 한 접근 방식을 제안하여, 병렬 발화(Utterance) 없이도 현실적인 음성을 생성할 수 있다. 고정된 원본(source) 및 목표(target)화자 정보의 원핫 벡터(One-hot vector)를 이용하는 기존 StarGAN-VC 모델의 제약을 극복하기 위해, 본 논문에서는 사전 훈련된 Rawnet3를 사용하여 목표화자의 특징 벡터를 추출한다. 이를 통해 음성 변환은 직접적인 화자 간 매핑 없이 잠재 공간(latent space)에서 이루어져 many-to-many를 넘어서 any-to-any 구조가 가능하다. 기존 StarGAN-VC 모델에서 사용된 손실함수 외에도, Wasserstein-1 거리를 사용하여 생성된 음성 세그먼트가 목표 음성의 음향적 특성과 일치하도록 보장했다. 또한, 안정적인 훈련을 위해 Two Time-Scale Update Rule (TTUR)을 사용한다. 본 논문에서 제시한 평가 지표들을 적용한 실험 결과에 따르면, 제한된 목소리 변환만이 가능한 기존 StarGAN-VC 기법 대비, 본 논문의 제안 방법을 통해 다양한 발화자에 대한 성능이 개선된 음성 변환을 제공할 수 있음을 정량적으로 확인하였다.

Word2Vec을 활용한 제품군별 시장규모 추정 방법에 관한 연구 (A Study on Market Size Estimation Method by Product Group Using Word2Vec Algorithm)

  • 정예림;김지희;유형선
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 인공지능 기술의 급속한 발전과 함께 빅데이터의 상당 부분을 차지하는 비정형 텍스트 데이터로부터 의미있는 정보를 추출하기 위한 다양한 연구들이 활발히 진행되고 있다. 비즈니스 인텔리전스 분야에서도 새로운 시장기회를 발굴하거나 기술사업화 주체의 합리적 의사결정을 돕기 위한 많은 연구들이 이뤄져 왔다. 본 연구에서는 기업의 성공적인 사업 추진을 위해 핵심적인 정보 중의 하나인 시장규모 정보를 도출함에 있어 기존에 제공되던 범위보다 세부적인 수준의 제품군별 시장규모 추정이 가능하고 자동화된 방법론을 제안하고자 한다. 이를 위해 신경망 기반의 시멘틱 단어 임베딩 모델인 Word2Vec 알고리즘을 적용하여 개별 기업의 생산제품에 대한 텍스트 데이터를 벡터 공간으로 임베딩하고, 제품명 간 코사인 거리(유사도)를 계산함으로써 특정한 제품명과 유사한 제품들을 추출한 뒤, 이들의 매출액 정보를 연산하여 자동으로 해당 제품군의 시장규모를 산출하는 알고리즘을 구현하였다. 실험 데이터로서 통계청의 경제총조사 마이크로데이터(약 34만 5천 건)를 이용하여 제품명 텍스트 데이터를 벡터화 하고, 한국표준산업분류 해설서의 산업분류 색인어를 기준으로 활용하여 코사인 거리 기반으로 유사한 제품명을 추출하였다. 이후 개별 기업의 제품 데이터에 연결된 매출액 정보를 기초로 추출된 제품들의 매출액을 합산함으로써 11,654개의 상세한 제품군별 시장규모를 추정하였다. 성능 검증을 위해 실제 집계된 통계청의 품목별 시장규모 수치와 비교한 결과 피어슨 상관계수가 0.513 수준으로 나타났다. 본 연구에서 제시한 모형은 의미 기반 임베딩 모델의 정확성 향상 및 제품군 추출 방식의 개선이 필요하나, 표본조사 또는 다수의 가정을 기반으로 하는 전통적인 시장규모 추정 방법의 한계를 뛰어넘어 텍스트 마이닝 및 기계학습 기법을 최초로 적용하여 시장규모 추정 방식을 지능화하였다는 점, 시장규모 산출범위를 사용 목적에 따라 쉽고 빠르게 조절할 수 있다는 점, 이를 통해 다양한 분야에서 수요가 높은 세부적인 제품군별 시장정보 도출이 가능하여 실무적인 활용성이 높다는 점에서 의의가 있다.

휴대용 시추공 카메라를 이용한 지하정보의 가시화 기법 (Visual Interpretation about the Underground Information using Borehole Camera)

  • 송정기구남;정윤영
    • 터널과지하공간
    • /
    • 제15권1호
    • /
    • pp.28-38
    • /
    • 2005
  • 근래에 들어 진행된 시추공을 이용한 각종 측정 장비의 개발에 따라 지하정보의 가시화는 중요한 관심의 초점으로 대두되었다. 이를 위해 시추공벽 영상의 모니터링과 동시에 여러 가지 분석틀을 제공할 수 있는 장비가 개발되고 있으나 불량한 암반조건이나 소수의 엔진이어만이 접근할 수 있는 곳에서는 그 장비의 활용이 극히 제한적이다. 그리하여 최소한의 기능만을 보유하고 휴대가 가능한 시추공 카메라가 개발되어 상용화 되고 있다. 본 연구에서는 휴대용 시추공 카메라를 이용하여 얻은 지하정보를 토대로 암반 내에 발달해있는 불연속면의 분포를 3차원으로 가시화 하는 수리학적인 형식화 과정과 가시화된 이미지의 해석방법을 제시하고 이에 대한 사례연구로서 두 지역에 적용하였다. 형식화 과정은 3차원 공간좌표에서 불연속면의 방향성분(경사각, 경사방향 및 심도)이 지시한 위치관계를 시추공의 선주향(trend)와 주향경사(plunge)의 변화에 기초하여 고찰함을 의미하며, 그 결과 일련의 조건식을 유도한다. 두 지역에 대한 사례연구를 통해, 본 연구에서 제시한 가시화 기법이 국지적인 불연속면의 분포가 중요한 경우 지반공학적(geotechnical)으로 유용한 수단이 될 수 있음을 알 수 있다.

스트림 데이타 예측을 위한 슬라이딩 윈도우 기반 점진적 회귀분석 (Incremental Regression based on a Sliding Window for Stream Data Prediction)

  • 김성현;김룡;류근호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권6호
    • /
    • pp.483-492
    • /
    • 2007
  • 최근 센서 네트워크의 발달로 실세계의 많은 데이타가 시간 속성을 갖고 실시간으로 수집되고 있다. 기존의 시계열 데이타 예측 기법은 모델 갱신 없이 예측을 수행하였다. 그러나 스트림 데이타는 매우 빠르게 수집이 되고 시간이 지남에 따라 데이타의 특성이 변경될 수 있으므로 기존의 시계열 예측 기법을 적용하는 것은 적절하지 않다. 따라서 이 논문에서는 슬라이딩 윈도우와 점진적인 회귀분석을 이용한 스트림 데이타 예측 기법을 제안한다. 이 기법은 스트림 데이타를 다중 회귀 모델에 입력하기 위해 차원 분열을 통해 여러 개의 속성으로 분열(Fractal)하고, 변화되는 데이타의 분포를 반영하기 위해 슬라이딩 윈도우 기법을 사용하여 점진적으로 회귀 모델을 갱신한다. 또한 고정 크기 큐를 이용하여 최근의 데이타로만 모델을 유지한다. 이전 데이타의 유지 없이 최소 정보를 갖는 행렬을 통해 모델을 갱신하므로 낮은 공간 복잡도를 갖고 점진적으로 모델을 갱신함으로써 에러율의 증가를 방지한다. 제안된 기법의 타당성은 RME(Relative Mean Error)와 RMSE(Root Mean Square Error)를 이용하여 측정하였고, 실험 결과 다른 기법에 비해 우수하였다.

수렴다중촬영기법을 이용한 새로운 절리방향 해석방법 (A New Algorithm for the Interpretation of Joint Orientation Using Multistage Convergent Photographing Technique)

  • 김재동;김종훈
    • 터널과지하공간
    • /
    • 제13권6호
    • /
    • pp.486-494
    • /
    • 2003
  • 본 암반사면에서 절리의 방향성을 측정할 때, 조사자가 접근 불가능한 경우나 조사선을 설정하기 어려운 경우가 종종 나타난다. 본 연구에서는 이와 같은 한계성과 단점을 보완하기 위하여 해석 대상 암반사면의 영상으로부터 절리면의 방향성을 유도하는 새로운 알고리즘을 개발하였다. 암반사면 영상을 얻는 방법으로는, 영상 조합쌍 사이의 중첩구간인 영상측정 범위를 최대한 확보하고, 평행스테레오 사진측량시스템과 같은 기존방법이 갖고 잇는 촬영방향의 제한을 극복하기 위해, 수렴 다중 촬영 시스템을 적용하였다. 해석 방법의 주된 요소인 공선조건식의 사진기 요소를 결정하기 위하여, 3점의 지상조절점과 새롭게 1점의 지상보조점을 도입하는 방법을 개발하였다. 이는 수많은 지상조절점과 복잡한 해석과정으로 구성된 기존의 사진기 요소 결정방법에 비해 매우 간편한 방법이라고 할 수 있다. 절리면의 방향성은 절리면 위에 놓인 여러 점들의 공간좌표를 영상좌표로부터 계산한 후, 이로부터 구성한 절리면의 법선 벡터에 의해 유도하였다.

고주파수 파워흐름 문제의 아이소-지오메트릭 형상 최적설계 (Isogeometric Shape Design Optimization of Power Flow Problems at High Frequencies)

  • 윤민호;하승현;조선호
    • 한국전산구조공학회논문집
    • /
    • 제27권3호
    • /
    • pp.155-162
    • /
    • 2014
  • 본 논문에서는 아이소-지오메트릭 해석법을 이용하여 고주파수를 가지는 파워흐름 문제에 대하여 연속체 기반 형상 최적 설계를 수행하였다. 아이소-지오메트릭 기법을 형상 최적설계에 적용하면, CAD 기하 모델링에서 쓰이던 NURBS 기저 함수가 직접 쓸 수 있기에 정확한 기하학 정보가 수치계산에서 고려되고, 이에 따라 형상 최적설계 관점에서 볼 때, 전통적인 유한요소법에 비해 향상되고 부드러운 설계 섭동량을 가지는 설계 매개화가 가능하게 된다. 즉, 정확한 기하 모델이 응답 해석과 설계민감도 해석에 쓰이게 되고, 이에 따라 설계영역 전체에서 법선 벡터와 곡률이 연속적으로 되게 된다. 결과적으로 정밀한 민감도 해석이 가능하게 된다. 몇 가지 수치예제를 통하여 개발된 아이소-지오메트릭 설계민감도가 유한차분 설계민감도와 비교하여 정확성을 확인할 수 있었으며, 형상 최적설계 문제를 통해서 본 방법론을 적용하여 검증하였다.