통합 검색 | Korea Science

RandomForest와 XGBoost를 활용한 한국어 텍스트 분류: 서울특별시 응답소 민원 데이터를 중심으로 (Korean Text Classification Using Randomforest and XGBoost Focusing on Seoul Metropolitan Civil Complaint Data)

하지은;신현철;이준기
- 한국빅데이터학회지
- /
- 제2권2호
- /
- pp.95-104
- /
- 2017
2014년 서울시는 시민의 목소리에 신속한 응대를 목표로 '서울특별시 응답소' 서비스를 시작하였다. 접수된 민원은 내용을 바탕으로 카테고리 확인 및 담당부서로 분류 되는데, 이 부분을 자동화시킬 수 있다면 시간 및 인력 비용이 감소될 것이다. 본 연구는 2010년 6월 1일부터 2017년 5월 31일까지 7년치 민원 사례 17,700건의 데이터를 수집하여, 최근 화두가 되고 있는 XGBoost 모델을 기존 RandomForest 모델과 비교하여 한국어 텍스트 분류의 적합성을 확인하였다. 그 결과 RandomForest에 대비 XGBoost의 정확도가 전반적으로 높게 나타났다. 동일한 표본을 활용하여 업 샘플링과 다운 샘플링 시행 후에는 RandomForest의 정확도가 불안정하게 나타난 반면, XGBoost는 전반적으로 안정적인 정확도를 보였다.
PDF

고차 데이터 분류를 위한 순차적 베이지안 샘플링을 기반으로 한 하이퍼네트워크 모델의 진화적 학습 기법 (Evolutionary Learning of Hypernetwork Classifiers Based on Sequential Bayesian Sampling for High-dimensional Data)

하정우;김수진;장병탁
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
- /
- pp.336-338
- /
- 2012
본 연구에서는 고차 데이터 분류를 위해 순차적 베이지만 샘플링 기반의 진화연산 기법을 이용한 하이퍼네트워크 모델의 학습 알고리즘을 제시한다. 제시하는 방법에서는 모델의 조건부 확률의 사후(posterior) 분포를 최대화하도록 학습이 진행된다. 이를 위해 사전(prior) 분포를 문제와 관련된 사전지식(prior knowledge) 및 모델 복잡도(model complexity)로 정의하고, 측정된 모델의 분류성능을 우도(likelihood)로 사 용하며, 측정된 사전분포와 우도를 이용하여 모델의 적합도(fitness)를 정의한다. 이를 통해 하이퍼네트워크 모델은 고차원 데이터를 효율적으로 학습 가능할 뿐이 아니라 모델의 학습시간 및 분류성능이 개선될 수 있다. 또한 학습 시에 파라미터로 주어지던 하이퍼에지의 구성 및 모델의 크기가 학습과정 중에 적응적으로 결정될 수 있다. 제안하는 학습방법의 검증을 위해 본 논문에서는 약 25,000개의 유전자 발현정보 데이터셋에 대한 분류문제에 모델을 적용한다. 실험 결과를 통해 제시하는 방법이 기존 하이퍼네트워크 학습 방법 뿐 아니라 다른 모델들에 비해 우수한 분류 성능을 보여주는 것을 확인할 수 있다. 또한 다양한 실험을 통해 사전분포로 사용된 사전지식이 모델 학습에 끼치는 영향을 분석한다.

MIL-STD-220C를 이용한 무전기에서 효율적인 VoIP 통신을 위한 패킷 크기 산출 및 전달 방법 (A method to compute the packet size and the way to transmit for the efficient VoIP using the MIL-STD-188-220C Radio)

한주희
- 한국컴퓨터정보학회논문지
- /
- 제13권4호
- /
- pp.161-167
- /
- 2008
본 논문에서는 여러 대의 무전기간에 음성 및 데이터 정보를 원활하게 송수신 해 주는 전술 무선 이동 Ad-hoc 프로토콜인 MIL-STD-188-220C를 이용하여 VoIP통신을 하기 위한 패킷 크기 산출 및 전달 방법에 대해 연구하였다. 먼저 예상 데이터 전송시간을 산출한 후 사용자 입장에서의 VoIP 음성 품질과 무전기에서의 데이터 전송품질 요구수준을 동시에 고려하여 음성 패킷 길이 결정 및 패킷 전달 방법을 제시하였다. 전송 속도가 36Kbps인 무전기에서의 VoIP통신의 경우에는 90ms 재전송 패킷과 90ms 샘플링 패킷을 모아 짧은 프레임으로 전송하는 방법이 효율적이고, 36Kbps 이상의 경우에는 샘플링 패킷들을 1초 이상 모아서 전송 후 필요에 따라 재전송을 요청하는 방법을 고려할 수 있었다.
PDF

디지털 PI 제어기 구현에 관한 고찰 (Survey of Implementation of a Digital PI Controller)

변승현;마복렬
- 한국시뮬레이션학회:학술대회논문집
- /
- 한국시뮬레이션학회 2000년도 춘계학술대회 논문집
- /
- pp.180-185
- /
- 2000
발전소 등의 대규모 공정 플랜트에서 사용하고 있는 대부분의 상용 제어기는 PID 제어기이며, 온도 루프를 제외한 대부분의 제어루프가 PI 제어기를 채용하고 있다. 제어 시스템의 성능이 제어기 파라미터의 값에 의해 결정되므로, PI 제어기의 튜닝이 중요하다. 한편, 실제 현장에서의 PI 제어기의 튜닝은 많은 시간과 노력을 필요로 하는 시행착오에 의해서 이루어지고 있으며, 각 제어 루프 제어기 파라미터의 초기값 설정에 어려움을 갖고 있는 실정이다. PI 튜닝 기법이 많이 나와 있지만 시험 신호의 인가 문제로 인해 현장 활용에는 많은 어려움을 가지고 있다. 본 논문에서는 단순한 시험 신호로부터 PI 초기 설정값을 산출할 수 있는 방법에 대해서 알아본다. 또한 발전소에 적용된 국산 분산 제어 시스템을 보면, 대부분 데이터 로깅 시스템으로서만 활용되고 있고, 제어 시스템으로의 활용은 거의 이루어지지 않고 있으며, PID제어기에 대한 구현도 완벽하지 못하여 디지털 PI 제어기의구현 방법에 대한 고찰도 요구되고 있다. 본 논문에서는 디지탈 PI 제어기를 구현하는데 있어서 필요한 사항들, 즉 아날로그 제어기의 디지털 등가 제어기로의 변환 기법, 샘플링 주기의 결정 방법, 그리고 그 외에 공정 제어기가 가져야할 기능들에 대해서 언급한다. 그리고나서 PI 튜닝 기법과 아날로그 제어기의 디지털 등가 제어기로의 변환기법, 샘플링 주기 결정 방법 등에 대해 플랜트 모델을 선정하고 시뮬레이션을 통해 그 효용성을 보인다.
PDF

RTLS를 위한 위치 보정 기법의 설계 및 구현 (Design and Implementation of Location Error Correction Algorithm for RTLS)

정동규;류우석;박재관;홍봉희
- 한국GIS학회:학술대회논문집
- /
- 한국GIS학회 2008년도 공동춘계학술대회
- /
- pp.286-292
- /
- 2008
RTLS 시스템은 이동 객체에 RTLS 태그를 부착한 후 태그에서 발산되는 신호를 이용하여 실시간으로 위치를 파악하는 시스템으로 최근 항만 물류 및 자산 관리 분야에서 객체의 실시간 위치를 파악하기 위해 활용되고 있다. RTLS 시스템은 태그의 위치를 측정하기 위해 삼각 측량 법이나, Proximity matching법을 사용한다. 삼각 측량법은 3개 이상의 리더에서 수신된 신호 세기나 신호의 도달 시간을 이용하여 삼각측량 방식으로 위치를 결정하는 알고리즘으로, 전파의 난반사나 장애물등에 민감하며, Proximity matching법은 위치 샘플링 값에 대한 근접성을 이용한 통계 정보를 바탕으로 하여 위치를 결정하는 알고리즘으로 위치 정확도를 높일 수 있으나, 샘플링 데이터 개수에 따라 정확도가 크게 변화하는 문제가 있다. 본 논문에서는 이러한 위치 정보의 오차를 줄이기 위하여, Fingerprint 방식의 확률 모델에 TDOA 방식에서 사용되는 요소들을 혼합하여 확률에 의한 불확실성을 줄이고 더 높은 정확도의 위치 정보를 전달하는 위치 보정 기법을 제안한다. 본 논문에서 제안하는 2단계 위치 보정 기법은 먼저, Fingerprint 데이터 셋으로부터 현재 측정된 위치의 신호정보를 이용한 확률 모델을 적용하여 단 하나의 후보자를 결정한다. 둘째, 측정된 정보와 후보자 위치 정보를 기반으로 TDOA에서 사용하는 기하학적 위치 결정 방법을 변형한 알고리즘을 이용해 측정된 위치를 보정함으로써, TDOA 방식이나, Fingerprint 방식 둘 중 하나만 사용하는 것보다 향상된 위치의 정확도를 제공한다. 그리고 본 논문에서는 제안한 위치 보정 기법을 위한 위치 보정 모듈을 설계하였으며, RTLS 미들웨어에 이를 반영하여 구현하였다.
PDF

효율적인 상표 영상 검색 시스템 (System of Efficient Trademark Image Retrieval)

신성윤;백정욱;이양원
- 한국정보통신학회:학술대회논문집
- /
- 한국해양정보통신학회 2010년도 춘계학술대회
- /
- pp.160-161
- /
- 2010
본 논문에서는 컬러 정보와 형태 정보를 이용한 상표 영상 검색 시스템을 제안하였다. 컬러 정보는 영역을 분할하여 영역별 컬러 분포 히스토그램 특성에 근거한 컬러 정보를 이용하였고, 형태 정보는 경계면 추출, 무게 중심 추출, angular 샘플링 등의 전처리 과정과 무게 중심으로부터 경계면까지 거리의 합, 표준 편차, 장/단축 비율을 계산을 이용하였다. 특히, 무게중심을 이용한 angular 샘플링을 이용하여 특징을 추출하고 처리 시간을 줄일 수 있었다. 사용자는 컬러와 형태 정보에 의한 검색을 수행하고, 또한 가중치를 부여함으로써 두 방법을 혼합하여 사용할 수 있다.
PDF

효율적인 모델 학습을 위한 심층 특징의 평균값을 활용한 의미 있는 비디오 프레임 추출 기법 (Salient Video Frames Sampling Method Using the Mean of Deep Features for Efficient Model Training)

윤혁;김영기;한지형
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송∙미디어공학회 2021년도 하계학술대회
- /
- pp.318-321
- /
- 2021
최근 정보통신의 발달과 함께 인터넷에 접속하는 사용자 수와 그에 따른 비디오 데이터의 전송량이 늘어나는 추세이다. 이렇게 늘어나는 많은 비디오 데이터를 관리하고 분석하기 위해서 최근에는 딥 러닝 기법을 많이 활용하게 된다. 일반적으로 비디오 데이터에 딥 러닝 모델을 학습할 때 컴퓨터 자원의 한계로 인해 전체 비디오 프레임에서 균등한 간격 또는 무작위로 프레임을 선택하는 방법을 많이 사용한다. 하지만 학습에 사용되는 비디오 데이터는 항상 시간 축에 따라 같은 문맥을 담고 있는 Trimmed 비디오라고 가정할 수가 없다. 만약 같지 않은 문맥을 지닌 Untrimmed 비디오에서 균등한 간격 또는 무작위로 프레임을 선택해서 사용하게 된다면 비디오의 범주와 관련이 없는 프레임이 샘플링 될 가능성이 있기 때문에 모델의 학습 및 최적화에 전혀 도움이 되지 않는다. 이를 해결하기 위해 우리는 각 비디오 프레임에서 심층 특징을 추출하여 평균값을 계산하고 이와 각 추출된 심층특징들과 코사인 유사도를 계산해서 얻은 유사도 점수를 바탕으로 Untrimmed 비디오에서 의미 있는 비디오 프레임을 추출하는 기법을 제안한다. 그리고 Untrimmed 비디오로 구성된 데이터셋으로 유명한 ActivityNet 데이터셋에 대해서 대표적인 2가지 프레임 샘플링 방식(균등한 간격, 무작위)과 비교하여 우리가 제안하는 기법이 Untrimmed 비디오에서 효과적으로 비디오의 범주에 해당하는 의미 있는 프레임 추출이 가능함을 보일 것이다. 우리가 실험에 사용한 코드는 https://github.com/titania7777/VideoFrameSampler에서 확인할 수 있다.
PDF

소자 부정합에 덜 민감한 12비트 60MS/s 0.18um CMOS Flash-SAR ADC (A Mismatch-Insensitive 12b 60MS/s 0.18um CMOS Flash-SAR ADC)

변재혁;김원강;박준상;이승훈
- 전자공학회논문지
- /
- 제53권7호
- /
- pp.17-26
- /
- 2016
본 논문에서는 무선 통신 시스템 및 휴대용 비디오 처리 시스템과 같은 다양한 시스템 반도체 응용을 위한 12비트 60MS/s 0.18um CMOS Flash-SAR ADC를 제안한다. 제안하는 Flash-SAR ADC는 고속으로 동작하는 flash ADC의 장점을 이용하여 우선 상위 4비트를 결정한 후, 적은 전력 소모를 갖는 SAR ADC의 장점을 이용하여 하위 9비트를 결정함으로써 해상도가 증가함에 따라 동작 속도가 제한이 되는 전형적인 SAR ADC의 문제를 줄였다. 제안하는 ADC는 전형적인 Flash-SAR ADC에서 고속 동작 시 제한이 되는 입력 단 트랙-앤-홀드 회로를 사용하지 않는 대신 SAR ADC의 C-R DAC를 단일 샘플링-네트워크로 사용하여 입력 샘플링 부정합 문제를 제거하였다. 한편, flash ADC에는 인터폴레이션 기법을 적용하여 사용되는 프리앰프의 수를 절반 수준으로 줄이는 동시에 SAR 동작 시 flash ADC에서 불필요하게 소모되는 전력을 최소화하기 위해 스위치 기반의 바이어스 전력 최소화 기법을 적용하였다. 또한 고속 동작을 위해 SAR 논리회로는 TSPC 기반의 D 플립플롭으로 구성하여 범용 D 플립플롭 대비 논리회로 게이트 지연시간을 55% 감소시킴과 동시에 사용되는 트랜지스터의 수를 절반 수준으로 줄였다. 시제품 ADC는 0.18um CMOS 공정으로 제작되었으며, 측정된 DNL 및 INL은 12비트 해상도에서 각각 최대 1.33LSB, 1.90LSB이며, 60MS/s 동작 속도에서 동적성능은 최대 58.27dB의 SNDR 및 69.29dB의 SFDR 성능을 보인다. 시제품 ADC의 칩 면적은 $0.54mm^2$이며, 1.8V 전원전압에서 5.4mW의 전력을 소모한다.
https://doi.org/10.5573/ieie.2016.53.7.017 인용 PDF KSCI

위치 기반 삼각화를 이용한 입자 기반 유체 시뮬레이션 가속화 기법 (Position Based Triangulation for High Performance Particle Based Fluid Simulation)

홍만기;임재호;김창헌;변혜원
- 한국컴퓨터그래픽스학회논문지
- /
- 제23권1호
- /
- pp.25-32
- /
- 2017
본 논문은 입자 기반 대규모 유체 시뮬레이션의 가속화 기법을 새롭게 제안한다. 전통적인 입자 기반 유체 시뮬레이션은 SPH(Smoothed Particle Hydrodynamics)기법[1]을 통해 인접 입자와 물리량을 상호작용하는 방식으로 이루어졌다. 이러한 방식은 잔잔한 표면이나 유체 내부와 같이 입자의 움직임이 적은 부분에서는 연산량에 비해 가시적인 변화를 보이지 않는다는 특성이 있다. 이러한 현상은 입자의 개수가 많아질수록 두드러지게 나타난다. 기존 연구에서는 유체의 각 부분을 적응적으로 나눔으로써 낭비되는 연산량을 줄이려는 시도를 했다. 본 논문은 대규모 시뮬레이션에 적합한 입자 기반 유체 시뮬레이션 기법을 제안한다. 시뮬레이션에서 사용되는 모든 입자를 유체 움직임의 기준이 되는 샘플링 입자와 샘플링 입자에 의해 움직임이 결정되는 보간 입자로 분류하고 샘플링 입자에 의해 생성되는 삼각형 맵과 무게중심 좌표계를 이용한 보간 방법을 통해 연산 시간을 단축하는 기법을 제안한다. 우리의 기법은 입자의 개수가 많을수록 더욱 효율적이며 유체 표면의 세밀한 움직임 또한 표현하는 것이 가능하다.
https://doi.org/10.15701/kcgs.2017.23.1.25 인용 PDF KSCI

랜덤포레스트기법을 이용한 분변성대장균 예측모델 개발 (Development of fecal coliform prediction model using random forest method)

서일원;최수연
- 한국수자원학회:학술대회논문집
- /
- 한국수자원학회 2016년도 학술발표회
- /
- pp.124-124
- /
- 2016
하천에서의 분변성대장균은 분변성 오염 정도를 나타내는 지표로서, 이 농도가 높을수록 오염된 하천수와의 접촉을 통한 호흡기, 소화기 및 피부 관련 질병의 발발 확률이 높다고 알려져 있다. 따라서 하천에서의 수영, 수상스키 등과 같은 입수형 친수활동을 할 때, 분변성대장균 농도가 농도 기준 이하인지를 확인하고 이러한 정보를 친수활동에 이용할 필요가 있다. 그러나 분변성대장균의 경우, 현재 자동수질측정망에서 측정되고 있는 다른 수질인자들과는 달리 실시간 측정이 불가능하다고 알려져 있다. 분변성대장균을 측정하는데 있어 최소 18시간 이상이 필요하며, 이러한 분변성대장균 측정 방식은 하천 이용자들이 안전한 친수활동을 영위하는데 있어 적절한 수질 정보를 제공하지 못한다. 그러므로 분변성대장균을 예측하는 모델을 개발하고, 이를 이용하여 실시간 분변성대장균 정보를 생성하여 하천 이용자들에게 제공할 필요가 있다. 본 연구에서는 친수활동이 활발하게 이루어지는 곳 중 하나인 북한강의 대성리 지점에 대해 데이터 기반 모델을 이용하여 분변성대장균을 예측하였다. 데이터 기반 모델은 물리 기반 모델에서 필요한 지형데이터나 비점오염원 등의 초기 오염물의 양에 대한 데이터를 필요로 하지 않고, 대신 독립변수로 사용되는 기상 및 수질데이터를 필요로 한다. 이러한 기상 및 수질데이터는 기존 기상관측소, 수질관측소에서 매일 자동으로 측정되기 때문에 데이터 기반 모델은 물리 기반 모델에 비해 입력데이터를 구성하기가 쉽다는 장점을 지닌다. 이러한 데이터 기반 모델 중 분류 모델은 회귀 모델과 달리 분변성대장균 농도가 일정 수질기준 이상을 넘는지를 바로 예측할 수 있다. 본 연구에서는 분류 모델 중 높은 예측력을 가진다고 알려진 랜덤포레스트(random forest) 기법을 이용하여 분변성대장균 예측 모델을 개발하였다. 분변성대장균 예측 모델은 주어진 기상 및 수질 조건에 대해 분변성대장균이 200 CFU/100ml가 넘는지를 예측하였다. 예측된 분변성대장균이 기준을 넘는 경우를 2등급, 넘지 않는 경우를 1등급으로 명명하였다. 모델을 개발하기 위하여 북한강 대성리 인근 측정소에서 2010년부터 2015년까지 측정된 기상 및 수질데이터를 수집하였다. 수집한 데이터를 훈련 및 검증데이터로 샘플링하였으며, 이 때 샘플링한 데이터가 기존 데이터가 가지고 있던 등급별 비율을 유지하기 위하여 층화샘플링을 하였다. 본 연구에서는 샘플링에 의한 불확실성을 줄이기 위하여 랜덤하게 50번 샘플링된 각각의 훈련데이터에 대해 모델을 개발하였다. 50개의 모델의 검증 결과를 종합한 결과, 전체 예측률은 0.139로 나타났다.
PDF

검색결과 468건 처리시간 0.024초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)