• 제목/요약/키워드: Benchmark dataset

검색결과 101건 처리시간 0.024초

반복매매모형을 활용한 서울시 오피스 벤치마크 가격지수 개발 및 시험적 적용 연구 (The Development and Application of Office Price Index for Benchmark in Seoul using Repeat Sales Model)

  • 류강민;송기욱
    • 토지주택연구
    • /
    • 제11권2호
    • /
    • pp.33-46
    • /
    • 2020
  • As the fastest growing office transaction volume in Korea, there's been a need for development of indicators to accurately diagnose the office capital market. The purpose of this paper is experimentally calculate to the office price index for effective benchmark indices in Seoul. The quantitative methodology used a Case-Shiller Repeat Sales Model (1991), based on actual multiple office transaction dataset with over minimum 1,653 ㎡ from Q3 1999 to 4Q 2019 in the case of 1,536 buildings within Seoul Metropolitan. In addition, the collected historical data and spatial statistical analysis tools were treated with the SAS 9.4 and ArcGIS 10.7 programs. The main empirical results of research are briefly summarized as follows; First, Seoul office price index was estimated to be 344.3 point (2001.1Q=100.0P) at the end of 2019, and has more than tripled over the past two decades. it means that the sales price of office per 3.3 ㎡ has consistently risen more than 12% every year since 2000, which is far above the indices for apartment housing index, announced by the MOLIT (2009). Second, between quarterly and annual office price index for the two-step estimation of the MIT Real Estate Research Center (MIT/CRE), T, L, AL variables have statistically significant coefficient (Beta) all of the mode l (p<0.01). Third, it was possible to produce a more stable office price index against the basic index by using the Moore-Penrose's pseoudo inverse technique at low transaction frequency. Fourth, as an lagging indicators, the office price index is closely related to key macroeconomic indicators, such as GDP(+), KOSPI(+), interest rates (5-year KTB, -). This facts indicate that long-term office investment tends to outperform other financial assets owing to high return and low risk pattern. In conclusion, these findings are practically meaningful to presenting an new office price index that increases accuracy and then attempting to preliminary applications for the case of Seoul. Moreover, it can provide sincerely useful benchmark about investing an office and predicting changes of the sales price among market participants (e.g. policy maker, investor, landlord, tenant, user) in the future.

데이터 세트별 Post-Training을 통한 언어 모델 최적화 연구: 금융 감성 분석을 중심으로 (Optimizing Language Models through Dataset-Specific Post-Training: A Focus on Financial Sentiment Analysis)

  • 정희도;김재헌;장백철
    • 인터넷정보학회논문지
    • /
    • 제25권1호
    • /
    • pp.57-67
    • /
    • 2024
  • 본 연구는 금융 분야에서 중요한 증감 정보를 효과적으로 이해하고 감성을 정확하게 분류하기 위한 언어 모델의 학습 방법론을 탐구한다. 연구의 핵심 목표는 언어 모델이 금융과 관련된 증감 표현을 잘 이해할 수 있게 하기 위한 적절한 데이터 세트를 찾는 것이다. 이를 위해, Wall Street Journal에서 수집한 금융 뉴스 문장 중 증감 관련 단어를 포함하는 문장을 선별했고, 이와 함께 적절한 프롬프트를 사용해 GPT-3.5-turbo-1106으로 생성한 문장을 각각 post-training에 사용했다. Post-training에 사용한 데이터 세트가 언어 모델의 학습에 어떠한 영향을 미치는지 금융 감성 분석 벤치마크 데이터 세트인 Financial PhraseBank를 통해 성능을 비교하며 분석했으며, 그 결과 금융 분야에 특화된 언어 모델인 FinBERT를 추가 학습한 결과가 일반적인 도메인에서 사전 학습된 모델인 BERT를 추가 학습한 것보다 더 높은 성능을 보였다. 또 금융 뉴스로 post-training을 진행한 것이 생성한 문장을 post-training을 진행한 것에 비해 전반적으로 성능이 높음을 보였으나, 일반화가 더욱 요구되는 환경에서는 생성된 문장으로 추가 학습한 모델이 더 높은 성능을 보였다. 이러한 결과는 개선하고자 하는 부분의 도메인이 사용하고자 하는 언어 모델과의 도메인과 일치해야 한다는 것과 적절한 데이터 세트의 선택이 언어 모델의 이해도 및 예측 성능 향상에 중요함을 시사한다. 연구 결과는 특히 금융 분야에서 감성 분석과 관련된 과제를 수행할 때 언어 모델의 성능을 최적화하기 위한 방법론을 제시하며, 향후 금융 분야에서의 더욱 정교한 언어 이해 및 감성분석을 위한 연구 방향을 제시한다. 이러한 연구는 금융 분야 뿐만 아니라 다른 도메인에서의 언어 모델 학습에도 의미 있는 통찰을 제공할 수 있다.

Predictors of Readmission after Inpatient Plastic Surgery

  • Jain, Umang;Salgado, Christopher;Mioton, Lauren;Rambachan, Aksharananda;Kim, John Y.S.
    • Archives of Plastic Surgery
    • /
    • 제41권2호
    • /
    • pp.116-121
    • /
    • 2014
  • Background Understanding risk factors that increase readmission rates may help enhance patient education and set system-wide expectations. We aimed to provide benchmark data on causes and predictors of readmission following inpatient plastic surgery. Methods The 2011 National Surgical Quality Improvement Program dataset was reviewed for patients with both "Plastics" as their recorded surgical specialty and inpatient status. Readmission was tracked through the "Unplanned Readmission" variable. Patient characteristics and outcomes were compared using chi-squared analysis and Student's t-tests for categorical and continuous variables, respectively. Multivariate regression analysis was used for identifying predictors of readmission. Results A total of 3,671 inpatient plastic surgery patients were included. The unplanned readmission rate was 7.11%. Multivariate regression analysis revealed a history of chronic obstructive pulmonary disease (COPD) (odds ratio [OR], 2.01; confidence interval [CI], 1.12- 3.60; P=0.020), previous percutaneous coronary intervention (PCI) (OR, 2.69; CI, 1.21-5.97; P=0.015), hypertension requiring medication (OR, 1.65; CI, 1.22-2.24; P<0.001), bleeding disorders (OR, 1.70; CI, 1.01-2.87; P=0.046), American Society of Anesthesiologists (ASA) class 3 or 4 (OR, 1.57; CI, 1.15-2.15; P=0.004), and obesity (body mass index ${\geq}30$) (OR, 1.43; CI, 1.09-1.88, P=0.011) to be significant predictors of readmission. Conclusions Inpatient plastic surgery has an associated 7.11% unplanned readmission rate. History of COPD, previous PCI, hypertension, ASA class 3 or 4, bleeding disorders, and obesity all proved to be significant risk factors for readmission. These findings will help to benchmark inpatient readmission rates and manage patient and hospital system expectations.

액티브 러닝을 활용한 영상기반 건설현장 물체 자동 인식 프레임워크 (Automated Vision-based Construction Object Detection Using Active Learning)

  • 김진우;지석호;서준오
    • 대한토목학회논문집
    • /
    • 제39권5호
    • /
    • pp.631-636
    • /
    • 2019
  • 최근 많은 연구자들이 대규모 현장에 투입된 건설자원의 유형과 위치를 자동 파악하는 영상분석기술을 활발히 개발하고 있다. 하지만 기존의 방법들은 인식하고자 하는 건설 물체(작업자, 중장비, 자재 등)를 학습용 이미지 데이터에 표시하는 Labeling 작업을 요구하고 이에 불필요한 시간과 노력이 낭비된다는 한계가 있다. 이러한 한계를 보완하기 위해서 본 연구는 액티브 러닝을 활용한 영상기반 건설현장 물체 자동 인식 프레임 워크를 제안함을 목표로 한다. 개발 프레임워크 검증을 목적으로 건설분야 Benchmark 데이터셋을 이용하여 실제 실험을 진행하였다. 그 결과, 액티브 러닝을 통해 학습한 모델은 다양한 특성을 지닌 건설물체를 성공적으로 인식할 수 있었고, 기존의 학습 DB 구축 방식과 비교할 때 더 적은 데이터 수와 반복학습 횟수로도 높은 성능을 가지는 영상분석모델을 개발할 수 있었다. 결과적으로 기존에 요구되던 학습 DB 구축을 위한 Labeling 작업을 줄일 뿐만 아니라 총 시간과 비용을 최소화할 수 있다.

이미지의 질과 왜곡을 고려한 적대적 생성 신경망과 이를 이용한 비정상 검출 (Anomaly Detection of Generative Adversarial Networks considering Quality and Distortion of Images)

  • 서태문;강민국;강동중
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권3호
    • /
    • pp.171-179
    • /
    • 2020
  • 최근 연구 결과에 따르면, 컨볼루션 신경 회로망은 이미지 분류, 객체 검출, 이미지 생성 등의 문제에서 최고의 성능을 보여주고 있다. 비전 카메라를 사용한 결함 검사는 다른 결함 검사보다 경제적이기 때문에 공장 자동화에 있어서 아주 중요하고, 딥러닝의 지도학습은 전통 기계학습 방식의 결함 검사 성능을 월등히 뛰어넘었다. 하지만, 딥러닝의 지도학습은 엄청난 양의 데이터 주석 작업을 요구하기 때문에, 이를 실제 산업 현장에 적용하는 것은 효율적이지 않다. 따라서 본 연구는 최근 이미지 생성 과업에서 큰 성공을 보여주고 있는 변분 오토인코더와 적대적 생성 신경망을 활용하여 비지도 방식의 비정상 검출을 위한 신경망 회로 구조를 제안하였고, 이를 MNIST, 용접 결함 데이터에 적용하여 비정상 검출 성능을 검증하였다.

Multi-scale face detector using anchor free method

  • Lee, Dong-Ryeol;Kim, Yoon
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권7호
    • /
    • pp.47-55
    • /
    • 2020
  • 본 논문에서는 앵커 프리 방법을 이용한 FCN(Fully Convolutional Network)기반의 1단계 다중 크기 얼굴 검출기를 제안한다. 최근 대부분의 연구들은 사전 정의된 앵커를 사용하여 얼굴이 있을 만한 위치를 예측한다. 그러나 사전 정의 앵커를 이용함으로써 학습 시 하이퍼 파라미터의 설정과 추가적인 계산이 필요하다. 제안하는 방법의 핵심 아이디어는 앵커 프리 방법을 사용하여 하이퍼 파라미터를 없애고 여러 개의 특징 맵을 사용함으로써 클래스 내 불균형 문제를 완화하는 것이다. 이 방법들은 다음과 같은 효과가 있다. 첫째로 사전정의 앵커를 없앰으로써 앵커와 관련된 하이퍼 파라미터와 추가적인 계산을 피한다. 둘째로 클래스 내 불균형을 완화하기 위해 여러개의 특징 맵으로부터 얼굴을 예측한다. 정량적 평가를 통해 제안하는 방법에 따른 검출 성능을 평가 및 분석한다. FDDB(Face Detection Dataset & Benchmark) 데이터 셋의 실험 결과에서 제안하는 방법이 효과가 있음을 증명했다.

Prediction of Student's Interest on Sports for Classification using Bi-Directional Long Short Term Memory Model

  • Ahamed, A. Basheer;Surputheen, M. Mohamed
    • International Journal of Computer Science & Network Security
    • /
    • 제22권10호
    • /
    • pp.246-256
    • /
    • 2022
  • Recently, parents and teachers consider physical education as a minor subject for students in elementary and secondary schools. Physical education performance has become increasingly significant as parents and schools pay more attention to physical schooling. The sports mining with distribution analysis model considers different factors, including the games, comments, conversations, and connection made on numerous sports interests. Using different machine learning/deep learning approach, children's athletic and academic interests can be tracked over the course of their academic lives. There have been a number of studies that have focused on predicting the success of students in higher education. Sports interest prediction research at the secondary level is uncommon, but the secondary level is often used as a benchmark to describe students' educational development at higher levels. An Automated Student Interest Prediction on Sports Mining using DL Based Bi-directional Long Short-Term Memory model (BiLSTM) is presented in this article. Pre-processing of data, interest classification, and parameter tweaking are all the essential operations of the proposed model. Initially, data augmentation is used to expand the dataset's size. Secondly, a BiLSTM model is used to predict and classify user interests. Adagrad optimizer is employed for hyperparameter optimization. In order to test the model's performance, a dataset is used and the results are analysed using precision, recall, accuracy and F-measure. The proposed model achieved 95% accuracy on 400th instances, where the existing techniques achieved 93.20% accuracy for the same. The proposed model achieved 95% of accuracy and precision for 60%-40% data, where the existing models achieved 93% for accuracy and precision.

미국주식 매매의 변동성 전략과 Fear & Greed 지수를 기반한 주식 자동매매 연구 (A Study on Automated Stock Trading based on Volatility Strategy and Fear & Greed Index in U.S. Stock Market)

  • 홍성혁
    • 산업과 과학
    • /
    • 제2권3호
    • /
    • pp.22-28
    • /
    • 2023
  • 본 연구에서는 변동성 전략과 Fear and Greed 지수를 통하여 미국 주식의 매매를 자동으로 하는 연구를 진행하였다. 주식 시장의 변동성은 주가 변동을 유발할 수 있는 일반적인 현상이다. 투자자는 예상되는 변동성 수준에 따라 주식을 사고 파는 변동성 전략을 구현함으로써 이러한 변동성을 이용할 수 있다. 이 논문의 목적은 주식 시장에서 수익을 창출하는 변동성 전략의 효과를 탐구한다. 본 연구는 주식시장의 2차 데이터를 활용한 정량적 연구 방법론을 채택하여, 데이터에는 2016년부터 2020년까지 5년 동안 뉴욕증권거래소(NYSE)에 상장된 S&P 500 인텍스 주식에 대한 일일 주가 및 일일 변동성 측정치가 포함하였다. 전략은 변동성이 낮은 기간에서 주식을 사고 높은 변동성 기간에서 주식을 매도하는 것을 포함하였다. 결과는 변동성 전략이 샘플 기간 동안의 벤치마크 수익률 7.5%에 비해 연평균 9.2%의 긍정적인 수익률을 창출하였다. 따라서 전략이 샘플 기간의 5년 중 4년에서 벤치마크 수익률을 능가한다는 것을 나타났다. 이 전략은 2020년 COVID-19 대유행과 같이 시장 변동성이 높은 기간 동안 특히 잘 수행되어 벤치마크 수익률 5.5%에 비해 14.6%의 수익률을 기록하였다.

Multiple-Shot Person Re-identification by Features Learned from Third-party Image Sets

  • Zhao, Yanna;Wang, Lei;Zhao, Xu;Liu, Yuncai
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권2호
    • /
    • pp.775-792
    • /
    • 2015
  • Person re-identification is an important and challenging task in computer vision with numerous real world applications. Despite significant progress has been made in the past few years, person re-identification remains an unsolved problem. This paper presents a novel appearance-based approach to person re-identification. The approach exploits region covariance matrix and color histograms to capture the statistical properties and chromatic information of each object. Robustness against low resolution, viewpoint changes and pose variations is achieved by a novel signature, that is, the combination of Log Covariance Matrix feature and HSV histogram (LCMH). In order to further improve re-identification performance, third-party image sets are utilized as a common reference to sufficiently represent any image set with the same type. Distinctive and reliable features for a given image set are extracted through decision boundary between the specific set and a third-party image set supervised by max-margin criteria. This method enables the usage of an existing dataset to represent new image data without time-consuming data collection and annotation. Comparisons with state-of-the-art methods carried out on benchmark datasets demonstrate promising performance of our method.

LOF를 이용한 ICA 기반 통계적 공정관리의 성능 개선 방법론 (The Use of Local Outlier Factor(LOF) for Improving Performance of Independent Component Analysis(ICA) based Statistical Process Control(SPC))

  • 이재신;강복영;강석호
    • 한국경영과학회지
    • /
    • 제36권1호
    • /
    • pp.39-55
    • /
    • 2011
  • Process monitoring has been emphasized for the monitoring of complex system such as chemical processing industries to achieve the efficiency enhancement, quality management, safety improvement. Recently, ICA (Independent Component Analysis) based MSPC (Multivariate Statistical Process Control) was widely used in process monitoring approaches. Moreover, DICA (Dynamic ICA) has been introduced to consider the system dynamics. However, the existing approaches show the limitation that their performances are strongly dependent on the statistical distributions of control variables. To improve the limitation, we propose a novel approach for process monitoring by integrating DICA and LOF (Local Outlier Factor). In this paper, we aim to improve the fault detection rate with the proposed method. LOF detects local outliers by using density of surrounding space so that its performance is regardless of data distribution. Therefore, the proposed method not only can consider the system dynamics but can also assure robust performance regardless of the statistical distributions of control variables. Comparison experiments were conducted on the widely used benchmark dataset, Tennessee Eastman process (TE process), and showed the improved performance than existing approaches.