• 제목/요약/키워드: Sparse Data Set

검색결과 47건 처리시간 0.027초

Group Contribution Method 및 Support Vector Regression 기반 모델을 이용한 방향족 화합물 물성치 예측에 관한 연구 (Group Contribution Method and Support Vector Regression based Model for Predicting Physical Properties of Aromatic Compounds)

  • 강하영;오창보;원용선;유준;이창준
    • 한국안전학회지
    • /
    • 제36권1호
    • /
    • pp.1-8
    • /
    • 2021
  • To simulate a process model in the field of chemical engineering, it is very important to identify the physical properties of novel materials as well as existing materials. However, it is difficult to measure the physical properties throughout a set of experiments due to the potential risk and cost. To address this, this study aims to develop a property prediction model based on the group contribution method for aromatic chemical compounds including benzene rings. The benzene rings of aromatic materials have a significant impact on their physical properties. To establish the prediction model, 42 important functional groups that determine the physical properties are considered, and the total numbers of functional groups on 147 aromatic chemical compounds are counted to prepare a dataset. Support vector regression is employed to prepare a prediction model to handle sparse and high-dimensional data. To verify the efficacy of this study, the results of this study are compared with those of previous studies. Despite the different datasets in the previous studies, the comparison indicated the enhanced performance in this study. Moreover, there are few reports on predicting the physical properties of aromatic compounds. This study can provide an effective method to estimate the physical properties of unknown chemical compounds and contribute toward reducing the experimental efforts for measuring physical properties.

Sparse and low-rank feature selection for multi-label learning

  • Lim, Hyunki
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권7호
    • /
    • pp.1-7
    • /
    • 2021
  • 본 논문에서는 다중 레이블 분류를 위한 특징 선별 기법을 제안한다. 기존 많은 특징 선별 기법들은 상호정보척도 등을 이용하여 특징과 레이블 사이의 연관성을 계산하여 특징을 선별하였다. 하지만 상호정보척도는 결합 확률을 요구하기 때문에 실제 전제 특징 집합에서 결합 확률을 계산하는 것은 어렵다. 따라서 소수의 특징만 계산이 가능하여 지역적 최적화만 가능하다는 단점을 가진다. 이런 지역적 최적화 문제를 피해, 주어진 특징 전체 공간에서 저랭크 공간을 구성하고, 희소성을 가진 특징들을 선별할 수 있는 특징 선별 기법을 제안한다. 이를 위해 뉴클리어 노름을 이용해 회귀 기반의 목적함수를 설계하였고, 이 목적 함수의 최적화 문제를 풀기 위한 경사하강법 방식의 알고리즘을 제안하였다. 4가지의 데이터와 3가지 다중 레이블 분류 성능을 기준으로 다중 레이블 분류 실험 결과를 통해 제안하는 방법론이 기존 특징 선별 기법보다 좋은 성능을 나타내는 것을 보였다. 또한 제안하는 목적함수의 파라미터 값 변화에도 성능 변화가 둔감한 것을 실험적인 결과로 확인하였다.

심부 시추코어 실험실 분석자료와 탄성파 탐사자료 통합 분석을 통한 대한해협 천부 퇴적층 임피던스 도출 (P-Impedance Inversion in the Shallow Sediment of the Korea Strait by Integrating Core Laboratory Data and the Seismic Section)

  • 정순홍;이광수;손우현;김길영;유동근;최윤석
    • 지구물리와물리탐사
    • /
    • 제26권3호
    • /
    • pp.138-149
    • /
    • 2023
  • 해저지층의 지질특성을 파악하는 것은 지구과학 및 공학에서 중요한 과업으로 신뢰도 높은 탐사자료를 확보하는 경우 가능하다. 대한민국 남동해역 대한해협 천부 지층의 특성을 파악하기 위하여 심부 시추 지층물성 실험실 분석자료와 탄성파 탐사자료를 확보하였고, 이를 통합 분석하였다. 해저면 심도 200 m 하부까지 심부 시추코어를 회수하여 천부 지층 탄성파 음파속도 로그를 얻었고, 탄성파 단면과 대비하였다. 지층 음파속도 로그와 시간 영역 탄성파 자료는 시간-심도 변환을 수행하여 상관성이 15%에서 45%로 증가하였다. 탄성파 임피던스 초기모형을 설정하고 모형기반, 대역제한 및 산재쐐기 역산을 각각 수행하여 결과를 비교하였다. 도출된 탄성파 임피던스는 천부 지층 내부 퇴적층이 우세한 영역과 미고결 영역에서 변화되는 양상을 보였다. 본 연구에서 수행된 음파 임피던스 역산 기법은 향후 지층 물성분석 로그자료와 탄성파자료의 추가 확보 시 통합 분석을 위한 프레임워크로, 임피던스 분포 단면은 해저면 단층 규명과 천부가스 누출 탐지 등에 활용 가능하다. 국내 해양 심부 시추는 이산화탄소 저장 후보지 특성 파악과 자원 부존 평가 등을 목적으로 지속 추진되고 있으므로 통합 역산의 지구물리 분야 적용 가치가 높아질 것으로 기대된다.

3차원 객체 탐지를 위한 어텐션 기반 특징 융합 네트워크 (Attention based Feature-Fusion Network for 3D Object Detection)

  • 유상현;강대열;황승준;박성준;백중환
    • 한국항행학회논문지
    • /
    • 제27권2호
    • /
    • pp.190-196
    • /
    • 2023
  • 최근 들어, 라이다 기술의 발전에 따라 정확한 거리 측정이 가능해지면서 라이다 기반의 3차원 객체 탐지 네트워크에 대한 관심이 증가하고 있다. 기존의 네트워크는 복셀화 및 다운샘플링 과정에서 공간적인 정보 손실이 발생해 부정확한 위치 추정 결과를 발생시킨다. 본 연구에서는 고수준 특징과 높은 위치 정확도를 동시에 획득하기 위해 어텐션 기반 융합 방식과 카메라-라이다 융합 시스템을 제안한다. 먼저, 그리드 기반의 3차원 객체 탐지 네트워크인 Voxel-RCNN 구조에 어텐션 방식을 도입함으로써, 다중 스케일의 희소 3차원 합성곱 특징을 효과적으로 융합하여 3차원 객체 탐지의 성능을 높인다. 다음으로, 거짓 양성을 제거하기 위해 3차원 객체 탐지 네트워크의 탐지 결과와 이미지상의 2차원 객체 탐지 결과를 결합하는 카메라-라이다 융합 시스템을 제안한다. 제안 알고리즘의 성능평가를 위해 자율주행 분야의 KITTI 데이터 세트를 이용하여 기존 알고리즘과의 비교 실험을 수행한다. 결과적으로, 차량 클래스에 대해 BEV 상의 2차원 객체 탐지와 3차원 객체 탐지 부분에서 성능 향상을 보였으며 특히 Voxel-RCNN보다 차량 Moderate 클래스에 대하여 정확도가 약 0.47% 향상되었다.

카테고리 중립 단어 활용을 통한 주가 예측 방안: 텍스트 마이닝 활용 (Stock Price Prediction by Utilizing Category Neutral Terms: Text Mining Approach)

  • 이민식;이홍주
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.123-138
    • /
    • 2017
  • 주식 시장은 거래자들의 기업과 시황에 대한 기대가 반영되어 움직이기에, 다양한 원천의 텍스트 데이터 분석을 통해 주가 움직임을 예측하려는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 것이기에 단순히 주가의 등락 뿐만이 아니라, 뉴스 기사나 소셜 미디어의 반응에 따라 거래를 하고 이에 따른 수익률을 분석하는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 연구들도 다른 분야의 텍스트 마이닝 접근 방안과 동일하게 단어-문서 매트릭스를 구성하여 분류 알고리즘에 적용하여 왔다. 문서에 많은 단어들이 포함되어 있기 때문에 모든 단어를 가지고 단어-문서 매트릭스를 만드는 것보다는 단어가 문서를 범주로 분류할 때 기여도가 높은 단어들을 선정하여야 한다. 단어의 빈도를 고려하여 너무 적은 등장 빈도나 중요도를 보이는 단어는 제거하게 된다. 단어가 문서를 정확하게 분류하는 데 기여하는 정도를 측정하여 기여도에 따라 사용할 단어를 선정하기도 한다. 단어-문서 매트릭스를 구성하는 기본적인 방안인 분석의 대상이 되는 모든 문서를 수집하여 분류에 영향력을 미치는 단어를 선정하여 사용하는 것이었다. 본 연구에서는 개별 종목에 대한 문서를 분석하여 종목별 등락에 모두 포함되는 단어를 중립 단어로 선정한다. 선정된 중립 단어 주변에 등장하는 단어들을 추출하여 단어-문서 매트릭스 생성에 활용한다. 중립 단어 자체는 주가 움직임과 연관관계가 적고, 중립 단어의 주변 단어가 주가 상승에 더 영향을 미칠 것이라는 생각에서 출발한다. 생성된 단어-문서 매트릭스를 가지고 주가의 등락 여부를 분류하는 알고리즘에 적용하게 된다. 본 연구에서는 종목 별로 중립 단어를 1차 선정하고, 선정된 단어 중에서 다른 종목에도 많이 포함되는 단어는 추가적으로 제외하는 방안을 활용하였다. 온라인 뉴스 포털을 통해 시가 총액 상위 10개 종목에 대한 4개월 간의 뉴스 기사를 수집하였다. 3개월간의 뉴스 기사를 학습 데이터로 분류 모형을 수립하였으며, 남은 1개월간의 뉴스 기사를 모형에 적용하여 다음 날의 주가 움직임을 예측하였다. 본 연구에서 제안하는 중립 단어 활용 알고리즘이 희소성에 기반한 단어 선정 방안에 비해 우수한 분류 성과를 보였다.

인터넷 커뮤니티에서 사용자 참여가 밀착도와 지속적 이용의도에 미치는 영향 (A Study on the Effects of User Participation on Stickiness and Continued Use on Internet Community)

  • 고미현;권순동
    • Asia pacific journal of information systems
    • /
    • 제18권2호
    • /
    • pp.41-72
    • /
    • 2008
  • The purpose of this study is the investigation of the effects of user participation, network effect, social influence, and usefulness on stickiness and continued use on Internet communities. In this research, stickiness refers to repeat visit and visit duration to an Internet community. Continued use means the willingness to continue to use an Internet community in the future. Internet community-based companies can earn money through selling the digital contents such as game, music, and avatar, advertizing on internet site, or offering an affiliate marketing. For such money making, stickiness and continued use of Internet users is much more important than the number of Internet users. We tried to answer following three questions. Fist, what is the effects of user participation on stickiness and continued use on Internet communities? Second, by what is user participation formed? Third, are network effect, social influence, and usefulness that was significant at prior research about technology acceptance model(TAM) still significant on internet communities? In this study, user participation, network effect, social influence, and usefulness are independent variables, stickiness is mediating variable, and continued use is dependent variable. Among independent variables, we are focused on user participation. User participation means that Internet user participates in the development of Internet community site (called mini-hompy or blog in Korea). User participation was studied from 1970 to 1997 at the research area of information system. But since 1997 when Internet started to spread to the public, user participation has hardly been studied. Given the importance of user participation at the success of Internet-based companies, it is very meaningful to study the research topic of user participation. To test the proposed model, we used a data set generated from the survey. The survey instrument was designed on the basis of a comprehensive literature review and interviews of experts, and was refined through several rounds of pretests, revisions, and pilot tests. The respondents of survey were the undergraduates and the graduate students who mainly used Internet communities. Data analysis was conducted using 217 respondents(response rate, 97.7 percent). We used structural equation modeling(SEM) implemented in partial least square(PLS). We chose PLS for two reason. First, our model has formative constructs. PLS uses components-based algorithm and can estimated formative constructs. Second, PLS is more appropriate when the research model is in an early stage of development. A review of the literature suggests that empirical tests of user participation is still sparse. The test of model was executed in the order of three research questions. First user participation had the direct effects on stickiness(${\beta}$=0.150, p<0.01) and continued use (${\beta}$=0.119, p<0.05). And user participation, as a partial mediation model, had a indirect effect on continued use mediated through stickiness (${\beta}$=0.007, p<0.05). Second, optional participation and prosuming participation significantly formed user participation. Optional participation, with a path magnitude as high as 0.986 (p<0.001), is a key determinant for the strength of user participation. Third, Network effect (${\beta}$=0.236, p<0.001). social influence (${\beta}$=0.135, p<0.05), and usefulness (${\beta}$=0.343, p<0.001) had directly significant impacts on stickiness. But network effect and social influence, as a full mediation model, had both indirectly significant impacts on continued use mediated through stickiness (${\beta}$=0.11, p<0.001, and ${\beta}$=0.063, p<0.05, respectively). Compared with this result, usefulness, as a partial mediation model, had a direct impact on continued use and a indirect impact on continued use mediated through stickiness. This study has three contributions. First this is the first empirical study showing that user participation is the significant driver of continued use. The researchers of information system have hardly studies user participation since late 1990s. And the researchers of marketing have studied a few lately. Second, this study enhanced the understanding of user participation. Up to recently, user participation has been studied from the bipolar viewpoint of participation v.s non-participation. Also, even the study on participation has been studied from the point of limited optional participation. But, this study proved the existence of prosuming participation to design and produce products or services, besides optional participation. And this study empirically proved that optional participation and prosuming participation were the key determinant for user participation. Third, our study compliments traditional studies of TAM. According prior literature about of TAM, the constructs of network effect, social influence, and usefulness had effects on the technology adoption. This study proved that these constructs still are significant on Internet communities.

소셜 네트워크 분석 기법을 활용한 협업필터링의 특이취향 사용자(Gray Sheep) 문제 해결 (Resolving the 'Gray sheep' Problem Using Social Network Analysis (SNA) in Collaborative Filtering (CF) Recommender Systems)

  • 김민성;임일
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.137-148
    • /
    • 2014
  • 상품 검색시간의 단축과 쇼핑에 투입되는 노력의 감소 등, 온라인 쇼핑이 주는 장점에 대한 긍정적인 인식이 확산되면서 전자상거래(e-commerce)의 중요성이 부각되는 추세이다. 전자상거래 기업들은 고객확보를 위해 다양한 인터넷 고객관계 관리(eCRM) 활동을 전개하고 있는데, 개인화된 추천 서비스의 제공은 그 중 하나이다. 정확한 추천 시스템의 구축은 전자상거래 기업의 성과를 좌우하는 중요한 요소이기 때문에, 추천 서비스의 정확도를 높이기 위한 다양한 알고리즘들이 연구되어 왔다. 특히 협업필터링(collaborative filtering: CF)은 가장 성공적인 추천기법으로 알려져 있다. 그러나 고객이 상품을 구매한 과거의 전자상거래 기록을 바탕으로 미래의 추천을 하기 때문에 많은 단점들이 존재한다. 신규 고객의 경우 유사한 구매 성향을 가진 고객들을 찾기 어렵고 (Cold-Start problem), 상품 수에 비해 구매기록이 부족할 경우 상관관계를 도출할 데이터가 희박하게 되어(Sparsity) 추천성능이 떨어지게 된다. 취향이 독특한 사용자를 뜻하는 'Gray Sheep'에 의한 추천성능의 저하도 그 중 하나이다. 이러한 문제인식을 토대로, 본 연구에서는 소셜 네트워크 분석기법 (Social Network Analysis: SNA)과 협업필터링을 결합하여 데이터셋의 특이 취향 사용자 (Gray Sheep) 문제를 해소하는 방법을 제시한다. 취향이 독특한 고객들의 구매데이터를 소셜 네트워크 분석지표를 활용하여 전체 데이터에서 분리해낸다. 그리고 분리한 데이터와 나머지 데이터인 두 가지 데이터셋에 대하여 각기 다른 유사도 기법과 트레이닝 셋을 적용한다. 이러한 방법을 사용한 추천성능의 향상을 검증하기 위하여 미국 미네소타 대학 GroupLens 연구팀에 의해 수집된 무비렌즈 데이터(http://movielens.org)를 활용하였다. 검증결과, 일반적인 협업필터링 추천시스템에 비하여 이 기법을 활용한 협업필터링의 추천성능이 향상됨을 확인하였다.