• 제목/요약/키워드: matrix factorization

검색결과 306건 처리시간 0.025초

PMF 모델을 이용한 수도권 내 3개 도시에서의 PM10 오염원의 기여도 추정 (Estimation of PM10 Source Contributions on Three Cities in the Metropolitan Area by Using PMF Model)

  • 이태정;허종배;이승묵;김신도;김동술
    • 한국대기환경학회지
    • /
    • 제25권4호
    • /
    • pp.275-288
    • /
    • 2009
  • The Korean government strengthened the environmental polices to manage and enhance Metropolitan Area air quality, and also has enforced "Special Act on Seoul Metropolitan Air Quality Improvement (SASMAQI)" issued in Dec. 2004. Recently government expanded the Seoul Metropolitan Air Quality Management District (SMAQMD) to the outskirts satellite cities of Seoul area through the "Revised Law Draft of SASMAQI". The SMAQMD has been alloted the allowable emission loads to the local governments on the basis of the carrying $PM_{10}$ capacity. However, in order to establish the effective air quality control strategy for $PM_{10}$, it is necessary to understand the corresponding sources which have a potential to directly impact ambient $PM_{10}$ concentration. To deal with the situations, many receptor methodologies have been developed to identify the origins of pollutants and to determine the contributions of sources of interests. The objective of this study was to extensively identify $PM_{10}$ sources and to estimate their contributions at the metropolitan area. $PM_{10}$ samples were simultaneously collected at the 3 semi-industrialized local cities in the Seoul metropolitan area such as Hwasung-si, Paju-si, and Icheon-si sites from April 15 to May 31, 2007. The samples collected on the teflon membrane filter by one $PM_{10}$ cyclone sampler were analyzed for trace metals and soluble ions and samples on the quartz fiber filter by another sampler were analyzed for OC and EC. Source apportionment study was then performed by using a positive matrix factorization (PMF) receptor model. A total of 6 sources were identified and their contributions were estimated in each monitoring site. Contribution results on Hwasung, Paju, and Icheon sites were as follows: 33%, 27%, and 27% from soil source, 26%, 26%, and 21% from secondary aerosol source, 11%, 11%, and 12% from biomass burning, 12%, 6%, and 5% from sea salt, 7%, 15%, and 19% from industrial related source, and finally 11%, 15%, and 16% from mobile and oil complex source, respectively. This study provides information on the major sources affecting air quality in the receptor sites and thus it will help to manage the ambient air quality in the metropolitan area by establishing reasonable control strategies, especially for the anthropogenic emission sources.

토픽모델링을 이용한 약어 중의성 해소 (Abbreviation Disambiguation using Topic Modeling)

  • 이운교;김자희;양준기
    • 한국시뮬레이션학회논문지
    • /
    • 제32권1호
    • /
    • pp.35-44
    • /
    • 2023
  • 최근 텍스트 분석으로 트렌드 분석이나 연구 동향 분석을 하는 연구 사례가 많다. 텍스트 분석을 위한 자료 수집에 사용되는 검색어가 약어일 때 약어의 특성상 의미 중의성 해소가 필요하다. 다수의 연구에서는 연구에 필요한 자료를 찾기 위해 수작업으로 자료를 하나씩 읽어 문서를 분류하고 있다. 약어의 의미 중의성 해소를 위한 연구는 단어의 의미를 명확화하는 연구가 대부분이고 지도학습을 이용하고 있다. 약어 중의성 해소를 위한 선행 방법은 약어로 검색된 자료에서 연구 대상 자료를 찾는 문서 분류에는 적합하지 않으며 관련 연구도 부족하다. 본 연구에서는 데이터 전처리 단계에서 비지도 학습 방법인 비음수 행렬 분해 방법으로 토픽 모델링을 진행하여 약어로 수집된 문서를 반자동으로 분류하는 방법을 제시한다. 이를 검증하기 위해 'MSA'라는 약어 검색어로 학술 데이터베이스에서 논문 자료를 수집했다. 수집된 논문 1,401편에서 제안된 방법으로 316편의 Micro Services Architecture와 관련된 논문을 찾았다. 제안된 방법의 문서 분류 정확도는 92.36%로 측정되었다. 제안된 방법이 수작업에 따른 연구자의 시간과 비용을 줄일 수 있기를 기대한다.

토픽모델링을 활용한 항만안전 위험요인 도출에 관한 연구 (A Study on the Derivation of Port Safety Risk Factors Using by Topic Modeling)

  • 이정민;김율성
    • 한국항만경제학회지
    • /
    • 제39권2호
    • /
    • pp.59-76
    • /
    • 2023
  • 본 연구에서는 일반대중들이 쉽게 접할 수 있는 뉴스 기사 데이터와 항만 연구자들의 인사이트가 반영된 국내 학술지 초록 데이터를 통하여 다양한 시각에서 항만안전에 대해 알아보고자 하였다. 본 연구의 의의는 방대한 양의 데이터가 쏟아지고 있는 현 시대에 맞는 새로운 방식인 온라인상의 빅데이터를 활용한 분석을 통해 새로운 시각에서의 항만안전과 관련된 위험요인을 탐색하고자 함에 있다. 본 연구에서는 파이썬을 활용한 NMF기반의 토픽모델링을 실시하여 데이터별 주요 토픽을 도출한 후 각 토픽에 대한 의미분석을 실시하였다. 뉴스 기사 데이터에서는 주로 항만안전 위험요인 중 자연적 요인, 환경적 요인이 도출되었고 학술지 초록 데이터에서는 보안적 요인, 기계적 요인, 인적요인, 환경적 요인, 자연적 요인이 도출되었다. 이를 통해 항만안전의 회복탄력성 강화 등 국내 항만의 안전강화전략 필요성, 항만안전에 대한 일반대중들의 시각을 넓히기 위한 안전의식개선 필요성, 항만산업 환경이 안전하고 전문화된 성숙한 항만으로 발전할 수 있는 정책적 차원과 인식적 차원의 연구를 진행할 필요성을 도출하였다. 결과적으로 일반대중들의 시각과 항만 연구자의 시각에서 두드러지게 나타나는 항만안전 위험요인을 탐구함으로써 국내 항만이 항만안전을 위해 개선해야할 주요 요인들을 밝혔고 항만의 안전성확보가 더욱 중요해지는 시점에서 기존의 항만에서 항만안전 문화를 가진 성숙된 항만으로 발전하기 위한 기초자료를 제공하였다.

평점과 리뷰 텍스트 감성분석을 결합한 추천시스템 향상 방안 연구 (How to improve the accuracy of recommendation systems: Combining ratings and review texts sentiment scores)

  • 현지연;유상이;이상용
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.219-239
    • /
    • 2019
  • 개인에게 맞춤형 서비스를 제공하는 것이 중요해지면서 개인화 추천 시스템 관련 연구들이 끊임없이 이루어지고 있다. 추천 시스템 중 협업 필터링은 학계 및 산업계에서 가장 많이 사용되고 있다. 다만 사용자들의 평점 혹은 사용 여부와 같은 정량적인 정보에 국한하여 추천이 이루어져 정확도가 떨어진다는 문제가 제기되고 있다. 이와 같은 문제를 해결하기 위해 현재까지 많은 연구에서 정량적 정보 외에 다른 정보들을 활용하여 추천 시스템의 성능을 개선하려는 시도가 활발하게 이루어지고 있다. 리뷰를 이용한 감성 분석이 대표적이지만, 기존의 연구에서는 감성 분석의 결과를 추천 시스템에 직접적으로 반영하지 못한다는 한계가 있다. 이에 본 연구는 리뷰에 나타난 감성을 수치화하여 평점에 반영하는 것을 목표로 한다. 즉, 사용자가 직접 작성한 리뷰를 감성 수치화하여 정량적인 정보로 변환해 추천 시스템에 직접 반영할 수 있는 새로운 알고리즘을 제안한다. 이를 위해서는 정성적인 정보인 사용자들의 리뷰를 정량화 시켜야 하므로, 본 연구에서는 텍스트 마이닝의 감성 분석 기법을 통해 감성 수치를 산출하였다. 데이터는 영화 리뷰를 대상으로 하여 도메인 맞춤형 감성 사전을 구축하고, 이를 기반으로 리뷰의 감성점수를 산출한다. 본 논문에서 사용자 리뷰의 감성 수치를 반영한 협업 필터링이 평점만을 고려하는 전통적인 방식의 협업 필터링과 비교하여 우수한 정확도를 나타내는 것을 확인하였다. 이후 제안된 모델이 더 개선된 방식이라고 할 근거를 확보하기 위해 paired t-test 검증을 시도했고, 제안된 모델이 더 우수하다는 결론을 도출하였다. 본 연구에서는 평점만으로 사용자의 감성을 판단한 기존의 선행연구들이 가지는 한계를 극복하고자 리뷰를 수치화하여 기존의 평점 시스템보다 사용자의 의견을 더 정교하게 추천 시스템에 반영시켜 정확도를 향상시켰다. 이를 기반으로 추가적으로 다양한 분석을 시행한다면 추천의 정확도가 더 높아질 것으로 기대된다.

백령도 및 서울 대기오염집중측정소 에어로졸 질량 분석기 자료를 이용한 대기 중 에어로졸 화학적 특성 연구 (Chemical Characteristics of PM1 using Aerosol Mass Spectrometer at Baengnyeong Island and Seoul Metropolitan Area)

  • 박태현;반지희;강석원;김영성;신혜정;박종성;박승명;문광주;임용재;이민도;이상보;김정수;김순태;배창한;이용환;이태형
    • 한국대기환경학회지
    • /
    • 제34권3호
    • /
    • pp.430-446
    • /
    • 2018
  • To improve understanding of the sources and chemical properties of particulate pollutants on the Korean Peninsula, An Aerodyne High Resolution Time of Flight Aerosol Mass Spectrometer (HR-ToF-AMS) measured non-refractory fine particle ($NR-PM_1$) from 2013 to 2015 at Baengnyeong Island and Seoul metropolitan area (SMA), Korea. The chemical composition of $NR-PM_1$ in Baengnyeong island was dominated by organics and sulfate in the range of 36~38% for 3 years, and the organics were the dominant species in the range of 44~55% of $NR-PM_1$ in Seoul metropolitan area. The sulfate was found to be more than 85% of the anthropogenic origin in the both areas of Baengnyeong and SMA. Ratio of gas to particle partition of sulfate and nitrate were observed in both areas as more than 0.6 and 0.8, respectively, representing potential for formation of additional particulate sulfate and nitrate. The high-resolution spectra of organic aerosol (OA) were separated by three factors which were Primary OA(POA), Semi-Volatility Oxygenated Organic Aerosol (SV-OOA), and Low-Volatility OOA(LV-OOA) using positive matrix factorization (PMF) analysis. The fraction of oxygenated OA (SOA, ${\fallingdotseq}OOA$=SV-OOA+LV-OOA) was bigger than the fraction of POA in $NR-PM_1$. The POA fraction of OA in Seoul is higher than it of Baengnyeong Island, because Seoul has a relatively large number of primary pollutants, such as gasoline or diesel vehicle, factories, energy facilities. Potential source contribution function (PSCF) analysis revealed that transport from eastern China, an industrial area with high emissions, was associated with high particulate sulfate and organic concentrations at the Baengnyeong and SMA sites. PSCF also presents that the ship emissions on the Yellow Sea was associated with high particulate sulfate concentrations at the measurement sites.

음악과 플레이리스트의 메타데이터를 활용한 하이브리드 음악 추천 시스템에 관한 연구 (Research on hybrid music recommendation system using metadata of music tracks and playlists)

  • 이현태;임규건
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.145-165
    • /
    • 2023
  • 추천 시스템은 인터넷의 발달로 급격하게 증가하는 정보의 양으로 인해 생긴 정보 선택의 어려움을 소비자에게 덜어주고 각 개인의 취향에 맞는 정보를 효율적으로 보여주는 중요한 역할을 한다. 특히, E-commerce와 OTT 기업은 상품과 콘텐츠 양이 급격하게 증가하면서 추천 시스템의 도움 없이는 인기 있는 상품만 소비되는 현상을 극복하지 못한다. 이러한 현상을 극복하고 고객 개인 취향에 맞는 정보 혹은 콘텐츠를 제공해 고객의 소비를 유도하기 위해 추천 시스템의 연구가 활발히 진행되고 있다. 일반적으로 유저(user)의 과거 행동 이력을 활용한 협업 필터링이 유저가 선호한 콘텐츠의 정보를 활용하는 콘텐츠 기반 필터링에 비해 높은 성능을 보여준다. 하지만 협업 필터링은 과거 행동 데이터가 부족한 유저에 대해서는 추천의 성능이 낮아지는 콜드 스타트(Cold Start) 문제를 겪게 된다. 본 논문에서는 카카오 아레나 경진대회에서 주어진 음악 스트리밍 서비스 멜론의 플레이리스트 데이터를 기반으로 앞에서 언급한 콜드 스타트 문제를 해결할 수 있는 하이브리드 음악 추천 시스템을 제시했다. 본 연구에서는 플레이리스트에 수록된 곡 목록과 각 음악과 플레이리스트의 메타데이터를 활용해 절반 혹은 전부 가려진 플레이리스트의 다른 수록 곡을 예측하는 것을 목표로 하였다. 이를 위해 플레이리스트 안에 곡이 있는 경우와 아예 곡이 없는 경우를 나눠서 추천을 진행하였다. 플레이리스트 안에 곡이 있는 경우에는 해당 플레이리스트의 곡 목록과 각 곡의 메타데이터를 활용하기 위해 LightFM을 활용하였다. 그 다음에 Item2Vec을 활용해 플레이리스트에 있는 수록 곡과 태그 및 제목의 임베딩 벡터를 생성하고 이를 추천에 활용하였다. 최종적으로 LightFM과 Item2Vec 모델의 앙상블을 통해 최종 추천 결과를 생성하였다. 플레이리스트 안에 곡이 없고 태그 혹은 제목만이 존재할 경우에는 플레이리스트의 메타데이터인 태그와 제목을 FastText를 활용해 사전 학습을 시켜 생성된 플레이리스트 벡터를 기반으로 플레이리스트 간의 유사도를 활용하여 추천을 진행하였다. 이렇게 추천한 결과, 기존 Matrix Factorization(MF)에서 해결하지 못한 콜드 스타트 문제를 해결할 수 있었을 뿐만 아니라 곡과 플레이리스트의 메타데이터를 활용해 기존 MF 모델인 ALS와 BPR 그리고 Word2Vec 기반으로 추천해 주는 Item2Vec 기술보다 높은 추천 성능을 낼 수 있었다. 또한, LightFM을 토대로 다양한 곡의 메타데이터를 실험한 결과, 여러 메타데이터 중에서 아티스트 정보를 단독으로 활용한 LightFM 모델이 다른 메타데이터를 활용한 LightFM 모델들과 비교해 가장 높은 성능을 보여준다는 것을 확인할 수 있었다.