• 제목/요약/키워드: Similarity search

검색결과 530건 처리시간 0.028초

A Pilot Establishment of the Job-Exposure Matrix of Lead Using the Standard Process Code of Nationwide Exposure Databases in Korea

  • Ju-Hyun Park;Sangjun Choi;Dong-Hee Koh;Dae Sung Lim;Hwan-Cheol Kim;Sang-Gil Lee;Jihye Lee;Ji Seon Lim;Yeji Sung;Kyoung Yoon Ko;Donguk Park
    • Safety and Health at Work
    • /
    • 제13권4호
    • /
    • pp.493-499
    • /
    • 2022
  • Background: The purpose of this study is to construct a job-exposure matrix for lead that accounts for industry and work processes within industries using a nationwide exposure database. Methods: We used the work environment measurement data (WEMD) of lead monitored nationwide from 2015 to 2016. Industrial hygienists standardized the work process codes in the database to 37 standard process and extracted key index words for each process. A total of 37 standardized process codes were allocated to each measurement based on an automated key word search based on the degree of agreement between the measurement information and the standard process index. Summary statistics, including the arithmetic mean, geometric mean, and 95th percentile level (X95), was calculated according to industry, process, and industry process. Using statistical parameters of contrast and precision, we compared the similarity of exposure groups by industry, process, and industry process. Results: The exposure intensity of lead was estimated for 583 exposure groups combined with 128 industry and 35 process. The X95 value of the "casting" process of the "manufacture of basic precious and non-ferrous metals" industry was 53.29 ㎍/m3, exceeding the occupational exposure limit of 50 ㎍/m3. Regardless of the limitation of the minimum number of samples in the exposure group, higher contrast was observed when the exposure groups were by industry process than by industry or process. Conclusion: We evaluated the exposure intensities of lead by combination of industry and process. The results will be helpful in determining more accurate information regarding exposure in lead-related epidemiological studies.

심부전의 한약 임상연구에 활용된 한약재에 대한 기구축 DB(K-HERB NETWORK)를 활용한 네트워크 분석 (Network Analysis Using the Established Database (K-herb Network) on Herbal Medicines Used in Clinical Research on Heart Failure)

  • 박수빈;김예지;배기상;김철현;윤인애;임정태;추홍민
    • 대한한방내과학회지
    • /
    • 제44권3호
    • /
    • pp.313-353
    • /
    • 2023
  • Objectives: Heart failure is a chronic disease with increasing prevalence rates despite advancements in medical technology. Korean medicine utilizes herbal prescriptions to treat heart failure, but little is known about the specific herbal medicines comprising the network of herbal prescriptions for heart failure. This study proposes a novel methodology that can efficiently develop prescriptions and facilitate experimental research on heart failure by utilizing existing databases. Methods: Herbal medicine prescriptions for heart failure were identified through a PubMed search and compiled into a Google Sheet database. NetMiner 4 was used for network analysis, and the individual networks were classified according to the herbal medicine classification system to identify trends. K-HERB NETWORK was utilized to derive related prescriptions. Results: Network analysis of heart failure prescriptions and herbal medicines using NetMiner 4 produced 16 individual networks. Uhwangcheongsim-won (牛黃淸心元), Gamiondam-tang (加味溫膽湯), Bangpungtongseong-san (防風通聖散), and Bunsimgi-eum (分心氣飮) were identified as prescriptions with high similarity in the entire network. A total of 16 individual networks utilized K-HERB NETWORK to present prescriptions that were most similar to existing prescriptions. The results provide 1) an indication of existing prescriptions with potential for use to treat heart failure and 2) a basis for developing new prescriptions for heart failure treatment. Conclusion: The proposed methodology presents an efficient approach to developing new heart failure prescriptions and facilitating experimental research. This study highlights the potential of network pharmacology methodology and its possible applications in other diseases. Further studies on network pharmacology methodology are recommended.

생활폐기물 소각시설 소각재에서의 유기오염물질 정성분석 및 용출특성 (The analysis and leaching characteristics of organic compounds in incineration residues from municipal solid waste incinerators)

  • 홍석영;김삼권;윤용수;박선구;김금희;황승률
    • 분석과학
    • /
    • 제19권1호
    • /
    • pp.86-95
    • /
    • 2006
  • 현재 가동 중인 생활폐기물 소각시설에서 배출되는 소각재의 수세처리에 의한 유기화학물질 용출특성을 확인하기 위해 GC/MSD로 정성 분석을 하였다. 바닥재 및 비산재에서 각각 44종 및 17종의 다양한 유기화합물질을 확인하였다. 이러한 정성분석은 각 피크의 질량스펙트럼에 대한 Library(NIST21, NIST107, WILEY229) 검색 후 일치도가 90% 이상인 유사지표(similarity index)에 의해 수행되었다. 바닥재는 Naphthalene 그리고 Phenanthrene인 2종의 다방향족화합물(Polycyclic Aromatic Hydrocarbons, PAHs)을 포함한 18종의 방향족화합물과 사슬모양의 탄화수소인 26종의 지방족화합물을 검출하였다. 비산재의 경우 잔류성유기오염물질(Persistent Organic Pollutants, POPs)인 헥사클로로벤젠(Hexachlorobenzene, HCB)을 포함한 10종의 방향족화합물과 7종의 지방족화합물을 정성적으로 확인하였다. 또한, 바닥재와 비산재의 용출액과 용출잔사의 용출특성을 비교분석한 결과, 바닥재에서는 Ethenylbenzene, Benzaldehyde, 1-Phenyl-ethanone 그리고 1,4-Benzenedicarboxylic acid dimethyl ester 등이, 비산재에서는 Naphthalene, Dodecane, 1,2,3,5-Tetrachlorobenzene, Tetradecane, Hexadecane 그리고 Pentachlorobenzene등의 유기화합물이 수층으로 용출되는 결과를 얻었다. 따라서 소각재 중 비산재 및 바닥재가 단순 매립될 경우 유기화합물에 의한 침출수 및 지하수, 토양 등 2차 오염이 발생할 것으로 추정되며, 이러한 2차 오염을 방지하기 위해서 소각재에 함유되어 있는 다양한 종류의 유기화학물질의 용출특성을 조사하여 이에 대한 효율적이고 적정한 관리가 이루어져야 할 것으로 판단된다.

자연어 처리 및 협업 필터링 기반의 전장상황 관련 문서 자동탐색 및 요약 기법연구 (A Study on Automatic Discovery and Summarization Method of Battlefield Situation Related Documents using Natural Language Processing and Collaborative Filtering)

  • 김건영;이정빈;손미애
    • 인터넷정보학회논문지
    • /
    • 제24권6호
    • /
    • pp.127-135
    • /
    • 2023
  • 정보통신기술이 발달함에 따라 전투공간에서 생산·공유되는 정보 및 체계 내 저장·관리되는 정보의 양이 폭발적으로 증가하였다. 이는 지휘관이 전장상황 인식 및 지휘결심을 수행하는 데에 활용할 수 있는 정보의 양이 증가하였음을 의미하지만, 한편으로는 지휘관의 정보 부담을 증가시킴으로써 신속한 지휘결심을 저해하는 요인이 되기도 한다. 이러한 한계를 극복하기 위해, 본 연구에서는 지휘관이 전장상황 보고 문서를 수신하였을 때, 체계 내 보유 문서 중에서 이를 해석하는 데에 도움을 줄 수 있는 문서들을 자동적으로 탐색 및 선별하고 요약하는 기법을 제안하였다. 첫째로, 개체명 인식 방법을 활용하여 수신된 전장상황 보고 문서로부터 개체들을 식별한다. 둘째로, 각 개체와 관련된 체계 내 보유 문서들을 탐색한다. 셋째로, 언어모델과 협업 필터링을 활용하여 이러한 문서들을 선별한다. 이때 언어모델은 수신된 보고 문서와 탐색된 문서 간의 유사도를 산출하기 위해 활용되고, 협업 필터링은 지휘관의 문서 열람 히스토리를 반영하기 위해 활용된다. 마지막으로, 선별된 문서들로부터 각 개체가 포함된 문장을 선별하고 이를 정렬한다. 실험은 군 문서와 비슷한 특성을 지니는 학술논문들을 활용하여 수행하였고, 제안된 방법의 타당성을 검증하였다.

AI를 활용한 메타데이터 추출 및 웹서비스용 메타데이터 고도화 연구 (Metadata extraction using AI and advanced metadata research for web services)

  • 박성환
    • 문화기술의 융합
    • /
    • 제10권2호
    • /
    • pp.499-503
    • /
    • 2024
  • 방송 프로그램은 자체 방송 송출 외에도 인터넷 다시 보기, OTT, IPTV 서비스 등 다양한 매체에 제공되고 있다. 이 경우 콘텐츠 특성을 잘 나타내는 검색용 키워드 제공은 필수적이다. 방송사에서는 제작 단계, 아카이브 단계 등에서 주요 키워드를 수동으로 입력하는 방법을 주로 사용한다. 이 방식은 양적으로는 핵심 메타데이터 확보에 부족하고, 내용 면에서도 타 매체 서비스에서 콘텐츠 추천과 검색에 한계를 드러낸다. 본 연구는 EBS에서 개발한 DTV 자막방송 서버를 통해 사전 아카이빙 된 폐쇄형 자막 데이터를 활용하여 다수의 메타데이터를 확보하는 방법을 구현했다. 먼저 구글의 자연어 처리 AI 기술을 적용하여 핵심 메타데이터를 자동으로 추출하였다. 다음 단계는 핵심 연구 내용으로 우선순위와 콘텐츠 특성을 반영하여 핵심 메타데이터를 찾는 방법을 제안한다. 차별화된 메타데이터 가중치를 구하는 기술로는 TF-IDF 계산법을 응용하여 중요도를 분류했다. 실험 결과 성공적인 가중치 데이터를 얻었다. 이 연구로 확보한 문자열 메타데이터는 추후 문자열 유사도 측정 연구와 결합하면 타 매체에 제공하는 콘텐츠 서비스에서 정교한 콘텐츠 추천용 메타데이터를 확보하는 기반이 된다.

불량매립지 안정화 지표 개발을 위한 분자생물학적 기술의 적용 (Application of Molecular Biological Technique for Development of Stability Indicator in Uncontrolled Landfill)

  • 박현아;한지선;김창균;이진용
    • 대한환경공학회지
    • /
    • 제28권2호
    • /
    • pp.128-136
    • /
    • 2006
  • 본 연구에서는 분자생물학적인 방법을 이용하여 침출수 내의 미생물 군집 분석을 통한 매립지의 안정화 정도를 평가하는 기술을 개발하고자 하였다. 국내 사용종료매립지 중 정밀조사대상매립지 244개소를 대상으로 기초자료 조사 및 현장답사를 통해 천안 J 매립지와 원주 T 매립지를 연구대상 매립지로 선정하였다. 각 매립지의 침출수 시료에서 genomic DNA를 추출한 후 PCR을 이용한 16S rDNA 클로닝 과정을 거쳐 매립지 침출수 내에 분포하는 미생물 군집의 유전적 다양성을 확인하였다. 또한 탈질화 및 메탄생성 유전자를 대상으로 competitive PCR과 Real-Time PCR을 이용한 미생물 정량을 실시하여 오염인자와의 상관관계를 확인하였다. 분석된 DNA sequence를 BLAST search한 결과 97% 이상 유사성을 보이는 근연종은 J 매립지, T 매립지 각각 47.6%, 32.1%로 나타났으며 이 중 Proteobacteria phylum이 가장 많이 분포하는 것으로 나타났다. 탈질화 유전자 정량 결과 매립종료 후 경과기간이 13년인 T 매립지에 비해 7년인 J 매립지메서 nirS gene, cnorB gene이 각각 약 7배, 4배 정도 많이 분포하고 있는 것으로 확인되었다. 또한 메탄생성 유전자 정량 결과 J 매립지 내부 침출수(J1)에서 가장 많이 분포하고 있는 것으로 나타났으며, 매립지에서 지하수 흐름 방향으로 멀어질수록 미생물 개체수가 급격히 감소함을 확인하였다. nirS gene, cnorB gene 및 MCR gene의 개체수와 TOC, $NH_3-N,\;NO_3-N,\;NO_2-N,\;Cl^-$, alkalinity에 대한 비교 분석결과 $NO_3-N$을 제외하고 최대 99% 이상의 높은 상관관계를 보였다. 불량매립지로부터 침출수의 유출에 의한 경계 영역 주변에 대한 분자생태학적 영향평가 결과 종래 대표적인 수질평가 분석 항목과의 상관관계가 매우 높게 관측되어 분자생물학적 기술을 영향역 설정 및 안정화 지표로서 충분히 활용할 수 있음을 확인하였다.

Phellinus linteus의 균사체 액상배양에서 단백다당체(β-D-glucan)의 생산성 향상을 위한 균주 개량과 배양형태 조절의 중요성 (Importance of Strain Improvement and Control of Fungal cells Morphology for Enhanced Production of Protein-bound Polysaccharides(β-D-glucan) in Suspended Cultures of Phellinus linteus Mycelia)

  • 신우식;권영중;정용섭;전계택
    • Korean Chemical Engineering Research
    • /
    • 제47권2호
    • /
    • pp.220-229
    • /
    • 2009
  • 본 연구에서는 Phellinus linteus 균사체의 액상배양을 통한 면역증강 생리활성 효능의 단백다당체 생산공정을 개발하기 위한 시도로서, 우선 생산균체의 원형질체 형성을 통한 고생산성 균주를 개발하고자 하였으며, 발효기 액상배양 시 최적 배양형태의 유도를 통해 균사체와 단백다당체의 생산성을 극대화하고자 하였다. 본 연구실에서 채취한 생산 균주를 ITS rDNA sequencing 방법과 blast search 방법에 의해 조사한 결과 다양한 Phellinus linteus 종들과 99.67% 이상의 유사성 확인되어, 이 균주를 Phellinus linteus라고 최종적으로 동정할 수 있었다. 이 동정된 균주로부터 균주 개량을 시도하기 위해 Phellinus linteus 균사체로부터 대량의 원형질체 형성 및 재생에 의한 단일 콜로니 획득 방법을 개발함으로써 균주를 신속하게 개량할 수 있었다. Sorbitol을 이용한 banding filtration 방법을 이용하여 원형질체를 회수한 결과 $10^5{\sim}10^6\;protoplasts/ml$를 얻을 수 있었으며, 원형질체 재생률은 $10^{-2}{\sim}10^{-3}$로 나타났다. 균주개량을 위해 원형질체 재생배지와 고체배양배지에서 고성장성 및 고안정성을 보이는 균주들을 지속적으로 대량 선별하여, 액상 생산배양을 수행하였다. 그 결과 균사체량은 13~15 g/L로 대부분 비슷하게 자랐으며, 조단백다당체의 함량 또한 5.8~6.4%로 거의 비슷하게 분포하는 것으로 나타났는데, 이로부터 고체배양배지에서 빠른 성장속도를 보여주는 균주들이 대부분 액상 생산배양에서도 고생산성 및 고안정성을 보여주는 것을 확인할 수 있었다. 한편 Phellinus linteus 균사체의 경우 조단백다당체의 함량이 세포 무게당 거의 일정한 양을 함유하고 있는 것으로 확인되었으므로, 조단백다당체의 생산성을 증가시키기 위해서는 최종 생산배양에서의 균체량 증가가 가장 중요한 것으로 판단되어, 균사형성 고등균류의 균사체 배양 시 균체량 증가에 가장 중요한 요인 중의 하나인 생산균주의 배양형태적 특성에 대해 집중적으로 조사하였다. 균주개량 실험을 통해 고생산성 균주로 최종 결정된 AR147 균주를 이용해서 다양한 배양조건에서 발효조 배양을 수행한 결과, 최종 생산발효조로의 접종원이 고농도의 균사모양인 경우에 생산균주의 배양형태가 매우 작은 compact한 펠렛 모양(대부분 직경 0.5 mm 이하)을 유지하는, 이상적인 균사체 액상배양 공정이 이루어지는 것으로 확인되었다. 즉 생산 발효조배양에서 직경 0.5 mm 이하의 compact한 펠렛 모양의 배양형태가 유도되었을 경우, lag phase 시간의 획기적 감소와 1.5배 이상의 높은 세포비성장속도로 인해, 최종 균사체생산성이 다른 배양형태를 유도한 경우에 비해 약 3.3배 더 높은 주목할 만한 배양결과를 얻을 수 있었다. 이로부터 균사 형성 Phellinus linteus의 산업용 발효조 배양 시, 각 배양단계에서의 생산균체의 배양형태가 최종 균체생산성, 궁극적으로는 최종 단백다당체의 생산성에 심각한 영향을 미친다는 것을 알 수 있었다.

일반영향요인과 댓글기반 콘텐츠 네트워크 분석을 통합한 유튜브(Youtube)상의 콘텐츠 확산 영향요인 연구 (A Study on the Impact Factors of Contents Diffusion in Youtube using Integrated Content Network Analysis)

  • 박병언;임규건
    • 지능정보연구
    • /
    • 제21권3호
    • /
    • pp.19-36
    • /
    • 2015
  • 대표적 소셜미디어인 유튜브는 기존 폐쇄형 콘텐츠 서비스와는 다르게 개방형 콘텐츠 서비스로 이용자들의 참여와 공유를 통하여 많은 인기를 유지하고 있다. 콘텐츠 산업에서 중요한 위치를 차지하고 있는 유투브 상의 콘텐츠 확산 요인에 관한 기존의 연구들은 댓글 수 등과 같은 일반적 정보 특성 요인과 조회 수 간에 상관관계 등을 분석하는 것이 대부분이었다. 최근 네트워크 구조를 기반으로 한 연구들도 진행되었으나 대부분 콘텐츠를 이용하는 대상인 구독자나 지인 등을 중심으로 한 인적 관계 네트워크 구조 연구가 대부분이었다. 이에 본 연구에서는 실질적인 콘텐츠를 중심으로 한 네트워크 구조와 일반요인을 통합한 모델을 제시하고 확산요인을 분석하고자 한다. 이를 위해 통합 모델 인과관계 분석과 함께 21,307개의 유튜브 콘텐츠를 콘텐츠 기반 네트워크 구조로 분석하였다. 본 연구를 통해 기존에 알려진 일반적 요인과 네트워크 요인들이 모두 조회수에 영향을 주는 인과관계를 통계적으로 재검증하였으며 통합적으로는 등록자의 구독자 수, 경과시간, 매개 중심성, 댓글 수, 근접 중심성, 클러스터링 계수, 평균 평점 순으로 조회 수에 긍정적인 영향을 미치는 것으로 분석되었다. 하지만 네트워크 요인중 연결정도 중심성과 고유벡터 중심성은 부정적 영향을 주는 것으로 분석되었다. 본 연구를 통하여 유튜브 콘텐츠 확산에 대한 일반영향요인과 구조적인 현상을 함께 규명하였다. 본 연구는 기업들이 유튜브와 같은 콘텐츠 서비스를 통한 온라인 마케팅 활동 시 콘텐츠들의 구조적인 면을 고려할 수 있는 근거를 제공하였으며 음반산업의 수요예측이나 콘텐츠 제작 업체들의 원활한 서비스 제공을 위한 설명력있는 영향요인 및 모델이 될 수 있을 것이다.

키워드 자동 생성에 대한 새로운 접근법: 역 벡터공간모델을 이용한 키워드 할당 방법 (A New Approach to Automatic Keyword Generation Using Inverse Vector Space Model)

  • 조원진;노상규;윤지영;박진수
    • Asia pacific journal of information systems
    • /
    • 제21권1호
    • /
    • pp.103-122
    • /
    • 2011
  • Recently, numerous documents have been made available electronically. Internet search engines and digital libraries commonly return query results containing hundreds or even thousands of documents. In this situation, it is virtually impossible for users to examine complete documents to determine whether they might be useful for them. For this reason, some on-line documents are accompanied by a list of keywords specified by the authors in an effort to guide the users by facilitating the filtering process. In this way, a set of keywords is often considered a condensed version of the whole document and therefore plays an important role for document retrieval, Web page retrieval, document clustering, summarization, text mining, and so on. Since many academic journals ask the authors to provide a list of five or six keywords on the first page of an article, keywords are most familiar in the context of journal articles. However, many other types of documents could not benefit from the use of keywords, including Web pages, email messages, news reports, magazine articles, and business papers. Although the potential benefit is large, the implementation itself is the obstacle; manually assigning keywords to all documents is a daunting task, or even impractical in that it is extremely tedious and time-consuming requiring a certain level of domain knowledge. Therefore, it is highly desirable to automate the keyword generation process. There are mainly two approaches to achieving this aim: keyword assignment approach and keyword extraction approach. Both approaches use machine learning methods and require, for training purposes, a set of documents with keywords already attached. In the former approach, there is a given set of vocabulary, and the aim is to match them to the texts. In other words, the keywords assignment approach seeks to select the words from a controlled vocabulary that best describes a document. Although this approach is domain dependent and is not easy to transfer and expand, it can generate implicit keywords that do not appear in a document. On the other hand, in the latter approach, the aim is to extract keywords with respect to their relevance in the text without prior vocabulary. In this approach, automatic keyword generation is treated as a classification task, and keywords are commonly extracted based on supervised learning techniques. Thus, keyword extraction algorithms classify candidate keywords in a document into positive or negative examples. Several systems such as Extractor and Kea were developed using keyword extraction approach. Most indicative words in a document are selected as keywords for that document and as a result, keywords extraction is limited to terms that appear in the document. Therefore, keywords extraction cannot generate implicit keywords that are not included in a document. According to the experiment results of Turney, about 64% to 90% of keywords assigned by the authors can be found in the full text of an article. Inversely, it also means that 10% to 36% of the keywords assigned by the authors do not appear in the article, which cannot be generated through keyword extraction algorithms. Our preliminary experiment result also shows that 37% of keywords assigned by the authors are not included in the full text. This is the reason why we have decided to adopt the keyword assignment approach. In this paper, we propose a new approach for automatic keyword assignment namely IVSM(Inverse Vector Space Model). The model is based on a vector space model. which is a conventional information retrieval model that represents documents and queries by vectors in a multidimensional space. IVSM generates an appropriate keyword set for a specific document by measuring the distance between the document and the keyword sets. The keyword assignment process of IVSM is as follows: (1) calculating the vector length of each keyword set based on each keyword weight; (2) preprocessing and parsing a target document that does not have keywords; (3) calculating the vector length of the target document based on the term frequency; (4) measuring the cosine similarity between each keyword set and the target document; and (5) generating keywords that have high similarity scores. Two keyword generation systems were implemented applying IVSM: IVSM system for Web-based community service and stand-alone IVSM system. Firstly, the IVSM system is implemented in a community service for sharing knowledge and opinions on current trends such as fashion, movies, social problems, and health information. The stand-alone IVSM system is dedicated to generating keywords for academic papers, and, indeed, it has been tested through a number of academic papers including those published by the Korean Association of Shipping and Logistics, the Korea Research Academy of Distribution Information, the Korea Logistics Society, the Korea Logistics Research Association, and the Korea Port Economic Association. We measured the performance of IVSM by the number of matches between the IVSM-generated keywords and the author-assigned keywords. According to our experiment, the precisions of IVSM applied to Web-based community service and academic journals were 0.75 and 0.71, respectively. The performance of both systems is much better than that of baseline systems that generate keywords based on simple probability. Also, IVSM shows comparable performance to Extractor that is a representative system of keyword extraction approach developed by Turney. As electronic documents increase, we expect that IVSM proposed in this paper can be applied to many electronic documents in Web-based community and digital library.

소셜 뉴스를 위한 시간 종속적인 메타데이터 기반의 컨텍스트 공유 프레임워크 (Context Sharing Framework Based on Time Dependent Metadata for Social News Service)

  • 가명현;오경진;홍명덕;조근식
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.39-53
    • /
    • 2013
  • 인터넷의 발달과 SNS의 등장으로 정보흐름의 방식이 크게 바뀌었다. 이러한 변화에 따라 소셜 미디어가 급부상하고 있으며 소셜 미디어와 비디오 콘텐츠가 융합된 소셜 TV, 소셜 뉴스의 중요성이 강조되고 있다. 이러한 환경 속에서 사용자들은 단순히 콘텐츠를 탐색만 하는 것이 아니라 같은 콘텐츠를 이용하고 있는 친구들이나 지인들과 콘텐츠에 대한 정보나 경험들을 공유하고 더 나아가 새로운 콘텐츠를 만들어내기도 한다. 하지만 기존의 소셜 뉴스에서는 이러한 사용자들의 특성을 반영해 주지 못하고 있다. 특히 이용자들의 참여성만을 고려하고 있어서 서비스간의 차별화가 어렵고 뉴스 콘텐츠에 대한 정보나 경험 공유 시 컨텍스트 공유가 어렵다는 문제가 있다. 이를 해결하기 위해 본 논문에서는 뉴스를 내용별로 분할하고 분할된 뉴스에서 추출된 시간 종속적인 메타데이터를 제공하는 프레임워크를 제안한다. 제안하는 프레임워크에서는 스토리 분할 방법을 이용하여 뉴스 대본을 내용별로 분할한다. 또한 뉴스 전체내용을 대표하는 태그, 분할된 뉴스를 나타내는 서브 태그, 분할된 뉴스가 비디오에서 시작하는 위치 즉, 시간 종속적인 메타데이터를 제공한다. 소셜 뉴스 이용자들에게 시간 종속적인 메타데이터를 제공한다면 이용자들은 전체의 뉴스 내용 중에 자신이 원하는 부분만을 탐색 할 수 있으며 이 부분에 대한 견해를 남길 수 있다. 그리고 뉴스의 전달이나 의견 공유 시 메타데이터를 함께 전달함으로써 전달하고자 하는 내용에 바로 접근이 가능하며 프레임워크의 성능은 추출된 서브 태그가 뉴스의 실제 내용을 얼마나 잘 나타내 주느냐에 따라 결정된다. 그리고 서브 태그는 스토리 분할의 정확성과 서브 태그를 추출하는 방법에 따라 다르게 추출된다. 이 점을 고려하여 의미적 유사도 기반의 스토리 분할 방법을 프레임워크에 적용하였고 벤치마크 알고리즘과 성능 비교 실험을 수행하였으며 분할된 뉴스에서 추출된 서브 태그들과 실제 뉴스의 내용을 비교하여 서브 태그들의 정확도를 분석하였다. 결과적으로 의미적 유사도를 고려한 스토리 분할 방법이 더 우수한 성능을 보였으며 추출된 서브 태그들도 컨텍스트와 관련된 단어들이 추출 되었다.