• 제목/요약/키워드: Term Extraction

검색결과 336건 처리시간 0.023초

깊은 신경망 기반 대용량 텍스트 데이터 분류 기술 (Large-Scale Text Classification with Deep Neural Networks)

  • 조휘열;김진화;김경민;장정호;엄재홍;장병탁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권5호
    • /
    • pp.322-327
    • /
    • 2017
  • 문서 분류 문제는 오랜 기간 동안 자연어 처리 분야에서 연구되어 왔다. 우리는 기존 컨볼루션 신경망을 이용했던 연구에서 나아가, 순환 신경망에 기반을 둔 문서 분류를 수행하였고 그 결과를 종합하여 제시하려 한다. 컨볼루션 신경망은 단층 컨볼루션 신경망을 사용했으며, 순환 신경망은 가장 성능이 좋다고 알려져 있는 장기-단기 기억 신경망과 회로형 순환 유닛을 활용하였다. 실험 결과, 분류 정확도는 Multinomial Naïve Bayesian Classifier < SVM < LSTM < CNN < GRU의 순서로 나타났다. 따라서 텍스트 문서 분류 문제는 시퀀스를 고려하는 것 보다는 문서의 feature를 추출하여 분류하는 문제에 가깝다는 것을 확인할 수 있었다. 그리고 GRU가 LSTM보다 문서의 feature 추출에 더 적합하다는 것을 알 수 있었으며 적절한 feature와 시퀀스 정보를 함께 활용할 때 가장 성능이 잘 나온다는 것을 확인할 수 있었다.

서지마크 데이터베이스로부터의 색인어 추출과 색인어의 검색 활용에 관한 연구 - 경북대학교 도서관 학술정보시스템 사례를 중심으로 - (A Study on the Extraction and Utilization of Index from Bibliographic MARC Database)

  • 박미성
    • 한국도서관정보학회지
    • /
    • 제36권2호
    • /
    • pp.327-348
    • /
    • 2005
  • 본 연구의 목적은 서지정보검색시스템의 색인 정의의 중요성을 강조하고 최적 색인의 기초 자료를 마련하기 위함이다. 이를 위해 서지마크 데이터베이스로부터 색인 태그 정의 및 정규화를 통한 색인어추출이론에 대해 고찰하고, 이론에 따라 생성된 색인어의 검색 활용도를 분석하였다. 실험은 서지 2,200,488건에서 생성된 색인어 29,219,853건을 텍스트형 색인과 코드형 색인으로 나누어 이용자 왱 검색 로그에 나타난 색인 항목과 비교하여 어떤 색인 정의가 얼마나 활용되는가를 분석하였다. 결과에 따르면 서명, 저자, 출판사, 주제와 같은 텍스트형 색인어는 높은 검색 활용도를 보인 반면에 코드형 색인어는 검색 활용도가 낮아 검색에 활용되지 않는 불필요한 색인 정의들은 과감하게 제거하여 색인 정의를 최적화해야 함을 제안하였다.

  • PDF

바이오 분야 학술 문헌에서의 분야별 관계 추출 데이터셋 반자동 구축에 관한 연구 - 알츠하이머병 유관 유전자 간 상호 작용 중심으로 - (A Study on the Semiautomatic Construction of Domain-Specific Relation Extraction Datasets from Biomedical Abstracts - Mainly Focusing on a Genic Interaction Dataset in Alzheimer's Disease Domain -)

  • 최성필;유석종;조현양
    • 한국도서관정보학회지
    • /
    • 제47권4호
    • /
    • pp.289-307
    • /
    • 2016
  • 본 논문에서는 생의학 분야의 특정 세부 분야에 특화된 관계 추출 학습 말뭉치를 효율적으로 구축할 수 있는 시스템을 소개한다. 이 시스템은 대상 분야에 해당하는 용어집(유전자, 단백질, 질환 명칭 등)을 입력하면, 대용량 상호 작용 데이터베이스를 통해서 이들 용어 간의 연관 관계를 1차적으로 생성하고 생성된 연관 관계 집합을 다시 학술 데이터베이스에서 검색하여 최종적으로 연관 관계 포함 문장을 추출하는 형태로 수행된다. 개발된 시스템의 유용성 검증을 위해서 알츠하이머병 분야에서의 유전자 간 상호 작용 학습 말뭉치를 구축하는데 본 시스템을 적용하였고, 140개의 유전자 집합을 입력하여 이 분야에 특화된 학습 집합인 유전자 쌍 및 상호 작용 포함 문장 3,510 건을 추출하였다. 본 논문에서 제안한 시스템을 활용함으로써 기존에 완전 수작업으로 수행되던 연관 관계 추출용 학습 말뭉치 구축의 효율성을 높일 수 있고 다양한 세부 분야에 적합한 학습 말뭉치 구축에 도움을 줄 수 있다.

의도적 재식술을 시행한 대구치의 단기간의 임상 평가 (Short-term clinical outcome of intentionally replanted posterior molars)

  • 최용훈
    • Restorative Dentistry and Endodontics
    • /
    • 제36권1호
    • /
    • pp.12-18
    • /
    • 2011
  • 목적: 본 후향적 연구의 목적은 의도적 재식술로 치료한 상하악 대구치의 단기간의 치료 결과를 평가하고자 하는 것이다. 환자 및 방법: 본 연구의 대상은 해부학적인 접근의 어려움 및 두꺼운 피질골 또는 하치조 신경, 상악동등과의 근접으로 인해 통상적인 치근단 수술이 불가능하거나 환자가 거부하는 경우 의도적 재식술을 시행한 35개의 상하악 대구치를 대상으로 하였다. 증례들의 경과 관찰 기간은 1년에서 2년 4개월이었다. 성공률은 임상적 성공과 방사선학적 성공을 기준으로 평가하였다. 결과: 의도적 재식술 과정중 발치 실패가 1증례(3%), 치주 질환 및 염증성 흡수로 발치한 경우가 2증례(6%)였고 구강내에서 기능하고 있으나 약간의 동요도와 치근의 흡수상이 관찰되는 경우가 3증례(9%)였고 특이한 이상없이 잘 유지되고 있는 경우는 29증례(82%)였다. 결론: 의도적 재식술은 접근성 및 해부학적인 구조등으로 인해 치근단 수술이 불가능한 경우 적절한 증례 선택과 숙련된 술자에 의해 시술이 이루어진다면 재현성 있고 예지성있는 치료가 될 수 있다.

한글문서 분류용으로 이용할 복합어로 구성된 분야연상어의 추출법 (An Extraction Algorithm of Compound Field-associated Terms for Korean Document Classifications)

  • 이상곤
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권7호
    • /
    • pp.636-649
    • /
    • 2005
  • 분야연상어는 어휘자체가 분야정보를 가지므로 인간이 분야를 인지할 때와 유사하게 문서의 분야를 판단한다. 한국어의 경우 180분야로 분류된 약 IS,000개의 문서뱅크를 수집하여 구축 $\cdot$실험한 결과 88,782개의 단일 분야연상어가 8,405개로 전체의 약 9$\%$로 압축되며, 재현율 0.77 이상(평균 0.85), 정확률 0.90 이상(평균 0.94)의 높은 추출 정밀도를 얻었다. 구축한 분야연상어를 문서분류의 초기결정에 적용하여 인간에 의한 분야결정과 비교한 결과 약 90$\%$이상의 정답률을 얻었다. 연구결과를 문서분류의 초기단계에 관한 기초연구로 이용하고, 다언어(multilingual) 간의 문서검색에 적용하여 다국어 정보검색에 대한 기초 연구로 이용할 수 있다.

Long-term outcomes of adjacent and antagonistic teeth after implant restoration: a focus on patient-related factors

  • Park, Su-Yeon;Kim, Yong-Gun;Suh, Jo-Young;Lee, Du-Hyeong;Lee, Jae-Mok
    • Journal of Periodontal and Implant Science
    • /
    • 제51권2호
    • /
    • pp.135-143
    • /
    • 2021
  • Purpose: To investigate factors affecting the antagonistic and adjacent teeth in patients after implant restoration and prosthetic rehabilitation. Methods: In total, 160 patients who visited Kyungpook National University Dental Hospital for implant surgery, prosthesis placement, and supportive periodontal therapy (SPT) were included in this study. The average follow-up period was 88.06 months, and the maximum was 175 months. Patients' history of smoking, diabetes, hypertension, and osteoporosis was investigated, and panoramic radiographs were taken after surgery and prosthetic treatment. During the follow-up period, extraction and prosthetic/endodontic treatments of the antagonistic and adjacent teeth were analyzed. The statistical analyses were performed using descriptive statistics, the chi-square test, the Fisher exact test, and multiple logistic regression analyses. Results: Treatment was performed on 29.4% of the studied antagonistic teeth with extraction performed in 20.0% and prosthetic treatment in 10.0%. Furthermore, 19.4% of the studied adjacent teeth underwent treatment, of which extraction was performed in 12.5% and prosthetic treatment in 7.5%. The treatment rate for adjacent teeth was 25.3% in smokers, which was higher than that of non-smokers (12.3%) (P=0.039). Patients who were non-adherent to SPT showed a significantly higher rate (19.6%) of antagonistic prosthetic treatment than did those who were adherent (5.5%) (P=0.006). Conclusions: Implant restoration can affect the adjacent and antagonistic teeth. Smoking, osteoporosis history, and absence of SPT may be risk factors for the treatment of the adjacent and antagonistic teeth.

신뢰전파 스테레오 기법의 고속 알고리즘 (A Fast Algorithm of the Belief Propagation Stereo Method)

  • 최영석;강현수
    • 대한전자공학회논문지SP
    • /
    • 제45권5호
    • /
    • pp.1-8
    • /
    • 2008
  • 최근 활발히 연구되고 있는 신뢰전파(Belief Propagation) 기법은 변위(disparity) 정보추출에 우수한 성능을 보인다. 신뢰전파 기법은 변위 추출에 필요한 목표함수를 Markov random field(URF)의 에너지 함수로 모델링 하는 방식으로서 에너지 함수를 최소화하는 변위 값을 찾음으로써 정합문제를 해결한다. MRF 모델은 스테레오와 영상복원과 같은 비전 문제에 강건하고 일괄된 구조를 제공한다. 그러나 MRF 모델링 기반의 신뢰전파 기법은 정확한 결과를 산출하지만 다른 스테레오 기법에 비하여 상대적으로 많은 계산 량이 요구되기 때문에 실시간 구현에 어려움이 있다. 본 논문에서는 이러한 문제를 해결하고자 신뢰전파 기법의 고속 구현 알고리즘을 제안한다. 에너지 함수는 data항과 smoothness항의 합으로 나타낸다. 데이터(data)항은 일반적으로 두 영상의 밝기 차이로 계산되고, 연속성(smoothness)항은 인접화소의 차이를 나타낸다. 연속성 정보는 메시지로부터 생성되는데, 메시지는 네 방향의 인접화소 위치에 대한 연속성과 일치성을 고려하여 계산된다. 네 방향의 메시지에 대한 처리 시간은 전체 프로그램 수행 시간의 80%이상을 차지한다. 제안된 방법에서는 네 개의 배열에서 생성되는 메시지를 하나의 배열에서 일괄적으로 생성하게 함으로써 메시지 계산에 대한 수행 시간을 단축하는 알고리즘을 제안한다. 최종 변위 추출과정에서 메시지는 통합된 하나의 배열에서만 호출되며, 이는 기존 알고리즘의 메시지 처리의 계산 량을 1/4 만큼 줄이는 효과가 있다. 기존의 신뢰전파 기법으로 생성한 깊이맵의 변위 오차율과 제안한 알고리즘으로 생성된 깊이맵의 변위 오차율을 비교함으로써 제안한 알고리즘의 변위추출의 정확도를 평가한다. 실험 결과, 변위 오차는 거의 증가하지 않는 반면, 전체 프로그램 수행 시간이 철저히 감소됨을 확인할 수 있다.

해방 직후 항공사진을 이용한 강원도 해안선 변화 분석 (Analysis of Gangwon-do Coastline Changes Using Aerial Photograph Immediately after the Liberation)

  • 안승효;최현;김기홍
    • 한국산업융합학회 논문집
    • /
    • 제23권5호
    • /
    • pp.717-726
    • /
    • 2020
  • Social costs are increasing in Gangwon-do east coast due to coastal erosion. Long-term coastline change information is essential for analyzing this phenomenon. In this study, aerial photographs immediately after liberation are used for 1950's coastline extraction. The study area is from Sokcho Cheongho beach to Yangyang Seorak beach. The aerial photograph is geometrically corrected using DLT(Direct Linear Transformation) method to extract past coastline and compare it with present data. Coastal erosion and deposition areas are calculated in study area. Artificial structures such as harbors and breakwaters have caused changes in ocean currents and sediments from river estuaries. In most cases, the deposition occurred at the southern area of artificial structures and the erosion occurred on surrounding beaches. Coastline information extracted from past aerial photographs can be useful to provide information on long-term changes.

실시간 TOC 자료의 장.단기 성분의 검출을 위한 이산형 웨이블렛 변환의 적용 (Application of Discrete Wavelet Transform for Detection of Long- and Short-Term Components in Real-Time TOC Data)

  • 진영훈;박성천
    • 한국환경과학회지
    • /
    • 제15권9호
    • /
    • pp.865-870
    • /
    • 2006
  • Recently, Total Organic Carbon (TOC) which can be measured instantly can be used as an organic pollutant index instead of BOD or COD due to the diversity of pollutants and non-degradable problem. The primary purpose of the present study is to reveal the properties of time series data for TOC which have been measured by real-time monitoring in Juam Lake and, in particularly, to understand the long- and short-term characteristics with the extraction of the respective components based on the different return periods. For the purpose, we proposed Discrete Wavelet Transform (DWT) as the methodology. The results from the DWT showed that the different components according to the respective periodicities could be extracted from the time series data for TOC and the variation of each component with respect to time could emerge from the return periods and the respective energy ratios of the decomposed components against the raw data.

회귀모형에 의한 서해안 평균해면의 연시계열자료의 평가 (The Evaluation of the Annual Time Series Data for the Mean Sea Level of the West Coast by Regression Model)

  • 조기태;박영기;이장춘
    • 한국환경과학회지
    • /
    • 제9권1호
    • /
    • pp.19-25
    • /
    • 2000
  • As the tideland reclamation is done on a large scale these days, construction work is active in the coastal areas. Facilities in the coastal areas must be built with the tide characteristics taken into consideration. Thus the tide characteristics affect the overall reclamation plan. The analysis of the tide data boils down to a harmonic analysis of the hourly changes of long-term tide data and extraction of unharmonic coefficients from the results. Since considerable amount of tide data of the West Coast are available, the existing data can be collected and can be used to obtain the temporal changes of the tide by being fitted into the tide prediction model. The goal of this thesis lies in assessing whether the mean sea level used in the field agrees with the analysis results from the long-term observation data obtained with their homogeneity guaranteed. To achieve this goal, the research was conducted as follows. First the present conditions of the observation stations, the land level standard, and the sea level standard were analyzed to set up a time series model formula for representing them. To secure the homogeneity of the time series, each component was separated. Lastly the mean sea level used in the field was assessed based on the results obtained form the analysis of the time series.

  • PDF