• 제목/요약/키워드: Document Classification

검색결과 448건 처리시간 0.027초

관심 지점 명칭의 단어와 문맥 정보를 활용한 관심 지점의 분류 (Categorization of POIs Using Word and Context information)

  • 최수정;박성배
    • 한국지능시스템학회논문지
    • /
    • 제24권5호
    • /
    • pp.470-476
    • /
    • 2014
  • 관심 지점이란 상점이나 공원, 음식점 등과 같이 사람들이 관심을 가지거나 유용하다고 생각하는 특정한 지리적 위치를 의미한다. 관심 지점은 명칭과 제공 서비스, 카테고리 등과 같은 여러 정보들로 구성되어 있다. 이와 같은 정보들은 위치기반 어플리케이션에서 필수적인 정보이고, 그 중에서도 카테고리 정보는 위치기반 서비스에서 가장 핵심적인 역할을 한다. 그러나 관심 지점의 카테고리 정보를 직접 모으는 것은 많은 비용과 노력이 들기 때문에 자동으로 수집되어야 한다. 본 논문에서는 카테고리를 자동으로 추정하기 위해서 관심 지점 명칭의 단어 정보와 제한적 주변 문맥 정보를 결합하여 사용하는 방법을 제안한다. 관심 지점 명칭의 단어에는 카테고리를 반영하는 단어들을 포함하고 있어 카테고리를 추정하는데 있어서 중요한 단서가 된다. 제한적 주변 문맥 정보는 관심 지점의 명칭이 언급된 문서에서 명칭이 언급된 주변의 문맥을 의미한다. 명칭이 언급된 주변의 문맥에는 관심 지점의 카테고리를 추정할 정보들을 포함하고 있어 카테고리를 추정하는 것에 있어서 가치있는 정보를 제공한다. 우리는 제안한 모델의 성능을 측정하기 위해 두 가지 데이터셋에서 성능을 평가한 결과, 각 정보를 따로 사용하여 카테고리를 추정한 성능보다 결합하여 사용한 모델의 성능이 더 높게 나타났다.

오아시스(전통의학정보포털)의 미래모형 설계를 위한 정보화전략계획 연구 (The Study of Information Strategy Plan to Design OASIS' Future Model)

  • 예상준;김철;김진현;김상균;장현철;김익태;장윤지;성보석;송미영
    • 한국한의학연구원논문집
    • /
    • 제17권2호
    • /
    • pp.63-71
    • /
    • 2011
  • Objectives : We studied the ISP(information strategy plan) of oasis spanning 5 years. From this study we aimed at total road map to upgrade the service systematically and to carry out the related projects. If we do it as road map, oasis will be the core infra service contributing to the improvement of TKM(traditional korean medicine) research capability. Methods : We carried out 3 step ISP method composed of environmental analysis, current status analysis and future plan. We used paper, report and trend analysis document as base materials and did the survey to get opinions from users and TKM experts. We limited this study to drawing the conceptual design of oasis. Results : From environmental analysis we knew that China and USA built up the largest TM databases. We did the survey to get the activation ways of oasis. And we did the benchmarking on the advanced services through current status analysis. Finally we determined 'maximize the research value based the open TKM knowledge infra' as oasis' vision. And we designed oasis' future system which is composed of service layer, application layer and contents layer. Conclusion : First TKM related documents, research materials, researcher information and standards are merged to elevate the TKM information level. Concretely large scale TKM information infra project such as TKM information classification code development, TKM library network building and CAM research information offering are carried out at the same time.

공공기관의 이메일기록 관리 방안 연구 (A Study On Managing Electronic Mail Messages as Records of Public Institutions)

  • 송지현
    • 기록학연구
    • /
    • 제15호
    • /
    • pp.141-183
    • /
    • 2007
  • 조직의 업무와 관련되어 주고받는 이메일은 기록화하고 보존해야하는 조직의 자산이다. 그러나 현재 대부분의 공공기관에서 이메일기록에 관한 정책이나 지침이 마련되어 있지 않고, 이메일관리의 당위성에 대한 인식조차 부족한 실정이다. 이에 본 연구는 이메일기록 관리의 당위성을 설명하고 우리나라 공공기관에서 효과적인 이메일기록 관리 방안을 기록관리학적 측면에서 모색하는 데 그 목적을 두고 있다. 이메일기록의 특성을 파악하기 위한 문헌연구와 함께 기록관리 선진국의 이메일기록관리 정책 및 지침을 분석하였다. 이러한 지침들은 형태가 구성요소와 다르기 때문에 공통적인 구성요소를 추출하여 주요 범주화하여 나누고, 세부사항을 비교해 볼 수 있도록 해체하여 분석하였다. 분석으로 도출된 이메일 관리 필수 요소를 중심으로 공공기관에서 실무 지침으로 삼을 수 있는 이메일기록 관리 방안을 모색하였다. 그리고 전자정부 시대에 적합한 이메일기록 관리 모형을 제시하고자 하였다.

자연어 처리 및 기계학습을 활용한 제조업 현장의 품질 불량 예측 방법론 (A Method for Prediction of Quality Defects in Manufacturing Using Natural Language Processing and Machine Learning)

  • 노정민;김용성
    • Journal of Platform Technology
    • /
    • 제9권3호
    • /
    • pp.52-62
    • /
    • 2021
  • 제조업 현장에서 제작 공정 수행 전 품질 불량 위험 공정을 예측하여 사전품질관리를 수행하는 것은 매우 중요한 일이다. 하지만 기존 엔지니어의 역량에 의존하는 방법은 그 제작공정의 종류와 수가 다양할수록 인적, 물리적 한계에 부딪힌다. 특히 원자력 주요기기 제작과 같이 제작공정이 매우 광범위한 도메인 영역에서는 그 한계가 더욱 명확하다. 본 논문은 제조업 현장에서 자연어 처리 및 기계학습을 활용하여 품질 불량 위험 공정을 예측하는 방법을 제시하였다. 이를 위해 실제 원자력발전소에 설치되는 주기기를 제작하는 공장에서 6년 동안 수집된 제작 기록의 텍스트 데이터를 활용하였다. 텍스트 데이터의 전처리 단계에서는 도메인 지식이 잘 반영될 수 있도록 단어사전에 Mapping 하는 방식을 적용하였고, 문장 벡터화 과정에서는 N-gram, TF-IDF, SVD를 결합한 하이브리드 알고리즘을 구성하였다. 다음으로 품질 불량 위험 공정을 분류해내는 실험에서는 k-fold 교차 검증을 적용하고 Unigram에서 누적 Trigram까지 여러 케이스로 나누어 데이터셋에 대한 객관성을 확보하였다. 또한, 분류 알고리즘으로 나이브 베이즈(NB)와 서포트 벡터 머신(SVM)을 사용하여 유의미한 결과를 확보하였다. 실험결과 최대 accuracy와 F1-score가 각각 0.7685와 0.8641로서 상당히 유효한 수준으로 나타났다. 또한, 수행해본 적이 없는 새로운 공정을 예측하여 현장 엔지니어들의 투표와의 비교를 통해서 실제 현장에 자연스럽게 적용할 수 있음을 보여주었다.

딥러닝 중심의 자연어 처리 기술 현황 분석 (Analysis of the Status of Natural Language Processing Technology Based on Deep Learning)

  • 박상언
    • 한국빅데이터학회지
    • /
    • 제6권1호
    • /
    • pp.63-81
    • /
    • 2021
  • 자연어 처리는 최근 기계학습 및 딥러닝 기술의 발전과 적용으로 성능이 빠르게 향상되고 있으며, 이로 인해 활용 분야도 넓어지고 있다. 특히 비정형 텍스트 데이터에 대한 분석 요구가 증가함에 따라 자연어 처리에 대한 관심도 더욱 높아지고 있다. 그러나 자연어 전처리 과정 및 기계학습과 딥러닝 이론의 복잡함과 어려움으로 인해 아직도 자연어 처리 활용의 장벽이 높은 편이다. 본 논문에서는 자연어 처리의 전반적인 이해를 위해 현재 활발히 연구되고 있는 자연어 처리의 주요 분야와 기계학습 및 딥러닝을 중심으로 한 주요 기술의 현황에 대해 살펴봄으로써, 보다 쉽게 자연어 처리에 대해 이해하고 활용할 수 있는 기반을 제공하고자 한다. 이를 위해 인공지능 기술 분류체계의 변화를 통해 자연어 처리의 비중 및 변화 과정을 살펴보았으며, 기계학습과 딥러닝을 기반으로 한 자연어 처리 주요 분야를 언어 모델, 문서 분류, 문서 생성, 문서 요약, 질의응답, 기계번역으로 나누어 정리하고 각 분야에서 가장 뛰어난 성능을 보이는 모형들을 살펴보았다. 그리고, 자연어 처리에서 활용되고 있는 주요 딥러닝 모형들에 대해 정리하고 자연어 처리 분야에서 사용되는 데이터셋과 성능평가를 위한 평가지표에 대해 정리하였다. 본 논문을 통해, 자연어 처리를 자신의 분야에서 다양한 목적으로 활용하고자 하는 연구자들이 자연어 처리의 전반적인 기술 현황에 대해 이해하고, 자연어 처리의 주요 기술 분야와 주로 사용되는 딥러닝 모형 및 데이터셋과 평가지표에 대해 보다 쉽게 파악할 수 있기를 기대한다.

환경영향평가서 내 건강영향 항목 추가·평가의 방법론적 현황과 개선 (Methodological Status and Improvement of Additional Evaluation of Health Impact Items in Environmental Impact Assessment)

  • 하종식
    • 환경영향평가
    • /
    • 제29권6호
    • /
    • pp.453-466
    • /
    • 2020
  • 환경영향평가서 내 건강영향 항목 추가·평가는 특정 개발사업에 한하여 위생·공중보건 항목에 작성되어 검토되고 있다. 하지만 2011년 건강영향 항목 추가·평가 관련한 평가 매뉴얼이 발간된 이후에 부분적인 개선에도 불구하고 지속적인 방법론의 구체화 및 개선방안 마련을 요구하는 실정이다. 이에 본 기술논문은 평가 매뉴얼의 방법론적 개선방안을 제안하고자 위생·공중보건 항목의 협의의견을 바탕으로 세부적인 개선요구 사항을 파악하고 그간 연구내용을 고찰하여 이를 해결하기 위한 방안을 조사·제시하였다. 개선요구 사항으로는 저감방안, 사후관리, 영향예측, 평가, 현황조사 순서로 관련한 내용들이 전체 개발사업의 평가서에서 각각 93%, 85%, 80%, 74%, 67% 빈도로 제시되었다. 특히 저감방안 관련한 세부적인 개선요구 사항은 저감방안의 수립방향 설정과 금회 개발사업의 관리방안에 대한 내용이 대부분이었다. 현행 평가 매뉴얼 및 개선 요구사항의 빈도를 고려하여 위생·공중보건 항목의 구분별 주요 방법론에 대한 구체화 또는 개선방안을 제안하였다. 나아가 현행 평가 매뉴얼에는 제시되어 있지 않은 사업시행여부 관련한 종합적인 평가 방법론도 제안하였다.

영구기록물관리기관의 재평가체계 설계 연구 서울기록원을 중심으로 (A Study on the Design of the Appraisal System of Permanent Archival Institutions : Focused on the Seoul Metropolitan Archives)

  • 이은정;김다빈;김선유;김희진;류한조
    • 기록학연구
    • /
    • 제76호
    • /
    • pp.5-37
    • /
    • 2023
  • 본 연구는 영구기록물관리기관의 재평가 이행을 위해 서울기록원을 중심으로 영구기록물관리기관에 적용 가능한 평가체계 설계를 목표로 하였다. 이를 위한 과정으로 증거적·행정적·역사적 가치를 평가하기 위한 영역을 설정하고 세부평가요소들을 도출하였다. 설정된 평가요소들을 효과적으로 적용하기 위해 3개 단계로 구분하여 평가절차를 설계하였다. 1단계 법규기반 평가 단계에서는 분명한 기준에 의해 즉각적으로 평가할 수 있는 정책 결정권자의 직책, 법정 서식 식별 등을 통해 장기보존 여부를 판단하였다. 장기보존으로 결정되지 않은 기록물은 다시 2단계 업무기능기반 평가 단계인 기록관리기준표, 공문서분류표, 공약·정책 등을 평가요소로 재구성한 후 종합적으로 적용하여 보유기록물의 장기보존 타당성을 검토하였다. 2단계 평가에서도 장기보존으로 판단되지 않는 기록은 3단계 평가인 주제기반 평가단계에서 역사적사건, 문화재, 수집 정책 등을 적용하여 기록의 역사적 가치 판단을 수행하였다. 설계된 평가체계는 평가에 반영되는 자의성을 최소화하고 평가의 효율성을 높였다는데 의의를 찾을 수 있으며, 기록물이 가진 다양한 맥락과 가치를 종합적으로 반영한 평가가 가능함을 확인하였다. 또한, 균형 잡힌 거시평가와 미시평가를 결합하여 영구기록물관리 기관에 적합한 재평가체계를 수립하였다.

인공지능 문장 분류 모델 Sentence-BERT 기반 학교 맞춤형 고등학교 통합과학 질문-답변 챗봇 -개발 및 1년간 사용 분석- (A School-tailored High School Integrated Science Q&A Chatbot with Sentence-BERT: Development and One-Year Usage Analysis)

  • 민경모;유준희
    • 한국과학교육학회지
    • /
    • 제44권3호
    • /
    • pp.231-248
    • /
    • 2024
  • 본 연구에서는 오픈소스 소프트웨어와 인공지능 문서 분류 모델인 한국어 Sentence-BERT로 고등학교 1학년 통합과학 질문-답변 챗봇을 제작하고 2023학년도 1년 동안 독립형 서버에서 운영했다. 챗봇은 Sentence-BERT 모델로 학생의 질문과 가장 유사한 질문-답변 쌍 6개를 찾아 캐러셀 형태로 출력한다. 질문-답변 데이터셋은 인터넷에 공개된 자료를 수집하여 초기 버전을 구축하였고, 챗봇을 1년 동안 운영하면서 학생의 의견과 사용성을 고려하여 자료를 정제하고 새로운 질문-답변 쌍을 추가했다. 2023학년도 말에는 총 30,819개의 데이터셋을 챗봇에 통합하였다. 학생은 챗봇을 1년 동안 총 3,457건 이용했다. 챗봇 사용 기록을 빈도분석 및 시계열 분석한 결과 학생은 수업 중 교사가 챗봇 사용을 유도할 때 챗봇을 이용했고 평소에는 방과 후에 자습하면서 챗봇을 활용했다. 학생은 챗봇에 한 번 접속하여 평균적으로 2.1~2.2회 정도 질문했고, 주로 사용한 기기는 휴대폰이었다. 학생이 챗봇에 입력한 용어를 추출하고자 한국어 형태소 분석기로 명사와 용언을 추출하여 텍스트 마이닝을 진행한 결과 학생은 과학 질문 외에도 시험 범위 등의 학교생활과 관련된 용어를 자주 입력했다. 학생이 챗봇에 자주 물어본 주제를 추출하고자 Sentence-BERT 기반의 BERTopic으로 학생의 질문을 두 차례 범주화하여 토픽 모델링을 진행했다. 전체 질문 중 88%가 35가지 주제로 수렴되었고, 학생이 챗봇에 주로 물어보는 주제를 추출할 수 있었다. 학년말에 학생을 대상으로 한 설문에서 챗봇이 캐러셀 형태로 결과를 출력하는 형태가 학습에 효과적이었고, 통합과학 학습과 학습 목적 이외의 궁금증이나 학교생활과 관련된 물음에 답해주는 역할을 수행했음을 확인할 수 있었다. 본 연구는 공교육 현장에서 학생이 실제로 활용하기에 적합한 챗봇을 개발하여 학생이 장기간에 걸쳐 챗봇을 사용하는 과정에서 얻은 데이터를 분석함으로써 학생의 요구를 충족할 수 있는 챗봇의 교육적 활용 가능성을 확인했다는 점에 의의가 있다.

토픽모델링을 활용한 국내 문헌정보학 연구동향 분석 (A Study on the Research Trends in Library & Information Science in Korea using Topic Modeling)

  • 박자현;송민
    • 정보관리학회지
    • /
    • 제30권1호
    • /
    • pp.7-32
    • /
    • 2013
  • 본 연구는 국내 문헌정보학 분야의 연구동향을 규명하기 위하여 문헌정보학 주요 학술지인, 정보관리학회지, 한국문헌정보학회지, 한국도서관 정보학회지, 한국비블리아학회지의 1970년도부터 2012년도까지 발표 논문 초록을 수집하여 LDA(Latent Dirichlet Allocation)기반의 토픽 모델링 실험을 수행하였다. 그 결과를 종합하면 다음과 같다. 첫째, 토픽모델링 실험에서 도출된 연구주제를 문헌정보학 주제분류표와 비교 분석한 결과, '정보학'영역의 디지털도서관, 이용연구, 인터넷, 전문가시스템, 계량정보학, 자동화, 정보검색, 정보시스템, '도서관 서비스'영역의 정보서비스, 도서관 유형별 서비스, 이용자 교육/정보리터러시, 서비스 평가, '문헌정보학 기초'영역의 도서관과 사회, 전문성, '자료조직'영역의 분류, 편목, 메타데이터, '도서관 경영'영역의 도서관 평가, 장서개발/관리, '서지학'영역의 고서지, '도서관 체제'영역의 도서관 및 정보정책, '출판'영역의 도서/출판, '기록관리학'영역의 하위주제 등과 연결할 수 있었다. 또한 가장 많은 연구주제가 발견된 학문영역은 정보학과 도서관서비스로 나타났다. 둘째, 문헌정보학의 주요 연구주제에서 도서관 유형별 서비스 및 평가, 인터넷, 메타데이터의 연구주제는 상승세를 보였으나, 도서, 분류, 편목, 고서지에 관한 연구주제는 하강세를 보였다. 셋째, 학술지를 구분하여 비교 분석한 결과, 정보관리학회지는 도서관에 관한 연구주제보다 정보학에 관한 연구주제가 많이 출현하였고, 한국문헌정보학회지와 한국도서관 정보학회지, 한국비블리아학회지는 도서관에 관한 연구주제가 정보학에 관한 주제보다 많이 나타났다.

벤처기업의 R&D 투자와 성과에 관한 실증연구 (Empirical Research on the R&D Investment and Performance of Venture Businesses)

  • 이동기;이철규;김정환
    • 한국벤처창업학회:학술대회논문집
    • /
    • 한국벤처창업학회 2008년도 춘계학술대회
    • /
    • pp.179-208
    • /
    • 2008
  • 본 연구는 산업별 국내 벤처기업의 경영성과와 R&D 투자와의 상관관계에 대해 실증분석하고, 이를 통해 벤처기업의 경영성과와 R&D 투자와의 관계에 대한 일반 가설 뿐만 아니라 산업별로 차이가 존재한다는 사실을 밝히고자 산업별 실증분석을 시도하였다. 이에 본 연구에서는 과학기술부의 "과학기술연구개발활동조사보고서"의 조사결과로 추출된 $2002{\sim}2006$년간의 패널데이터를 대상으로 8개 산업별 실증분석을 하였다. 산업분류는 패널 수의 제한 등으로 국가과학기술표준분류 체계(KSIC) 상 중분류(2-digit)까지로 제한하였다. 본 연구는 기존 연구에서의 연구개발활동 및 연구개발비 지출은 기업의 가치 내지는 생산성, 경영성과에 대체로 긍정적인 영향을 미치는 사실을 확인할 수 있었을 뿐만 아니라 기존 연구에서 부족했던 개별 산업별, 기업 규모별 차이 또한 증명하였다는 점에서 큰 특징이 있다. 더욱이 기존 연구에서는 볼 수 없었던 5년간의 일관성 있는 패널데이터를 분석에 이용하여, 지속적으로 연구개발활동과 경영활동이 이뤄지는 기업을 대상으로 연구를 수행함으로써 연구결과의 신뢰성을 높였다. 마지막으로 IMF 경제위기 이후 2002년부터 2006년까지 최근 데이터를 실증분석에 사용함으로써, IMF 이전의 선진국 추격형이 아닌 선진국 진입단계에 있는 현상의 문제점들을 실증분석을 통해 제시하였다는데 큰 특징이 있다. 주요 실증분석 결과는 다음과 같다. 첫째, 자본금과 노동자 규모는 전체기업과 벤처기업의 경영성과와 양(+)의 상관관계를 가지는 것으로 나타났으며, 이는 분석 대상 8개 산업 모두에 적용된다. 둘째, 기업의 설립년수는 특정 산업에 있어서는 전체기업과 벤처기업의 경영성과와 양(+) 또는 음(-)의 상관관계를 가지나, 전반적인 경향에 대해서는 판단하기 어렵다. 셋째, R&D 투자는 전반적으로 기업 경영성과에 긍정정인(+) 영향을 준다고 할 수 있다. 넷째, 연구원 수는 전체기업 또는 벤처기업의 경영성과에 한 방향으로 영향을 미치는 요인이라 할 수 없다. 다섯째, 연구개발 노하우의 축적 등을 통해 기업의 경영성과에 긍정적인 영향을 미칠 것으로 가정되었던 연구소의 설립년수 또한 기업 경영성과에 긍정적인 영향을 미칠 것으로 가정되었던 연구소의 설립년수 또한 기업 경영성과에 긍정적인 요인으로 작용한다는 것이 전반적인 사실이라고 논할 수 없다.

  • PDF