• 제목/요약/키워드: 문서 분류기

검색결과 193건 처리시간 0.025초

Gabor 특징과 웨이브렛 영역의 BDIP와 BVLC 특징을 이용한 질감 특징 기반 언어 인식 (Texture Feature-Based Language Identification Using Gabor Feature and Wavelet-Domain BDIP and BVLC Features)

  • 장익훈;이우신;김남철
    • 대한전자공학회논문지SP
    • /
    • 제48권4호
    • /
    • pp.76-85
    • /
    • 2011
  • 본 논문에서는 Gabor 특징과 웨이브렛 영역의 BDIP와 BVLC 특징을 이용한 질감 특징 기반 언어 인식 방법을 제안한다. 제안된 방법에서는 먼저 시험 영상에 Gabor 변환과 웨이브렛 변환을 적용한다. 웨이브렛 영역의 상세 대역에는 Donoho의 연역치화를 적용하여 잡음을 제거한다. 이어서 Gabor 영상에는 크기 연산자를 적용하고 웨이브렛 부대역에는 BDIP와 BVLC 연산자를 적용한다. 그런 다음 Gabor 크기 영상과 BDIP, BVLC 부대역에 대하여 통계치를 계산하여 그 결과들을 벡터화하고 융합하여 특징 벡터로 사용한다. 분류 단계에서는 얼굴 인식에 주로 사용되는 WPCA를 분류기로 하여 시험 특징 벡터와 가장 유사한 학습 특징 벡터를 찾는다. 실험 결과 제안된 방법은 실험 문서 영상 DB에 대하여 비교적 낮은 특징 벡터 차원으로 매우 우수한 언어 인식 성능을 보여준다.

능동적 학습을 위한 복수 문의예제 선정 (Selecting Multiple Query Examples for Active Learning)

  • 강재호;류광렬
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.541-543
    • /
    • 2004
  • 능동적 학습(active learning)은 제한된 시간과 인력으로 가능한 정확도가 높은 분류기(classifier)를 생성하기 위하여, 훈련집합에 추가할 예제 즉 문의예제(query example)의 선정과 확장된 훈련집합으로 다시 학습하는 과정을 반복하여 수행한다. 능동적 학습의 핵심은 사용자에게 카테고리(category) 부여를 요청할 문의예제를 선정하는 과정에 있다. 효과적인 문의예제를 선정하기 위하여 다양한 방안들이 제안되었으나, 이들은 매 문의단계마다 하나의 문의예제를 선정하는 경우에 가장 적합하도록 고안되었다. 능동적 학습이 복수의 예제를 사용자에게 문의할 수 있다면, 사용자는 문의예제들을 서로 비교해 가면서 작업할 수 있으므로 카테고리 부여작업을 보다 빠르고 정확하게 수행할 수 있을 것이다. 또한 충분한 인력을 보유한 상황에서는, 카테고리 부여작업을 병렬로 처리할 수 있어 전반적인 학습시간의 단축에 큰 도움이 될 것이다. 하지만, 각 예제의 문의예제로써의 적합 정도를 추정하면 유사한 예제들은 서로 비슷한 수준으로 평가되므로, 기존의 방안들을 복수의 문의예제 선정작업에 그대로 적용할 경우, 유사한 예제들이 문의예제로 동시에 선정되어 능동적 학습의 효율이 저하되는 현상이 나타날 수 있다. 본 논문에서는 특정 예제를 문의예제로 선정하면 이와 일정 수준이상 유사한 예제들은 해당 예제와 함께 문의예제로 선정하지 않음으로써, 이러한 문제점을 극복할 수 있는 방안을 제안한다. 제안한 방안을 문서분류 문제에 적용해 본 결과 기존 문의예제 선정방안으로 복수 문의예제를 선정할 때 발생할 수 있는 문제점을 상당히 완화시킬 있을 뿐 아니라, 복수의 문의예제를 선정하더라도 각 문의 단계마다 하나의 예제를 선정하는 경우에 비해 큰 성능의 저하가 없음을 실험적으로 확인하였다./$m\ell$로 나타났다.TEX>${HCO_3}^-$ 이온의 탈착은 서서히 진행되었다. R&D investment increases are directly not liked to R&D productivities because of delays and side effects during transition periods between different stages of technology development. Thus, It is necessary to develope strategies in order to enhance efficiency of technological development process by perceiving the switching pattern. 기여할 수 있을 것으로 기대된다. 것이다.'ity, and warm water discharges from a power plant, etc.h to the way to dispose heavy water adsorbent. Through this we could reduce solid waste products and the expense of permanent disposal of radioactive waste products and also we could contribute nuclear power plant run safely. According to the result we could keep the best condition of radiation safety super vision and we could help people believe in safety with Radioactivity wastes control for harmony with Environ

  • PDF

경계선 기울기 방법을 이용한 다양한 인쇄체 한글의 인식 (Recognition of Various Printed Hangul Images by using the Boundary Tracing Technique)

  • 백승복;강순대;손영선
    • 한국지능시스템학회논문지
    • /
    • 제13권1호
    • /
    • pp.1-5
    • /
    • 2003
  • 본 논문에서는 CCD 흑백 카메라를 이용하여 입력되는 인쇄체 한글 이미지의 문자를 인식하여 편집 가능한 텍스트 문서로 변환하는 시스템을 구현하였다 문자 인식에 있어서 잡음에 강한 경계선 기울기 방법을 이용함으로써 문자의 구조적 특성에 근거한 윤곽선 정보를 추출할 수 있었다. 이를 이용하여 각 문자 이미지의 수평 및 수직 모음을 인지하고 6가지 유형으로 분류한 후, 자소 단위로 분리하고 최대 길이 투영을 사용하여 모음을 인식하였다. 분리된 자음은 경계선이 변화되는 위상의 형태를 미리 저장된 표준 패턴과 비교하여 인식하였다. 인식된 문자는 KS 한글 완성형 코드로 문서 편집기에 출력되어 사용자에게 제공되는 시스템을 구현하였다.

일제기 부산 지역 언론인 연구 (A Study on the Journalists in Busan during the Japanese Colonial Period)

  • 채백
    • 한국언론정보학보
    • /
    • 제56권
    • /
    • pp.132-155
    • /
    • 2011
  • 이 논문은 일제기 부산에서 활동한 언론인들을 "동아일보"와 "조선일보"의 부산 지국장을 중심으로 분석하였다. 그동안 언론인에 대한 연구도 활발하지 못했지만 특히 지방의 언론인에 대한 역사적 연구는 거의 없었다. 특히 일제기까지는 지방에서 발행된 한국 신문이 거의 없다 보니 이 부분은 학문적 논의의 대상이 되지 못했다. 본 연구는 일제기의 신문 지면과 기타 문서 자료들을 중심으로 두 신문 부산 지국장의 출신 배경과 활동 경력을 분석하였다. 본 연구에서 분석된 부산 지국장은 "동아일보"가 9명, "조선일보"가 6명이었다. 이들의 이념 성향을 보면 "동아일보"는 총 9명 중 사회주의 운동에 참여했던 인물이 김종범과 김용진, 노상건, 강영순, 강대홍의 5명이며 민족운동과 청년운동 계열이 안희제, 김준석, 서유성이고, 재계 인사가 문상우 1명이다. 사회주의 운동 세력이 절반이 넘는 다수를 차지하고 있다. "조선일보"의 경우는 현재 파악되는 6명의 지국장 중 청년운동 출신이 안명환과 황기수, 최철룡의 3인으로 절반을 차지하며 사회주의권으로 분류될 수 있는 인물은 김영곤과 윤일이 있다. 그밖에 지영진은 재계 인사로 분류할 수 있겠다. 전체적으로 절반 정도가 사회주의자들이었으며 그밖에는 청년운동과 민족운동에 참여했던 인물들이다. 특히 사회주의자들은 "동아일보"가 더 높은 비중을 차지하였다. 이러한 분석 결과는 당시 신문의 전체 사회 및 민족운동에서의 위상에 따라 부산 지국의 인적 구성도 달라졌음을 의미하는 것이다.

  • PDF

프라이버시 보호를 위한 오프사이트 튜닝 기반 언어모델 미세 조정 방법론 (Privacy-Preserving Language Model Fine-Tuning Using Offsite Tuning)

  • 정진명;김남규
    • 지능정보연구
    • /
    • 제29권4호
    • /
    • pp.165-184
    • /
    • 2023
  • 최근 구글의 BERT, OpenAI의 GPT 등, 언어모델(Language Model)을 사용한 비정형 텍스트 데이터에 대한 딥러닝(Deep Learning) 분석이 다양한 응용에서 괄목할 성과를 나타내고 있다. 대부분의 언어모델은 사전학습 데이터로부터 범용적인 언어정보를 학습하고, 이후 미세 조정(Fine-Tuning) 과정을 통해 다운스트림 태스크(Downstream Task)에 맞추어 갱신되는 방식으로 사용되고 있다. 하지만 최근 이러한 언어모델을 사용하는 과정에서 프라이버시가 침해될 수 있다는 우려가 제기되고 있다. 즉 데이터 소유자가 언어모델의 미세 조정을 수행하기 위해 다량의 데이터를 모델 소유자에게 제공하는 과정에서 데이터의 프라이버시가 침해될 수 있으며, 반대로 모델 소유자가 모델 전체를 데이터 소유자에게 공개하면 모델의 구조 및 가중치가 공개되어 모델의 프라이버시가 침해될 수 있다는 것이다. 이러한 상황에서 프라이버시를 보호하며 언어모델의 미세 조정을 수행하기 위해 최근 오프사이트 튜닝(Offsite Tuning)의 개념이 제안되었으나, 해당 연구는 제안 방법론을 텍스트 분류 모델에 적용하는 구체적인 방안을 제시하지 못했다는 한계를 갖는다. 이에 본 연구에서는 한글 문서에 대한 다중 분류 미세 조정 수행 시, 모델과 데이터의 프라이버시를 보호하기 위해 분류기를 추가한 오프사이트 튜닝을 적용하는 구체적인 방법을 제시한다. 제안 방법론의 성능을 평가하기 위해 AIHub에서 제공하는 ICT, 전기, 전자, 기계, 그리고 의학 총 5개의 대분야로 구성된 약 20만건의 한글 데이터에 대해 실험을 수행한 결과, 제안하는 플러그인 모델이 제로 샷 모델 및 오프사이트 모델에 비해 분류 정확도 측면에서 우수한 성능을 나타냄을 확인하였다.

EXPRESS 데이타를 XML 문서로 변환하는 번역기 (An EXPRESS-to-XML Translator)

  • 이기호;김혜진
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제8권6호
    • /
    • pp.746-755
    • /
    • 2002
  • EXPRESS는 공학 분야의 제품 정보를 기술하는 언어로서 서로 다른 시스템 사이의 데이터 교환이 가능하게 한다 그러나 EXPRESS를 사용할 수 있는 소프트웨어의 종류는 제한적이며 이에 비용이 소요된다. 한편, XML은 웹 상에서 데이타의 관리 및 유지를 가능하게 한다. 웹은 사용 및 접근이 쉽고 저렴하기 때문에 XML로 쓰여진 데이타는 특정 애플리케이션이나 시스템에 의존하지 않아도 되므로 데이타 교환에도 유용하게 쓰일 수 있다. 따라서, EXPRESS로 기술된 정보를 XML로 표현할 경우, 누구나 사용하기 쉬운 웹 상에서 그 정보를 사용할 수 있으므로 제품 정보가 기존보다 더 폭넓고 손쉽게 사용되어 원활한 정보 교환이 이루어질 수 있다. 본 연구에서는 이를 위하여, EXPRESS 정보를 각각 그에 대응하는 XML DTD와 XML 스키마로 변환하는 방법을 제시한다. EXPRESS의 각 문법 요소들을 분류하고 이 요소들로 인해 발생할 수 있는 복합적인 경우를 고려하여, 이에 대응하는 XML DTD 요소와 XML 스키마 요소로 나타내는 번역 규칙을 제시한다. 또한, 이 번역 규칙에 의해 각각의 경우에 대응하는 XML DTD와 XML 스키마로 변환하는 번역기를 구현한다.

동남아시아와 소말리아의 해적 문제에 관한 연구 기원, 영향과 현재의 대해적 대응방안 고찰 (Contemporary Piracy in Southeast Asia and Somalia An Analysis of Causes, Effects, and Current Counter-Piracy Approaches)

  • 전광호
    • 동남아시아연구
    • /
    • 제21권2호
    • /
    • pp.293-327
    • /
    • 2011
  • 소말리아 해적 문제는 전례가 없는 단계에 다다랐다. 2010년 까지만 해도 445대가 넘는 선박이 해적들로부터 피해를 당했으며 1,181여명의 사람들이 몸값을 위해 인질이 되어야 했다. 그러나 소말리아만이 해적문제가 이슈화 되는 곳은 아니다. 지난 20년간 동남아시아의 해적문제도 큰 이슈가 되어 왔다. 본 논문은 해적 행위의 원인, 영향, 그리고 유형의 분류에 대한 분석을 위해 두 가지의 사례 연구를 통해 이를 살피려 한다. 각각의 해적 관련 사례가 서로 다른 특징들을 가지고 있으나현재 신문이나 인터넷 상의 보도뿐만 아니라 학문, 법률상의, 그리고 공식적 문서들에서 얻어지는 정보들을 이용해 분석한 결과 해적 행위의 원인은 대부분 육지에서 발견된다는 것으로 결론을 낼 수 있다. 본 논문을 통해 제 국가들은 경제, 안보, 지리적인 이유의 이해를 달리 하여 해적 행위를 근절하려 한다는 것을 살펴본다. 또한 현재의 해적 행위에 대한 대응적 접근은 전체론적으로 육지에서의 원인에 근거하여 다루어지는 것이 아니라 바다에서의 해양법 시행에 집중되어 있다. 이는 해적의 소탕을 위한 과정이라기보다는 여전히 문제를 내포하고 있을 수밖에 없다는 점을 지적 하고자 한다.

군집분석을 이용한 양파 감성사전 구축 (Construction of Onion Sentiment Dictionary using Cluster Analysis)

  • 오승원;김민수
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2917-2932
    • /
    • 2018
  • 우리나라 식생활에 밀접한 관련을 가지고 있는 채소인 양파의 수급불균형 해결을 위한 생산량 예측 모형 개발의 노력이 많은 연구를 통해 이뤄지고 있다. 하지만 양파의 수확기와 저장 가능성을 고려해 봤을 때 생산량 예측만으로는 수급불균형 해결이 어렵다. 따라서 본 논문에서는 양파의 생산량 정보와 가격의 다양한 요인이 포함되어 있으며 일상에서 쉽게 접할 수 있는 인터넷 기사를 이용하여 가격 예측을 위한 감성사전을 구축하고자 한다. 양파 기사는 2012년부터 2016년까지의 데이터를 사용하였고 도매시장 가격을 통한 문서구분을 통해 4가지 TF-IDF를 비교하여 적합한 TF-IDF를 사용하였다. 분석을 위하여 분할적 군집분석 중 k-means 군집, 밀도기반군집(DBSCAN; density based spatial cluster applications with noise), 가우시안혼합분포군집(GMM; Gaussian mixture model) 군집을 통하여 가격에 대한 긍정/부정 단어를 구분한 결과 GMM 군집이 의미 있는 긍정, 부정, 무정의 3개의 사전으로 구성되었다. 구축된 사전의 합리성을 비교하기 위하여 가격 상승 기사와 가격 하락 기사의 분류에 로지스틱 회귀분석을 적용한 결과 85.7%의 정확도로 구축된 사전의 합리성을 확인할 수 있었다.

인공지능 문장 분류 모델 Sentence-BERT 기반 학교 맞춤형 고등학교 통합과학 질문-답변 챗봇 -개발 및 1년간 사용 분석- (A School-tailored High School Integrated Science Q&A Chatbot with Sentence-BERT: Development and One-Year Usage Analysis)

  • 민경모;유준희
    • 한국과학교육학회지
    • /
    • 제44권3호
    • /
    • pp.231-248
    • /
    • 2024
  • 본 연구에서는 오픈소스 소프트웨어와 인공지능 문서 분류 모델인 한국어 Sentence-BERT로 고등학교 1학년 통합과학 질문-답변 챗봇을 제작하고 2023학년도 1년 동안 독립형 서버에서 운영했다. 챗봇은 Sentence-BERT 모델로 학생의 질문과 가장 유사한 질문-답변 쌍 6개를 찾아 캐러셀 형태로 출력한다. 질문-답변 데이터셋은 인터넷에 공개된 자료를 수집하여 초기 버전을 구축하였고, 챗봇을 1년 동안 운영하면서 학생의 의견과 사용성을 고려하여 자료를 정제하고 새로운 질문-답변 쌍을 추가했다. 2023학년도 말에는 총 30,819개의 데이터셋을 챗봇에 통합하였다. 학생은 챗봇을 1년 동안 총 3,457건 이용했다. 챗봇 사용 기록을 빈도분석 및 시계열 분석한 결과 학생은 수업 중 교사가 챗봇 사용을 유도할 때 챗봇을 이용했고 평소에는 방과 후에 자습하면서 챗봇을 활용했다. 학생은 챗봇에 한 번 접속하여 평균적으로 2.1~2.2회 정도 질문했고, 주로 사용한 기기는 휴대폰이었다. 학생이 챗봇에 입력한 용어를 추출하고자 한국어 형태소 분석기로 명사와 용언을 추출하여 텍스트 마이닝을 진행한 결과 학생은 과학 질문 외에도 시험 범위 등의 학교생활과 관련된 용어를 자주 입력했다. 학생이 챗봇에 자주 물어본 주제를 추출하고자 Sentence-BERT 기반의 BERTopic으로 학생의 질문을 두 차례 범주화하여 토픽 모델링을 진행했다. 전체 질문 중 88%가 35가지 주제로 수렴되었고, 학생이 챗봇에 주로 물어보는 주제를 추출할 수 있었다. 학년말에 학생을 대상으로 한 설문에서 챗봇이 캐러셀 형태로 결과를 출력하는 형태가 학습에 효과적이었고, 통합과학 학습과 학습 목적 이외의 궁금증이나 학교생활과 관련된 물음에 답해주는 역할을 수행했음을 확인할 수 있었다. 본 연구는 공교육 현장에서 학생이 실제로 활용하기에 적합한 챗봇을 개발하여 학생이 장기간에 걸쳐 챗봇을 사용하는 과정에서 얻은 데이터를 분석함으로써 학생의 요구를 충족할 수 있는 챗봇의 교육적 활용 가능성을 확인했다는 점에 의의가 있다.

CT 전문방사선사 교육을 위한 웹기반 문항관리 시스템의 설계 및 구현 (Design and Implementation of Web-based Problem Management System for CT Radiological Technologist Education)

  • 신용원;구봉오;심춘보
    • 한국콘텐츠학회논문지
    • /
    • 제5권1호
    • /
    • pp.27-35
    • /
    • 2005
  • 최근 의료 및 보건 분야의 정보화가 급격히 진행됨에도 불구하고 보건 분야 중의 전문방사선사와 관련된 의료 및 교육 컨텐츠 개발에 해당하는 시험문제 개발이나 관리가 여전히 수작업이나 문서편집기를 이용한 오프라인 방식에 머무르고 있다. 따라서 본 연구에서는 CT 방사선사 전문자격증 취득 및 보수교육의 효율성을 향상시키기 위해 다양한 종류의 문항들을 시간과 공간의 제약 없이 언제 어디서든지 효율적으로 문항을 출제하고 관리할 수 있는 웹기반 문항 관리 시스템을 설계 및 구현한다. 제안하는 시스템은 관리자 모듈과 사용자 모듈로 구성되어 있으며, 관리자 모듈 내에서는 관련 있는 문항들을 그룹핑할 수 있는 분류관리와 문항출제 및 사용자관리, 난이도조절등과 같은 기능이 있으며, 사용자 모듈에서는 시험응시, 문항검색, 개인성적 조회, 해설듣기 등과 같은 기능을 포함하고 있다. 아울러 구현된 문항관리시스템은 CT전문방사선사 자격시험을 준비하는 방사선사들에게 정보교류, 의료컨텐츠 제공 및 학습능력 배양시킬 뿐만 아니라, 테스트 후 성적결과의 분석 및 문제해설까지 제공하는 활용가치가 높은 시스템으로 기대된다.

  • PDF