• 제목/요약/키워드: Text line information

검색결과 147건 처리시간 0.026초

능동적 학습을 위한 군집화 기반의 다양한 복수 문의 예제 선정 방법 (Cluster-Based Selection of Diverse Query Examples for Active Learning)

  • 강재호;류광렬;권혁철
    • 지능정보연구
    • /
    • 제11권1호
    • /
    • pp.169-189
    • /
    • 2005
  • 능동적 학습은 훈련 예제의 수가 제한적일 때 효율적으로 분류기를 생성할 수 있는 학습 방법이다. 이 방법에서는 분류하기 모호한 예제에 카테고리를 부여하기 위한 문의 과정과 이렇게 얻어진 예제들을 추가해 가면서 분류기를 재생성 하는 과정을 반복적으로 수행한다. 특히 온라인 환경에서는 반복적으로 예제에 카테고리를 부여해야 하는 사용자의 부담을 줄이기 위해 문의 예제의 총 수뿐만이 아니라 문의 횟수 또한 최소화하여야 한다. 예제 수와 문의 횟수를 줄이면서도 좋은 분류기를 생성하기 위해서는 매 문의 시 사용자에게 다양하면서도 대표성이 높은 복수의 모호한 예제들을 선정하여 제시하는 것이 좋다. 본 논문에서는 다양하면서, 대표적이며, 또한 모호성이 높아 능동적 학습에 효과적인 복수의 문의 예제를 선별하기 위하여 군집화 기법을 활용하는 방안을 제안한다. 문서 분류 문제를 대상으로 본 제안 방안을 실험한 결과 모호성만을 기준으로 복수의 문의 예제를 선정하는 방법보다 우수한 분류기를 생성할 수 있음을 확인하였다.

  • PDF

화자 의존 환경의 AMR 7.4Kbit/s모드에 기반한 보코더 (A New Vocoder based on AMR 7.4Kbit/s Mode for Speaker Dependent System)

  • 민병제;박동철
    • 한국통신학회논문지
    • /
    • 제33권9C호
    • /
    • pp.691-696
    • /
    • 2008
  • 본 논문은 AMR(Adaptive Multi Rate)코더의 7.4kit/s 모드를 기반으로 화자 의존적인 환경에서 더욱 압축률을 높인 새로운 켈프(CELP)계열의 코더를 제안한다. 제안된 코더는 OGM(OutGoing Message)이나 TTS(Text-To-Speech) 등 한 사람의 음성만을 필요로 하는 시스템에서 유용하게 사용할 수 있다. 새로운 코더의 압축률을 높이기 위해서 무감독 학습 신경망인 Centroid Neural Networks(CNN)를 이용한 새로운 LSP 코드북을 생성하여 사용한다. 또한 고정 코드북 탐색 단계에서 AMR 7.4 kbit/s 모드에서는 4개의 펄스를 서브프레임 마다 사용하는 대신에 새로운 코더에서는 오직 2개의 펄스만을 사용하기 때문에 압축률을 더 높일 수 있다. 이로 인해서 스피치의 질이 감소하게 되는데, 각 서브프레임 마다 예상하는 펄스를 적용함으로써 보상받을 수 있다. 제안된 보코더는 기존 AMR 7.4Kbps모드와 비교해 27% 높은 압축률을 가지는 동시에, MOS( Mean Opinion Score)의 면에서 볼 때, 대등한 음질을 보였다.

TF-IDF를 이용한 침입탐지이벤트 유효성 검증 기법 (A Validation of Effectiveness for Intrusion Detection Events Using TF-IDF)

  • 김효석;김용민
    • 정보보호학회논문지
    • /
    • 제28권6호
    • /
    • pp.1489-1497
    • /
    • 2018
  • 웹 애플리케이션 서비스의 종류가 다양해짐과 동시에 사이버 위협이 급증하여 침입탐지에 대한 연구가 계속되고 있다. 기존의 단일 방어체계에서 다단계 보안으로 진행됨에 따라 대량의 보안이벤트 연관성을 분석하여 명확한 침입에 대해 대응하고 있다. 그러나 대상시스템의 OS, 서비스, 웹 애플리케이션 종류 및 버전을 실시간으로 점검하기 어려운 측면이 있고, 네트워크 기반의 보안장비에서 발생하는 침입탐지 이벤트만으로는 대상지의 취약여부와 공격의 성공여부를 확인 할 수 없는 문제점과 연관성 분석이 되지 않은 위협의 사각지대가 발생할 수 있다. 본 논문에서는 침입탐지이벤트의 유효성을 검증하기 위한 기법을 제안한다. 제안된 기법은 공격에 상응하는 대상시스템의 반응을 사상(mapping)하여 응답트래픽을 추출하고, TF-IDF를 통해 라인(line)기반으로 가중치를 환산하고 높은 수치부터 순차적으로 확인하여 대상시스템의 취약여부와 유효성이 높은 침입탐지이벤트를 검출하였다.

주제분석기법으로서의 자동색인 (Automatic indexing as a subject analysis technique)

  • 이영자
    • 한국도서관정보학회지
    • /
    • 제12권
    • /
    • pp.61-96
    • /
    • 1985
  • The human subject analysis of a document has some critical problems. The method results in the inconsistency in analysis process and the contradiction of two objects of the subject analysis (one is the identification of the content for the retrieval of specific items and the other is to identify the content for the grouping of related materials). Since the subject analysis by mechanized has been recognized to be the possible way to aggregate the problems of manual analysis, various a n.0, pproaches of automatic indexing have been studied and experimented. This study is to examine the automatic indexing as one of the promising subject analysis techniques by statistical, syntactical and semantic a n.0, pproaches. In conclusion, the reasonable a n.0, pplication time of the automatic indexing should be made a decision based on the through investigation on the cost verse effectiveness, and automatic indexing system should be developed in the close relationship with the on-line search which is a good retrieval system for information explosion society. From now on, since the machine-readable document-text will be envisaged to be more and more available due to the rapid development of computer technology, the more substantial research on the automatic indexing will be also possible, which can bring about the increasing of practical automatic indexing systems.

  • PDF

온라인 커뮤니티에서의 건강 관련 콘텐츠 분류 모형 개발 (Development of Classification Model for Healthcare Contents on the Online Community)

  • 김태윤;김유신;최상현;김도훈;장유진
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제26권4호
    • /
    • pp.285-301
    • /
    • 2017
  • Purpose In this paper we verified the reliabilities of healthcare-related information provided by various users on the site of Naver Jisikin, a Korean typical search platform. Based on Q&A contents we validated answers' reliabilities to the asked questions about a lung cancer with the help of professors at a medical school. Design/methodology/approach The content analysis includes that the types of questions are classified into symptom/diagnosis, therapy, prognosis, after-management and so on. The answers contains advice, advertisement, oriental medicine, and religion as well as the above 5 question categories. The validation results of medical evidence about each answer show that only 49% among all answers have medical grounds. Findings We classified the medical grounded answers into three levels; high, medium and low. Among all answers we need to find out the answers including advertisement because the answers can be harmful to patients. We found the method to select the answers containing advertisement contents with the help of text mining research. The selection model presents high performance as 84% classification accuracy.

이미지와 텍스트 메시지의 통합 사용자 뷰를 제공하는 전자 우편 시스템 (E-mail System Providing Integrated User's View for the Message containing Image and Text)

  • 독고세준;이택균;이형우;윤성현;이성환;김창헌;김태윤
    • 한국정보처리학회논문지
    • /
    • 제4권2호
    • /
    • pp.563-572
    • /
    • 1997
  • 전자 우편은 인터넷 정보 전달 서비스로서 널리 사용되고 있다. 멀티미디어 기술의 급속한 발전으로 최근 인터넷 정보 서비스는 대부분 멀티미디어를 지원하고 있다 아. 따라서 멀티미디어 메시지를 지원하는 전자 우편 시스템이 요구된다. 그러나RFC 821/822 의SMTP (Simple Mail Transfer protocol)를 사용하는 인터넷 메일 서비스를 전달할 수 있는 정보가 7bit ASCII텍스트만으로 제한되어 있다. 또한 한 라인의 길이에도 제한이 있어서 사용자 요구를 충족하기에 부족하다. MIME(Multipurpose Internet Mail EXtensions)은 RFC 822를 수정, 보완한 것으로서, 메시지를 구성하는 데이타의 종류와 크기의 제한을 해결하여 멀티미디어 데이타를 전송하기 위해 제안되었다. 본 연구에서는 MIME의 표준을 따라 정보 전송 상의 제약을 해결한 전자 우편 시스템을 설계 및 구현하였다. HTML( Hyper Text Markup Language)구문을 적용하여 서로 다른 미디어로 구성된 메시지를 통합 적으로 보여줌으로써 정보 전달의 명확성을 향상시켰다. 별도의 응용 프로그램이 필요치 않고, 사용자 편의를 더욱 증가시킨 시스템을 구성하였다. 앞으로도 동화상 및 음성 정보 등을 지원할 수 있도록 보완하여, 통합 사용자 뷰를 제공하는 완전한 멀티미디어 전자 우편 시서템을 개발하고자 한다.

  • PDF

문서 이미지 데이터 활용을 위한 지능형 OCR 기술 개발 (Development of Intelligent OCR Technology to Utilize Document Image Data)

  • 김상준;유동희;황소영;김민호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.212-215
    • /
    • 2022
  • 오늘날 소위 디지털 전환시대를 맞아, 많은 부분에서 빅데이터의 구축과 활용에 대한 필요성이 높아졌다. 오늘날에 많은 데이터가 디지털기기, 미디어 친화적으로 생산 및 보관되는 것과 달리, 과거 오랜 기간 데이터의 생산 및 보관은 활자 인쇄도서가 주를 이루었다. 따라서 오랜 기간 축적되어온 방대한 활자 인쇄도서를 빅데이터로써 활용하기 위한 광학 문자 판독(OCR: Optical Character Recognition) 기술의 필요성 역시 빅데이터의 필요성에 맞추어 함께 요구되었다. 본 연구에서는 도서 스캔 이미지의 정보를 각 문서 객체별로 세분화하여 그 구조와 내용을 디지털화하는 시스템을 제안한다. 제안 시스템은 크게 1) 문서객체(표, 수식, 그림, 본문)의 영역정보를 인식. 2)인식된 객체의 영역정보를 각각 표 처리, 수식 처리, 텍스트 처리 모듈로 OCR. 3) OCR로 처리된 문서 정보를 JSON형식으로 종합하여 반환하는 세 단계로 구성된다. 본 연구에서 제안하는 모델은 이러한 단계를 수행함에 있어 오픈소스로 공개된 프로젝트를 활용하되, 본 시스템의 목표에 맞추어 추가적인 학습과 개량을 거쳤다. 본 연구에서 제안한 지능형 OCR 시스템은 문서 이미지 내 4종(표, 수식, 이미지, 텍스트)의 객체인식과 처리에 있어 상용 소프트웨어 수준의 성능을 확인할 수 있었다.

  • PDF

구글어스 기반의 지리교육 사이트 설계 및 구현 (Design and Implementation of Geographic Education Website Based on the Google Earth)

  • 이선주;강영옥
    • Spatial Information Research
    • /
    • 제18권2호
    • /
    • pp.13-24
    • /
    • 2010
  • 본 연구의 목적은 온라인과 오프라인 공간에 다양하게 존재하는 지리 관련 학습 자료를 지도를 기반으로 매쉬업한 지리교육사이트를 구현해 봄으로써 지도를 기반으로 한 지리교육의 가능성을 탐색해보고자 하였다. 최근 지오웹환경의 급격한 변화는 지리교육에 있어서도 지도에 기반한 다양한 변화가능성을 제안하고 있지만, 지리교육분야에서 그와 관련된 연구는 매우 제한적이었다. 그러나 본 연구에서는 첫째, 교과서 분석을 통하여 콘텐츠를 설계하고, 그 개념을 설명하기 위한 사진, 영상, 개념도 등 다양한 관련자료를 수집하였으며, 둘째, 수집된 자료를 구글의 오픈 API를 활용하여 지도기반으로 매쉬업하였으며, 셋째, 교과서 분석에 따른 내용분류와 수집된 자료를 바탕으로 지리교육사이트를 구축하였다. 본 연구는 공간을 다루는 지리교육에서 텍스트위주가 아닌 지도기반으로 교육을 할 수 있는 가능성을 탐색하고, 지오웹환경에서 교과서의 다양한 개념을 가장 잘 표현할 수 있는 방안을 모색하였다는데 의의가 있다.

그래픽 소프트웨어를 활용한 문자가독성 개선 - 디지털미디어 환경의 앤티에일리어싱(Anti-Aliasing)을 중심으로 - (Improvement of the Readability for Text using Graphic Software - Laying Stress on Anti-Aliasing in Digital Media -)

  • 김용철;김은정
    • 한국콘텐츠학회논문지
    • /
    • 제8권12호
    • /
    • pp.141-150
    • /
    • 2008
  • 본 연구의 목적은 디지털미디어환경에서 가독성을 높이는 앤티에일리어싱에 대한 고찰과 소프트웨어의 다른 기능과 함께 적용하여 보다 가독성을 높이는데 사용되고 있는 복합적인 앤티에일리어싱에 대한 사용 사례를 통해 가독성이 높은 표본을 개발하고 실험을 통해 가독성의 정도를 분석하는데 있다. 이 연구의 결과는 실무에서 제목용서체로 사용되고 있는 복합적인 앤티에일리어싱의 사용을 위한 가이드라인의 제시와 함께 향후 개발될 그래픽소프트웨어에서 가독성 구현을 위해 시도할 수 있는 새로운 분야에 대한 가능성을 제시하는데 있다.

국가정보통신서비스의 'C'그룹 인터넷전화 사업현황과 이용 분석 (Analysis of Business Overview and use of 'C'group's Internet phone of National Information and Communication Services)

  • 신진;박대우
    • 한국정보통신학회논문지
    • /
    • 제15권11호
    • /
    • pp.2391-2398
    • /
    • 2011
  • 국가정보통신서비스는 행정안전부 주관으로 'A'그룹(회선서비스망), 'B'그룹(IP서비스망), 'C'그룹(인터넷전화 서비스, IP응용서비스)으로 인프라를 구성하여 제공하고 있다. 국가정보통신서비스 'C'그룹 사업자는 인터넷전화 서비스를 제공하고 있다. 본 논문에서는 국가정보통신서비스 'C'그룹 사업자의 국내통화, 국제통화, 이동통화 등의 기본 통화 서비스와 문자메시지, 영상통화, IP-Centrex 서비스 등 7개의 부가서비스를 연구한다. 또한 국가정보통신 서비스 사업자의 사업 현황을 분석을 토대로 국가정보통신 인터넷전화망의 인터넷전화 이용 유형을 분석한다. 본 연구는 국가정보통신서비스 산업발전을 위한 기초 자료로 활용될 것이다.