• 제목/요약/키워드: Full-text information

Search Result 274, Processing Time 0.025 seconds

한국어 미등록어 인식을 위한 단계별 접근방법 (Step-by-step Approach for Effective Korean Unknown Word Recognition)

  • 박소영
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.369-372
    • /
    • 2009
  • 최근 웹 문서 뿐만 아니라 신문기사에서도 미드(미국드라마)나 안습(안구에 습기차다)와 같은 신조어를 사용하고 있다. 그러나, 사전에 등록되지 않은 이러한 단어는 한국어 분석기의 성능을 떨어뜨리는 주요인이 된다. 이러한 미등록어를 자동으로 인식하기 위해서, 본 논문에서는 전문분석 기반 미등록 명사 인식 단계, 웹 출현빈도 기반 미등록 용언 인식 단계, 웹 출현빈도 기반 미등록 명사 인식단계로 구성된 단계별 접근방법을 제안한다. 제안하는 방법은 문서에서 여러 번 나타난 미등록어를 정확하게 인식할 수 있도록 전문분석 기반 단계를 포함한다. 한편, 문서에 한번 나타난 미등록어도 광범위하게 인식할 수 있도록 웹 출현 빈도 기반 단계도 포함한다. 그리고, 다양한 한국어 미등록어를 인식하기 위해서 미등록 명사 인식 단계와 미등록 용언 인식 단계를 구분한다. 실험결과 기존 접근방법에 비해 제안하는 접근방법은 정확률 1.01%와 재현율 8.50%를 개선하였다.

  • PDF

특허 및 뉴스 기사 텍스트 마이닝을 활용한 정책의제 제안 (Policy agenda proposals from text mining analysis of patents and news articles)

  • 이새미;홍순구
    • 디지털융복합연구
    • /
    • 제18권3호
    • /
    • pp.1-12
    • /
    • 2020
  • 본 연구의 목적은 텍스트 마이닝을 활용하여 특허와 뉴스 기사 분석을 통해 블록체인 기술 동향을 탐색하고 사회적 관심을 파악하여 블록체인 정책의제를 제안하는 것이다. 이를 위해 국내 블록체인 특허 요약문 327건과 온라인 뉴스기사 전문 5,941건을 수집하고 전처리 과정을 거쳐 LDA 토픽모델링 방법을 사용하여 특허 토픽 12개와 뉴스 토픽 19개를 추출하였다. 특허 분석을 통해 인증과 거래 관련 토픽이 높은 비중을 차지하였다. 뉴스 기사 분석 결과, 사회적 관심은 암호화폐에 치중되어 있는 것으로 나타났다. 이러한 분석 결과와 의제설정이론에 근거하여 블록체인 관련 정책의제를 도출하였다. 본 연구는 대용량 텍스트 문서 분석의 자동화된 기법을 활용하여 분석을 효율적·객관적으로 수행하였으며, 블록체인 기술 동향과 사회적 관심도를 파악한 실증된 기초 분석 자료를 기반으로 정책의제를 제안하였다. 본 연구에서 제시된 정책의제는 향후 정책 결정과정에의 기초자료로 활용될 수 있을 것이다.

인메모리 관계형 데이터베이스 시스템을 이용한 대용량 텍스트 로그 데이터의 패턴 매칭 방법 (A Pattern Matching Method of Large-Size Text Log Data using In-Memory Relational Database System)

  • 한혁;최재용;진성일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.837-840
    • /
    • 2017
  • 각종 사이버 범죄가 증가함에 따라 실시간 모니터링을 통한 사전 탐지 기술뿐만 아니라, 사후 원인 분석을 통한 사고 재발 방지 기술의 중요성이 증가하고 있다. 사후 분석은 시스템에서 생산된 다양한 유형의 대용량 로그를 기반으로 분석가가 보안 위협 과정을 규명하는 것으로 이를 지원하는 다양한 상용 및 오픈 소스 SW 존재하나, 대부분 단일 분석가 PC에서 운용되는 파일 기반 SW로 대용량 데이터에 대한 분석 성능 저하, 다수 분석가 간의 데이터 공유 불가, 통계 연관 분석 한계 및 대화형 점진적 내용 분석 불가 등의 문제점을 해결하지 못하고 있다. 이러한 문제점을 해결하기 위하여 고성능 인메모리 관계형 데이터베이스 시스템을 로그 스토리지로 활용하는 대용량 로그 분석 SW 개발하였다. 특히, 기 확보된 공격자 프로파일을 활용하여 공격의 유무를 확인하는 텍스트 패턴 매칭 연산은 전통적인 관계형 데이터베이스 시스템의 FTS(Full-Text Search) 기능 활용이 가능하나, 대용량 전용 색인 생성에 따른 비현실적인 DB 구축 소요 시간과 최소 3배 이상의 DB 용량 증가로 인한 시스템 리소스 추가 요구 등의 단점이 있다. 본 논문에서는 인메모리 관계형 데이터베이스 시스템 기반 효율적인 텍스트 패턴 매칭 연산을 위하여, 고성능의 대용량 로그 DB 적재 방법과 새로운 유형의 패턴 매칭 방법을 제안하였다.

2-포아송 모형을 이용한 한글 주제어 선정에 관한 연구 (A Study on the Applicability of 2-Poisson Model for Selecting Korean Subject Words)

  • 정영미;최대식
    • 정보관리학회지
    • /
    • 제17권1호
    • /
    • pp.129-148
    • /
    • 2000
  • 최근 구축된 한글 실험문헌 집단을 대상으로 2-포아송 모형의 Z값의 주제어 식별력을 측정하였으며, 역문헌빈도와 2 포아송 모형간의 상관관계를 분석하였다. 이를 위해 Z와 수정 $\beta$값 및 IDF와 수정 TF.IDF 가중치를 하위 실험집단별로 각기 산출, 비교하였다. 실험 결과 Z값의 주제어 선정능력은 3개의 하위 실험집단 가운데 과학기술분야에서만 확인되었다. 2-포아송 모형의 Z값과 역문헌빈도 가중치간의 상관관계 분석에서는 전문(full text)인 여성학분야 실험집단에 비해 초록 및 신문기사와 같이 단문(short text)으로 구성된 과학기술분야 및 일반사회 분야 실험집단에서 상관관계가 더 크게 나타 났다.

  • PDF

이동성과 보안성 만족 군용 통신을 위한 IPSec 기반 네트워크 설계 (IPSec based Network Design for the Mobile and Secure Military Communications)

  • 정윤찬
    • 한국통신학회논문지
    • /
    • 제35권9B호
    • /
    • pp.1342-1349
    • /
    • 2010
  • 군용 환경에서 동적으로 변화하는 PT (Plain Text) 네트워크들이 Black (Blk) 네트워크를 통하여 서로 보안성있는 통신을 하기 위해서는 Blk 네트워크를 형성하는 완전 그물형 IPSec 터널이 필요하다. 이동성과 보안성이 요구되는 Blk 네트워크에서 IPSec 터널과 보안 방안, 즉 SPD (Security Policy Database)를 동적으로 재구성하는 것은 어려운 과제이다. 본 논문에서는 기존의 IPSec 터널 터널 모드 기술과 IPSec 비밀 키 관리 기술을 바탕으로 하여 군 네트워크에서 요구하는 이동성과 보안성 능력을 제공하기 위해서 구비해야 할 기술인 DMIDP(Dynamic Multicast-based IPSec Discovery Protocol) 기술과 관련된 핵심 기술을 체계적으로 제안한다. 또 제안된 DMIDP 기법에서 나타날 이동성 및 보안성과 관련된 성능에 영향을 미치는 주요 변수와 이들의 운영 방법을 도출하고 제안된 변수 상태에서의 DMIDP 운영 효율성을 분석한다.

Design and Development of m-Learning Service Based on 3G Cellular Phones

  • Chung, Kwang-Sik;Lee, Jeong-Eun
    • Journal of Information Processing Systems
    • /
    • 제8권3호
    • /
    • pp.521-538
    • /
    • 2012
  • As the knowledge society matures, not only distant, but also off-line universities are trying to provide learners with on-line educational contents. Particularly, high effectiveness of mobile devices for e-Learning has been demonstrated by the university sector, which uses distant learning that is based on blended learning. In this paper, we analyzed previous m-Learning scenarios and future technology prospects. Based on the proposed m-Learning scenario, we designed cellular phone-based educational contents and service structure, implemented m-Learning system, and analyzed m-Learning service satisfaction. The design principles of the m-Learning service are 1) to provide learners with m-Learning environment with both cellular phones and desktop computers; 2) to serve announcements, discussion boards, Q&A boards, course materials, and exercises on cellular phones and desktop computers; and 3) to serve learning activities like the reviewing of full lectures, discussions, and writing term papers using desktop computers and cellular phones. The m-Learning service was developed on a cellular phone that supports H.264 codex in 3G communication technology. Some of the functions of the m-Learning design principles are implemented in a 3G cellular phone. The contents of lectures are provided in the forms of video, text, audio, and video with text. One-way educational contents are complemented by exercises (quizzes).

학위논문정보의 전자적 접근 및 이용에 관한 연구 (A Study on the Electronic Access and Use of Thesis Information)

  • 김자영
    • 지식경영연구
    • /
    • 제1권1호
    • /
    • pp.109-126
    • /
    • 2000
  • Thesis is very valuable primary and secondary infomation resource in that it contains systematic research methods, comprehensive and detailed data, and creative research results in specific areas. But thesis has been neglected in many libraries and information centers due to the problems of accessibility and obtainabiliy problems as one of a Grey Literature. As information technology and networks have been developing rapidly, the digitalization of thesis full-text and the possibility of online access arc also increasing. In this study, value and the characteristics of thesis is firstly reviewed. Secondly, by analyzing the current digitalization state of some domestic and foreign universities and institutions, some principles for the effective electronic transmission and effective management of thesis are suggested as one of knowledge management. Furthermore useful information is suggested for the users in terms of the online access and obtainability.

  • PDF

XML 문서의 변경을 고려한 XML 전문 검색 역인덱스 (Update conscious and depth insensitive inverted indexes for XML full-text queries)

  • 권국봉;홍동권;김권양
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.81-84
    • /
    • 2004
  • XML 문서는 관계형 테이블과는 달리 문서의 구조가 매우 복잡하고 불규칙하여 부분적인 정보를 최대한 활용하는 전문 검색이 일반적인 구조적 검색보다 더 중요한 역할을 한다. XML 문서는 계층이 있으므로 계층을 사용하는 전문 검색 연산은 계층을 제공함으로써 검색 공간을 줄여서 검색의 정확성과 효율성을 훨씬 더 높일 수 있다. 전문 검색 연산을 효과적으로 지원하기 위한 방법으로는 역인덱스를 (inverted index) 사용하는 것이 가장 일반적인 방법이다. 지금까지의 전문 검색을 위한 XML 문서의 구조 정보를 표현, 저장하는 방법들은 문서의 내용이 변경되지 않는 정적 문서(static documents)만을 고려하여 왔다. 이 방법들은 문서가 동적으로 변화할 경우 저장된 문서의 구조 정보 중에서 많은 부분을 다시 표현해야 하는 비효율적인 면이 있다. 본 논문은 XML 문서의 동적인 변화를 지원하면서 동시에 복잡한 XML 전문 검색을 지원하기 위한 방법으로 경로 스트링을 사용하는 효율적인 역 인덱스 구축 기법을 제안하고 제안하는 방법이 복잡한 문서의 검색과 문서의 동적인 변화를 효율적으로 검색할 수 있음을 보인다.

  • PDF

디지털도서관의 운영에 관한 연구 (A Study on the Organization of the Digital Library)

  • 홍현진
    • 한국문헌정보학회지
    • /
    • 제30권4호
    • /
    • pp.105-127
    • /
    • 1996
  • 디지털도서관의 도입은 앞으로 정보의 창출 및 확산, 이응과 관련된 사람들에게 지대한 영향을 미치게 될 것이다. 따라서 본 연구자서는 디지털도서관의 특성과 함께 디지털도서관 환경 하에서의 정보의 공급과 수요의 변화요인 등을 분석하였다. 즉 지식의 증가와 출판시스템을 살펴보았고, 공급과 수요 측면의 불균형의 요인이 되고 있는 도서관의 재정자원, 그리고 이를 위한 비용분석 방법론을 제시하였다. 또한 전자출판과 데이터베이스의 유형을 비교하고, 마지막으로 혁신적인 경영기법인 TQM과 리엔지니어링을 통해 도서관 조직의 혁신의 필요성을 논하였다.

  • PDF

논문 원문을 이용한 동명 저자 자동 군집화 (Automatic Clustering of Same-Name Authors Using Full-text of Articles)

  • 강인수;정한민;이승우;김평;구희관;이미경;구남앙;성원경
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 추계 종합학술대회 논문집
    • /
    • pp.652-656
    • /
    • 2006
  • 대용량 과학 기술 문헌의 탐색 및 검색에 있어서 저자, 저자 소속 기관, 게재지 등에 대해 고유 식별자에 기반한 표현의 필요성이 증가하고 있다. 특히, 과학 기술 문헌의 저자가 단순히 이름으로 표현될 경우, 동일명을 가진 서로 다른 저자들에 대한 구분은 사용자의 검색 부담을 가중시키게 된다. 이러한 동명이인의 문제를 해결하기 위한 기존의 접근법들은 공저자 정보, 논문 제목 등의 서지 정보에 의존하는 공통점을 지닌다. 그러나, 기존의 방법들은 공저자가 없거나 논문 제목 간의 공통 어휘가 발견되지 않을 경우 어려움을 겪게 된다. 본 연구에서는, 동명저자 문제 해소를 위한 기존의 접근법을 보완하기 위해, 동명저자들의 논문 원문의 내용에 기반한 문서 군집화 방법을 사용한다. 국내 학술대회 발표 논문집을 대상으로 한 실험에서 제안한 방법이 기존의 서지정보에 기반한 해법의 단점을 보완할 수 있다는 가능성을 보였다.

  • PDF