• 제목/요약/키워드: 전자문서처리

검색결과 457건 처리시간 0.023초

DaHae: 일한 기계번역을 위한 일본어 형태소 분석기 (DaHae: Japanese Morphological Analyzer for Japanese to Korean Machine Translation)

  • 여상화;정한민;장원;김태완;황도삼;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.195-207
    • /
    • 1995
  • 일본어는 한자, 히라가나, 가다가나 등 다양한 종류의 문자를 사용하며 이들의 혼용 비율이 매우 높아 띄어쓰기를 하지 않아도 문서의 가독성을 유지한다. ICOT 사전, EDR 사전, ATLAS I/JK사전 등 기존의 전자 사전에서 복합 자종의 표제어가 차지하는 비율(한자+히라가나의 표제어 제외)은 평균 8.8%로 그 수가 매우 작다. 따라서, 문장 내에서 자종의 변화는 단어를 구분하는 하나의 delimiter로 이용될 수 있다. 본 시스템에서는 형태소 분석의 전단계로 전처리기를 두어 자종정보(character type information)에 의한 fragment 분리 및 예외 단어, 정형표현 처리를 수행하며 각 fragment 의 형태소 분석 방법을 제시한다. 형태소 분석기는 전처리기의 처리 결과를 입력받아 각각의 fragment를 전처리기가 제시한 분석 방법에 따라 분석하여 입력 문장의 가능한 모든 분석을 추출한다. 이 방법은 불필요한 사전 탐색과 접속 체크 회수를 줄여 분석 성능을 향상시킨다.

  • PDF

.NET 기반의 저부하형 웹 애플리케이션 설계 및 구현 (Design and Implementation of Light Loaded Web Application Based on .NET)

  • 최동우;안현식
    • 한국멀티미디어학회논문지
    • /
    • 제7권2호
    • /
    • pp.272-282
    • /
    • 2004
  • 웹 서비스들이 보다 대형화되면서 보다 많은 정보의 처리가 필요함에 따라 서버의 과부하를 방지하고 처리 속도를 향상시키기 위한 노력이 이루어지고 있다. 본 논문에서는 서버의 부하가 늘어나는 현상을 분석하고 최근에 등장한 .NET 기반의 저부하형 웹 애플리케이션 설계 및 구현 방법을 제안한다. 다중 접속 시 서버의 부하를 최소화하기 위하여 관계형 데이터베이스를 설계하고 최소한의 모듈을 생성하였으며, SP를 이용하여 복잡한 SQL문을 단순화하여 데이터베이스의 부담을 줄여 서버의 성능을 향상시켰다. 또한 User Control을 활용하여 페이지를 구성하여 페이지 처리 속도를 향상시켰으며, 스크립트를 활용하여 서버 언어를 이용한 작업을 최소한으로 줄였다. XML/EDI를 이용한 전자문서교환방식을 채택하여 관리비용을 줄일 수 있도록 하였다. 본 논문에서는 제안한 저부하형 시스템을 학사관리 시스템 상에서 구현하여 기존의 방법에 비해 보다 효율적 시스템임을 보인다.

  • PDF

기록관리 분야에서 한국어 자연어 처리 기술을 적용하기 위한 고려사항 (Considerations for Applying Korean Natural Language Processing Technology in Records Management)

  • 김학래
    • 한국기록관리학회지
    • /
    • 제22권4호
    • /
    • pp.129-149
    • /
    • 2022
  • 기록물은 과거와 현재를 포함하는 시간적 특성, 특정 언어에 제한되지 않는 언어적 특성, 기록물이 갖고 있는 다양한 유형을 복합적으로 갖고 있다. 기록물의 생성, 보존, 활용에 이르는 생애주기에서 텍스트, 영상, 음성으로 구성된 데이터의 처리는 많은 노력과 비용을 수반한다. 기계번역, 문서요약, 개체명 인식, 이미지 인식 등 자연어 처리 분야의 주요 기술은 전자기록과 아날로그 형태의 디지털화에 광범위하게 적용할 수 있다. 특히, 딥러닝 기술이 적용된 한국어 자연어 처리 분야는 다양한 형식의 기록물을 인식하고, 기록관리 메타데이터를 생성하는데 효과적이다. 본 논문은 한국어 자연어 처리를 기술을 소개하고, 기록 관리 분야에서 자연어 처리 기술을 적용하기 위한 고려사항을 논의한다. 기계번역, 광학문자인식과 같은 자연어 처리 기술이 기록물의 디지털 변환에 적용되는 과정은 파이썬 환경에서 구현한 사례로 소개한다. 한편, 자연어 처리 기술의 활용을 위해 기록관리 분야에서 자연어 처리 기술을 적용하기 위한 환경적 요소와 기록물의 디지털화 지침을 개선하기 위한 방안을 제안한다.

RESTful SOAP 기반 전표 데이터 처리 시스템 설계 및 구현 (Design and Implementation of a RESTful SOAP-based Slip Data Processing System)

  • 황의철
    • 한국콘텐츠학회논문지
    • /
    • 제5권1호
    • /
    • pp.101-108
    • /
    • 2005
  • 본 논문에서는 SOAP(Simple Object Access Protocol)기반 웹 서비스의 문제점인 확장성을 REST(REpresentational State Transfer)모델을 이용하여 해결한 RESTful SOAP 기반 웹 서비스 방식을 제안한다. 또한 웹 서비스 응용으로 전표 데이터 처리에 대한 웹 서비스를 SOAP 및 RESTful SOAP 방식으로 구현하여 서로의 장단점을 비교하고, 추후 웹 서비스 구축에 하나의 프로토타입으로 제시한다. REST는 분산 컴퓨팅 모델이며, 세계에서 가장 큰 분산 응용인 웹에서 사용하고 있는 웹 구조 스타일 모델이다. REST에서 리소스의 식별은 URI로, 상태는 상태가 표시된 문서(리소스)로써 HTTP를 통해 전달된다. 리소스의 내용은 XML로 기술하며, 리소스 탐색 및 참조에는 HTTP의 표준 메소드인 GET, PUT, POST, DELETE 등만을 이용하는 것으로 분산컴퓨팅을 모델링하고 있다. 본 논문의 결과는 전자 상거래시스템 구축의 주요 플랫폼인 웹 서비스의 효율적인 개발에 기여할 것으로 전망된다.

  • PDF

연속음성인식 후처리를 위한 음절 복원 rule-based 시스템과 형태소분석기법의 적용 (The syllable recovrey rule-based system and the application of a morphological analysis method for the post-processing of a continuous speech recognition)

  • 박미성;김미진;김계성;최재혁;이상조
    • 전자공학회논문지C
    • /
    • 제36C권3호
    • /
    • pp.47-56
    • /
    • 1999
  • 한국어를 연속적으로 발음할 때 여러 가지 음은변동이 일어난다. 이러한 음운변동은 한국어 연속 음성 인식을 어렵게 하는 주요 요인 중의 한가지이다. 본 논문에서는 음운변동이 반영된 음성 인식 문자열을 규칙에 의하여 text 기반 문자열로 다시 복원시키는 rule-based 시스템을 제안한다. 그리고 복원 결과들은 형태소 분석되어 올바른 문자열만 생성된다. 복원은 4가지 rule 즉, 음절 경계 종성 초성 복원 rule, 모음처리 복원 rule,끝음절 종성 복원 rule, 한 음절 처리 rule에 의거하여 이루어진다. 규칙 적용 과정 중에 효과적인 복원을 위해 x-clustering정보를 정의하여 사용하고, 형태소 분석기에 입력될 복원 후보수를 제안하기 위해 postfix음절 빈도정보를 구하여 사용한다. 본 시스템은 규칙기반 시스템이므로 대용량의 발음열 사전이나 음소열 사전을 필요로 하지 않고 문서 기반 형태소 분석기를 그대로 이용할 수 있다는 이점이 있다.

  • PDF

XML기반의 전자문서 처리방안에 관한 연구 (A Study on XML-Based Electronic Documents)

  • 남철기;장길상
    • 한국산업경영시스템학회:학술대회논문집
    • /
    • 한국산업경영시스템학회 2002년도 춘계학술대회
    • /
    • pp.57-62
    • /
    • 2002
  • Recently, due to the development of internet based information technology, organizations Is utilizing electronic documents as important media for processing business work and sharing Information exchange. These electronic documents are mos4 form like documents and are important user interfaces for business applications. But, presently web-based electronic documents are lack of the characteristics that are taken in documents, such as document writing rules and its workflow. This Paper deals with XML-based business document that include the structure, data, and logic and proposes the framework for validating the data and logic included within business documents using Prolog.

  • PDF

온톨로지를 이용한 eBook Annotation 시스템의 설계 및 구현 (Design and Implementation of eBook Annotation System using Ontology)

  • 신성욱;김종석;고승규;임순범;최윤철
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2002년도 추계학술발표논문집
    • /
    • pp.211-215
    • /
    • 2002
  • 본 연구에서는 온라인 다중 사용자 환경의 eBook annotation 시스템 개발에서 데이터를 의미 기반으로 관리하고, 데이터에 대하여 상호 공통적인 이해를 표현하며, 그리고 데이터에 대한 무결성 검사 등을 지원하기 위해서 eBook annotation 온톨로지를 설계하였다. eBook annotation 데이터에 대한 상호 공통적인 이해의 표현을 위해서 한국 전자책 문서 표준인 EBKS(Electronic Book of Korea Standard)를 기반으로 설계 하였으며 설계 된 온톨로지는 Conceptual Graph(CG)를 사용하여 표현하였다. 의미 기반의 처리를 위해서 본 온톨로지에서는 동의어(synonym) 관계와 다국어(multilingua) 관계를 고려하였으며 또한 annotation 데이터 생성시 오류 방지와 중요도를 표현 하기 위해서 무결성 검사, 중요성 axiom을 고려 했다. 제안된 온톨로지는 annotation 데이터의 재사용성을 높일 수 있고 의미 정보를 활용함으로써 eLearning, cyberclass과 같은 다중사용자 환경에서 효과적인 협업을 가능하게 한다. 본 연구에서 구현한 eBook annotation 시스템은 설계한 온톨로지를 이용함으로써 의미 기반의 데이터 관리가 가능하다. 또한 annotation 생성 시 온톨로지 구조를 모르더라도 annotation을 생성할 수 있는 인터페이스를 구현하였다.

  • PDF

의미 정보를 이용한 한국어 복합명사 분석 (Analysis of Korean Compound Noun using Semantic Information)

  • 김수남;원상현;권혁철;주종철;이상기
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.195-197
    • /
    • 1998
  • 복합명사 분석은 조합이 자유롭고 제한이 없으므로 여러 가지 모호성을 발생시킨다. 이러한 모호성을 해결하는 기존 방법으로 사전을 이용하는 방법[2]과 통계적 정보를 이용하는 방법[3,4]이 있다. 본 논문에서는 하위 범주화된 어휘 정보를 가진 전자사전을 이용하여 복합명사를 분석한다. 그리고 어휘 정보만으로 처리했을 때 의미상으로 잘못된 분석이 발생할 수 있으므로 본 논문은 복합명사를 구성하는 어휘의 정보와 특정단어의 의미에 따른 복합명사 제약조건을 규칙베이스로 구축하여 분석에 이용한다. 또한 분석에 실패한 복합명사의 유형을 분석하여 각 유형에 따른 교정 방법도 제시한다. 실험 데이터는 부산일보, 교과서, 그리고 각종 문서에서 무작위로 추출한 27,945개의 복합명사를 사용하였다. 본 논문에서 제시한 의미적 제약조건을 이용하여 분석했을 때 복합명사로 잘못 쓴 어절의 검사율이 21% 향상되었다.

  • PDF

XML기반 모바일 플랫폼에 관한 연구 (Studying of XML-based Mobile Flatform)

  • 신영호;천성광;권영직
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2003년도 추계공동학술대회
    • /
    • pp.207-210
    • /
    • 2003
  • 현재 무선 인터넷 환경은 음성 서비스 위주의 개인 사용자 시장이 한계에 도달하면서 이동 통신의 무선 단말기를 통하여 다양한 비즈니스를 할 수 있는 B2B 전자상거래 솔루션이 확대되고 있고, 모바일 데이터서비스 시장의 비중이 점차 확대되고 있다. 이러한 데이터 서비스 교환에 XML문서를 사용 할 경우, 데이터의 상호 처리 능력을 향상시키고 데이터의 공용성과 프로그램의 유용성을 향상시키는데 필요한 비용과 노력을 절감 할 수 있다. 따라서 본 논문에서는 모바일을 위한 M-commerce에 대한 현황을 살펴본 뒤, 모바일 환경에서 사용 할 수 있는 플랫폼에 대하여 살펴보았고, 향후 연구 방안으로는 모바일에서의 실시간 쇼핑몰 설계 및 구현과 분산 환경에서의 모바일 쇼핑몰을 설계 구현 할 예정이다.

  • PDF

항만운영정보시스템의 데이터전송방식 개선에 관한 연구 (A Study on the Improvement of Data Transmission Method of PORT-MIS)

  • 김칠호;박남규;최형림
    • 한국항만학회지
    • /
    • 제14권2호
    • /
    • pp.133-142
    • /
    • 2000
  • In order to streamline the procedure of data transmission in port and logistics industries, MOMAF introduced EDI systems as the method of data transmission of 19 documents 5 years ago. While operating EDI system, MOMAF has found the inconvenience and the inefficiency of using EDI systems in the field of requesting fast response. This thesis focuses on finding the possible fields of on-line processing system. The result of the paper presents that if data transmission area such as 'application for pilot'is changed to on-line processing method, the processing cost and time will be reduced compared with EDI processing method.

  • PDF