• 제목/요약/키워드: R language

검색결과 499건 처리시간 0.024초

전처리에 의한 비트 맵 한글 폰트의 압축 방법 (Preprocessing Method for the Compression of Bitmapped Hangul Fonts)

  • 우정원;김홍배;조경연;이정현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.231-234
    • /
    • 1994
  • 개인용 컴퓨터의 확산과 함께 사용자 인터페이스도 많은 발전을 하여 비데오 디스플레이의 경우 다양한 서체의 글자에 대한 지원이 필요하게 되었다. 한편 비데오 디스플레이의 경우 사용자의 입력에 대하여 빠른 응답으로써 표현되어야 하므로 복잡한 계산 과정을 갖지 않는 폰트를 이용하여야 한다. 여러 가지 종류의 폰트중에서 이에 적합한 폰트는 비트 맵 폰트이나, 비트 맵 폰트는 그 특성상 모든 종류의 서체에 대하여 각각의 데이타를 따로 가지고 있어야 하므로 저장 매체의 용량이 많이 필요하다. 그러므로 이에 대하여 비트 맵 폰트를 압축하여 저장한 다음 사용시에 하드웨어에 의하여 빠르게 복원함으로써 사용자의 입력에 대하여 빠른 응답으로 대처하는 방법에 대한 연구가 이루어지고 있다. 본 논문에서는 간단한 하드웨어를 이용하여 압축 이전에 폰트를 전처리함으로써 기존의 압축을 개선하기 위한 전처리 방법을 제안한다.

  • PDF

날짜 정보를 이용한 가중치 계산 방법을 적용한 자동 문서분류 (Term Weighting Using Date Information and Its Appliance in Automatic Text Classification)

  • 심보준;박진우;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.169-173
    • /
    • 2007
  • 문장을 구성하는 단어들은 문장의 의미를 표출하는 데에 있어서 모두 같은 크기의 중요도를 갖지는 않는다. 따라서, 정보검색 분야에서는 오랫동안 단어에 부여할 서로 다른 가중치를 구하는 다양한 전략을 연구해 왔다. 매우 일반적인 기능어들은 불용어로 분류하여 고려 대상에서 제외하기도 하고, 개체명 추출기를 이용하여 고유명사에 높은 가중치를 부여하거나, TF-IDF와 같이 단어가 문서 집합에 출현하는 양상과 빈도를 고려하여 가중치를 구하는 전략을 사용하기도 한다. 이와 같은 연구들에서는 같은 단어라면 어떤 상황에서도 변하지 않는 가중치를 가지게 된다. 본 논문에서는 같은 단어라 할지라도 날짜에 따라서, 어떤 날짜에는 중요한 단어이므로 높은 가중치를 받지만, 다른 날짜에는 낮은 가중치를 부여하는 전략을 제안하고 있다. 이 방법은 모든 정보검색 작업에서 사용할 수 있는 범용적인 전략이다. 본 연구에서는 특히, 문서분류 작업에 제안 방법을 적용했을 때, 제안 방법을 적용하지 않은 기본 시스템보다 분류 정확성이 더 향상되는 것을 실험을 통해서 확인하였다.

  • PDF

실시간 상호커뮤니케이션에 의한 인력기반 질의응답시스템 : rPodo (Human Powered Question and Answering System by using Real-Time Interactive Communication : rPodo System)

  • 임희석;홍성훈;류기곤
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.179-182
    • /
    • 2007
  • 우리가 현재 사용하고 있는 정보검색 시스템은 사용자의 질의와 연관있는 문서 집합만을 제공하므로 사용자가 원하는 정답을 찾기 위해서 사용자는 문서 집합을 브라우징하는 수고를 하여야 하며, 이러한 수고를 덜어주기 위해 개발되는 자동 질의응답시스템은 의미 분석 및 지식 추출 등의 기술적 한계로 사용자에게 만족할 만한 서비스를 제공하고 있지 못한 실정이다. 본 논문은 인터넷에 연결되어 있는 사람 중에 질의어에 대한 응답을 할 수 있는 지혜 제공자를 자동으로 검색 분류하여, 질의자와 실시간으로 연결하여 사용자와 지혜 제공자가 실시간 상호커뮤니케이션을 이용하여 지혜를 교류할 수 있는 인력기반 질의응답시스템인 알포도 시스템을 제안한다. 알포도 시스템은 질의응답모듈, 메티스 관리 모듈, 실시간 커뮤니케이션 모듈, 그리고 지식 추출 및 관리 모듈로 구성되며 현재 베타 서비스를 실시 중이다.

  • PDF

N-GRAM 한글 사전을 이용한 오인식 단어의 교정 알고리즘 (A Correction Algorithm for Misrecognized Words Using N-gram Hangeul Dictionary)

  • 이종연;오상헌
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.271-283
    • /
    • 1993
  • 본 논문은 온라인 한글인식 시스템에서 오인식된 단어를 교정하는 알고리즘이다. 교정 기법으로는 N-gram 한글사전을 이용하였다. 오인식된 단어는 후보키의 선정과 선정된 후보문자중 가장 유사한 단어로 대체된다. 오인식 단어는 사전에 수록된 단어의 형태소 정보 즉, 사전의 표제어, 이의 품사 및 접속 규칙을 활용하여 교정된다. 본 논문은 오인식 교정에서 필요한 한글의 형태소 분석기에 관한 선행연구를 전제한다.

  • PDF

필기체 문자 인식을 위한 문자 영상 데이터 구축에 관한 연구 (A Study of Construction of Character Image Data for Recognition Handwritten Text)

  • 이향란;고경철;이말례
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.63-67
    • /
    • 2000
  • In order to develop a character recognition system, it is an essential preceding work that gathers an image data of the standard. On this purpose a data of the digitized images of a handwritten characters was collected. The types of a gathered image data are Korean character, Chiness character, Numeral, English character, Special character, and so on. This paper deals with a handwritten character image data base, and the image data base different from the general storage structure of a lame capacity multimedia was designed and builded.

  • PDF

화물 배차 빅데이터 분석 (Analysis of Freight Big Data using R-Language)

  • 수간야 셀바라지;최은미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.320-322
    • /
    • 2018
  • Data analysis is a process of generating useful information by evaluating real-world raw data for making better decisions in business development. In the freight transport logistics companies, the analysis of freight data is increasingly garnering considerable importance among the users for making better decisions regarding freight cost reductions. Consequently, in this study, we used R programming language to analyze the freight data that are collected from freight transport logistics company. Usually, the freight rate varies based on chosen day of the week. In here, we analyzed and visualized the results such as frequency of cost vs days, frequency of requested goods in ton vs days, frequency of order vs days, and frequency of order status vs days for the last one-year freight data. These analysis results are beneficial in the viewpoint of the users in ordering process.

R2FID: Joint Reranker기반 Fusion-In-Decoder를 이용한 오픈 도메인 테이블 질의 응답 (R2FID: Joint Reranker in Fusion-In-Decoder for Open Domain Question Answering over Tables)

  • 이성민;박은환;나승훈;서대룡;전동현;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.100-104
    • /
    • 2022
  • 오픈 도메인 질의 응답(Open Domain Question Answering)은 주어진 질문에 대한 단서가 주어지지 않은 환경에서 정답을 도출해 내는 어려운 문제이다. 최근 테이블 데이터와 같은 구조화된 데이터에서의 질의응답 시스템에 대한 중요도가 점차 높아지면서, 본 논문에서는 위키피디아에 등장하는 테이블들을 대상으로 한국어 테이블 오픈 도메인 질의 응답 시스템을 구성하기로 한다. 또한, 테이블 검색의 한계를 보완하기 위해 Joint Reranker 기반 Fusion-In-Decoder를 제안하고 적용하여 질의응답 Task에서 베이스라인에 대비하여 EM 3.36, F1-Score 3.25 향상을 이루어냈다.

  • PDF

The WeChat Mini Program for Smart Tourism

  • Ao Cheng;Gang Ren;Taeho Hong;Chulmo Koo
    • Asia pacific journal of information systems
    • /
    • 제29권3호
    • /
    • pp.489-502
    • /
    • 2019
  • The WeChat mini program is an application embedded in WeChat that users can use without downloading and installing. After it was officially released in 2017, many travel enterprises have launched their own mini programs on the WeChat platform. This study applies affordance theory to investigate the WeChat mini program's role in tourism activities through social network analysis using the R programming language. The authors searched the topic of "how do you perceive the travel-related WeChat mini program" and then crawled the 200 comments found; 180 comments were analyzed after data cleansing. The results show that travel-related WeChat mini programs play a very important role in Chinese social network tourism activities. This paper found that WeChat played a more active role in various tourism-related interactions with Chinese social networks. Moreover, the results show how affordance theory is applied to the use of WeChat mini programs.

Comparative study of text representation and learning for Persian named entity recognition

  • Pour, Mohammad Mahdi Abdollah;Momtazi, Saeedeh
    • ETRI Journal
    • /
    • 제44권5호
    • /
    • pp.794-804
    • /
    • 2022
  • Transformer models have had a great impact on natural language processing (NLP) in recent years by realizing outstanding and efficient contextualized language models. Recent studies have used transformer-based language models for various NLP tasks, including Persian named entity recognition (NER). However, in complex tasks, for example, NER, it is difficult to determine which contextualized embedding will produce the best representation for the tasks. Considering the lack of comparative studies to investigate the use of different contextualized pretrained models with sequence modeling classifiers, we conducted a comparative study about using different classifiers and embedding models. In this paper, we use different transformer-based language models tuned with different classifiers, and we evaluate these models on the Persian NER task. We perform a comparative analysis to assess the impact of text representation and text classification methods on Persian NER performance. We train and evaluate the models on three different Persian NER datasets, that is, MoNa, Peyma, and Arman. Experimental results demonstrate that XLM-R with a linear layer and conditional random field (CRF) layer exhibited the best performance. This model achieved phrase-based F-measures of 70.04, 86.37, and 79.25 and word-based F scores of 78, 84.02, and 89.73 on the MoNa, Peyma, and Arman datasets, respectively. These results represent state-of-the-art performance on the Persian NER task.

사회과학을 위한 양적 텍스트 마이닝: 이주, 이민 키워드 논문 및 언론기사 분석 (Quantitative Text Mining for Social Science: Analysis of Immigrant in the Articles)

  • 이수정;최두영
    • 한국콘텐츠학회논문지
    • /
    • 제20권5호
    • /
    • pp.118-127
    • /
    • 2020
  • 본 연구는 최근 사회과학에서 실시되고 있는 양적 텍스트 분석의 흐름과 분석을 실시함에 있어 주의해야 할 사례를 포함하여 기술 하였다. 특히, 2017년부터 2019년까지 3년간 학술지와 언론에서 사용된 "이주", "이민" 키워드를 기반으로 사례연구를 실시하였다. 이를 위해 최근 사회과학분야에서 주목 받는 자연어 처리 기술(NLP)를 이용한 양적 텍스트 분석 (Quantitate text analysis)을 사용하였다. 양적 텍스트 분석은 문서를 구조적 데이터로 변환하여, 가설의 발견 및 검증을 실시하는 데이터 과학의 영역으로, 데이터의 모델링 및 가시화 등이 가능하고, 특히 비구조화 된 데이터를 구조화할 수 있다는 점에서 사회과학 분야에 많이 도입하였다. 따라서 본 연구는 양적 텍스트 분석을 통해 "이주", "이민"을 키워드로 한 연구 및 언론 기사에 대한 통계 분석을 실시하고 도출된 결론에 대한 해석을 실시하였다.