• Title/Summary/Keyword: R Language

Search Result 506, Processing Time 0.023 seconds

An Operator Assisted Call Routing System

  • Lee, Chun-Jen;Jason S. Chang
    • Proceedings of the Korean Society for Language and Information Conference
    • /
    • 2002.02a
    • /
    • pp.271-280
    • /
    • 2002
  • A system to assist call routing task for telephone operators at the Directorate General of Telecommunications (DGT) in Taiwan is reported in this paper. The system was developed based on DGT organization profile with description of its six divisions instead of a corpus of recorded and transcribed call-routing dialogs. An acoustic module and an information retrieval module were built specifically for this task. The construction of IR module was based on term extraction and thesaurus discovery processes. By integrating acoustic and IR module, the system achieves satisfactory performance and provides a promising approach to call routing. Simulation results indicated that the proposed algorithm outperforms standard classification methods. A working system based on the proposed approach has been implemented and experimental results are presented.

  • PDF

Preprocessing Method for the Compression of Bitmapped Hangul Fonts (전처리에 의한 비트 맵 한글 폰트의 압축 방법)

  • Woo, Jeong-Won;Kim, Hong-Bae;Cho, Gyung-Yun;Lee, Jung-Hyun
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.231-234
    • /
    • 1994
  • 개인용 컴퓨터의 확산과 함께 사용자 인터페이스도 많은 발전을 하여 비데오 디스플레이의 경우 다양한 서체의 글자에 대한 지원이 필요하게 되었다. 한편 비데오 디스플레이의 경우 사용자의 입력에 대하여 빠른 응답으로써 표현되어야 하므로 복잡한 계산 과정을 갖지 않는 폰트를 이용하여야 한다. 여러 가지 종류의 폰트중에서 이에 적합한 폰트는 비트 맵 폰트이나, 비트 맵 폰트는 그 특성상 모든 종류의 서체에 대하여 각각의 데이타를 따로 가지고 있어야 하므로 저장 매체의 용량이 많이 필요하다. 그러므로 이에 대하여 비트 맵 폰트를 압축하여 저장한 다음 사용시에 하드웨어에 의하여 빠르게 복원함으로써 사용자의 입력에 대하여 빠른 응답으로 대처하는 방법에 대한 연구가 이루어지고 있다. 본 논문에서는 간단한 하드웨어를 이용하여 압축 이전에 폰트를 전처리함으로써 기존의 압축을 개선하기 위한 전처리 방법을 제안한다.

  • PDF

Term Weighting Using Date Information and Its Appliance in Automatic Text Classification (날짜 정보를 이용한 가중치 계산 방법을 적용한 자동 문서분류)

  • Shim, Bojun;Park, Jinwoo;Seo, Jungyun
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.169-173
    • /
    • 2007
  • 문장을 구성하는 단어들은 문장의 의미를 표출하는 데에 있어서 모두 같은 크기의 중요도를 갖지는 않는다. 따라서, 정보검색 분야에서는 오랫동안 단어에 부여할 서로 다른 가중치를 구하는 다양한 전략을 연구해 왔다. 매우 일반적인 기능어들은 불용어로 분류하여 고려 대상에서 제외하기도 하고, 개체명 추출기를 이용하여 고유명사에 높은 가중치를 부여하거나, TF-IDF와 같이 단어가 문서 집합에 출현하는 양상과 빈도를 고려하여 가중치를 구하는 전략을 사용하기도 한다. 이와 같은 연구들에서는 같은 단어라면 어떤 상황에서도 변하지 않는 가중치를 가지게 된다. 본 논문에서는 같은 단어라 할지라도 날짜에 따라서, 어떤 날짜에는 중요한 단어이므로 높은 가중치를 받지만, 다른 날짜에는 낮은 가중치를 부여하는 전략을 제안하고 있다. 이 방법은 모든 정보검색 작업에서 사용할 수 있는 범용적인 전략이다. 본 연구에서는 특히, 문서분류 작업에 제안 방법을 적용했을 때, 제안 방법을 적용하지 않은 기본 시스템보다 분류 정확성이 더 향상되는 것을 실험을 통해서 확인하였다.

  • PDF

Human Powered Question and Answering System by using Real-Time Interactive Communication : rPodo System (실시간 상호커뮤니케이션에 의한 인력기반 질의응답시스템 : rPodo)

  • Lim, Heuiseok;Hong, Sunghoon;Ryu, Kigon
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.179-182
    • /
    • 2007
  • 우리가 현재 사용하고 있는 정보검색 시스템은 사용자의 질의와 연관있는 문서 집합만을 제공하므로 사용자가 원하는 정답을 찾기 위해서 사용자는 문서 집합을 브라우징하는 수고를 하여야 하며, 이러한 수고를 덜어주기 위해 개발되는 자동 질의응답시스템은 의미 분석 및 지식 추출 등의 기술적 한계로 사용자에게 만족할 만한 서비스를 제공하고 있지 못한 실정이다. 본 논문은 인터넷에 연결되어 있는 사람 중에 질의어에 대한 응답을 할 수 있는 지혜 제공자를 자동으로 검색 분류하여, 질의자와 실시간으로 연결하여 사용자와 지혜 제공자가 실시간 상호커뮤니케이션을 이용하여 지혜를 교류할 수 있는 인력기반 질의응답시스템인 알포도 시스템을 제안한다. 알포도 시스템은 질의응답모듈, 메티스 관리 모듈, 실시간 커뮤니케이션 모듈, 그리고 지식 추출 및 관리 모듈로 구성되며 현재 베타 서비스를 실시 중이다.

  • PDF

A Correction Algorithm for Misrecognized Words Using N-gram Hangeul Dictionary (N-GRAM 한글 사전을 이용한 오인식 단어의 교정 알고리즘)

  • Lee, Jong-Yun;Oh, Sang-Hun
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.271-283
    • /
    • 1993
  • 본 논문은 온라인 한글인식 시스템에서 오인식된 단어를 교정하는 알고리즘이다. 교정 기법으로는 N-gram 한글사전을 이용하였다. 오인식된 단어는 후보키의 선정과 선정된 후보문자중 가장 유사한 단어로 대체된다. 오인식 단어는 사전에 수록된 단어의 형태소 정보 즉, 사전의 표제어, 이의 품사 및 접속 규칙을 활용하여 교정된다. 본 논문은 오인식 교정에서 필요한 한글의 형태소 분석기에 관한 선행연구를 전제한다.

  • PDF

A Study of Construction of Character Image Data for Recognition Handwritten Text (필기체 문자 인식을 위한 문자 영상 데이터 구축에 관한 연구)

  • Lee, H.R.;Ko, K.C.;Lee, M.R.
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.63-67
    • /
    • 2000
  • In order to develop a character recognition system, it is an essential preceding work that gathers an image data of the standard. On this purpose a data of the digitized images of a handwritten characters was collected. The types of a gathered image data are Korean character, Chiness character, Numeral, English character, Special character, and so on. This paper deals with a handwritten character image data base, and the image data base different from the general storage structure of a lame capacity multimedia was designed and builded.

  • PDF

Analysis of Freight Big Data using R-Language (화물 배차 빅데이터 분석)

  • Selvaraj, Suganya;Choi, Eunmi
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.320-322
    • /
    • 2018
  • Data analysis is a process of generating useful information by evaluating real-world raw data for making better decisions in business development. In the freight transport logistics companies, the analysis of freight data is increasingly garnering considerable importance among the users for making better decisions regarding freight cost reductions. Consequently, in this study, we used R programming language to analyze the freight data that are collected from freight transport logistics company. Usually, the freight rate varies based on chosen day of the week. In here, we analyzed and visualized the results such as frequency of cost vs days, frequency of requested goods in ton vs days, frequency of order vs days, and frequency of order status vs days for the last one-year freight data. These analysis results are beneficial in the viewpoint of the users in ordering process.

R2FID: Joint Reranker in Fusion-In-Decoder for Open Domain Question Answering over Tables (R2FID: Joint Reranker기반 Fusion-In-Decoder를 이용한 오픈 도메인 테이블 질의 응답)

  • Sung-Min Lee;Eunhwan Park;Seung-Hoon Na;Daeryong Seo;Donghyeon Jeon;Inho Kang
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.100-104
    • /
    • 2022
  • 오픈 도메인 질의 응답(Open Domain Question Answering)은 주어진 질문에 대한 단서가 주어지지 않은 환경에서 정답을 도출해 내는 어려운 문제이다. 최근 테이블 데이터와 같은 구조화된 데이터에서의 질의응답 시스템에 대한 중요도가 점차 높아지면서, 본 논문에서는 위키피디아에 등장하는 테이블들을 대상으로 한국어 테이블 오픈 도메인 질의 응답 시스템을 구성하기로 한다. 또한, 테이블 검색의 한계를 보완하기 위해 Joint Reranker 기반 Fusion-In-Decoder를 제안하고 적용하여 질의응답 Task에서 베이스라인에 대비하여 EM 3.36, F1-Score 3.25 향상을 이루어냈다.

  • PDF

The WeChat Mini Program for Smart Tourism

  • Ao Cheng;Gang Ren;Taeho Hong;Chulmo Koo
    • Asia pacific journal of information systems
    • /
    • v.29 no.3
    • /
    • pp.489-502
    • /
    • 2019
  • The WeChat mini program is an application embedded in WeChat that users can use without downloading and installing. After it was officially released in 2017, many travel enterprises have launched their own mini programs on the WeChat platform. This study applies affordance theory to investigate the WeChat mini program's role in tourism activities through social network analysis using the R programming language. The authors searched the topic of "how do you perceive the travel-related WeChat mini program" and then crawled the 200 comments found; 180 comments were analyzed after data cleansing. The results show that travel-related WeChat mini programs play a very important role in Chinese social network tourism activities. This paper found that WeChat played a more active role in various tourism-related interactions with Chinese social networks. Moreover, the results show how affordance theory is applied to the use of WeChat mini programs.

Comparative study of text representation and learning for Persian named entity recognition

  • Pour, Mohammad Mahdi Abdollah;Momtazi, Saeedeh
    • ETRI Journal
    • /
    • v.44 no.5
    • /
    • pp.794-804
    • /
    • 2022
  • Transformer models have had a great impact on natural language processing (NLP) in recent years by realizing outstanding and efficient contextualized language models. Recent studies have used transformer-based language models for various NLP tasks, including Persian named entity recognition (NER). However, in complex tasks, for example, NER, it is difficult to determine which contextualized embedding will produce the best representation for the tasks. Considering the lack of comparative studies to investigate the use of different contextualized pretrained models with sequence modeling classifiers, we conducted a comparative study about using different classifiers and embedding models. In this paper, we use different transformer-based language models tuned with different classifiers, and we evaluate these models on the Persian NER task. We perform a comparative analysis to assess the impact of text representation and text classification methods on Persian NER performance. We train and evaluate the models on three different Persian NER datasets, that is, MoNa, Peyma, and Arman. Experimental results demonstrate that XLM-R with a linear layer and conditional random field (CRF) layer exhibited the best performance. This model achieved phrase-based F-measures of 70.04, 86.37, and 79.25 and word-based F scores of 78, 84.02, and 89.73 on the MoNa, Peyma, and Arman datasets, respectively. These results represent state-of-the-art performance on the Persian NER task.