• 제목/요약/키워드: text inference

검색결과 72건 처리시간 0.023초

타임라인데이터를 이용한 트위터 사용자의 거주 지역 유추방법 (Location Inference of Twitter Users using Timeline Data)

  • 강애띠;강영옥
    • Spatial Information Research
    • /
    • 제23권2호
    • /
    • pp.69-81
    • /
    • 2015
  • SNS사용자의 거주 지역을 유추하여 그들이 생성한 데이터에 거주위치를 부여하는 것은 위치희박(location sparsity)과 생태학적 오류문제로 인해 연구결과의 신뢰성이 떨어진다는 평가를 받아온 공간빅데이터 연구에 대안이 될 수 있다. 본 연구에서는 Tweet 사용자의 거주 지역을 유추하는 방법으로 사용자 타임라인데이터 속에서 찾아낸 일상생활활동패턴을 이용하는 방법을 고안하였다. 트윗 사용자의 일상생활활동패턴은 이동궤적과 사용자의 언어(text)에서 확인할 수 있었으며 전자를 활용한 모델을 일상이동패턴모델, 후자를 활용한 모델을 일상 활동장 모델이라 명명하고 각각 모델에 입력될 변수를 선정하였다. 자신의 거주 지역에서 가장 높은 빈도의 트윗 발생 여부와 가장 높은 빈도의 거주행정구역 표현 단어를 사용하는지 아닌지를 종속변수로 한 판별분석을 실시하여 모델을 작성하였으며 설명력은 일상 이동패턴모델, 일상 활동장 모델 각각 67.5%, 57.5%였다. 이 모델을 스트레스 관련 트윗을 작성한 사용자의 타임라인데이터로 구성된 테스트데이터에 입력해본 결과 전체 사용자 48,235명 중 5,301명의 거주 지역을 유추하였고 이를 활용하여 위치 부여된 스트레스 관련 트윗 9,606개를 확보하였다. 본 연구의 유추기법을 통해 기존 SNS데이터 분석연구에서 사용하는 데이터 수집 방법보다 44배 많은 위치 부여 트윗을 확보할 수 있었다. 본 연구방법론은 SNS데이터를 이용한 연구에서 위치 부여된 데이터를 확보하는데 활용 가능할 것으로 판단되며, 각종 지역통계와 상관관계파악을 통해 지역적 현상 분석에도 SNS데이터를 이용할 수 있는 가능성을 높일 것으로 판단된다.

EFL College Students' Learning Experiences during Film-based Reading Class: Focused on the Analysis of Students' Reflective Journals

  • Baek, Jiyeon
    • International Journal of Advanced Culture Technology
    • /
    • 제7권4호
    • /
    • pp.49-55
    • /
    • 2019
  • In the age of information, newly produced knowledge is mostly written in English. Therefore, there has been a strong demand for English language learning in the EFL context. However, most EFL learners possess a lack of interest and motivation in the text-based reading class. In this educational context, film is one of the most widely used materials in English reading classes considering that modern learners are predominantly familiar with various audiovisual materials. The purpose of this study is to investigate how Korean EFL learners experienced in the film-based reading class. Specifically, this study aims to analyze the EFL students' perceptions about the class and learning strategies that they used during the class. In order to comprehensively interpret the EFL learners' experiences in the classroom, a coding system consisting of five categories was developed: report, emotion, reflection, evaluation, future plans. The results of data analysis showed that the use of movies in English reading classes had positive effects on reading comprehension and inference of word meaning. The most frequently used learning strategies were affective strategies which helped them control their emotion, attitude, motivations and values, whereas memorization strategies were rarely used. In this respect, this study suggests that the use of movies in the EFL reading classroom encourage students' attention and help them obtain and activate schema which is useful in gaining a better understanding of text-based reading materials.

심층신경망을 이용한 PCB 부품의 인쇄문자 인식 (Recognition of Characters Printed on PCB Components Using Deep Neural Networks)

  • 조태훈
    • 반도체디스플레이기술학회지
    • /
    • 제20권3호
    • /
    • pp.6-10
    • /
    • 2021
  • Recognition of characters printed or marked on the PCB components from images captured using cameras is an important task in PCB components inspection systems. Previous optical character recognition (OCR) of PCB components typically consists of two stages: character segmentation and classification of each segmented character. However, character segmentation often fails due to corrupted characters, low image contrast, etc. Thus, OCR without character segmentation is desirable and increasingly used via deep neural networks. Typical implementation based on deep neural nets without character segmentation includes convolutional neural network followed by recurrent neural network (RNN). However, one disadvantage of this approach is slow execution due to RNN layers. LPRNet is a segmentation-free character recognition network with excellent accuracy proved in license plate recognition. LPRNet uses a wide convolution instead of RNN, thus enabling fast inference. In this paper, LPRNet was adapted for recognizing characters printed on PCB components with fast execution and high accuracy. Initial training with synthetic images followed by fine-tuning on real text images yielded accurate recognition. This net can be further optimized on Intel CPU using OpenVINO tool kit. The optimized version of the network can be run in real-time faster than even GPU.

생물학 문헌 데이터의 제목과 본문을 이용한 질병 관련 유전자 추론 방법 (Inferring Disease-related Genes using Title and Body in Biomedical Text)

  • 김정우;김현진;여윤구;신민철;박상현
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권1호
    • /
    • pp.28-36
    • /
    • 2017
  • 1990년대 게놈프로젝트 이후 유전자와 관련된 많은 연구가 진행되고 있다. 데이터 저장 기술의 발달로 연구의 결과물들은 다량의 문헌들로 기록되고 있으며, 이러한 문헌들은 새로운 생물학적 관계들을 추론하는 데이터로 유용하게 사용되고 있다. 이러한 이유로 본 연구에서는 생물학 문헌들을 활용하여 질병과 관련한 유전자를 추론하는 방법론에 대해서 제안한다. 문헌들을 제목과 본문으로 구분하고, 각 영역에서 등장한 유전자들을 추출한다. 제목 영역에서 추출된 유전자는 중심 유전자로 구분하고, 본문 영역에서 추출된 유전자는 제목에서 추출된 유전자와 관계를 갖는 주변 유전자로 구분한다. 이러한 과정을 각 문헌에 적용하여, 지역 유전자 네트워크를 구축한다. 구축된 지역 유전자 네트워크는 모두 연결하여 전역유전자 네트워크를 구축한다. 구축한 네트워크를 분석하여 질병 관련 유전자를 추론하였으며, 비교 실험을 통해 제안하는 방법론이 질병 관련 유전자를 추론하는 유용한 방법론임을 입증하였다.

유전자를 중간 매개로 고려한 동시발생 기반의 약물-질병 관계 추론 (Co-occurrence Based Drug-disease Relationship Inference with Genes as Mediators)

  • 신상원;신예은;장기업;윤영미
    • 한국정보기술학회논문지
    • /
    • 제16권11호
    • /
    • pp.1-9
    • /
    • 2018
  • 신약 재창출은 현재 사용되는 약물의 새로운 용도를 발견하는 방법이다. 텍스트 마이닝은 정형화되지 않은 문서로부터 의미 있는 지식을 획득하는 과정을 의미한다. 본 논문에서는 약물-유전자와 유전자-질병에서 동시에 측정된 유전자 출현 빈도의 비율을 고려하여 새로운 약물-질병 관계를 추론하는 방법을 제안한다. 생물학적 문헌으로부터 약물-유전자와 유전자-질병의 동시출현 빈도를 측정하고 각 약물과 질병에 대하여 유전자의 출현 비율을 계산한다. 약물-질병 관계의 가중치는 동시에 측정된 유전자 출현 비율의 평균을 이용하여 계산되고 이를 이용하여 각 질병의 분류 정확도를 측정한다. 약물-질병 관계를 추론하는 것에서 동시출현 빈도를 문장 단위로 측정하고 여러 관계를 고려하는 방법이 기존 방법보다 더 정확히 식별해내는 것을 보였다.

텍스트 기반 감정 추정을 위한 특징 추출 및 선택기법에 따른 성능 연구 (Study of the text analysis and feature selection performance for emotional inference)

  • 김한주;하헌석;박승현;윤성로
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.876-878
    • /
    • 2014
  • 인터넷 사용량이 급증하고 사용자들이 생성하는 데이터의 양이 증가함에 따라 사용자 데이터 분석은 객관적인 정보 탐색과 분석을 넘어 주관적인 감정을 분석하는 데까지 시도되고 있다. 이러한 감정 분석은 사업, 행정, 외교 등의 다양한 분야에 걸쳐 용용 될 수 있다. 본 연구에서는 텍스트 데이터를 주요 분석 대상으로 하여 문장 구성의 다양한 요소를 특징화하고, 특징화된 문장에 대해 다양한 서포트 벡터머신을 통한 학습을 시도함으로써 텍스트가 내포한 감정을 추측한다. 다양한 특징화 방법을 적용하되, 낮은 밀도가 될 것으로 추측되는 데이터 매트릭스의 차원 감쇄를 위해 정보엔트로피 기반의 특징 선택기법을 적용한다.

자동차 운전 중 자동 응답 및 확인을 위한 스마트 폰 안전 애플리케이션의 연구 (Research on Safe Application Program of Smart Phone for Auto Receiving and Answering during a Car Driving)

  • 홍유식;최명복
    • 한국인터넷방송통신학회논문지
    • /
    • 제15권6호
    • /
    • pp.43-49
    • /
    • 2015
  • 본 논문에서는 운전 중 스마트 폰 사용에 따른 위험도를 사전에 차단할 수 있는 스마트 폰 안전 애플리케이션을 설계 및 구현한다. 이 안전 앱은 운전 중 휴대전화 사용시 운전자의 집중력을 쉽고 자연스럽게 높여 안전 운전을 하는데 도움을 주기 위한 목적을 가지고 있다. 그러나 갑작스러운 상황이 발생해서 운전자가 운전을 포기하고 식사를 위해 이동한다든지 또는 관광지로 이동 할 경우에는 운전 중이라는 오류 텍스트를 계속 보낼 것이다. 본 논문에서는 이러한 문제점을 해결하기 위해서 퍼지규칙을 이용한 교통안전 모의실험을 수행하였다. 모의실험 결과 정지 상태 및 차량 이동 상태를 정확하게 구분할 수 있으므로 스마트폰 안전 애플리케이션을 사용 했을 때에 갑작스러운 상황으로 운전을 포기하고 식사 및 휴식을 취하는 경우에 발생하는 자동 전송 메시지 오류를 크게 줄일 수 있을 것으로 예측되었다.

Automated Prioritization of Construction Project Requirements using Machine Learning and Fuzzy Logic System

  • Hassan, Fahad ul;Le, Tuyen;Le, Chau;Shrestha, K. Joseph
    • 국제학술발표논문집
    • /
    • The 9th International Conference on Construction Engineering and Project Management
    • /
    • pp.304-311
    • /
    • 2022
  • Construction inspection is a crucial stage that ensures that all contractual requirements of a construction project are verified. The construction inspection capabilities among state highway agencies have been greatly affected due to budget reduction. As a result, efficient inspection practices such as risk-based inspection are required to optimize the use of limited resources without compromising inspection quality. Automated prioritization of textual requirements according to their criticality would be extremely helpful since contractual requirements are typically presented in an unstructured natural language in voluminous text documents. The current study introduces a novel model for predicting the risk level of requirements using machine learning (ML) algorithms. The ML algorithms tested in this study included naïve Bayes, support vector machines, logistic regression, and random forest. The training data includes sequences of requirement texts which were labeled with risk levels (such as very low, low, medium, high, very high) using the fuzzy logic systems. The fuzzy model treats the three risk factors (severity, probability, detectability) as fuzzy input variables, and implements the fuzzy inference rules to determine the labels of requirements. The performance of the model was examined on labeled dataset created by fuzzy inference rules and three different membership functions. The developed requirement risk prediction model yielded a precision, recall, and f-score of 78.18%, 77.75%, and 75.82%, respectively. The proposed model is expected to provide construction inspectors with a means for the automated prioritization of voluminous requirements by their importance, thus help to maximize the effectiveness of inspection activities under resource constraints.

  • PDF

음성지시에 의한 선박 조종 및 윈치 제어 시스템 (Ship s Maneuvering and Winch Control System with Voice Instruction Based Learning)

  • 서기열;박계각
    • 한국지능시스템학회논문지
    • /
    • 제12권6호
    • /
    • pp.517-523
    • /
    • 2002
  • 본 논문에서는 자연언어를 이용하는 인간의 학습방법에 기초한 LIBL방법의 실용화를 위하여 음성지시기반학습(VIBL : Voice Instruction Based Learing)을 선박의 조타 시스템, 주기원격제어시스템(MERCS), 윈치기기에 적용하여 항해사의 조타명령과 같은 언어적 지시가 조타수를 경유하여 수행되는 과정을 대체하는 VIBL법을 이용한 조타기, 주기 원격 조종장치, 윈치 기기를 제어하는 시스템을 제안하고자 한다. 구체적인 연구방법으로는 조타수의 적절한 조타조작모델을 퍼지추론 규칙을 이용하여 구현하고, 적절한 의미소 및 평가규칙을 제시한 언어지시 기반 학습방법을 선박의 조타시스템에 적용하여 지시자의 음성언어지시에 보다 효율적으로 응답하는 지능형 조타기 제어 시스템을 구현하고, 지시자의 음성지시를 인식하여 주기 원격 조종 장치와 윈치 기기를 제어하는 시스템을 구현한다. 음성언어지시를 인식하여 텍스트로 변환하기 위한 기법과 퍼지추론을 이용하여 조타수의 경험을 바탕으로 한 조타 조작 모델을 구축하였고, 지능형 조타 시스템을 위한 타각, 방위도달시간, 정상상태의 의미소를 제안하여, 조타수 조작 모델 규칙을 수정하기 위한 평가규칙을 제시하였다. 또한, 구현된 음성인식 선박조종 시뮬레이터에 적용하여 그 유효성을 확인하였다.

가상 데이터 생성을 통한 딥러닝 기반 문자인식 시스템 제안 (Proposal for Deep Learning based Character Recognition System by Virtual Data Generation)

  • 이승주;박구만
    • 방송공학회논문지
    • /
    • 제25권2호
    • /
    • pp.275-278
    • /
    • 2020
  • 본 논문에서는 가상 데이터 생성을 통한 딥러닝 기반 문자인식 시스템을 제안한다. 지도학습에서 가장 큰 비중을 차지하는 학습 데이터를 확보하기 위하여 가상 데이터를 생성하였다. 또한 가상 데이터를 생성 후 증강 파라미터를 이용하여, 실제 다양한 데이터에 대응하기 위해서 데이터 일반화를 하였다. 최종적으로 학습 데이터 구성은 증강 파라미터와 폰트 인자에 다양한 값을 대입하여 데이터를 생성하였다. 문자인식 성능을 측정하기 위한 테스트 데이터는 실제 촬영된 이미지 데이터에서 문자영역을 크롭하여 구성하였다. 테스트 데이터는 실제환경에서 발생할 수 있는 이미지 왜곡을 고려하여 데이터 증강하였다. 딥러닝 알고리즘은 실시간 검출에 용이한 YOLO v3를 사용하였으며, 추론결과는 후처리를 통하여 최종 검출결과를 출력한다.