• Title/Summary/Keyword: 과학 텍스트

Search Result 598, Processing Time 0.027 seconds

An Implementation of a Mobile Function for Extracting and Retrieving as Text (텍스트 추출을 위한 모바일 응용 구현)

  • Go, En-Bee;Park, Young-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.1237-1239
    • /
    • 2011
  • 본 논문에서는 다양한 상황에서의 정보 접근성을 향상시키기 위해 이미지를 검색 수단으로 사용하는 검색 시스템을 제안한다. 본 콘텐츠는 안드로이드 플랫폼 기반의 스마트폰에서 이미지를 얻어 텍스트를 추출하고, 이를 검색 엔진의 키워드로 입력하여 그 결과를 출력하는 과정을 거친다. 또한, 검색 결과를 스마트폰의 내장 데이터베이스에 저장하고, 이를 관리하여 추후에 재사용할 수 있도록 한다.

Numerical Reasoning Dataset Augmentation Using Large Language Model and In-Context Learning (대규모 언어 모델 및 인컨텍스트 러닝을 활용한 수치 추론 데이터셋 증강)

  • Yechan Hwang;Jinsu Lim;Young-Jun Lee;Ho-Jin Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.203-208
    • /
    • 2023
  • 본 논문에서는 대규모 언어 모델의 인컨텍스트 러닝과 프롬프팅을 활용하여 수치 추론 태스크 데이터셋을 효과적으로 증강시킬 수 있는 방법론을 제안한다. 또한 모델로 하여금 수치 추론 데이터의 이해를 도울 수 있는 전처리와 요구사항을 만족하지 못하는 결과물을 필터링 하는 검증 단계를 추가하여 생성되는 데이터의 퀄리티를 보장하고자 하였다. 이렇게 얻어진 증강 절차를 거쳐 증강을 진행한 뒤 추론용 모델 학습을 통해 다른 증강 방법론보다 우리의 방법론으로 증강된 데이터셋으로 학습된 모델이 더 높은 성능을 낼 수 있음을 보였다. 실험 결과 우리의 증강 데이터로 학습된 모델은 원본 데이터로 학습된 모델보다 모든 지표에서 2%p 이상의 성능 향상을 보였으며 다양한 케이스를 통해 우리의 모델이 수치 추론 학습 데이터의 다양성을 크게 향상시킬 수 있음을 확인하였다.

  • PDF

Interplay of Text Mining and Data Mining for Classifying Web Contents (웹 컨텐츠의 분류를 위한 텍스트마이닝과 데이터마이닝의 통합 방법 연구)

  • 최윤정;박승수
    • Korean Journal of Cognitive Science
    • /
    • v.13 no.3
    • /
    • pp.33-46
    • /
    • 2002
  • Recently, unstructured random data such as website logs, texts and tables etc, have been flooding in the internet. Among these unstructured data there are potentially very useful data such as bulletin boards and e-mails that are used for customer services and the output from search engines. Various text mining tools have been introduced to deal with those data. But most of them lack accuracy compared to traditional data mining tools that deal with structured data. Hence, it has been sought to find a way to apply data mining techniques to these text data. In this paper, we propose a text mining system which can incooperate existing data mining methods. We use text mining as a preprocessing tool to generate formatted data to be used as input to the data mining system. The output of the data mining system is used as feedback data to the text mining to guide further categorization. This feedback cycle can enhance the performance of the text mining in terms of accuracy. We apply this method to categorize web sites containing adult contents as well as illegal contents. The result shows improvements in categorization performance for previously ambiguous data.

  • PDF

Hypermedia, Multimedia and Hypertext: Definitions and Overview (하이퍼미디어.멀티미디어.하이퍼텍스트: 정의(定義)와 개관(槪觀))

  • Kim, Ji-Hee
    • Journal of Information Management
    • /
    • v.25 no.1
    • /
    • pp.24-46
    • /
    • 1994
  • In this paper I will discuss definitions of hypermedia, multimedia and hypertext. Hypertext is the grouping of relevant information in the form of nodes. These nodes are then connected together through links. In the case of hypertext the nodes contain text or graphics. Multimedia is the combining of different media types for example sound, animation, text, graphics and video for the presentation of information by making use of computers. Hypermedia can be viewed as an extension of hypertext and multimedia. It is based on the concept of hypertext that uses nodes and links in the structuring of information in the system. In this case the nodes consist of an the different data types that are mentioned in the multimedia definition above. The 'node-and-link' concept is used in organisation of the information in hypermedia systems. The 'book' metaphor is an example of the way these systems are implemented. This concept is explained and a few advantages and disadvantages of making use of hypermedia systems are discussed. A new approach for the development of hypermedia systems, namely the knowledge-based approach is now looked into. Joel Peing-Ling Loo proposed this approach because he thought that it is the most effective way for handling this kind of technology. A semantic-based hypermedia model is developed in this approach to formulate solutions for the restrictions in presenting information authoring, maintenance and retrieval. The knowledge-based presentation of information includes the use of conventional data structures. These data structures make use of frames(objects), slots and the inheritance theory that is also used in expert systems. Relations develop between the different objects as these objects are included in the database. Relations can also exist between frames by means of attributes that belong to the frames.

  • PDF

Real-time Text Analysis with Dialogue State Tracking and Summarizing to Assist Emergency Call Reporting (긴급 신고 접수 지원을 위한 대화 상태 추적 및 요약 기반 실시간 텍스트 분석)

  • Oh, Kyo-Joong;Kim, Jinwon;Kim, Ilhoon;Lim, Chae-Gyun;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.16-21
    • /
    • 2021
  • 소방 본부의 119 종합상황실에서는 24시간 국민의 안전을 위해 긴급 신고를 접수한다. 수보사 분들은 24시간 교대 근무를 하며 신고 전화에 접수 및 응대 뿐만 아니라 출동, 지휘, 관제 업무를 함께 수행한다. 이 논문에서는 이 같은 수보사의 업무 지원을 위해 우리가 구축한 음성 인식과 결합된 실시간 텍스트 분석 시스템에 대해서 소개하고, 출동 지령서 자동 작성을 위한 키워드 검출 및 대화 요약 및 개체명 인식에 기반한 대화 상태 추척 방법에 대해 설명하고자 한다. 대화 요약 기술은 음성 인식 결과를 실시간으로 분석하여 중요한 키워드의 검출 및 지령서 자동 작성을 위한 후처리를 수행하며, 문장 수준에서 개체명 인식 및 관계 분석을 통한 목적 대화의 대화 상태 추적을 수행한다. 이 같은 응용 시스템은 딥러닝 및 기계학습 기반의 자연어 처리 시스템이 실시간으로 텍스트 분석을 수행할 수 있는 기술 수준이 되었음을 보여주며, 긴급한 상황에서 많은 신고 전화를 접수하는 수보사의 업무 효율 증진 뿐만 아니라, 정확하고 신속한 위치 파악으로 신고자를 도와주어 국민안전 증진에 도움을 줄 수 있을 것으로 기대된다.

  • PDF

An Analysis of Flood Vulnerability by Administrative Region through Big Data Analysis (빅데이터 분석을 통한 행정구역별 홍수 취약성 분석)

  • Yu, Yeong UK;Seong, Yeon Jeong;Park, Tae Gyeong;Jung, Young Hun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.193-193
    • /
    • 2021
  • 전 세계적으로 기후변화가 지속되면서 그에 따른 자연재난의 강도와 발생 빈도가 증가하고 있다. 자연재난의 발생 유형 중 집중호우와 태풍으로 인한 수문학적 재난이 대부분을 차지하고 있으며, 홍수피해는 지역적 수문학적 특성에 따라 피해의 규모와 범위가 달라지는 경향을 보인다. 이러한 이질적인 피해를 관리하기 위해서는 많은 홍수피해 정보를 수집하는 것이 필연적이다. 정보화 시대인 요즘 방대한 양의 데이터가 발생하면서 '빅데이터', '머신러닝', '인공지능'과 같은 말들이 다양한 분야에서 주목을 받고 있다. 홍수피해 정보에 대해서도 과거 국가에서 발간하는 정보외에 인터넷에는 뉴스기사나 SNS 등 미디어를 통하여 수많은 정보들이 생성되고 있다. 이러한 방대한 규모의 데이터는 미래 경쟁력의 우위를 좌우하는 중요한 자원이 될 것이며, 홍수대비책으로 활용될 소중한 정보가 될 수 있다. 본 연구는 인터넷기반으로 한 홍수피해 현상 조사를 통해 홍수피해 규모에 따라 발생하는 홍수피해 현상을 파악하고자 하였다. 이를 위해 과거에 발생한 홍수피해 사례를 조사하여 강우량, 홍수피해 현상 등 홍수피해 관련 정보를 조사하였다. 홍수피해 현상은 뉴스기사나 보고서 등 미디어 정보를 활용하여 수집하였으며, 수집된 비정형 형태의 텍스트 데이터를 '텍스트 마이닝(Text Mining)' 기법을 이용하여 데이터를 정형화 및 주요 홍수피해 현상 키워드를 추출하여 데이터를 수치화하여 표현하였다.

  • PDF

An Extensible Text Mining Technique for the Extraction of Protein-Protein Interaction (단백질 상호작용 추출을 위한 확장성을 가진 텍스트 마이닝 기법)

  • 이현철;여은주;강희영;조완섭;김학용;유재수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.256-258
    • /
    • 2004
  • 단백질간의 상호작용에 대한 연구는 생물학적 프로세스를 이해하기 위해 중요한 부분이다. 이러한 단백질간의 상호작용에 대한 정보는 주로 생명과학 관련 연구논문에 존재하지만 컴퓨터로 자동으로 처리하여 상호작용에 관안 정보를 추출할 수 있기 위해서는 텍스트 마이닝 기술이 적용되어야 한다 바이오 텍스트 마이닝에서 대두되고 있는 중요한 쟁점은 대용량의 연구논문에서 필요한 정보를 어떻게 효율적으로 정확하게 추출할 것인가에 대한 내용이다. 또한, 관심이 있는 단백질의 종류나 관련성을 표시하는 문장내 패턴의 다양성을 수용하기 위하여 개발하는 시스템의 확장성을 높이는 것도 소프트웨어 공학적인 측면에서 중요한 이슈이다 이 논문의 목적은 생물학적 내용을 담고 있는 연구논문으로부터 단백질간의 상호작용을 추출하는 확장성을 가진 텍스트 마이닝 기법을 제안하는데 있다.

  • PDF

Analyzing and classifying emotional flow of story in emotion dimension space (정서 차원 공간에서 소설의 지배 정서 분석 및 분류)

  • Rhee, Shin-Young;Ham, Jun-Seok;Ko, Il-Ju
    • Korean Journal of Cognitive Science
    • /
    • v.22 no.3
    • /
    • pp.299-326
    • /
    • 2011
  • The text such as stories, blogs, chat, message and reviews have the overall emotional flow. It can be classified to the text having similar emotional flow if we compare the similarity between texts, and it can be used such as recommendations and opinion collection. In this paper, we extract emotion terms from the text sequentially and analysis emotion terms in the pleasantness-unpleasantness and activation dimension in order to identify the emotional flow of the text. To analyze the 'dominant emotion' which is the overall emotional flow in the text, we add the time dimension as sequential flow of the text, and analyze the emotional flow in three dimensional space: pleasantness-unpleasantness, activation and time. Also, we suggested that a classification method to compute similarity of the emotional flow in the text using the Euclidean distance in three dimensional space. With the proposed method, we analyze the dominant emotion in korean modern short stories and classify them to similar dominant emotion.

  • PDF