• 제목/요약/키워드: R언어

검색결과 404건 처리시간 0.025초

Patent Tokenizer: 형태소와 SentencePiece를 활용한 특허문장 토크나이즈 최적화 연구 (Patent Tokenizer: a research on the optimization of tokenize for the Patent sentence using the Morphemes and SentencePiece)

  • 박진우;민재옥;심우철;노한성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.441-445
    • /
    • 2020
  • 토큰화(Tokenization)는 사람이 작성한 자연어 문장을 기계가 잘 이해할 수 있도록 최소 단위인 토큰으로 분리하는 작업을 말하여, 이러한 토큰화는 자연어처리 전반적인 태스크들의 전처리에 필수적으로 사용되고 있다. 최근 자연어처리 분야에서 높은 성능을 보이며, 다양한 딥러닝 모델에 많이 활용되고 있는 SentencePiece 토큰화는 여러 단어에서 공통적으로 출현하는 부분단어들을 기준으로, BPE 알고리즘을 이용하여 문장을 압축 표현하는 토큰화 방법이다. 본 논문에서는 한국어 기반 특허 문헌의 초록 자연어 데이터를 기반으로 SentencePiece를 비롯한 여러 토큰화 방법에 대하여 소개하며, 해당 방법을 응용한 기계번역 (Neural Machine Translation) 태스크를 수행하고, 토큰화 방법별 비교 평가를 통해 특허 분야 자연어 데이터에 최적화된 토큰화 방법을 제안한다. 그리고 본 논문에서 제안한 방법을 사용하여 특허 초록 한-영 기계번역 태스크에서 성능이 향상됨을 보였다.

  • PDF

심층 신경망을 이용한 자연어 지시의 실시간 시각적 접지 (Real-Time Visual Grounding for Natural Language Instructions with Deep Neural Network)

  • 황지수;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.487-490
    • /
    • 2019
  • 시각과 언어 기반의 이동(VLN)은 3차원 실내 환경에서 실시간 입력 영상과 자연어 지시들을 이해함으로써, 에이전트 스스로 목적지까지 이동해야 하는 인공지능 문제이다. 이 문제는 에이전트의 영상 및 자연어 이해 능력뿐만 아니라, 상황 추론과 행동 계획 능력도 함께 요구하는 복합 지능 문제이다. 본 논문에서는 시각과 언어 기반의 이동(VLN) 작업을 위한 새로운 심층 신경망 모델을 제안한다. 제안모델에서는 입력 영상에서 합성곱 신경망을 통해 추출하는 시각적 특징과 자연어 지시에서 순환 신경망을 통해 추출하는 언어적 특징 외에, 자연어 지시에서 언급하는 장소와 랜드마크 물체들을 영상에서 별도로 탐지해내고 이들을 추가적으로 행동 선택을 위한 특징들로 이용한다. 다양한 3차원 실내 환경들을 제공하는 Matterport3D 시뮬레이터와 Room-to-Room(R2R) 벤치마크 데이터 집합을 이용한 실험들을 통해, 본 논문에서 제안하는 모델의 높은 성능과 효과를 확인할 수 있었다.

시각-언어 이동 작업을 위한 장소 미리보기 메모리 (Lookahead Place Memory for Vision-Language Navigation Tasks)

  • 오선택;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.992-995
    • /
    • 2020
  • 시각-언어 이동 작업은 에이전트가 주어진 지시를 따라 특정 실내 공간 내에서 목적 위치로 이동하는 작업이다. 시각-언어 이동 작업의 특성상 자연어 지시 속에 등장하는 랜드마크인 장소 정보를 인지하는 것은 작업을 수행하는 데 큰 도움이 된다. 본 논문에서는 환경을 구성하는 주요 장소 정보를 저장하기 위한 장소 미리보기 메모리를 제안한다. 에이전트는 장소 미리보기 메모리에 저장된 장소 정보를 고려하여 작업을 수행하게 된다. 본 논문에서는 Matterport3D 시뮬레이션 환경에서의 실험을 통해 R2R 벤치마크 데이터 집합에서 가장 높은 성능을 보였다.

정책기반 RFID 데이터 관리 이벤트 정의 언어 (A Policy-driven RFID Data Management Event Definition Language)

  • 송지혜;김광훈
    • 인터넷정보학회논문지
    • /
    • 제12권1호
    • /
    • pp.55-70
    • /
    • 2011
  • 본 논문 에서는 기존의 대표적인 RFID 미들웨어 표준인 RFID 응용 인터페이스 표준규격1)으로 적용가능한 정책 기반의 RFID 데이터 관리 이벤트 정의 언어를 제안한다. 즉, RFID 응용인터페이스는 RFID 미들웨어의 핵심 구성요소인 데이터관리 기능, 장치관리 기능, 장치인터페이스 기능, 정보보호관리 기능을 응용 프로그램에게 제공하기 위한 표준인터페이스이며, 본 논문에서 제안하는 언어는 그 중 RFID 미들웨어의 데이터관리 기능, 즉 이벤트관리 기능을 지원하기 위한 추상화된 인터페이스를 제공하는데 그 목적이 있다. 특히, 이벤트 제약조건을 정의하기 위한 정책의 개념은 RF 리더들로부터 읽혀지는 대용량의 태그데이터를 정제 또는 여과시키기 위한 이벤트 제약조건들을 정의하는 수단으로서 RFID 미들웨어의 기능에 대한 기술적 전문지식이 부족한 응용프로그램 개발자들이 자신의 응용영역을 쉽게 표현할 수 있을 뿐 만 아니라 고수준의 추상화된 인터페이스를 제공할 수 있는 매우 효과적인 수단이라고 할 수 있다. 결과적으로, 본 논문에서는 RFID 응용인터페이스의 상세표준규격으로 제정 될 수 있는 일명 rXPDL, XML기반의 RFID 데이터 관리 이벤트 정책 정의 언어 (rXPDL: XML-based RFID Data Management Event Policy Definition Language)를 정의하며, 이는 곧 정책기반 RFID 데이터 관리 응용인터페이스 정의 언어로서 국내외 표준 규격의 기반이 될 것으로 기대한다. 또한, rXPDL의 상세표준규격들은 유비쿼터스센서네트워크 미들웨어의 데이터 관리를 위한 표준규격으로서의 확장을 기대할 수도 있다.

SparkR을 이용한 R 기반 빅데이터 분석의 분산 처리 (Distributed Processing of Big Data Analysis based on R using SparkR)

  • 류우석
    • 한국전자통신학회논문지
    • /
    • 제17권1호
    • /
    • pp.161-166
    • /
    • 2022
  • 본 논문에서는 데이터 분석 도구인 R을 이용하여 빅데이터 분석을 수행할 때 발생하는 문제점을 분석하고, 빅데이터의 분산 처리를 효과적으로 지원하는 스파크와 R을 연계한 SparkR을 이용한 분석의 유용성을 제시하고자 한다. 먼저, 대량의 데이터를 로딩하고 연산을 수행할 때 발생하는 R의 메모리 할당 문제점과 R과 비교한 SparkR의 특징 및 프로그래밍 환경을 분석한다. 그리고, 선형 회귀 분석을 각각의 환경에서 수행할 때의 실행 성능을 비교 분석한다. 분석 결과 SparkR을 통해 추가적인 언어 학습 없이도 R을 그대로 이용하여 데이터 분석에 활용할 수 있음을 보였으며, SparkR을 이용하여 R로 작성된 코드를 클러스터 내 노드 수의 증가에 따라 효과적으로 분산 처리할 수 있었다.

Two Generations in Texas Dialect

  • Park Jookyung
    • 대한음성학회지:말소리
    • /
    • 제29_30호
    • /
    • pp.1-18
    • /
    • 1995
  • 미국 남부 방언은 그 지역의 광대함과 아울러 그 지역에 속하는 언어사용자들의 언어 문화 및 역사적인 다양성에 의해 결코 한 가지 방언으로 취급할 수 없는 것임에도 불구하고 많은 경우에 그렇게 다루어져 왔다. 특히 소위 '남부 방언의 특징적 요소'로서 몇몇 자질들에 대한 연구가 많이 이루어져 왔다. 본 논문의 목적은 텍사스 지역방언에 이러한 남부 방언의 특징적 자질이 어느 정도 유지되고 있는가를 알아보고, 아울러 두 세대간에 언어적 차이가 있는지, 있다면 그 변화의 방향은 어느 쪽으로 전개되어가고 있는지를 밝히려는 데 있다. 이를 위하여 토박이 텍사스 인에 한하여 한 가정에서 두 세대(늙은 세대와 젊은 세대)를 대표하는 정보제공자 두 명씩을 각각 추출하여 네 가정 모두 여덟 명에게서 얻은 언어자료를 녹음하여 이를 분석, 정리하였다. 텍사스 지역방언에 대해 밝혀진 주요 내용은 다음과 같다. 1. /l/앞에 나오는 단순모음 /i/는 [$r{\partial}$] 또는 [$r{\partial}$]로 이중모음화된다. 2. 강세음절에서 비음 앞에 나오는 /e/와 /I/는 중화된다. 3. 늙은 세대에서는 /a/와 /${\supset}$/가 융합되어 쓰이나, 젊은 세대에서는 융합이 일어나지 않는다. 4. 이중모음 /ar/는 /a:/또는 /a/로 단순모음화하는 것으로 보인다. 5. 이중로음 /$a{\mho}$/ /$o{\mho}$/의 앞모음이 전설화한다. 6. [u], [ju] 와 [${\mho}$]는 모두 [${\mho}$]로 된다. 7. [w] 와 [M]는 일관성 없이 교대로 사용되나 [M]는 특히 늙은 세대에서 더 많이 사용된다.

  • PDF

WebER: R을 이용한 웹 기반의 교육용 통계 분석 시스템 구현 (WebER: Web Based Statistical Tool Interfacing R for Teaching Purposes)

  • 고영준;박용민;김진석
    • Communications for Statistical Applications and Methods
    • /
    • 제19권2호
    • /
    • pp.257-266
    • /
    • 2012
  • 최근 학교나 기업에서 통계분석 소프트웨어인 R의 이용자가 늘어나고 있는 추세이지만 SPSS나 SAS 등 상용소프트웨어에 비하여 학습이 어려운 측면이 있고 교육환경을 만들기 위해서도 번거로운 면이 있다. 이러한 이유로 R 초보사용자를 위한 교육, 혹은 실험실에서의 사용을 위해 통합관리가 용이한 웹기반의 R 환경구축이 필요하다. 웹기반 R 환경구축과관련된 선행연구들은 웹프로그래밍 언어, DBMS에 대한 지식을 필요로 하거나 제한된 통계분석 기능만을 이용할 수 있다. 본 연구에서는 웹프로그래밍 언어 이외의 별도의 지식이 없이도 가능한 웹기반 R 환경인 WebER를 개발하였다. WebER는 Linux apache 서버에서 PHP를 이용하여 R과 연동함으로써 웹에서 통계 분석이 가능하도록 하였을 뿐만 아니라, 기본적인 Rgui의 기능인 R 프로그램편집, 텍스트 및 그래픽 출력, 오류 출력 등을 구현함으로써 초보 R 사용자를 위한 교육환경에 적합하도록 하였다. 또한 다중사용자가 동시에 이용이 가능하도록 설계되었다.

빅데이터 분석도구 R을 활용한 기상뉴스 데이터분석 (Analysis of Weather News using Big Data Analytics Tools R)

  • 김용수;반재훈
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 추계학술대회
    • /
    • pp.448-450
    • /
    • 2016
  • 정보기술과 디지털 경제의 확산으로 대규모의 데이터가 생산되는 정보화시대에서 빅 데이터의 중요성이 강조되고 있으며 다양한 분야에서 이를 응용하고 있다. 빅 데이터 분석도구인 R은 통계 기반의 정보 분석을 가능하게 하는 언어와 환경이다. 본 논문에서는 R을 이용하여 기상뉴스에 나타난 기상관련 빅 데이터를 분석한다. 다양한 뉴스에서 기상 관련 데이터를 수집하고 어떠한 텍스트가 분포되어 있는지 빈도 조사를 수행한다.

  • PDF

'공평한' 언어를 위하여 -독일어 개혁의 페미니즘적 노력- ($F\"{u}r$ eine 'gerechte' Sprache -Zu den feministischen $Bem\"{u}chungen$ um eine Reform des Deutschen)

  • 페터 슈미터
    • 한국독어학회지:독어학
    • /
    • 제3집
    • /
    • pp.5-34
    • /
    • 2001
  • 최근 구직광고, 시청, 정치 정당, 행정부처나 특정 일간지와 시사잡지의 최근 정보 팜플렛을 1981년 이전에 나온 관련 출판물들과 비교해보면 지난 20년 동안 현대 독일어 체계에서 주목할 만한 변화가 일어났으며 어느 정도 성과가 있었음을 어렵지 않게 알 수 있을 것이다. 언어의 실천 분야에서 1981년에 처음 나타난 이런 변화(vgl. Guentherodt, Ingrid / Hellinger, Marlis/Pusch, Luise F./Tromel-Plotz, Senta: Richtliruen 2ur Vermeidung sexistischen Sprachgebrauchs. In: Linguistische Berichte H. 71, 1981, 1-7)는 특히 어휘와 대명사 체계뿐 아니라 관사체계와 명사곡용과 관련된 변화에 대해서도 관심을 보이고 있다. 이런 언어변화는 계몽적 논문 그리고 '신 여성운동'과 그 결과로 나타난 '페미니즘 언어학'의 부단한 요구가 결정적이었다. 여기서 말하는 요구란 전통적인 언어체계에 머물러 있던 '성차별'을 없애고 독일어를 개혁함으로써 어휘와 문법에서 여성의 대표성을 감지할 수 있을 정도로 남성적-가부장적 관점의 지배적인 면을 없애고 '공평한 언어'를 만들어내는 것이었다. 궁극적으로 사람들은 이런 언어개혁을 통하여 여성의 사회적인 권리평등의 길을 마련하고 싶었다. 이 논문의 목적은 이런 복잡한 문제를 좀 더 알기 쉽게 밝혀보려는 것이다. 이를 위하여 첫 번째로 사회 정치적인 맥락에서 언어 개혁을 위한 노력을 살피고 언어 이론적인 토대를 질문하였다. 두 번째로 독일 페미니즘 언어학의 구체적인 역사적 기원을 간단히 살펴보았다. 세 번째로 개혁안을 자세히 논의하면서 체계적으로 정리하였다. 마지막으로 네 번째로는 개혁안과 그의 언어학적 기초에 대한 비판의 핵심 쟁점을 살피고, 찬반주장이 또 다른 분야로, 즉 한편으로 언어정책(찬성 주장) 분야로 다른 한편으로 체계언어학(반대 주장) 분야로 확대되기 때문에 언어개혁에 대한 페미니즘적 노력의 지지자와 반대자간의 논쟁에서 해결할 수 없는 것으로 보이는 문제를 테제로 제시하였다.

  • PDF