• 제목/요약/키워드: 공통 토큰

검색결과 6건 처리시간 0.02초

공통 토큰에 기반한 서로 다른 언어의 유사성 검사 (Cross-Language Clone Detection based on Common Token)

  • 홍성문;김현하;이제형;박성우;모지환;도경구
    • 한국소프트웨어감정평가학회 논문지
    • /
    • 제14권2호
    • /
    • pp.35-44
    • /
    • 2018
  • 서로 다른 언어로 작성된 소스코드의 유사성 검사는 주로 요약구문트리를 기반으로 비교를 수행한다. 하지만 대규모의 소스코드를 실용적인 수준으로 비교하려면 토큰수준 기반에서 작동하는 유사성 검사 기술이 필요하다. 본 연구에서는 서로 다른 언어에서 생성되었지만 같은 의미를 지닌 토큰을 표현할 수 있는 공통 토큰을 정의하고, 소스코드에서 언어별 처리 과정을 거쳐 생성한 공통 토큰의 나열을 입력으로 소스코드의 유사성 검사를 수행하는 방법을 제안한다. 한국저작권위원회의 표절검사 도구 exEyes를 사용해서 서로 다른 언어로 작성된 동일한 코드를 대상으로 실험한 결과, 제안한 방법을 사용했을 때, 유사성 평가 성능이 향상됨을 보였다.

Patent Tokenizer: 형태소와 SentencePiece를 활용한 특허문장 토크나이즈 최적화 연구 (Patent Tokenizer: a research on the optimization of tokenize for the Patent sentence using the Morphemes and SentencePiece)

  • 박진우;민재옥;심우철;노한성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.441-445
    • /
    • 2020
  • 토큰화(Tokenization)는 사람이 작성한 자연어 문장을 기계가 잘 이해할 수 있도록 최소 단위인 토큰으로 분리하는 작업을 말하여, 이러한 토큰화는 자연어처리 전반적인 태스크들의 전처리에 필수적으로 사용되고 있다. 최근 자연어처리 분야에서 높은 성능을 보이며, 다양한 딥러닝 모델에 많이 활용되고 있는 SentencePiece 토큰화는 여러 단어에서 공통적으로 출현하는 부분단어들을 기준으로, BPE 알고리즘을 이용하여 문장을 압축 표현하는 토큰화 방법이다. 본 논문에서는 한국어 기반 특허 문헌의 초록 자연어 데이터를 기반으로 SentencePiece를 비롯한 여러 토큰화 방법에 대하여 소개하며, 해당 방법을 응용한 기계번역 (Neural Machine Translation) 태스크를 수행하고, 토큰화 방법별 비교 평가를 통해 특허 분야 자연어 데이터에 최적화된 토큰화 방법을 제안한다. 그리고 본 논문에서 제안한 방법을 사용하여 특허 초록 한-영 기계번역 태스크에서 성능이 향상됨을 보였다.

  • PDF

맞춤 접두 필터링을 이용한 효율적인 유사도 조인 (Efficient Similarity Joins by Adaptive Prefix Filtering)

  • 박종수
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권4호
    • /
    • pp.267-272
    • /
    • 2013
  • 데이터 정제나 복사 탐지와 같은 많은 응용들을 가진 중요한 연산인 유사도 조인은 도전적인 주제로 데이터집합에서 주어진 한계치 이상의 유사도를 가지는 모든 쌍의 레코드들을 찾는 것이다. 우리는 빠른 유사도 조인을 위해 후보 쌍들의 생성 시에 접두 필터링 원리를 강한 제약 조건으로 사용하는 새 알고리즘을 제안한다. 그 원리에 의해 한정된 접두 토큰들내에서 탐색 레코드의 현재 접두 토큰이 인덱싱 레코드의 접두 토큰을 공유할 때에만 후보 쌍이 생성된다. 이 생성 방법은 두 레코드들 사이에 공통부분의 상한 값을 계산할 필요가 없어서 실행시간을 감소시킨다. 실제 데이터 집합에 적용된 실험 결과는 제안된 알고리즘이 이전의 접두 필터링 방법의 알고리즘들에 비해 상당히 우수함을 보여준다.

실시간 동시통번역의 정책기반 성능 비교 연구 (Policy-based performance comparison study of Real-time Simultaneous Translation)

  • 이정섭;문현석;박찬준;서재형;어수경;이승준;구선민;임희석
    • 한국융합학회논문지
    • /
    • 제13권3호
    • /
    • pp.43-54
    • /
    • 2022
  • 동시통번역은 문장의 일부만으로 번역을 시작하는 온라인 디코딩으로 지연 대비 번역 성능을 평가 지표로 사용한다. 동시통번역 연구의 공통의 목적은 지연 대비 번역 성능을 높이는 것으로, 지연과 번역 성능 사이의 적절한 절충점을 찾는 것이다. 본 논문은 이러한 동시통번역의 현재 연구 흐름을 반영하여 한국어에서 고정 정책 기반 동시통번역의 비교 실험을 진행하였다. 또한, 한국어에서 동시통번역은 토큰화 과정에서 많은 분절이 발생하여 다른 언어 대비 불필요한 지연이 발생하게 되고, 이를 해결하기 위한 n-gram 토큰화 방안 등의 후속 연구의 필요성에 대해 제시하였다.

중앙값을 필터로 이용한 유사도 조인 알고리즘 (A Similarity Join Algorithm Using a Median as a Filter)

  • 박종수
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권2호
    • /
    • pp.71-76
    • /
    • 2015
  • 유사도 조인 처리에서 일반적인 기법은 생성-검증 구조를 사용하여, 첫 번째 생성 단계는 레코드들의 집합에서 후보 쌍들의 집합을 생성하고 두 번째 단계는 실제 유사도를 계산하여 각 후보 쌍을 검증한다. 검증 단계에서 후보 쌍들의 개수를 줄이기 위하여 본 논문에서는 각 후보 쌍의 한 레코드의 중앙값을 다른 레코드와 공통되는 토큰들의 개수가 적절하게 가질 수 있는지를 검사하는 필터로 사용한다. 중앙값 필터를 가지는 유사도 조인 알고리즘을 제안하고 제안된 알고리즘이 실세계 데이터집합에서 여러 실험을 통해 중앙값 필터를 갖지 않는 최근의 알고리즘들에 비해 실행시간에서 더 좋은 성능을 가진다는 것을 보여준다.

빅데이터 분석 방법론을 활용한 지방자치단체 단위과제 운영 지원도구 개발 연구 (Research on Development of Support Tools for Local Government Business Transaction Operation Using Big Data Analysis Methodology)

  • 김다빈;이은정;류한조
    • 기록학연구
    • /
    • 제70호
    • /
    • pp.85-117
    • /
    • 2021
  • 이 연구의 목적은 지방자치단체에서 사용하고 있는 단위과제 현황, 단위과제 운영 및 기록관리 관점의 문제점을 조사 및 분석하여 그 과정에서 도출된 시사점들을 기반으로 텍스트 기반 빅데이터 기술을 활용하여 문제점에 대한 개선방안을 제시하는 것이다. 지방자치단체는 단위과제의 오분류로 인한 보존기간 책정 오류, 과공통사무와 기관공통사무의 유형식별 불가, 단위과제의 과대·과소·중복생성의 오류, 단위과제 명칭의 오류, 참고 가능한 표준의 부재, 통제 가능한 시스템 또는 도구의 부재 등으로 인해 기록관리 운영상 심각한 상태에 놓여 있다. 그러나 단위과제의 수가 약 72만개로 지나치게 많은 수량 때문에 효과적으로 통제할 수 없는 실정이며, 따라서 엄밀하고 통제할 수 있는 도구 및 표준이 필요하다. 본 연구에서는 이와 같은 문제점을 해결하기 위하여 빅데이터 분석 기술 중 텍스트기반 분석 도구인 코퍼스와 토큰화 기술을 적용한 시스템을 개발하고, 이를 기록관리기준표를 구성하고 있는 명칭 및 구성용어에 적용하였다. 이러한 단위과제 운영 지원도구는 통일성 있는 보존 기간 책정, 위임사무 기록물 식별, 중복·유사단위과제 생성 통제, 공통 과제의 표준적인 운영 등을 지원할 수 있는 도구가 될 수 있어 기록관리 업무에 상당한 기여를 할 수 있을 것으로 예상된다. 따라서 향후 빅데이터 분석 방법론을 활용한 지원도구가 BRM 및 RMS 등과 연계할 수 있다면 기록관리기준표 관리 업무의 품질이 높아질 수 있을 것으로 보인다.