• 제목/요약/키워드: Maximal matching algorithm

검색결과 8건 처리시간 0.026초

Bi-directional Maximal Matching Algorithm to Segment Khmer Words in Sentence

  • Mao, Makara;Peng, Sony;Yang, Yixuan;Park, Doo-Soon
    • Journal of Information Processing Systems
    • /
    • 제18권4호
    • /
    • pp.549-561
    • /
    • 2022
  • In the Khmer writing system, the Khmer script is the official letter of Cambodia, written from left to right without a space separator; it is complicated and requires more analysis studies. Without clear standard guidelines, a space separator in the Khmer language is used inconsistently and informally to separate words in sentences. Therefore, a segmented method should be discussed with the combination of the future Khmer natural language processing (NLP) to define the appropriate rule for Khmer sentences. The critical process in NLP with the capability of extensive data language analysis necessitates applying in this scenario. One of the essential components in Khmer language processing is how to split the word into a series of sentences and count the words used in the sentences. Currently, Microsoft Word cannot count Khmer words correctly. So, this study presents a systematic library to segment Khmer phrases using the bi-directional maximal matching (BiMM) method to address these problematic constraints. In the BiMM algorithm, the paper focuses on the Bidirectional implementation of forward maximal matching (FMM) and backward maximal matching (BMM) to improve word segmentation accuracy. A digital or prefix tree of data structure algorithm, also known as a trie, enhances the segmentation accuracy procedure by finding the children of each word parent node. The accuracy of BiMM is higher than using FMM or BMM independently; moreover, the proposed approach improves dictionary structures and reduces the number of errors. The result of this study can reduce the error by 8.57% compared to FMM and BFF algorithms with 94,807 Khmer words.

IP 포워딩을 위한 스위치 포트 스케쥴링 (A Scheduling of Switch Ports for IP Forwarding)

  • 이채영;이왕환;조희권
    • 대한산업공학회지
    • /
    • 제25권2호
    • /
    • pp.233-239
    • /
    • 1999
  • With the increase of Internet protocol (IP) packets the performance of routers became an important issue in internetworking. In this paper we examined the matching algorithm in gigabit router which has input queue with virtual output queueing. Port partitioning concept is employed to reduce the computational burden of the scheduler within a switch. The input and output ports are divided into two groups such that the matching algorithm is implemented within each input-output pair group in parallel. The matching is performed by exchanging input and output port groups at every time slot to handle all incoming traffics. Two algorithms, maximal weight matching by port partitioning (MPP) and modified maximal weight matching by port partitioning (MMPP) are presented. MMPP has the lowest delay for every packet arrival rate. The buffer size on a port is approximately 20-60 packets depending on the packet arrival rates. The throughput is illustrated to be linear to the packet arrival rate, which can be achieved under highly efficient matching algorithm.

  • PDF

Optimization Driven MapReduce Framework for Indexing and Retrieval of Big Data

  • Abdalla, Hemn Barzan;Ahmed, Awder Mohammed;Al Sibahee, Mustafa A.
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권5호
    • /
    • pp.1886-1908
    • /
    • 2020
  • With the technical advances, the amount of big data is increasing day-by-day such that the traditional software tools face a burden in handling them. Additionally, the presence of the imbalance data in big data is a massive concern to the research industry. In order to assure the effective management of big data and to deal with the imbalanced data, this paper proposes a new indexing algorithm for retrieving big data in the MapReduce framework. In mappers, the data clustering is done based on the Sparse Fuzzy-c-means (Sparse FCM) algorithm. The reducer combines the clusters generated by the mapper and again performs data clustering with the Sparse FCM algorithm. The two-level query matching is performed for determining the requested data. The first level query matching is performed for determining the cluster, and the second level query matching is done for accessing the requested data. The ranking of data is performed using the proposed Monarch chaotic whale optimization algorithm (M-CWOA), which is designed by combining Monarch butterfly optimization (MBO) [22] and chaotic whale optimization algorithm (CWOA) [21]. Here, the Parametric Enabled-Similarity Measure (PESM) is adapted for matching the similarities between two datasets. The proposed M-CWOA outperformed other methods with maximal precision of 0.9237, recall of 0.9371, F1-score of 0.9223, respectively.

문자열의 최장 공통 부분문자열과 최대 반복자를 구하기 위한 상수시간 RMESH 알고리즘 (Constant Time RMESH Algorithm for Computing Longest Common Substring and Maximal Repeat of String)

  • 한선미;우진운
    • 정보처리학회논문지A
    • /
    • 제16A권5호
    • /
    • pp.319-326
    • /
    • 2009
  • 문자열 연산이 계산 생물학 분야에 응용되면서 효율적인 문자열 연산을 위한 다양한 자료구조와 알고리즘이 연구되고 있다. 최장 공통 부분 문자열 문제는 두 개 이상의 문자열에서 가장 길게 일치하는 부분문자열을 찾는 연산이며, 최대 반복자 문제는 하나의 문자열에서 두 번 이상 반복되는 부분문자열을 찾는 연산이다. 이 연산은 패턴 매칭, 유사도 측정 등의 문자열 처리 분야에서 중요하게 사용되고 있다. 본 논문에서는 RMESH(Reconfigurable MESH) 구조에서 3-차원 $n{\times}n{\times}n$ 프로세서를 사용하여 두 문자열의 최장 공통 부분문자열을 구하는 알고리즘과 주어진 문자열의 최대 반복자를 찾는 알고리즘을 제안하며, 이 알고리즘들은 모두 O(1) 시간 복잡도를 갖는다.

Grant-Aware Scheduling Algorithm for VOQ-Based Input-Buffered Packet Switches

  • Han, Kyeong-Eun;Song, Jongtae;Kim, Dae-Ub;Youn, JiWook;Park, Chansung;Kim, Kwangjoon
    • ETRI Journal
    • /
    • 제40권3호
    • /
    • pp.337-346
    • /
    • 2018
  • In this paper, we propose a grant-aware (GA) scheduling algorithm that can provide higher throughput and lower latency than a conventional dual round-robin matching (DRRM) method. In our proposed GA algorithm, when an output receives requests from different inputs, the output not only sends a grant to the selected input, but also sends a grant indicator to all the other inputs to share the grant information. This allows the inputs to skip the granted outputs in their input arbiters in the next iteration. Simulation results using OPNET show that the proposed algorithm provides a maximum 3% higher throughput with approximately 31% less queuing delay than DRRM.

Deadlock 회피책에 대한 개선방안 연구 (An Improvement of the Deadlock Avoidance Algorithm)

  • 김태영;박동원
    • 공학논문집
    • /
    • 제1권1호
    • /
    • pp.49-57
    • /
    • 1997
  • 본 논문에서는 Habermann의 deadlock 회피책에 대한 기존의 방안을 향상시킬 수 있는 방법을 고안하였다. 먼저 correction, efficiency, concurrency 측면에서 기존의 개선 방법들을 비교 분석한 다음, 대표적인 Kameda의 개선방안을 심도있게 논의한다. Dinic의 알고리듬을 채택한 Kamedia의 방법에서는 실행시간 O($mn^1.5$)이 요구되지만 Karzanov의 wave method를 응용하여 본고에서 제안한 faster algorithm에서는 실행시간 O($mn^1.5$)이 됨을 보인다.

  • PDF

최대 매칭 문제의 최소차수 정점 간 간선 선택 알고리즘 (Algorithm for Minimum Degree Inter-vertex Edge Selection of Maximum Matching Problem)

  • 이상운
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권5호
    • /
    • pp.1-6
    • /
    • 2022
  • 본 논문은 최대 매칭 문제(MCM)를 다루었다. MCM은 일반적으로 증대경로 기법으로 구한다. 일반 그래프에 대한 MCM을 구하는 증대경로 알고리즘으로는 $O({\sqrt{n}}m)$ 복잡도, 이분 그래프에 대해서는 O(m log n) 복잡도를 갖고 있다. 반면에, 본 논문에서는 주어진 그래프가 일반 그래프나 이분그래프의 그래프 종류에 상관없이 항상 O(n) 복잡도로 MCM을 구하는 알고리즘을 제안하였다. 제안된 알고리즘은 "최대 매칭을 구하기 위해서는 가능한 많은 정점 쌍의 간선을 선택해야만 한다."는 기본 원리에 근거하여 최소차수 정점 u와 NG(u)들 중 최소차수 정점 𝜐간 간선 {u,𝜐}를 𝜈(G)=k회 단순히 선택하는 간단한 방법이다. 제안된 알고리즘을 일반그래프와 이분그래프의 다양한 실험 데이터들에 적용한 결과 𝜈(G)를 정확하게 구할 수 있음을 보였다.

매칭 문제를 위한 효율적인 랜덤 병렬 알고리즘 (Efficient Randomized Parallel Algorithms for the Matching Problem)

  • 우성호;양성봉
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권10호
    • /
    • pp.1258-1263
    • /
    • 1999
  • 본 논문에서는 CRCW(Concurrent Read Concurrent Write)와 CREW(Concurrent Read Exclusive Write) PRAM(Parallel Random Access Machine) 모델에서 무방향성 그래프 G=(V, E)의 극대 매칭을 구하기 위해 간결한 랜덤 병렬 알고리즘을 제안한다. CRCW PRAM 모델에서 m개의 선을 가진 그래프에 대해, 제안된 매칭 알고리즘은 m개의 프로세서 상에서 {{{{ OMICRON (log m)의 기대 수행 시간을 가진다. 또한 CRCW 알고리즘을 CREW PRAM 모델에서 구현한 CREW 알고리즘은 OMICRON (log^2 m)의 기대 수행 시간을 가지지만,OMICRON (m/logm) 개의 프로세서만을 가지고 수행될 수 있다.Abstract This paper presents simple randomized parallel algorithms for finding a maximal matching in an undirected graph G=(V, E) for the CRCW and CREW PRAM models. The algorithm for the CRCW model has {{{{ OMICRON (log m) expected running time using m processors, where m is the number of edges in G We also show that the CRCW algorithm can be implemented on a CREW PRAM. The CREW algorithm runs in {{{{ OMICRON (log^2 m) expected time, but it requires only OMICRON (m / log m) processors.