--- title: Reguliere Expressies slug: Web/JavaScript/Guide/Reguliere_Expressies tags: - JavaScript - RegExp - regex - reguliere expressies translation_of: Web/JavaScript/Guide/Regular_Expressions ---
Reguliere expressies zijn patronen om combinaties van karakters in strings mee te vinden. In JavaScript zijn reguliere expressies ook objecten. Deze patronen worden gebruikt met de {{jsxref("RegExp.exec", "exec")}} en {{jsxref("RegExp.test", "test")}} methoden van {{jsxref("RegExp")}}, en met de {{jsxref("String.match", "match")}}, {{jsxref("String.replace", "replace")}}, {{jsxref("String.search", "search")}}, en {{jsxref("String.split", "split")}} methoden van {{jsxref("String")}}. Dit hoofdstuk beschrijft reguliere expressies in JavaScript.
Een reguliere expressie kan op een van twee manieren gemaakt worden:
Met behulp van een letterlijke reguliere expressie, die bestaat uit een patroon tussen slash-karakters:
var re = /ab+c/;
Letterlijke reguliere expressies worden gecompileerd op het moment dat het script geladen is. Als de reguliere expressie constant blijft kan dit de prestaties verbeteren.
Of door de constructor-functie van het {{jsxref("RegExp")}} object te gebruiken, op de volgende manier:
var re = new RegExp('ab+c');
Het gebruik van de constructor-functie biedt runtime-compilatie van de reguliere expressie. Gebruik de constructor functie als je weet dat het reguliere expressie patroon zal veranderen, of als je het patroon niet weet en uit een andere bron krijgt, zoals input van een gebruiker.
Een reguliere expressie bestaat uit eenvoudige karakters zoals /abc/
, of een combinatie van eenvoudige en speciale karakters, zoals /ab*c/
of /Hoofdstuk (\d+)\.\d*/
. Het laatste voorbeeld bevat haakjes die gebruikt worden als geheugen mechanisme. De overeenkomst die met dit deel gemaakt is wordt onthouden voor later gebruik., zoals beschreven in Using parenthesized substring matches.
Eenvoudige patronen bestaan uit karakters waarvoor je een directe overeenkomst wilt vinden. Het patroon /abc/
bijvoorbeeld komt alleen overeen met karakter combinaties als de karakters 'abc' samen voorkomen in exact die volgorde. Zo'n overeenkomst zou successvol zijn in de strings "Hi, do you know your abc's?" en "The latest airplane designs evolved from slabcraft." In beide gevallen is de overeenkomst de substring 'abc'. Er is geen overeenkomst met de string 'Grab crab' omdat hoewel het de substring 'ab c' bevat, het niet de precieze substring 'abc' bevat.
Als het zoeken naar een overeenkomst meer vergt dan een directe overeenkomst, zoals het vinden van een of meerdere b's, of het vinden van witregels/ruimte, bevat het patroon speciale karakters. Het patroon /ab*c/
bijvoorbeeld komt overeen met elke combinatie karakters waarbij een enkele 'a' gevolgd wordt door nul of meerdere b's. (*
betekent 0 of meer gevallen van het voorgaande item) en dan onmiddelijk gevolgd door 'c'. In de string "cbbabbbbcdebc," komt het patroon overeen met de substring 'abbbbc'.
Onderstaande tabel geeft een volledige lijst en beschrijving van de speciale karakters die gebruikt kunnen worden in reguliere expressies.
Karakter | Betekenis |
---|---|
\ |
Matched volgens de volgende regels: Vergeet niet om de |
^ |
Matched het begin van de input. Matched ook direct na een line break karakter als de multiline vlag ingesteld is op 'true'. Als voorbeeld, /^A/ matched niet de 'A' in "uit Amsterdam", maar matched wel de 'A' in "Apenstaartje".De ' ^ ' heeft een verschillende betekenis wanneer het voorkomt als het eerste karakter in een karakterset patroon. Zie complemented character sets voor details en een voorbeeld. |
$ |
Matched het einde van de input. Matched ook direct voor een line break karakter als de multiline vlag is ingesteld. Als voorbeeld, |
* |
Matched de voorafgaande expressie 0 of meerdere malen. Equivalent aan Als voorbeeld, |
+ |
Vind de voorafgaande expressie 1 of meerdere malen. Equivalent aan Als voorbeeld, |
? |
Matched de voorafgaande expressie 0 of 1 maal. Equivalent aan Als het direct na de quantifiers *, +, ?, or {} wordt gebruikt maakt het deze niet-gretig (matched het minst mogelijke aantal karakters), in tegenstelling tot de standaard, die gretig is (matched zo veel mogelijk karakters als mogelijk). Bijvoorbeeld, Wordt ook gebruikt in lookahead stellingen, zoals beschreven in de |
. |
(De decimale punt) matched welk individueel karakter dan ook, met uitzondering van de newline. Als voorbeeld, Wanneer de |
(x) |
Matched 'x' en onthoudt de match, zoals het volgende voorbeeld toont. De haakjes worden capturing parentheses genoemd |
(?:x) |
Matched 'x' maar onthoudt de match niet. De haakjes heten non-capturing haakjes, en maken het mogelijk om sub-expressies te definiëren voor regular expression operators om mee te werken. Overweeg de voorbeeld expressie /(?:foo){1,2}/ . Als de expressie /foo{1,2}/ was, zouden de {1,2} karakters alleen van toepassing zijn op de laatste 'o' in 'foo'. met de non-capturing haakjes, is {1,2} van toepassing op het gehele woord 'foo'. Voor meer informatie, zie Using parentheses. |
x(?=y) |
Matched 'x' alleen als 'x' gevolgd wordt door 'y'. Dit heet een 'lookahead'. Als voorbeeld, |
x(?!y) |
Matched 'x' alleen als 'x' niet gevolgd wordt door 'y'. Dit heet een negated lookahead. Als voorbeeld, |
(?<=y)x |
Matched Als voorbeeld, / |
(?<!y)x |
Matched Als voorbeeld, |
x|y |
Matched 'x', of 'y' (indien er geen match is voor 'x'). Als voorbeeld, |
{n} |
Matched de voorafgaande expressie precies n maal. N moet een positief getal zijn. Als voorbeeld, /a{2}/ matched de 'a' in "candy" niet, maar matched wel alle a's in "caandy," en de eerste twee a's in "caaandy." |
{n,} |
Matched de voorafgaande expressie tenminste n maal. N moet een positief getal zijn. Als voorbeeld, /a{2,}/ matched "aa", "aaaa" en "aaaaa" maar niet "a" |
{n,m} |
Waar Als voorbeeld, |
[xyz] |
Karakter set. Dit type patroon matched een van de karakters tussen de haken, inclusief escape sequences. Speciale karakters zoals de punt(. ) en asterisk(* ) zijn niet speciaal binnen een karakter set, en hoeven niet geëscaped te worden. Je kan een reeks karakters specificeren door een streepje te gebruiken , zoals het volgende voorbeeld illustreert.Het patroon [a-d] , wat dezelfde match uitvoert als [abcd] , matched de 'b' in "brisket" en de 'c' in "city". De patronen /[a-z.]+/ en /[\w.]+/ matchen de gehele string "test.i.ng". |
[^xyz] |
Een genegeerde karakter set, dat wil zeggen het matched alles wat niet binnen de haakjes staat. Je kan een reeks karakters specificeren door een streepje te gebruiken. Alles wat werkt in een normale karakter set werkt ook hier. Als voorbeeld, |
[\b] |
Matched een backspace (U+0008). Je hebt vierkante haakjes nodig om een letterlijk backspace karakter te matchen. (Niet te verwarren met |
\b |
Matched een woordgrens. een woordgrens matched de positie tussen een woord karakter gevolgd door een niet-woord karakter, of tussen een niet-woord karakter gevolgd door een woord karakter, of thet begin van de string, of het einde van de string. Een woordgrens is geen "karakter" om te matchen; net als een anker wordt een woordgens niet toegevoegd aan de match. In andere woorden, de lengte van een gematchede woordgrens is nul. (Niet te verwarren met [\b] Voorbeelden met de input string "moon":
N.B.: JavaScript's reguliere expressie engine definieert een specifieke groep karakters als "woord" karakters. Enig karakter niet in groep wordt als non-woord karakter beschouwd. Deze groep karakters is redelijk beperkt: het bestaat enkel uit het Romeinse alfabet in zowel hoofd- als kleine letters, decimale getallen en het underscore karakter. Geaccentueerde karakters zoals "é" of "ü" worden helaas behandelt als non-woord karakters voor wat betreft woordgrenzen, evenals ideografische karakters (e.g. Chinees, Japans, Koreaans) in het algemeen. |
\B |
Matched een non-woordgrens. Dit matched de volgende gevallen:
Als voorbeeld, |
\cX |
Waar X een karakter is in de reeks van A tot Z. Matched een control karakter in een string. Als voorbeeld, |
\d |
Matched een numeriek (digit) karakter. Equivalent aan Als voorbeeld, |
\D |
Matched een niet-numeriek karacter. Equivalent aan Als voorbeeld, |
\f |
Matched een form feed (U+000C). |
\n |
Matched een line feed (U+000A). |
\r |
Matched een carriage return (U+000D). |
\s |
Matched een witruimte karacter, inclusief spatie, tab, form feed, line feed. Equivalent aan Als voorbeeld, |
\S |
Matched een karakter anders dan witruimte. Equivalent aan Als voorbeeld, |
\t |
Matched een tab (U+0009). |
\v |
Matched een verticale tab (U+000B). |
\w |
Matched elk alfanumeriek karakters met inbegrip van de underscore. Equivalent aan Als voorbeeld, |
\W |
Matched een niet-woord karakter. Equivalent aan Als voorbeeld, |
\n |
Waarbij n een positief getal is, een terugreferentie naar de laatste substring die de nde groep tussen ronde haakjes in de reguliere expressie matchde (linker haakjes tellend). Als voorbeeld, |
\0 |
Matched een NULL (U+0000) karakter. Volg dit niet met nog een getal, want |
\xhh |
Matched het karakter met de code hh (twee hexadecimale getallen) |
\uhhhh |
Matched het karakter met de code hhhh (vier hexadecimale getallen). |
\u{hhhh} |
(enkel als de u vlag is ingesteld) Matched het karakter met de Unicode-waarde hhhh (hexadecimale getallen). |
Invoer van gebruikers escapen die als letterlijke string binnen een reguliere expressie behandeld moet worden—die anders als een speciaal karakter gezien zou worden—kan bereikt worden met eenvoudige vervanging:
function escapeRegExp(string) { return string.replace(/[.*+?^${}()|[\]\\]/g, '\\$&'); // $& means the whole matched string }
De g na de reguliere expressie is een optie of vlaggetje wat globaal zoekt, dus in de hele string kijkt en alle vondsten teruggeeft. Dit wordt in detail beneden uitgelegd in Advanced Searching With Flags
Ronde haakjes om een deel van het reguliere expressie patroon zorgen ervoor dat een deel van de gevonden substring wordt onthouden. Eenmaal onthouden kan de substring opgehaald worden voor ander gebruik, zoals beschreven in Using Parenthesized Substring Matches.
Als voorbeeld, het patroon /Chapter (\d+)\.\d*/
illustreert additionele ontsnapte en bijzondere karakters en geeft aan dat een deel van het patroon moet worden onthouden. Het vind precies de karakters 'Chapter' gevolgd door een of meer numerieke karakters (\d
betekent ieder numeriek karakter en +
betekent 1 of meer keer), gevolgd door een decimale punt (wat een bijzonder karakter is uit zichzelf; \ voorafgaand aan de punt betekend dat het patroon moet zoeken naar het letterlijke karakter '.'), gevolgd door enig numeriek karakter 0 of meer keer. (\d
betekent ieder numeriek karakter, *
betekent 0 of meer keer). Daarnaast worden de ronde haakjes gebruikt om het eerste gevonden numerieke karakters te onthouden.
Dit patroon wordt gevonden in "Open Chapter 4.3, paragraph 6" en "4' wordt onthouden. Het patroon wordt niet gevonden in "Chapter 3 en 4" omdat de string geen punt bevat na de '3'.
Om een substring te vinden zonder het gevonden deel te onthouden kan binnen de ronde haakjes ?:
voor het patroon geplaatst worden. Als voorbeeld, (?:\d+)
vind een of meer numerieke karakters maar onthoudt de gevonden karakters niet.
Reguliere expressies worden gebruikt met de RegExp
methoden test
en exec
en met de String
methoden match
, replace
, search
, and split
. Deze methoden zijn in detail uitgelegd in de JavaScript referentie
Methode | Beschrijving |
---|---|
{{jsxref("RegExp.exec", "exec")}} |
Een |
{{jsxref("RegExp.test", "test")}} |
Een |
{{jsxref("String.match", "match")}} |
Een |
{{jsxref("String.matchAll", "matchAll")}} |
Een |
{{jsxref("String.search", "search")}} |
Een |
{{jsxref("String.replace", "replace")}} |
Een |
{{jsxref("String.split", "split")}} |
Een |
Gebruik de test
of search
methode wanneer je wilt weten of een string een patroon bevat; gebruik voor meer informatie (maar langzamere executie) de exec
of match
methode. Als je exec
of match
gebruikt en als er vondsten zijn, dan geven deze methoden een lijst (array) terug en updaten de eigenschappen van het betreffende reguliere expressie object en ook van het voorgedefinieerde reguliere expressie object, RegExp
. Als niets wordt gevonden geeft de exec
methode null terug, wat teruggeleid wordt naar false
.
In het volgende voorbeeld gebruikt het script de exec
methode om een vondst te doen in een string.
var myRe = /d(b+)d/g; var myArray = myRe.exec('cdbbdbsbz');
Als je geen toegang nodig hebt tot de eigenschappen van de reguliere expressie is dit script een alternatieve manier om myArray
te creëren:
var myArray = /d(b+)d/g.exec('cdbbdbsbz'); // gelijk aan "cdbbdbsbz".match(/d(b+)d/g); echter, // "cdbbdbsbz".match(/d(b+)d/g) heeft als resultaat Array [ "dbbd" ], terwijl // /d(b+)d/g.exec('cdbbdbsbz') als resultaat heeft Array [ 'dbbd', 'bb', index: 1, input: 'cdbbdbsbz' ].
(Zie g different behaviors voor verdere info over de verschillende werkingen.)
Als je een reguliere expressie wil opbouwen uit een string, is dit script nog een alternatief:
var myRe = new RegExp('d(b+)d', 'g'); var myArray = myRe.exec('cdbbdbsbz');
Met dit script is de vondst een success en geeft het een lijst (array) terug en update de eigenschappen die in de volgende tabel worden getoond:
Object | Eigenschap of index | Beschrijving | In dit voorbeeld |
---|---|---|---|
myArray |
De gevonden string en alle onthouden substrings. |
['dbbd', 'bb', index: 1, input: 'cdbbdbsbz'] |
|
index |
De 0-gebaseerde index van de vondst in de invoer string. |
1 |
|
input |
De originele string | "cdbbdbsbz" |
|
[0] |
De laatste gevonden karakters. | "dbbd" |
|
myRe |
lastIndex |
De index vanaf waar de volgende match gestart moet worden. (deze eigenschap is alleen ingesteld als de reguliere expressie de g optie gebruikt, beschreven in Advanced Searching With Flags.) |
5 |
source |
De tekst van het patroon. Geüpdate op het moment dat de reguliere expressie wordt gecreërd, niet geëxecuteerd. |
"d(b+)d" |
Zoals getoond in het tweede formulier van dit voorbeeld kan je een reguliere expressie gebruiken die gemaakt is met een object initializer zonder het aan een variabele toe te kennen. Echter, als je dit doet is ieder voorval een nieuwe reguliere expressie. Om deze reden, als je deze vorm gebruikt zonder het aan een variabele toe te kennen, kan je vervolgens niet de eigenschappen van de reguliere expressie verkrijgen. Stel dat je bijvoorbeeld dit script hebt:
var myRe = /d(b+)d/g; var myArray = myRe.exec('cdbbdbsbz'); console.log('The value of lastIndex is ' + myRe.lastIndex); // "The value of lastIndex is 5"
Echter, als je dit script hebt:
var myArray = /d(b+)d/g.exec('cdbbdbsbz'); console.log('The value of lastIndex is ' + /d(b+)d/g.lastIndex); // "The value of lastIndex is 0"
De voorvallen van /d(b+)d/g
in de twee statements zijn verschillende reguliere expressie objecten en hebben daarom verschillende waarden voor hun lastIndex
eigenschap. Als je toegang nodig hebt tot de eigenschappen van een reguliere expressie die gecreërd is met een object initializer, moet je het eerst toekennen aan een variabele.
Including parentheses in a regular expression pattern causes the corresponding submatch to be remembered. For example, /a(b)c/
matches the characters 'abc' and remembers 'b'. To recall these parenthesized substring matches, use the Array
elements [1]
, ..., [n]
.
The number of possible parenthesized substrings is unlimited. The returned array holds all that were found. The following examples illustrate how to use parenthesized substring matches.
The following script uses the {{jsxref("String.replace", "replace()")}} method to switch the words in the string. For the replacement text, the script uses the $1
and $2
in the replacement to denote the first and second parenthesized substring matches.
var re = /(\w+)\s(\w+)/; var str = 'John Smith'; var newstr = str.replace(re, '$2, $1'); console.log(newstr); // "Smith, John"
Regular expressions have six optional flags that allow for functionality like global and case insensitive searching. These flags can be used separately or together in any order, and are included as part of the regular expression.
Flag | Description |
---|---|
g |
Global search. |
i |
Case-insensitive search. |
m |
Multi-line search. |
s |
Allows . to match newline characters. |
u |
"unicode"; treat a pattern as a sequence of unicode code points |
y |
Perform a "sticky" search that matches starting at the current position in the target string. See {{jsxref("RegExp.sticky", "sticky")}} |
To include a flag with the regular expression, use this syntax:
var re = /pattern/flags;
or
var re = new RegExp('pattern', 'flags');
Note that the flags are an integral part of a regular expression. They cannot be added or removed later.
For example, re = /\w+\s/g
creates a regular expression that looks for one or more characters followed by a space, and it looks for this combination throughout the string.
var re = /\w+\s/g; var str = 'fee fi fo fum'; var myArray = str.match(re); console.log(myArray); // ["fee ", "fi ", "fo "]
You could replace the line:
var re = /\w+\s/g;
with:
var re = new RegExp('\\w+\\s', 'g');
and get the same result.
The behavior associated with the 'g
' flag is different when the .exec()
method is used. (The roles of "class" and "argument" get reversed: In the case of .match()
, the string class (or data type) owns the method and the regular expression is just an argument, while in the case of .exec()
, it is the regular expression that owns the method, with the string being the argument. Contrast str.match(re)
versus re.exec(str)
.) The 'g
' flag is used with the .exec()
method to get iterative progression.
var xArray; while(xArray = re.exec(str)) console.log(xArray); // produces: // ["fee ", index: 0, input: "fee fi fo fum"] // ["fi ", index: 4, input: "fee fi fo fum"] // ["fo ", index: 7, input: "fee fi fo fum"]
The m
flag is used to specify that a multiline input string should be treated as multiple lines. If the m
flag is used, ^
and $
match at the start or end of any line within the input string instead of the start or end of the entire string.
The following examples show some uses of regular expressions.
The following example illustrates the formation of regular expressions and the use of string.split()
and string.replace()
. It cleans a roughly formatted input string containing names (first name last) separated by blanks, tabs and exactly one semicolon. Finally, it reverses the name order (last name first) and sorts the list.
// The name string contains multiple spaces and tabs, // and may have multiple spaces between first and last names. var names = 'Orange Trump ;Fred Barney; Helen Rigby ; Bill Abel ; Chris Hand '; var output = ['---------- Original String\n', names + '\n']; // Prepare two regular expression patterns and array storage. // Split the string into array elements. // pattern: possible white space then semicolon then possible white space var pattern = /\s*;\s*/; // Break the string into pieces separated by the pattern above and // store the pieces in an array called nameList var nameList = names.split(pattern); // new pattern: one or more characters then spaces then characters. // Use parentheses to "memorize" portions of the pattern. // The memorized portions are referred to later. pattern = /(\w+)\s+(\w+)/; // Below is the new array for holding names being processed. var bySurnameList = []; // Display the name array and populate the new array // with comma-separated names, last first. // // The replace method removes anything matching the pattern // and replaces it with the memorized string—the second memorized portion // followed by a comma, a space and the first memorized portion. // // The variables $1 and $2 refer to the portions // memorized while matching the pattern. output.push('---------- After Split by Regular Expression'); var i, len; for (i = 0, len = nameList.length; i < len; i++) { output.push(nameList[i]); bySurnameList[i] = nameList[i].replace(pattern, '$2, $1'); } // Display the new array. output.push('---------- Names Reversed'); for (i = 0, len = bySurnameList.length; i < len; i++) { output.push(bySurnameList[i]); } // Sort by last name, then display the sorted array. bySurnameList.sort(); output.push('---------- Sorted'); for (i = 0, len = bySurnameList.length; i < len; i++) { output.push(bySurnameList[i]); } output.push('---------- End'); console.log(output.join('\n'));
In the following example, the user is expected to enter a phone number. When the user presses the "Check" button, the script checks the validity of the number. If the number is valid (matches the character sequence specified by the regular expression), the script shows a message thanking the user and confirming the number. If the number is invalid, the script informs the user that the phone number is not valid.
Within non-capturing parentheses (?:
, the regular expression looks for three numeric characters \d{3}
OR |
a left parenthesis \(
followed by three digits \d{3}
, followed by a close parenthesis \)
, (end non-capturing parenthesis )
), followed by one dash, forward slash, or decimal point and when found, remember the character ([-\/\.])
, followed by three digits \d{3}
, followed by the remembered match of a dash, forward slash, or decimal point \1
, followed by four digits \d{4}
.
The Change
event activated when the user presses Enter sets the value of RegExp.input
.
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1"> <meta http-equiv="Content-Script-Type" content="text/javascript"> <script type="text/javascript"> var re = /(?:\d{3}|\(\d{3}\))([-\/\.])\d{3}\1\d{4}/; function testInfo(phoneInput) { var OK = re.exec(phoneInput.value); if (!OK) window.alert(phoneInput.value + ' isn\'t a phone number with area code!'); else window.alert('Thanks, your phone number is ' + OK[0]); } </script> </head> <body> <p>Enter your phone number (with area code) and then click "Check". <br>The expected format is like ###-###-####.</p> <form action="#"> <input id="phone"><button onclick="testInfo(document.getElementById('phone'));">Check</button> </form> </body> </html>