Extract numbers from sentences

Question

Extract numbers from sentences

I need to extract some numbers from the text. Text

x <- "Lorem ipsum dolor sit amet[245], consectetur adipiscing (325). Deinde prima illa, quae in congressu[232]. solemus: Quid tu, inquit, huc? Sequitur disserendi ratio cognitioque 295. naturae;"

The numbers to be extracted are 325 and 232. They are enclosed in brackets and at the end of the sentence. Other numbers excluded. I tried strsplit(text, "[A-Za-z]+") but didn’t get what I need.

+5

string regex r text-extraction

user3973290 Aug 24 '14 at 18:20

source share

4 answers

Tyler rinker · Answer 1 · 2014-08-24T18:32:51+0000

Here is a stringi approach

 x <- "Lorem ipsum dolor sit amet[245], consectetur adipiscing (325). Deinde prima illa, quae in congressu[232]. solemus: Quid tu, inquit, huc? Sequitur disserendi ratio cognitioque 295. naturae; Claudii libidini, qui tum erat summo ne imperio, dederetur" library(stringi) stri_extract_all_regex(x, "(?<=[\\[(])\\d+(?=[\\])][.?!])") ## [[1]] ## [1] "325" "232"

lukeA · Answer 2 · 2014-08-24T18:34:04+0000

Other:

 r <- gregexpr("[[(]\\d+[])](?=\\.)", text, perl = TRUE) (m <- regmatches(text, r)[[1]]) # [1] "(325)" "[232]" as.integer(gsub("\\D", "", m)) # [1] 325 232

hwnd · Answer 3 · 2014-08-24T20:27:47+0000

Here is a solution using strsplit ....

 > x <- 'Lorem ipsum dolor sit amet[245], consectetur adipiscing (325). Deinde prima illa, quae in congressu[232]. solemus: Quid tu, inquit, huc? Sequitur disserendi ratio cognitioque 295. naturae;' > strsplit(x, '[^0-9]+')[[1]][3:4] ## [1] "325" "232"

Or using the R base to extract these values.

 > regmatches(x, gregexpr('[[(]\\K\\d+(?=[])](?!,))', x, perl=T))[[1]] ## [1] "325" "232"

Stefan gruenwald · Answer 4 · 2014-10-30T17:45:25+0000

With re module

 import re string="Lorem ipsum dolor sit amet[245], consectetur adipiscing (325). Deinde prima illa, quae in congressu[232]. solemus: Quid tu, inquit, huc? Sequitur disserendi ratio cognitioque 295. naturae;" print string pattern = re.compile(r'(?<=[\[(])\d+(?=[\])]\.)') result = pattern.findall(string) print result

Extract numbers from sentences

More articles: